屏蔽搜索引擎的 robots(nginx)

有些时候我们建立的网站并不希望被搜索引擎索引,然而搜素引擎还会自动的索引网站,即使设置了账号登陆等访问权限。
本文从 robots.txt 文件和 nginx 配置文件入手,彻底屏蔽了常见的搜索引擎。

  1. robot.txt 屏蔽

另存为 robot.txt 放在网站根目录。

  1. nginx 屏蔽

然后,在网站相关配置中的 location / { 之后 } 之前插入如下代码:

保存后,执行命令平滑重启nginx即可:

  1. 测试效果
    使用curl -A 模拟抓取即可,比如:

  1. UA 收集
    下面是网络上常见的垃圾 UA 列表

搜素引擎 UA 可以访问 github 项目获取:https://github.com/andyhu/search-engine-bot-list

参考资料:

  1. https://zhangge.net/4458.html
  2. https://github.com/andyhu/search-engine-bot-list
  3. http://soledede.iteye.com/blog/1935400
  4. http://blog.chacuo.net/147.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注