搜索引擎目前有很多,百花齐放,良莠不齐。
部分搜索引擎抓取页面感觉就是失控的野马,不遵循规则,此类搜索引擎需要禁止。

禁止部分搜索引擎有三个好处:
1 降低服务器带宽
2 减轻服务器压力
3 减少私密信息泄露(部分搜索引擎不遵循robots协议)

先说第三点,robots协议。

引用
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。


你可以管理你的robots.txt,比如声明禁止这些搜索引擎:
User-agent: EasouSpider
Disallow: /

User-agent: YisouSpider
Disallow: /


这个其实就是道德规范,在日志里发现,部分被自定义协议禁止的地址,也有搜索引擎抓取,那这个就是不道德的搜索引擎。
这个我发现两个 EasouSpider 和 YisouSpider。

由此我们需要禁止这些搜索引擎抓取页面,可以在php判断user-agent,或者nginx判断:

if ( $http_user_agent ~ "YisouSpider|EasouSpider" ) {
  access_log off;
  return 403;
}


这个问题解决后,也就是相应解决了前面1和2了。


原创内容如转载请注明:来自 阿权的书房
收藏本文到网摘
短信平台 Homepage Email
2013/10/09 11:23
不要把搜索搜索引擎都禁止了哦!
分页: 1/1 第一页 1 最后页
发表评论
AD
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML 打开UBB 打开表情 隐藏
昵称   密码   游客无需密码
网址   电邮   [注册]
               

验证码 不区分大小写
 

阅读推荐

服务器相关推荐

开发相关推荐

应用软件推荐