遵守robots协议是保护网民利益不可逾越的底线

清远传媒 www.gdqynews.com 发布时间：2014-08-15 11:23:34 作者：gdqy

　　没有规矩不成方圆，保护网民利益是任何一家互联网公司的基本职业道德。尤其对于搜索引擎来说，如果不管三七二十一的去大肆抓取收录各种信息，就势必会让涉及网民隐私的敏感信息失去保护，甚至会引发互联网的信息安全灾难。

　　搜索引擎的原理并不复杂，通过派出被称为蜘蛛的网页抓取程序爬虫(spider)，在浩瀚的信息海洋里去发现、搜集网页信息，进而对搜集到的信息进行提取和组织建立索引库，供用户搜索查询。

　　这其中，关系网民隐私和信息安全的关键环节就是对信息进行抓取和搜集这第一道程序。

　　如果搜索引擎的蜘蛛程序没有“作业指南”，就会把任何可以抓取的信息都统统收录进来。为防止搜索引擎抓取网民在上网过程中留下的手机号码、银行账户乃至公司的商业机密、不允许随意分享的版权内容等敏感信息，从1994年开始，由荷兰籍工程师提出的robots协议就作为行业惯例规定和约束着搜索引擎的行为，告知其哪些内容可以抓取、哪些内容不能抓取。

　　20年来，robots协议一直作为国际互联网界通行的道德规范，保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。Google、Yahoo、微软、百度等各大正规搜索引擎一直都认真遵守robots协议，robots文件也一直以来是全球各大网站保护站内隐私和敏感、版权信息不被外泄传播的基本手段。

　　目前，国内设置robots协议的网站超过4亿，中国大的网站也均都设置了robots协议：淘宝网、腾讯、CCTV、人民网、网易、新浪、太平洋在线、优酷等，百度和360也都在各自站点中设置了robots协议。国际排名前1000左右的网站中，有上百家网站设置robots白名单：Facebook、Twitter、Alexa、 LinkedIn 等国际知名网站，均采用白名单制设置robots，只允许robots.txt文件中声明的搜索引擎抓取，禁止其他搜索引擎抓取，例如Facebook网站允许baiduspider、Googlebot、msnbot、naverbot、 Eznambot、Slurp、teoma、Yandex等搜索引擎爬虫收录使用网站特定内容，禁止包含360等在内的其他搜索引擎抓取。TWITTER网站部分内容只允许Googlebot、Slurp、Yandex 、msnbot搜索引擎爬虫抓取，对于其他搜索引擎不允许抓取。

　　然而，有一些互联网公司由于向来不尊重网民隐私，一味地为谋私利而置网民利益于不顾，即便在推出搜索服务后，也仍然我行我素，不把国际互联网界通行的robots协议放在眼里，给网民利益保护带来安全隐患。2012年8月，奇虎360无视国际通行的Robots协议，未经授权的情况下，通过360搜索和浏览器强行抓取百度等搜索引擎内容，不仅对百度等网站的产品和服务造成了侵害，也导致大量用户数据库、账号、密码等隐私信息内网信息被泄露，引发社会恐慌。随即百度以不正当竞争为由将360诉上法庭。

　　最近，百度诉奇虎360公司违反Robots协议案在北京市第一中级人民法院做出一审判决。法院认为，360公司违反Robots协议侵犯百度权益证据确凿，有违商业道德，属不正当竞争行为，责令360累计赔偿百度相关损失70万元。

　　虽然说法院已经认定违反robots协议有违商业道德，属不正当竞争行为。然而，区区70万元的赔偿，如此低的违法成本，是否能加固网民利益保护的这道防线，却仍然令人担忧。

上一篇：网民利益面前没有例外违反robots协议是自取灭亡

下一篇：没有了