用了二十多年了，Google终于开始推进这个互联网基石之一的协议标准化--粉丝服务平台-粉丝头条-fensifuwu.com

用了二十多年了，Google终于开始推进这个互联网基石之一的协议标准化

科技 07-03 来源：超能网

Google于今天早些时候宣布了要推动机器人例外协议标准化。可能用正式名称叫它大家都有些陌生，但是一定有很多人听过robots.txt这个文件，robos.txt这个文件存在于几乎所有网站的根目录下，它规定了网络爬虫可以爬取的目录地址，但它一直都不是一个标准的文件。

25年前，Martijn Koster，这位互联网最早的搜索引擎创始人，在他的网站被爬虫频繁光顾到无法访问之后，编写了这个文件，制定了一个叫做机器人例外的协议（Robots Exclusion Protocol），在文件中规定了爬虫不能读取的网站目录。REP目前已经成为了互联网最基础的协议之一，搜索引擎的爬虫通过分析这个文件了解网站所有者的规定，更规范地来爬取网站内容。

然而至今为止，这个协议都只是一个非官方、非标准化的协议，robots.txt的内容怎么写完全是随网站管理者的性子来，这对于互联网长远的发展是不利的。同时Google开源了他们使用了二十年之久的robots.txt解析库，没有一个确定标准的robots.txt对于要解析它的爬虫也是一件麻烦的事情，往往会因为内容太复杂太多而解析失败，致使爬虫没能遵守该网站的规定爬取了敏感信息，发生各种信息泄露事件，影响到网站的正常运行与安全。

而Google制定出来的REP协议草案反应了20多年来互联网世界的发展与变迁，它没有改变从1994年以来规定的条条框框，但是更清晰地描述了爬虫可能会遇到的场景，并使协议更为现代化。Google表示，目前的草案已经接近向IETF组织提交，但是还需要一些改进。毫无疑问，这是对互联网总体有利的一件好事，未来在标准化之后的REP协议加持下，我们可能可以获得更好的搜索结果。