谷歌为何开源robots.txt？这家搜索巨头有怎样的打算？

外媒 VentureBeat 报道称，谷歌希望将发展数十年的 robots.txt 解析器开源，以推动 REP 成为搜索引擎爬虫的行业标准。

机器人排除协议（REP）是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准，几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

（截图 via VentureBeat）

比如谷歌爬虫（Googlebot）就会在索引某个网站时扫描 robots.txt 文件，以确定其应该忽略掉哪些部分。如果根目录中未包含该文件，那搜索引擎就会默认索引（index）全站内容。

值得一提的是，，该文件不仅可以用于提供直接的爬虫索引，还可以被用来填充一些关键字，以实现“搜索引擎优化”（SEO）。此外，并非所有抓取工具都会严格遵从 robots.txt 文件。

比如几年前，互联网档案光就选择了为其“时光机”（Wayback Machine）归档工具提供支持，另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是，即便 REP 已经成为了默认的实施标准，但它实际上从未成为真正的互联网标准，正如互联网工程任务组（IETF - 一家非营利性开放标注组织）所定义的那样。

为了推动这项转变，谷歌正在积极参与行动。这家搜索巨头表示，当前的 REP 可以被“解释”，但并不总是涵盖边缘化的案例。

作为补充，谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时，爬虫该如何处理“服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则？

谷歌在一篇博客文章中写到：“对于网站所有者来说，这是一项极具挑战性的问题。因为模糊的事实标准，让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验，而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作，向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌，但却是提供了一些指引。比如任何基于 URI 的传输协议，都可以适用 robots.txt 。且其不再局限于。

据悉，开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小，可确保每个连接的打开时间不会太长，从而减轻不必要的服务器压力。

另外，新的最大缓存时间被设置为 24 小时（或可用的缓存指令值），使得网站所有者能够随时灵活地更新他们的 robots.txt，且爬虫不会因此而让网站超载。

例如，在文件由于服务器故障而变得不可用时，则会在相当长的时间段内不再检索该网站。

这里需要点明的是，抓取工具可以用不同的方式去解析 robots.txt 文件中的说明，这可能会导致网站所有者的混淆。

为此，谷歌特地推出了 C++ 库，其支持 Googlebot 在 GitHub 上给出的解析和匹配系统，以供任何人访问。

根据 GitHub 上的发布说明，Google 希望开发者构建自己的解析器，以更好地反映 Google 的 robots.txt 文件的解析和匹配。

你可能想看：

robots.txt写法大全(网站优化人员必看！)

　　robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件，想要网站被收录，必须要些rob...

zblog系统博客的robots.txt文件的写法教程

robots.txt 是存放在站点根目录下的一个纯文本文件。这篇文章就讲解一下，zblog博客程序中如何设置robots.txt文件zblog 目录文件写robots.txt规则之前，要先了解zblo...

关于淘宝店铺VIP的问题，里面的有普通高级 vip 至尊VIP 都是什么意思？

"普通" "高级" "vip" "至尊VIP"是4个不同的级别。你可以设置不同的条件和难度，买家只有满足了你设置的条件才能才为相应的会员级别，比如你设置的普通会员是交易大道5笔或者交易金额达到100元...

warrobots什么机器人配双闪电炮？

参加多人史诗机器人战争!进入巨大战斗机器人的驾驶舱,用你的装甲巨人作战,消灭任何挡在你面前的敌人!注意：游戏需要iphone4s/ipad2/第五代ipod以及稳定的网络连接。在6对6统治挑战中，在战...

清军入关和张学良东北军入关中的关指的是什么关?

是长城的东端,山海关.是偶的故里--万里长城的第一个关口--名做"天下第一关"的山海关,还有当年的"四野"出“关”抢占东北所说的"关"也是山海关,是连接东北与华北的咽喉要道，它南临渤海，北靠燕山，地势...

百度搜索引众怒，搜狗搜索、360搜索、微信，谁最有可能取代百度搜索？

就目前情况来看，百度搜索是有问题，但要说能够取代的，英武更希望是字节跳动或者谷歌了！但是，如果微信能够像百度一样去无限制发展，就不是微信了。同理，百度在谷歌退出中国市场之后，得到了野蛮生长，到现在基本...

BOBO里的付辛博^%??是井柏然^%?

个人有个人的喜好啦呵呵，包子同学现在粉丝这么热烈希望可以保持啊！他懂得感恩，懂得回报，懂得他的BBF为他所做的一切,默默地表露着他对BBF的爱。除了分享小食品,井宝遇见喜欢的人，干的最多的一件事就...

同为搜索引擎，谷歌为何有人感觉如此优秀？

感觉Google比百度优秀的主要分为两类人，第一类人是Google深度用户、尤其是很多学术和技术领域的专业用户；第二类是从来没用过Google的用户，他们只是人云亦云的说Google好用。Google...

我的绝色总裁未婚妻txt？

书名《我的绝色总裁未婚妻》，橘子文学公众号回复书名书号就可以阅读了。她叫苏若雪，是知名时装公司的总裁，华海市商界第一美人。苏若雪已经受够了这个无能的家伙。因被被某阔少逼婚，苏若雪不得已和沈浪先订下婚约...

求反派二姐《废土与安息》txt？

推荐两本很小众的bl. 算是比较未来向，反派二姐的，她的那个被活埋的人也很好看。讲述了两个人互相扶持一点点变强大最后有了一个家的故事吧。文笔非常好，也很有梗，文风莫名有一点点像母鸡大大。跟音乐有关，攻...

求舒仪的最初的相遇，最后的离别txt？

最初的相遇，最后的别离作者: 舒仪简介:舒仪最新爱情经典。一生只有一次的爱恋，最刻骨铭心的记忆。如果生命中的一些人，从开始就已经注定了最后悲伤的别离，你是否还会选择最初的相遇？你永远都不知道，因为遇见...

求《网游之邪龙逆天》未删完整无错的txt？

首先要有最起码的尊重和诚实 2113的态度 5261,一定要诚恳,不管对方是否爽快答应帮忙 4102,也不要色变,很多时候只要你 1653 有耐心,加上这人的确可以帮了这忙,多说几次应该是可以的...

求一醉经年txt？

《一醉经年》作者：水千丞暗恋就像一壶烈酒，明知道灌下去要晕眩、失态、痛苦，也让人飞蛾扑火、甘之如饴你点到即止，我一醉方休可但凡醉酒，总有醒的一天 ==================...

太阳三巨头感觉比当初的篮网三巨头厉害？比尔也算巨头了

你觉得太阳三巨头比当初篮网三巨头厉害吗？比尔也是个巨头太阳队的操作给了我满分，很多不认识球的人在那里大喊，为什么不改变能抵挡的东西呢？我想问一下，外线是霍莱迪防巴特勒了吗？内线老师一路把季后赛防给别人...

$ rootScope $ broadcast与$ scope $ emit

$emit向上$broadcast调度事件…向下调度事件，当您不希望所有人$scope都得到它时。可以将它想象为成年人在房间里互相交谈。$rootScope.$broadcast是一种几乎可以让所有人...

漫威电影中，为何复联三巨头有三部曲，而《绿巨人》只有一部？还被称为漫威永远的痛？

绿巨人的这个“痛”应该漫威电影宇宙构架以来，一直悬在漫威心头的一块心病，如果不刻意提起漫威的《无敌浩克》，相信很多人已经遗忘了漫威的这部电影！并且，到目前为止，漫威依然没有制作绿巨人独立电影的版权，版...

搜索引擎技术采用什么的方式帮助用户查找信息搜索引擎是如何搜索到信息

文章目录：搜索引擎的定义是什么?搜索引擎是如何搜索到信息一、搜索引擎的定义是什么?所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多...

如何设置的默认打开模式？txt到notepad++

在电脑按按文件类型设置默认应用中.txt文件后的选项中没有notepad++的情况下：1、打开notepad++软件，2、点击设置--》首选项3、选择文件关联--》notepad--》.txt--》右...

《哈利波特》｜HannahAbbott和NevilleLongbottom的命运已经注定了

《哈利·波特》三人组，每个人都有自己的专属宠物。哈利的海德薇、罗恩的斑斑和赫敏的克鲁克山。作为猫控，斯塔德迈尔最喜欢的当然是克鲁克山。别看电影，克鲁克山“玩”得很少。其实小说中克鲁克山的“亮点”时刻也...

中兴Blade A2可以root？

实际测试中，性能模式下100%可以支撑Blade A1使用28小时左右，而超长待机模式则可以使用72小时，正常使用完全可以坚持一整天。中兴Blade A1配备了一块容量为2800mAh的电池，和许多千...

标签: 谷歌科技新闻

分享给朋友：

问答百科

谷歌为何开源robots.txt？这家搜索巨头有怎样的打算？

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9