坦白局：关于漫游器的快问快答

前端工程师 - Zoao

2021年11月25日

目录总起

说到漫游器，是不是给你整不会了？

那换一种说法？“重复自动化任务”、 “网络爬虫”、“搜索蜘蛛？”是不是就简单明了了？搜素引擎中的抓取工具一般也称为是“漫游器”，也就是我们常说的爬虫、蜘蛛……这也是谷歌用来处理网站内容，将网页内容编进索引库过程中的重要工具。听到这，是不是就感觉异常熟悉了？在整合重复网址中，我们就提到过了，在谷歌，Googlebot便是属于其中的一种漫游器，只是没有点明个中关系罢了。

今天是一场坦白局，关于漫游器的各种问题，你可以在下面查收到。

我的网站是否需要robots.txt文件？

未必一定需要。

Googlebot在访问网站时，率先会检查网站根目录下的robots.txt是否存在，然后第二顺位，将会查看网站漫游器元标记或者的HTTP的标头。即使你的网站缺少robots.txt文件，Googlebot一般也会照常抓取收录的。

哪种方法可以阻止抓取？

视情况而定。

漫游器元标记：要是某个页面不完全不想被抓取索引，那么使用它，来达到你的目的吧。或者要控制单个网页在SERP上的显示效果，那么也是同样适用的；
使用HTTP标头，其实很漫游器元标记的很类似，只不过，HTTP标头主要是控制内容的显示效果；
robots.txt：要是你的网站某些内容在抓取之后会影响到整体SEO或者服务器的情况，那么请使用robots.txt文件，例如某些内容在抓取之后影响网站的权重，或者内容在无限加载的日历脚本等影响服务器请求；但是一些不公开的内容请不要使用它来屏蔽，如需要屏蔽的话，可以选择服务器端的身份验证机制。

以上方法可以用来移除别人的网页吗？

这样做是不可以的。

这些方法当然要有网站的读取权限，也就是只能适用于自身的网站，可以修改网站的代码或者往网站添加文件来修改自己网站的内容，但是却不能用来移除别人的网页。但是托管在你的网站上的网页，你有权处理，可以使用一些手段将他们从谷歌搜索结果中移除。

如果robots.txt文件存在错误，会怎么样？

问题不是很大。

网站的抓取工具一般是很智能的，通常不会受到一些小事干扰自身的工作，若是因为robots.txt中出现的小小错误便罢工，那更是天方夜谭。对于这种情况，最坏的结果不过是忽视robots.txt中的不正确的指令罢了。

怎么暂停对自己网站的抓取

将网站所有所有的网页（包括robots.txt文件），返回5023HTTP状态码，暂时停止所有对网站的抓取，503状态码通常应用在临时情况下，一般是不进行缓存的。系统会对你的网站再次发送请求，直至能再次访问robots.txt文件。（注意，最好不要改动网站robots.txt文件来禁止爬虫抓取。）

更新后的robots.txt文件多久能重新起作用？

时间不确定。

一般说来，谷歌对robots.txt的内容缓存顶多是一天，但是想要推进谷歌对你更新后的robots.txt文件起作用，那么可以将改好的robots.txt文件提交到谷歌，推进进程。然而，即使搜索引擎发现了更改过后的文件，但是由于抓取索引的复杂性，所以也未必能及时响应更改，所以这个确切的时间很难说。

前端工程师 - Zoao

Sytech科技前端工程师，专注于前端页面编写与优化，和页面功能的实现，擅长页面和功能的优化，发掘新的功能和框架。

2023年4月1日

网站建设

“人机耦合”：人工智能对定制网站建设的推动作用

程序员和优化师要失业了？定制网站建设并不一定需要被人工智能所取代，“人机耦合”才是趋势。

网络工程师 - 食不言

了解更多

2022年11月15日

市场营销

谷歌快排技巧之直接影响页面排名的8个SEO要素

厨房“小白”想知道麻辣香锅怎么炒，打开搜索引擎输入关键字“麻辣香锅做法”就行，谷歌快排技巧中直接影响页面排名的8个SEO要素有哪些？

Zheng - Jony

了解更多