坦白局:关于漫游器的快问快答

Zoao

前端工程师 - Zoao

2021年11月25日
坦白局:关于漫游器的快问快答

说到漫游器,是不是给你整不会了?

那换一种说法?“重复自动化任务”、 “网络爬虫”、“搜索蜘蛛?”是不是就简单明了了?搜素引擎中的抓取工具一般也称为是“漫游器”,也就是我们常说的爬虫、蜘蛛……这也是谷歌用来处理网站内容,将网页内容编进索引库过程中的重要工具。听到这,是不是就感觉异常熟悉了?在整合重复网址中,我们就提到过了,在谷歌,Googlebot便是属于其中的一种漫游器,只是没有点明个中关系罢了。

今天是一场坦白局,关于漫游器的各种问题,你可以在下面查收到。

我的网站是否需要robots.txt文件

未必一定需要。

Googlebot在访问网站时,率先会检查网站根目录下的robots.txt是否存在,然后第二顺位,将会查看网站漫游器元标记或者的HTTP的标头。即使你的网站缺少robots.txt文件,Googlebot一般也会照常抓取收录的。

哪种方法可以阻止抓取?

视情况而定。

  • 漫游器元标记:要是某个页面不完全不想被抓取索引,那么使用它,来达到你的目的吧。或者要控制单个网页在SERP上的显示效果,那么也是同样适用的;
  • 使用HTTP标头,其实很漫游器元标记的很类似,只不过,HTTP标头主要是控制内容的显示效果;
  • robots.txt:要是你的网站某些内容在抓取之后会影响到整体SEO或者服务器的情况,那么请使用robots.txt文件,例如某些内容在抓取之后影响网站的权重,或者内容在无限加载的日历脚本等影响服务器请求;但是一些不公开的内容请不要使用它来屏蔽,如需要屏蔽的话,可以选择服务器端的身份验证机制。

以上方法可以用来移除别人的网页吗?

这样做是不可以的。

这些方法当然要有网站的读取权限,也就是只能适用于自身的网站,可以修改网站的代码或者往网站添加文件来修改自己网站的内容,但是却不能用来移除别人的网页。但是托管在你的网站上的网页,你有权处理,可以使用一些手段将他们从谷歌搜索结果中移除。

如果robots.txt文件存在错误,会怎么样?

问题不是很大。

网站的抓取工具一般是很智能的,通常不会受到一些小事干扰自身的工作,若是因为robots.txt中出现的小小错误便罢工,那更是天方夜谭。对于这种情况,最坏的结果不过是忽视robots.txt中的不正确的指令罢了。

怎么暂停对自己网站的抓取

将网站所有所有的网页(包括robots.txt文件),返回5023HTTP状态码,暂时停止所有对网站的抓取,503状态码通常应用在临时情况下,一般是不进行缓存的。系统会对你的网站再次发送请求,直至能再次访问robots.txt文件。(注意,最好不要改动网站robots.txt文件来禁止爬虫抓取。)

更新后的robots.txt文件多久能重新起作用?

时间不确定。

一般说来,谷歌对robots.txt的内容缓存顶多是一天,但是想要推进谷歌对你更新后的robots.txt文件起作用,那么可以将改好的robots.txt文件提交到谷歌,推进进程。然而,即使搜索引擎发现了更改过后的文件,但是由于抓取索引的复杂性,所以也未必能及时响应更改,所以这个确切的时间很难说。

原创文章归Sytech版权所有,转载请注明出处,商用请联系本站获取版权。

Zoao

前端工程师 - Zoao

Sytech科技前端工程师,专注于前端页面编写与优化,和页面功能的实现,擅长页面和功能的优化,发掘新的功能和框架。

2022年2月12日

网站建设

B2B网站建设终极手册

满满的干货,本文包含B2B网站建设起步、运营和售后的价格、外观设计和架构建议,教你如何鉴定建站公司所挖的大坑,拿起你的笔记本进来吧!

食不言

网络工程师 - 食不言

了解更多

2022年2月8日

网站建设

外贸定制建站的起步错误连连看

大规模的公司总是令人更放心,更愿意和他们合作。但是,公司总数1000人,其中800名为建站销售,这样的技术和销售配比可能会发生什么?

Rémi

Synergy首席执行官 - Rémi

了解更多

想要马上开始定制开发您的网站建设?

添加微信咨询 扫描二维码添加微信客服

微信二维码 微信客服

其它联系方式

Sytech科技电话

邮寄联系地址 广州市番禺区洛浦街东乡村南桂路2号丽阁商务中心四楼403 联系服务热线 020-84808073