坦白局:关于漫游器的快问快答
说到漫游器,是不是给你整不会了?
那换一种说法?“重复自动化任务”、 “网络爬虫”、“搜索蜘蛛?”是不是就简单明了了?搜素引擎中的抓取工具一般也称为是“漫游器”,也就是我们常说的爬虫、蜘蛛……这也是谷歌用来处理网站内容,将网页内容编进索引库过程中的重要工具。听到这,是不是就感觉异常熟悉了?在整合重复网址中,我们就提到过了,在谷歌,Googlebot便是属于其中的一种漫游器,只是没有点明个中关系罢了。
今天是一场坦白局,关于漫游器的各种问题,你可以在下面查收到。
我的网站是否需要robots.txt文件?
未必一定需要。
Googlebot在访问网站时,率先会检查网站根目录下的robots.txt是否存在,然后第二顺位,将会查看网站漫游器元标记或者的HTTP的标头。即使你的网站缺少robots.txt文件,Googlebot一般也会照常抓取收录的。
哪种方法可以阻止抓取?
视情况而定。
- 漫游器元标记:要是某个页面不完全不想被抓取索引,那么使用它,来达到你的目的吧。或者要控制单个网页在SERP上的显示效果,那么也是同样适用的;
- 使用HTTP标头,其实很漫游器元标记的很类似,只不过,HTTP标头主要是控制内容的显示效果;
- robots.txt:要是你的网站某些内容在抓取之后会影响到整体SEO或者服务器的情况,那么请使用robots.txt文件,例如某些内容在抓取之后影响网站的权重,或者内容在无限加载的日历脚本等影响服务器请求;但是一些不公开的内容请不要使用它来屏蔽,如需要屏蔽的话,可以选择服务器端的身份验证机制。
以上方法可以用来移除别人的网页吗?
这样做是不可以的。
这些方法当然要有网站的读取权限,也就是只能适用于自身的网站,可以修改网站的代码或者往网站添加文件来修改自己网站的内容,但是却不能用来移除别人的网页。但是托管在你的网站上的网页,你有权处理,可以使用一些手段将他们从谷歌搜索结果中移除。
如果robots.txt文件存在错误,会怎么样?
问题不是很大。
网站的抓取工具一般是很智能的,通常不会受到一些小事干扰自身的工作,若是因为robots.txt中出现的小小错误便罢工,那更是天方夜谭。对于这种情况,最坏的结果不过是忽视robots.txt中的不正确的指令罢了。
怎么暂停对自己网站的抓取
将网站所有所有的网页(包括robots.txt文件),返回5023HTTP状态码,暂时停止所有对网站的抓取,503状态码通常应用在临时情况下,一般是不进行缓存的。系统会对你的网站再次发送请求,直至能再次访问robots.txt文件。(注意,最好不要改动网站robots.txt文件来禁止爬虫抓取。)
更新后的robots.txt文件多久能重新起作用?
时间不确定。
一般说来,谷歌对robots.txt的内容缓存顶多是一天,但是想要推进谷歌对你更新后的robots.txt文件起作用,那么可以将改好的robots.txt文件提交到谷歌,推进进程。然而,即使搜索引擎发现了更改过后的文件,但是由于抓取索引的复杂性,所以也未必能及时响应更改,所以这个确切的时间很难说。
原创文章归Sytech版权所有,转载请注明出处,商用请联系本站获取版权。
相关文章推荐正在加载中...