robots.txt规范,Google怎么看?
在之前的文章robots.txt在SEO中助你如何做大做强我们便讲到过关于robots.txt的详细描述,robots.txt在网站被抓取时,谷歌的自动抓取工具是能够支持识别的。这也就意味着在网站被抓取之前,首先解析robots.txt文件,就如同拿到了一张房卡,准许进入哪些房间来抓取被允许抓取的信息。某些网页,如果不希望抓取蜘蛛爬取,可创建相应规则的robots.txt文件,阻止它打开那扇门。关于robots.txt规范,谷歌是怎么看的呢?
文件位置
一般来说,你通常会在网站的顶级目录中找到robots.txt文件,例如:mywebsite.com/robots.txt,并且使用各自支持的服务协议。就谷歌搜索引擎来说,网站使用FTP和HTTP、HTTPS协议,都是被支持的。当你在采用HTTP、HTTPS协议时,抓取工具都是能够识别robots.txt文件并能提取其中的文件内容。值得注意的是,robots.txt文件中的网址,是和其他的网址一样,都是区分大小写的。
robots.txt的缓存有效期
在通常情况下,robots.txt文件在谷歌浏览器中的有效期是长达24小时的。然而也是有例外的情况,例如网页出现了超时的情况,缓存版本没有办法刷新,缓存的有效期是会有可能变长的。缓存的响应深谙共享经济,它的响应,是由搜索引擎中各种不同的抓取工具共享的。有关于缓存的更多情况,可以阅读我们博文“缓存那些事”深入研究个中原理。
robots.txt的格式
robots.txt也不是那么随心所欲,它也有一定的“准入门槛”,关于它,需要采用UTF-8编码,纯文本文件,各行代码中规定符号分隔(CR、LF或者CR/LF)。或许在书写robots.txt文件中,有一些便于人类阅读的空行等,但是谷歌在读取时,这些无效行会被智能忽视。假如robots.txt文件的编写没有选用UTF-8编码,哪些没有符合编码的字符,是不会进入谷歌的“法眼”,最终会导致robots.txt无效。
robots.txt编写“法规”
学习每一门语言,都会由其不同的语法规范。例如粤语也有九个声调、普通话却只有四个声调,自然robots.txt的编写也有自己的一套规范。有效的robots.txt文件的一行代码,是由字段、冒号、值三个部分组成的。当然你可以选择自由添加空格(添加空格能够有效提高robots.txt文件代码行的阅读)。相信学过编程的小伙伴们应该知道,很多时候,注释代码都会用到“/”和“*”,但是在这里,robots.txt会使用到“#”符号来实现注释,在此字符后的内容,将会被谷歌忽略。
给站长们的小贴士
谷歌在读取robots.txt文件时,也是支持以下这些字段:
- user-agent:属于抓取工具中的一种,适用于标识规则,可以获取robots.txt文件中的特定内容;
- allow:属于“指令”,指定特定的路径以供抓取工具按照规则访问网页;
- disallow:指定的路径,搜索蜘蛛是没有办法访问的,而且不含路径的指令,抓取工具是不能识别到的;
- sitemap:不依赖特定的用户代理,只要sitemap中未被禁止抓取的网页,网络爬虫还是能够畅行无阻。
原创文章归Sytech版权所有,转载请注明出处,商用请联系本站获取版权。
相关文章推荐正在加载中...