robots.txt规范，Google怎么看？

前端工程师 - Ever

2022年1月6日

目录总起

在之前的文章robots.txt在SEO中助你如何做大做强我们便讲到过关于robots.txt的详细描述，robots.txt在网站被抓取时，谷歌的自动抓取工具是能够支持识别的。这也就意味着在网站被抓取之前，首先解析robots.txt文件，就如同拿到了一张房卡，准许进入哪些房间来抓取被允许抓取的信息。某些网页，如果不希望抓取蜘蛛爬取，可创建相应规则的robots.txt文件，阻止它打开那扇门。关于robots.txt规范，谷歌是怎么看的呢？

文件位置

一般来说，你通常会在网站的顶级目录中找到robots.txt文件，例如：mywebsite.com/robots.txt，并且使用各自支持的服务协议。就谷歌搜索引擎来说，网站使用FTP和HTTP、HTTPS协议，都是被支持的。当你在采用HTTP、HTTPS协议时，抓取工具都是能够识别robots.txt文件并能提取其中的文件内容。值得注意的是，robots.txt文件中的网址，是和其他的网址一样，都是区分大小写的。

robots.txt的缓存有效期

在通常情况下，robots.txt文件在谷歌浏览器中的有效期是长达24小时的。然而也是有例外的情况，例如网页出现了超时的情况，缓存版本没有办法刷新，缓存的有效期是会有可能变长的。缓存的响应深谙共享经济，它的响应，是由搜索引擎中各种不同的抓取工具共享的。有关于缓存的更多情况，可以阅读我们博文“缓存那些事”深入研究个中原理。

robots.txt的格式

robots.txt也不是那么随心所欲，它也有一定的“准入门槛”，关于它，需要采用UTF-8编码，纯文本文件，各行代码中规定符号分隔（CR、LF或者CR/LF）。或许在书写robots.txt文件中，有一些便于人类阅读的空行等，但是谷歌在读取时，这些无效行会被智能忽视。假如robots.txt文件的编写没有选用UTF-8编码，哪些没有符合编码的字符，是不会进入谷歌的“法眼”，最终会导致robots.txt无效。

robots.txt编写“法规”

学习每一门语言，都会由其不同的语法规范。例如粤语也有九个声调、普通话却只有四个声调，自然robots.txt的编写也有自己的一套规范。有效的robots.txt文件的一行代码，是由字段、冒号、值三个部分组成的。当然你可以选择自由添加空格（添加空格能够有效提高robots.txt文件代码行的阅读）。相信学过编程的小伙伴们应该知道，很多时候，注释代码都会用到“/”和“*”，但是在这里，robots.txt会使用到“#”符号来实现注释，在此字符后的内容，将会被谷歌忽略。

给站长们的小贴士

谷歌在读取robots.txt文件时，也是支持以下这些字段：

user-agent：属于抓取工具中的一种，适用于标识规则，可以获取robots.txt文件中的特定内容；
allow：属于“指令”，指定特定的路径以供抓取工具按照规则访问网页；
disallow：指定的路径，搜索蜘蛛是没有办法访问的，而且不含路径的指令，抓取工具是不能识别到的；
sitemap：不依赖特定的用户代理，只要sitemap中未被禁止抓取的网页，网络爬虫还是能够畅行无阻。

前端工程师 - Ever

Sytech科技前端工程师，专注于网络搭建和网站SEO优化多年,擅长于网站数据分析和海外网站运营、维护。