robots.txt规范,Google怎么看?

Ever

前端工程师 - Ever

2022年1月6日
robots.txt规范,Google怎么看?

在之前的文章robots.txt在SEO中助你如何做大做强我们便讲到过关于robots.txt的详细描述,robots.txt在网站被抓取时,谷歌的自动抓取工具是能够支持识别的。这也就意味着在网站被抓取之前,首先解析robots.txt文件,就如同拿到了一张房卡,准许进入哪些房间来抓取被允许抓取的信息。某些网页,如果不希望抓取蜘蛛爬取,可创建相应规则的robots.txt文件,阻止它打开那扇门。关于robots.txt规范,谷歌是怎么看的呢?

文件位置

一般来说,你通常会在网站的顶级目录中找到robots.txt文件,例如:mywebsite.com/robots.txt,并且使用各自支持的服务协议。就谷歌搜索引擎来说,网站使用FTP和HTTPHTTPS协议,都是被支持的。当你在采用HTTP、HTTPS协议时,抓取工具都是能够识别robots.txt文件并能提取其中的文件内容。值得注意的是,robots.txt文件中的网址,是和其他的网址一样,都是区分大小写的。

robots.txt的缓存有效期

在通常情况下,robots.txt文件在谷歌浏览器中的有效期是长达24小时的。然而也是有例外的情况,例如网页出现了超时的情况,缓存版本没有办法刷新,缓存的有效期是会有可能变长的。缓存的响应深谙共享经济,它的响应,是由搜索引擎中各种不同的抓取工具共享的。有关于缓存的更多情况,可以阅读我们博文“缓存那些事”深入研究个中原理。

robots.txt的格式

robots.txt也不是那么随心所欲,它也有一定的“准入门槛”,关于它,需要采用UTF-8编码,纯文本文件,各行代码中规定符号分隔(CR、LF或者CR/LF)。或许在书写robots.txt文件中,有一些便于人类阅读的空行等,但是谷歌在读取时,这些无效行会被智能忽视。假如robots.txt文件的编写没有选用UTF-8编码,哪些没有符合编码的字符,是不会进入谷歌的“法眼”,最终会导致robots.txt无效。

robots.txt编写“法规”

学习每一门语言,都会由其不同的语法规范。例如粤语也有九个声调、普通话却只有四个声调,自然robots.txt的编写也有自己的一套规范。有效的robots.txt文件的一行代码,是由字段、冒号、值三个部分组成的。当然你可以选择自由添加空格(添加空格能够有效提高robots.txt文件代码行的阅读)。相信学过编程的小伙伴们应该知道,很多时候,注释代码都会用到“/”和“*”,但是在这里,robots.txt会使用到“#”符号来实现注释,在此字符后的内容,将会被谷歌忽略。

给站长们的小贴士

谷歌在读取robots.txt文件时,也是支持以下这些字段:

  • user-agent:属于抓取工具中的一种,适用于标识规则,可以获取robots.txt文件中的特定内容;
  • allow:属于“指令”,指定特定的路径以供抓取工具按照规则访问网页;
  • disallow:指定的路径,搜索蜘蛛是没有办法访问的,而且不含路径的指令,抓取工具是不能识别到的;
  • sitemap:不依赖特定的用户代理,只要sitemap中未被禁止抓取的网页,网络爬虫还是能够畅行无阻。

原创文章归Sytech版权所有,转载请注明出处,商用请联系本站获取版权。

Ever

前端工程师 - Ever

Sytech科技前端工程师,专注于网络搭建和网站SEO优化多年,擅长于网站数据分析和海外网站运营、维护。

2023年6月5日

市场营销

再谈网站建设的数据分析

你是否也面对过,季节性产品没有及时调整而导致的经济损失?每位电子商务运营都需要经历数据收集、整理和分析的过程,我们站在网站建设的角度该如何?

Ever

前端工程师 - Ever

了解更多

2023年4月13日

市场营销

网站建设背后的数据抓取和分析

跨境电商转战独立站,网站建设之后需要如何实施和确保营销方向不出错?数据分析是关键,数据抓取和分析方法概览!

Ever

前端工程师 - Ever

了解更多

想要马上开始定制开发您的网站建设?

添加微信咨询 扫描二维码添加微信客服

微信二维码 微信客服

其它联系方式

Sytech科技电话

邮寄联系地址 广州市番禺区钟村街道长华创意谷18栋8~9号 联系服务热线 020 8480 8073