robots.txt规范,Google怎么看?

Ever

前端工程师 - Ever

2022年1月6日
robots.txt规范,Google怎么看?

在之前的文章robots.txt在SEO中助你如何做大做强我们便讲到过关于robots.txt的详细描述,robots.txt在网站被抓取时,谷歌的自动抓取工具是能够支持识别的。这也就意味着在网站被抓取之前,首先解析robots.txt文件,就如同拿到了一张房卡,准许进入哪些房间来抓取被允许抓取的信息。某些网页,如果不希望抓取蜘蛛爬取,可创建相应规则的robots.txt文件,阻止它打开那扇门。关于robots.txt规范,谷歌是怎么看的呢?

文件位置

一般来说,你通常会在网站的顶级目录中找到robots.txt文件,例如:mywebsite.com/robots.txt,并且使用各自支持的服务协议。就谷歌搜索引擎来说,网站使用FTP和HTTPHTTPS协议,都是被支持的。当你在采用HTTP、HTTPS协议时,抓取工具都是能够识别robots.txt文件并能提取其中的文件内容。值得注意的是,robots.txt文件中的网址,是和其他的网址一样,都是区分大小写的。

robots.txt的缓存有效期

在通常情况下,robots.txt文件在谷歌浏览器中的有效期是长达24小时的。然而也是有例外的情况,例如网页出现了超时的情况,缓存版本没有办法刷新,缓存的有效期是会有可能变长的。缓存的响应深谙共享经济,它的响应,是由搜索引擎中各种不同的抓取工具共享的。有关于缓存的更多情况,可以阅读我们博文“缓存那些事”深入研究个中原理。

robots.txt的格式

robots.txt也不是那么随心所欲,它也有一定的“准入门槛”,关于它,需要采用UTF-8编码,纯文本文件,各行代码中规定符号分隔(CR、LF或者CR/LF)。或许在书写robots.txt文件中,有一些便于人类阅读的空行等,但是谷歌在读取时,这些无效行会被智能忽视。假如robots.txt文件的编写没有选用UTF-8编码,哪些没有符合编码的字符,是不会进入谷歌的“法眼”,最终会导致robots.txt无效。

robots.txt编写“法规”

学习每一门语言,都会由其不同的语法规范。例如粤语也有九个声调、普通话却只有四个声调,自然robots.txt的编写也有自己的一套规范。有效的robots.txt文件的一行代码,是由字段、冒号、值三个部分组成的。当然你可以选择自由添加空格(添加空格能够有效提高robots.txt文件代码行的阅读)。相信学过编程的小伙伴们应该知道,很多时候,注释代码都会用到“/”和“*”,但是在这里,robots.txt会使用到“#”符号来实现注释,在此字符后的内容,将会被谷歌忽略。

给站长们的小贴士

谷歌在读取robots.txt文件时,也是支持以下这些字段:

  • user-agent:属于抓取工具中的一种,适用于标识规则,可以获取robots.txt文件中的特定内容;
  • allow:属于“指令”,指定特定的路径以供抓取工具按照规则访问网页;
  • disallow:指定的路径,搜索蜘蛛是没有办法访问的,而且不含路径的指令,抓取工具是不能识别到的;
  • sitemap:不依赖特定的用户代理,只要sitemap中未被禁止抓取的网页,网络爬虫还是能够畅行无阻。

原创文章归Sytech版权所有,转载请注明出处,商用请联系本站获取版权。

Ever

前端工程师 - Ever

Sytech科技前端工程师,专注于网络搭建和网站SEO优化多年,擅长于网站数据分析和海外网站运营、维护。

2021年12月31日

网站建设

Google PageSpeed与Lighthouse的不同之处

网站要想靠自身的优化长期稳定站在SERP顶峰,其实是有一定难度的。要不断优化网站的方方面面,找出存在的问题,Google PageSpeed与Lighthouse都是你可以依靠的好帮手。他们会帮助你分析网站存在的问题,并且会给你提出详细的解决方案。或许你觉得网站整体情况优秀,无需改变,但是别人都在不断优化的大背景下,固步自封,不定时优化网站,就容易在时代的发展洪流下肆意冲刷,最终只能顺流而下了。

Mickey

IT工程师 - Mickey

了解更多

2022年1月7日

网站建设

外贸建站之Googlebot幕后揭秘

了解Googlebot的“台前幕后”工作,对于你的SEO工作有位重要。Googlebot是访问网站内容的小爬虫,它不断扫描网络上的网页,并将其纳入谷歌的索引库,旨在为用户提供在SERP中更准确的查询答案。倘若你的网站SEO优化成功,那么它便会经常出现,要是网站内容优质,那它出现的频率就更加频繁,最终你的外贸网站的权重也必然不会辜负你。

Zoao

前端工程师 - Zoao

了解更多

想要马上开始定制开发您的网站建设?

添加微信咨询 扫描二维码添加微信客服

微信二维码 微信客服

其它联系方式

Sytech科技电话

邮寄联系地址 广州市番禺区钟村街道长华创意谷18栋8~9号 联系服务热线 020 8480 8073