站点地图,网站索引的“启明星”
搜索引擎的爬虫也会迷路吗?
答案是肯定的,于是我们就需要在网站上用到站点地图给它指路了。浅白来讲,站点地图就相当于是一个网站容器,包含着网站的所有链接。因为有的网站规模很大,连接层次较深,进来索引网站的爬虫就非常容易“找不着北”,导致网站内容难以被完整爬取,以致于在搜索引擎储存库里显示的站点“缺胳膊少腿”。站点地图则在这个旅途担任着“启明星”的存在,方便爬虫顺着你提供的“北”来爬取网站页面内容。机器人在这个时候顺藤摸瓜,对整个站点架构了如指掌,还能向搜索引擎的用户主动推送你的营销内容。站点地图,是当之无愧的网站索引“启明星”
“启明星”的代码格式要注意
其实,搜索引擎如谷歌对所有标准格式的站点地图都会“察纳雅言”,但是在站点地图中拥有属性是不被接纳的。站点地图的标准格式只包含:
- XML;
- RSS、mRSS和Atom1.0;
- 文本(只包含网页地址)。
可是,无规矩不成方圆。虽说谷歌对站点地图号称来者不拒,但其实也是有准入门槛的。无论是哪种格式的站点地图,在单个站点中,未压缩的站点地图的文件大小不可以大于50M,而且对其中包含的网址的数量也有明确规定,不可以超过50000个,否则就要让你的站点地图分家,各自独立运行。当然,你可以另辟蹊径去创建站点地图索引文件,然后将这个索引的文件提交到搜索引擎,只是这就要多考验一次你的站点质量和多一步申请收录了。
索引的找“北”指南
- 提交网站地图所在的网址,因为谷歌会按照给出的站点地址来抓取你的网页的;
- 将站点地图发布在根目录下,因为它与别的文件向来是井水不犯河水,只影响这个目录;
- 网址会话等临时ID不能包含在站点地图中,造成网站内容的重复抓取那便就不妙了;
- 使用hreflang注解,告知谷歌网站的其他语言版本并非重复网址;
- 对站点地图文件进行UTF-8编码,并对字符进行适当转义;
- 在站点地图中,为网址注释PC版和移动版,避免造成误判重复。
创建适合你的网站地图
创建站点地图时,相当于在为搜索引擎指明方向,告知它哪些网页是你希望显示在SERP中的,这也就正如我们之前在理性分析整合重复网址里说的,如果不同的网址皆能访问你的相同的网页,那么选择最优的网址加入到站点地图中,效果往往比全部网站放进去来得好。
利用CMS生成站点地图,倘若你使用的CMS是WordPress或 Blogger 等,那么恭喜你,或许你可以省略创建站点地图这一步骤,毕竟你的CMS可能非常有前瞻性地帮你提交站点地图给搜索引擎了。
创建站点地图,手动or自动?
如果你的网站规模很小,要创建的站点地图包含的网址很少,那么你可以选择不创建站点地图或手动创建站点地图,也可以借助自动生成站点地图的软件。但是如果要为大型网站创建站点地图,那么不建议手动创建。因为在为大型网站创建站点地图时,不仅仅要考虑如何创建,还要考虑怎么才能使它保持是最新的状态,所以自动生成便是上佳选择。
提交站点地图
在“初次见面”时,你的站点地图会被“翻牌”,谷歌“蜘蛛”并不是在每次爬取网站时都会查看它。要是你的站点地图有变动的话,想让它再次查看你修改过的成果,那么你可以使用ping功能通知爬虫。你可以通过几种方式来提交站点地图:
- 利用站点地图报告;
- 使用ping工具;
- 指定站点地图路径。
原创文章归Sytech版权所有,转载请注明出处,商用请联系本站获取版权。
相关文章推荐正在加载中...