外贸建站的抓取预算管理

Ever

前端工程师 - Ever

2022年2月15日
外贸建站的抓取预算管理

外贸建站也开始“内卷”了,好不容易才得到收录份额了,现在就连爬虫抓取网页也要讲究预算管理了?

“预算”其实是我们对资源的比喻。

全球网站的每日产生的数据流量极大,搜索引擎单凭自身的机房很难将网络上所有的内容随时、随地编入索引并展示在SERP上。所以机智的搜索引擎会选择自己的方法来优先考虑网站的抓取工作,其中就包含为每个网站分配爬取预算。以谷歌为例,Googlebot在抓取过程中,花在每个网站上的时间和资源都是有限额的,外贸建站的小伙伴们要善用自身资源,优先向谷歌推送“主打”页面,以免超出抓取资源的预算。

抓取预算最影响什么样的网站?

  • 假如你的网站是属于复杂型网站,网页数据大且内容更改较为频繁;
  • 网站不大,但是内链建设繁杂、交互过多;
  • 网站中存在着大量的重定向链接内容,爬虫抓取时会耗费你的抓取预算。

一个关于网站抓取的重要知识点:并不是说Googlebot从你的网站抓取的所有内容都会被编入索引展示在SERP上面的,它只是将你的网站内容放进了一个索引库里。被索引和爬取的信息抵达索引库后还需一路过五关斩六将,在符合了谷歌的质量算法之后,才能够最终C位出道SERP

我的网站最多能够被抓取的限度是多少?

搜索引擎在抓取网站时,首先考虑到超负荷运作问题,因为他们公司随意一个分机房派来的点击爬虫就可以将你的小服务器击溃。为此,Googlebot会先计算得出你的网站的抓取容量上限,即它最多能够在你的网站同时抓取多少内容,而不影响网站的正常运作,以免造成服务器负载过重。

抓取容量的上限就像温度计一样忽高忽低,根本原因有3:

服务器配置会影响抓取容量

配置导致的网站的响应速度其实在很大程度上影响了爬虫对网站的抓取容量,如果在某段时间内,网站的响应速度很快,那么它的抓取容量也将会变高,进行更大强度的抓取工作。但是网站的响应速度变慢或者服务器出现连接错误的话,那抓取的频次和量便会下降。

搜索引擎本身的抓取能力影响抓取量

不止国家有额度调控,搜索引擎愿意在不同领域和话题上投入的资源其实是有配额的,因为爬虫资源的计算能力就那么多,他们自然会倾向更有用的资源。所以建议你在考虑话题的时候尝试蹭一下热度,也许会有意想不到的收获。

站长希望被抓取的的上限左右了爬虫的判断

网站的抓取容量上限其实也是“受制于人”的,网站站长可以在代码架构或者站长账号中选择增加或者减少可爬取内容。但是值得注意的是,尽管站长将网站的抓取容量上调至更高,但是,Googlebot也不会因为对你的话题和领域更“偏心”,便对你自动增加网站抓取量。

外贸建站要学会表达你的抓取需求

大家都希望自己的海外网站的所有内容都能够被抓取收录,所以抓取压力总是不会下降的。通常情况下,谷歌抓取网站会遵循“按需分配”的原则。根据网站的规模大小、网站内容更新的频率、内容是否优质、以及内容与行业的相关性等等,进行一个综合的评估,确认网站的抓取需求,并以此来分配网站的抓取。

不过,不是说你不断更新网站提交需求,谷歌就一定会收录,所以更不是鼓励你不断地微调内容。内容与质量是相挂钩的,内容的新鲜度更多是指Googlebot倾向的新鲜原创、热门的内容网页;

写在最后

网站内容更改不可避免,关于图片更改、内容错漏更改等情况,网络爬虫会重复地抓取旧网页中的内容,以便将在这些变化尽收囊中,对更改做出及时更新;另外,谷歌会尝试将收录过的所有内容都尝试去再抓取一遍,那些重复的网址、你不希望被抓取的网址,也都统统纳入抓取队列,如果你没有对其进行限制,网站的抓取预算也就被浪费了。

原创文章归Sytech版权所有,转载请注明出处,商用请联系本站获取版权。

Ever

前端工程师 - Ever

Sytech科技前端工程师,专注于网络搭建和网站SEO优化多年,擅长于网站数据分析和海外网站运营、维护。

2023年4月1日

网站建设

“人机耦合”:人工智能对定制网站建设的推动作用

程序员和优化师要失业了?定制网站建设并不一定需要被人工智能所取代,“人机耦合”才是趋势。

食不言

网络工程师 - 食不言

了解更多

2022年11月15日

市场营销

谷歌快排技巧之直接影响页面排名的8个SEO要素

厨房“小白”想知道麻辣香锅怎么炒,打开搜索引擎输入关键字“麻辣香锅做法”就行,谷歌快排技巧中直接影响页面排名的8个SEO要素有哪些?

Jony

Zheng - Jony

了解更多

想要马上开始定制开发您的网站建设?

添加微信咨询 扫描二维码添加微信客服

微信二维码 微信客服

其它联系方式

Sytech科技电话

邮寄联系地址 广州市番禺区钟村街道长华创意谷18栋8~9号 联系服务热线 020 8480 8073