搜索引擎爬虫抓取网页的更新策略

seo建站工具    seo百度算法    搜索引擎爬虫抓取网页的更新策略

爬虫的宽度优先抓取策略

宽度优先抓取策略,一个历史悠久且一直被关注的抓取策略,从搜索引擎爬虫诞生至今一直被使用的抓取策略,甚至很多新的策略也是通过这个作为基准的。

宽度优先抓取策略是通过待抓取URL列表为基准进行抓取,发现的新链接,且判断为未抓取过的基本就直接存放到待抓取URL列表的末尾,等待抓取。

搜索引擎爬虫的历史更新策略

所谓历史更新策略,就是针对已经抓取的网页有一个再抓取的时间限制。例如爬虫抓取我的首页,从而搜索引擎通过一直以来的抓取得出我的博客首页平均每3天更新一次,那么爬虫的抓取策略就会调整为每3天访问一次我的博客首页。

这样的更新抓取策略告诉我们,网页变化频繁就会引来蜘蛛的频繁抓取。所以在这里如果你的网页全部是静态的。也就意味着不生成一遍对应页面是不会发生变化的。相对而言针对这种策略逻辑你就不是很站好。所以网址设置为伪静态的,在网站打开速度能够很好控制的前提下,把网页本身设置为动态页面是很不错的选择。

搜索引擎爬虫的用户体验更新策略

所谓用户体验的网页更新策略,是搜索引擎认为网页参与具有一定搜索量词的排名,且在前3页的,是经常会被用户访问到的页面。那么针对这类页面要更优先的进行抓取更新。

而3页之后的网页对于用户而言,访问的人占到了极少数,晚一些时间更新也未尝不可。因此采取的一种网页抓取更新策略。

这种策略让我们知道,一些核心关键词排名靠前的网页,被爬虫抓取的频次是更多的。那么值得思考的一个问题是网站也会有一些详情页,聚合页甚至文章页参与比错的词的排名。这是不是意味着这次页面抓取量也不错呢?针对这个问题,之前通过对访问日志的分析确定了这个答案,在80%的情况下,确实是这样的。但这种页面的频率远低于首页、频道页等距离首页更近,路径更短的页面抓取量。

不过,我们还是可以好好优化我们的详情页/文章页,在这类页面以展示最新内容,为最新内容的收录增加爬虫抓取的入口。

搜索引擎爬虫抓取网页的抽样聚类策略

谈到这个策略,我们先从字面意思来看“抽样,聚类”。抽样是指从网站中抽取一些样本出来进行观察,而聚类是根据这些样本的观察得出一定的结论后应用于这个类型上。

我们的网站都是有不同类型组成的,例如列表页、产品详情页、文章页、频道页、聚合页等,这些都是不同的类型。搜索引擎从这中间抽选出一些样本,进行观察后得出一个更新周期后,应用于整个类型的方式就是抽样聚类的网页抓取更新策略。

我们举个例子,搜索引擎从列表页抽样找到A列表页,通过分析观察发现A列表页每2天可以抓取一次。然后和A列表页同类型的还有B、C、D列表页,因为他们的模版一样、导航都有、首页下模块也特指这四个列表页。那么他们是一类的,所以B、C、D列表页和A列表页一样,都是2天一抓取。

爬虫抓取的大站优先策略

大站优先抓取,是不是就顾名思义了呢?大型网站就会有先抓取?不过这里是有两种解释的。我个人认为这两种解释爬虫都在使用。

大站优先抓取的解释1:比较贴合字面意思,爬虫会根据待抓取列表中的URL进行归类,然后判断域名对应的网站级别。例如权重越高的网站所属域名越应该优先抓取。

大站优先抓取解释2:爬虫将待抓取列表里的URL按照域名进行归类,然后计算数量。其所属域名在待抓取列表里数量最多的优先抓取。

这两个解释一个是针对网站权重高的,一个是针对每天文章发布数量高且发布很集中的。不过我们试想一下,发布那么集中且那么多篇的站点,一般也都是大站了吧?

这里让我们思考的是什么呢?

写文章的同时,应该集中一个时间点推送给搜索引擎。不能一个小时一篇,太分散。不过这个有待考证,有经历的同学可以进行一下测试。

2019年9月9日 10:57
浏览量:0
收藏