标点符(钱魏 Way)

Google搜索引擎蜘蛛等级

这里要说的是Google蜘蛛的等级,而不是Google蜘蛛的种类,对于Google蜘蛛的种类有网页搜索的,图片搜索的等,。。这里主要说的是网页搜素引擎的等级。

1号蜘蛛

Google超级服务器每天放出的大量蜘蛛称为1号蜘蛛,其抓取速度非常快,并将采集到的信息分类整理到庞大的数据库。其中有个数据库都是用来存索引到的网站域名的,这个数据库是1号蜘蛛的核心,在这个数据库中还分为10各PR等级的数据库,10个等级的数据库的更新周期也是不同的。以一个PR=4的网站为例,1号蜘蛛爬行的周期大概7天一次,所以说一帮网站没个7天收录都有大幅变化。其实7天这个数据还是蛮准的,但只针对PR=4的网站,越是PR高的网站其更新周期就越短,越是PR低的网站更新周期就越长。

 2号蜘蛛

 2号蜘蛛是在一号蜘蛛爬行的过程中放出去的,主要爬行的是1号蜘蛛爬过网站的外部链接,其抓取能力要比1号蜘蛛小的多,蜘蛛每天小幅收录网页主要靠2号蜘蛛。

3号蜘蛛

3号蜘蛛的主要任务是爬行2号蜘蛛爬过的网站外部链接。3号蜘蛛的活动基本在2号蜘蛛后面n按时间先后顺序进行抓取。

形象的说是1号蜘蛛在爬行A网站的时候发现了链向B完整的链接,1号网站就将B网站地址发给2号蜘蛛,2号蜘蛛在爬行B网站的时候又发现了C网站,然后2号蜘蛛就将C网站地址发给3号蜘蛛,3号蜘蛛抓取C网站内容。目前GOOGLE为了限制抓取的无限循环对蜘蛛只分为这三个等级.并对其等级的抓取率有个很明确的标准。

比如说:A网站被1号蜘蛛爬行后的一篇文章最后时间为2009-9-1,那当A网站被从别的网站过来的2号蜘蛛给爬行首先有可能会对其收录的是最近发表的几篇文章如:2009-8-31,2008-8-30发布的文章,对2009-8-31和2008-8-30这些文章将会进行第2次第3次的访问,之后再爬行2008-9-1以后的信息.如果网站没有任何更新,它将对其近一个月内的更改内容进行2次爬行。如果外部来的2号与3号蜘蛛越多,同一篇文章有可能会被爬上好几次。

以下为GOOGLE提供的官方数据

1号蜘蛛

基本抓取率在5%~10%

基于PR=0 没有任何导入链接与提交时 有可能被抓取的周期在6个月~12个月不等

基于PR=1 没有任何导入链接与提交时 有可能每次被抓取的周期在4个月~8个月不等

基于PR=2 没有任何导入链接与提交时 有可能被抓取的周期在2个月~4个月不等

基于PR=3 没有任何导入链接与提交时 有可能被抓取的周期在1个月~2个月不等

基于PR=4 没有任何导入链接与提交时 有可能被抓区的周期在1周~1个月不等

当然没有任何导入链接的网站无法做到PR=4,上述此数据只是GOOGLE官方提供的一个基数,意思也就是1号蜘蛛主动爬取你网站的周期数,对于2号或者3号蛛爬取你的网站,也就根据你的导入链接而定,所以你会发现你的网站有时天天在被更新。

2号蜘蛛

基本抓取率是2.5%~5%(基于1号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问)

3号蜘蛛

基本抓取率为1.25%~2.5%(基于1号蜘蛛与2号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问)

以上为ehsy-sem团队的力作,最后感谢ehsy-sem团队的分享。

码字很辛苦,转载请注明来自标点符《Google搜索引擎蜘蛛等级》

评论