标点符(钱魏 Way)

百度站长俱乐部蜘蛛相关问题

百度数据更新的周期大概是多长?

如果是一个变化频繁的入口索引页面,相信这个变化周期会很短;而是相对稳固的内容型页面,周期则会相对较长。站长们观察一下蜘蛛的爬取日志,发现的规律会比这边的说明更有价值。此外,搜索结果页上的那个时间,一直很让人confusing,我们正在考虑修改。

HTTPS的网页网页被收录一般来说,网站所有者不是太希望 https 的网页被收录。如果收录了,如果处理?把 https 的网页URL更换成 http 形式的?

如果不希望被收录,常规的做法是设置robots文件。https主要的出发点是安全,并没有太多考虑搜索引擎。从用户角度,很多采用了https的站点(尤其是首页),也是需要被搜索到的,比如支付宝,贝宝等。通常情况下,搜索引擎对这类网页并不做内容解析,而只是将url进行索引。

百度是否能正常抓到网页的中Unicode编码的文字?

目前百度对unicode编码只支持utf8,今后会逐渐增加对其它编码方案(如utf16)的支持。

ip 地址形式的URL被收录。

IP地址的url被收录,除了spider在机制上的不完善之外,通常站点设计上也有一些缺陷。一般情况下,这类问题是可以被规避的。

流量被蜘蛛占用,怎么限制它

正常情况下,Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。一个小网站的抓取频率远高于新内容产出速度,通常会是下面这两种问题有中的一个:
1)有其他程序冒充Baiduspider抓取。建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。
2)网站程序有漏洞,产生了无穷尽的url,被Baiduspider当成了很多新内容而频繁的抓取。建议分析网站的访问日志,看看Baiduspider所 抓取的内容是否是你想让百度收录的,如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。

百度对JS代码里的链接识别么

我们也希望能解析flash、js里的内容。但目前离理想状态尚有距离。

请问百度支持通过robots提交Sitemap么?

暂时还没这个打算。一般情况下,spider能处理大多数网站的数据抓取和更新,而无须借助sitemap。

option标签里面的链接可以被蜘蛛抓到么?

可以提取。效果等同于<A href=”http://www.163.com/”>163</A>。

百度是否跟踪JavaScript链接

知道百度支持nofollow后又有了这个问题,百度是否跟踪JS链接并传递权重?因为有的时候某些页面得到太多权重没什么意义,比如用户登录、注册页面之类的。是否可以用简单的JS阻挡链接传递权重。javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实 并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。

百度的互联网论坛收录开放协议现在还有用吗?

预告一下,随着站长平台的逐步完善,这个问题将会得到比较稳妥、彻底的解决。过去的做法不够系统。

关于外链接入已经被robots.txt屏蔽的URL,爬虫是否先抓取的问题

一个url只要被robots屏蔽,baiduspider就不会进行抓取,这是肯定的。就算某个链接可以通过外链进入到,我们也不会去抓取这个页面。

百度是否能抓取CSS样式表并识别分析?

百度是能够抓取并分析CSS的。

没有提交给百度也无反向链接为何被百度收录

只要是存在的链接都应该收录,但是蜘蛛能不能抓到是另外的问题了。我们把问题明确一下:是否能识别和处理纯文本形式的链接(非<a></a>标签)?答案是可以的,搜索引擎的spider需要及时发现和抓取互联网上的链接,至于链接是什么形式,并不重要。

百度是否抓取并且分析代码中注释掉的内容

在html中的注释内容,会在正文提取环节忽略。

搜索引擎在高峰时段大量抓取页面,导致服务器出现负载问题。但是我不希望屏蔽它的抓取,应该如何处理?能否在高峰时段对spider返回 202 状态码,告知spider“服务器已接受请求,但尚未处理。?这会对网站造成什么影响?

会延迟百度对新网页的收录速度。正常情况下,Baiduspider的抓取频率大致上和网站新资源产生的速度相符,并不会给网站带来很大的压力。但现在网站结构通常都比较复杂,多种url形式指向的可能是相同的内容,或者会自动产生大量无检索价值的网页。我们目前发现的问题,主要来源于此,建议先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收录的形式,如果有,robots掉它们可以节省大量的资源。

网站首页有更新 但是看iis日志 还是出现304状态码

如果日志中记录的是304,说明baidupdier并没有真正获取更新这个页面,但是返回304是网站站点服务器的行为,我们无法确定具体是什么问题导致的。对于首页这样的重要页面,baiduspider很可能会一天访问多次,如果其中只是有部分304的话,很可能是正常的。

为什么有些站每天不更新反而百度的快照天天新。有些站提供原创内容每天更新反而百度快照不更新。

前面曾经说过,我们内部也对结果页上的时间戳(在url后面)很纠结,有计划整改。实际上有的搜索引擎早已经把这个时间戳去掉了,而代之以网页更新的实际时间。这个时间戳既然给内部人员也带来了困扰,那么对站长和用户,显见也是有困扰的。所以,我的建议是不必太过关注这个时间戳。如果期望看到精确的spider行为,最直接的手段是分析网站日志。我个人觉得站长如果想做出点名堂,一些起码的技术手段还是要会的,数据分析对SEM极端重要。而不要动辄用“草根”来给自己开脱。

以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?

页面大小和搜索引擎的抓取之间没有直接关系。但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限。

在百度快照里页面没有显现完整,首页底部(友情链接及版权信息那块)代码和页面都没在快照中出现,那么友情链接对其他网站还有用吗?

这种情况不会影响友情链接。另外,我们建议尽量将页面大小控制在合适范围内。补充一下,cache只是显示一部分。而底部链接提取只和该网页是否被抓全有关。百度spider抓取的网页文件非常之大,链接提取完全不必担心。

百度建议URL静态化吗?还是像Google一样,不建议URL静态化?对伪静态怎样看待?和真的静态文件一样吗?

对URL的动静态,没有歧视政策。之所以以前有过提倡静态的说法,是因为很多动态URL,带了很多参数,而实质上内容是一样的。这个给spider以及站长都带来不必要的麻烦。我们在这上边花了不少精力。所以,总的原则就是,URL的动静态无所谓,只是尽可能的避免重复即可。但是动态url也不要动态得太变态,搞几十个参数,那会吓着蜘蛛。酝酿中的sem指南,会有对url优化方面的详细说明。

信息解读:

1)百度会抓取HTTPS网站的首页,对于不想给百度抓取的内容可以考虑使用HTTPS协议哈。

2)IP地址一般不会被百度给收录。

3)百度可以对常用编码进行解析,如果针对的是百度进行SEO,那么最好是GB2312和UTF-8。

4)百度目前不能识别JS和Flash中的链接。

5)百度目前是抓取CSS样式的,主要的功能应该是检测文本的颜色是否和背景颜色相同。

6)页面中的注释会在页面解析的时候进行过滤。

7)百度快照时间并不是百度蜘蛛抓取时间,这点希望大家都别太在意。

8)百度对页面抓取的大小超过125K,但是个人不建议网页太大,内容越多,页面的中心思想越不突出。快照的大小不等于抓取文档的大小。

9)URL静态和动态对SEO没什么影响,但是需要避免动态参数太多,让蜘蛛陷入死循环。

码字很辛苦,转载请注明来自标点符《百度站长俱乐部蜘蛛相关问题》

评论