标点符(钱魏 Way)

百度站长俱乐部重复页面相关问题

请问百度支持canonical属性么?

对于多域名或者多url,站长有没有途径告知百度自己的首选域或首选地址呢?百度暂时还没有支持这类复杂的属性。关于首选域或者首选地址的给定问题,我们内部会郑重的讨论一下。通常情况下,只要网站所有者主推一个域名以及某个 url pattern,那么它通常也会被spider选择为主域名以及url主形态。我们也留意到打印页之类的问题,在我们的系统还没有完全的解决这类问题之 前,建议用robots来做一下处理。另外,站长工具平台还没有提供这方面工具的打算。如有新进展,会及时通报的。

网站最近遇上个全站克隆+实时采集的小偷站,搞我的没办法。百度会惩罚克隆网站吗?

百度有专门的算法识别克隆网站。看你说的这种情况,更象是对方将域名直接指向到你的服务器上了,可以直接在服务器端拒绝所有非正常域名的访问。

自己的原创内容排名常常比不过转载或抄袭的,站长能做些什么预防或改进?

这个,只能说百度的策略还不是很完善,我们也一直在改进。另外,从用户体验角度,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。

百度如何面对很难处理的重复页面,比如列表页有分页,文章页也有分页,他们的meta都是相同的,这样会不会当重复页面处理。同时比如一个 论坛有两篇相同的帖子都收录,会影响先收录的排名吗?

1,判定页面重复的算法很复杂。可以肯定的是,仅meta相同,是不会被判为重复的。

2,相同两个帖子被收录(URL可能不同),低权重的页面会不被建索引,或者被高权重页面类聚掉。

百度对重复内容是如何处理的?

这的确是个显著的问题。这表明我们在这方面的策略上有极大改进空间。这类积重的问题,非一朝一夕能搞定,需要伤筋动骨的动动手术才行。所以请大家耐心。

另外需要说明的是,搜索引擎的排序出发点,是用户的搜索体验。虽然说,很多时候尊重原创和用户体验是一致的。但是,毕竟也有一些case,转载的体验会比原创更好。这时候原创者的排序未必会高于转载者。但无论如何,原创者的应该以另外一种方式被肯定,而不是简单的被聚合掉。

百度如何看待伪原创?

“伪原创”就是“非原创”。对非原创的策略,同样适用于伪原创。归根结底,这是一个技术实现程度问题,而不是策略思路问题。

网址规范化问题。看到百度是否支持canonical标签的问题。实际上不光有首选域问题,比如很多网站 domain.com 和 www.domain.com 两个版本都收录,domain.com 做了301到www.domain.com 很久了也没有用,还是两个都收录。目录也是如此。经常看到收录URL是这样 www.domain.com/cat 实际上网站上出现的是 www.domain.com/cat/ (后面有斜杠),而且 www.domain.com/cat 做了301到 www.domain.com/cat/,收录的URL还是不对。网站上有的是收录 www.domain.com/cat 有的是 www.domain.com/cat/ ,没规律。百度上网址的规范化很难处理,网站统一使用一个版本也没有用,做301也没有用。百度似乎没什么规律地随便选一个,选了还没办法改。有什么建议?

百度目前是不支持canonical标签的。URL形式的问题,反映了我们的系统对重定向存在未能及时更新的问题。最近我们正在调研更好的办法来解决这个问题。

为什么搜索行业门户网站名称 这么多山寨的?

革命尚未成功,我们仍需努力。

如何处理百度从别的站抓取带有广告参数的url?

没有什么坏的影响。另外,我们也计划推出一个简单的工具,方便大家处理这样的无效参数,届时会知会大家。

被小偷程序高度采集怎么办?百度有什么识别的方法没?

对于恶劣的小偷采集站,我们设有专门的识别并在逐步完善。目前可能存在一些漏网之鱼,楼主可以向反馈中心http://tousu.baidu.com/webmaster/add/#2提交实例,我们会分析跟进。

信息解读:

1)百度目前还不能很好的区分内容是否原创,主要的分辨方法是网站权重够不够高,另一方面将,百度不太注重版权,从沸沸扬扬的百度文库事件就可以看出来。所以如果你的文章被大量转载对你可能不一定是好事。

2)百度不会以单一的条件判断页面重复,所以给投机取巧的那些人提供了很多的便利。

3)对于广告参数,对网站的印象应该不大,百度有专门的处理机制。

码字很辛苦,转载请注明来自标点符《百度站长俱乐部重复页面相关问题》

评论