标点符(钱魏 Way)

SEO问题之重复内容如何解决

重复内容是搜索引擎极力避免的一个问题,如果你的网站存在重复内容,及相同的内容呈现在不同的页面上,也宝航不同的网站上。对于搜索引擎来说,他们不希望用户搜索后得到的搜索结果中有重读的内容,那么事先搜素引擎就会采取行动。将这些重复的内容从他的索引库中删除。这篇文章旨在让你了解造成重复内容的不同原因,然后找出各个的解决之道。

你可以把重复内容比作你站在你一个十字路口,道路标志上有两个不同方向都指向同一个目的地,究竟该走哪一条路?更有甚者在当你的目的地不一样时,情况会更糟糕。作为一个读者,不会管内容从哪里来,但是搜索引擎不得不挑选一个展示在搜索结果中,因为他们不想把同样的内容展示两次。

比方说,关于关键词X的内容展示在http://www.example.com/keyword-x/这个URL上,同样的内容也出现在http://www.example.com/article-category/keyword-x/上,这种情况可不是虚构的哦,在很多cms系统中都存在这个问题。比如你的文章已经被一些网友收藏转载了,一些人链向你的第一个URL,一些人链向你的第二个URL。这时重复内容问题就来啦。如果所有关于这个关键字的链接都指向一个URL的话,关键词在首页的几率也会高很多。

一、重复内容的原因

有很多因素可以导致重复内容。绝大部分都是技术上的,一个人决定把同样的内容放在两个不同的地方,并不指出原始出处这种情况不是很常见(在国内是非常常见的),绝大部分人都会觉得不舒服。技术上的理由也是很充分。它产生的绝大部分原因是程序员没有站在浏览器或者用户角度,也没管搜索引擎蜘蛛,只是按照程序员的思维。假设之前提到的那篇文章它出现在http://www.example.com/keyword-x/ 和 http://www.example.com/article-category/keyword-x/ 如果你问程序员,他会说它是仅出现一次啊。

1、误解URL概念

那么程序员都疯了吗?不,没有,他只是在说另一种语言。你看到的整个网站可能都是数据库驱动的。在那个数据库里面,只有一篇文章,网站程序允许数据库中的一篇文章可以通过不同的URL访问得到。因为在程序员眼里,唯一的标志是数据库中的文章只有唯一的ID,而不是URL。对于搜索引擎,URL才是一篇文章的唯一识别符。如果你这样跟你的程序员说,他才会意思到问题原因,接着他会像与我共事的大部分程序员一样,想搜索引擎愚蠢在哪里以及为什么他不能解决这个问题。如此他又走向另一个错误的思维。

2、sesssion ID 的问题

你常想着去追踪你的访问者的轨迹,比如存储他们在购物车购买的物品。要做到这一点,你必须给他们一个session(会话)。一个session会话基本上是访客在你网站所做的简短历史,可能包含内容比如购物车里面的物品。为了保持访客从点击一个网页到另一个网页的会话session,需要存储子某个地方。最常见的解决方法是cookies,然而搜索引擎通常不会存储cookies。在这一点上发生了什么,一些网站系统在URL中使用session ID来返回。在这一点上每个网站上的内部链接都会被追加上session ID,而session ID又是唯一的,这样产生了新的URL,因此重复内容产生了。

3、URL跟踪参数

另一个引起重复内容的原因是URL参数的使用,虽然参数不会改变页面内容,比如在跟踪链接里面。你会看到 http://www.example.com/keyword-x/ 和 http://www.example.com/keyword-x/?source=rss等对搜索引擎来说都不是同样的URL。后者可能是允许你跟踪来源,它可能会使你的排名变得有点困难,一个非常不好的负面效果。这个不仅适用于跟踪参数,它还适用每一个你加在URL后面的参数不会改变你网页上的实际内容。涉及到参数会改变网页上产品的顺序或者展示另外一个sidebar这些都会导致重复内容。

4、内容搜刮&内容聚合

虽然引起重复内容的绝大部分原因在于你自己,或者至少是你网站的过失,有时是其他网站有没有经你同意使用你的内容。他们并不总是链向你的原始内容,搜索引擎也不知道就会不得不处理你的同样文章的另外版本。你的网站越来越流行,遇到的搜刮也越来越多,问题也会越来越严重。

5、URL参数顺序

另一个较常见的原因就是cms不会使用简洁干净的URL,而是使用比如 /?id=1&cat=2,这里的ID指示文章,cat指示分类。在大部分的建站系统中,这个URL /?cat=2&id=1 也将会渲染同样的内容,但是对搜索引擎来说他们就是完全不同的。

6、评论分页

在wordpress系统或者其他程序里面会有一个评论分页的选项。这将会导致文章内容在 文章本身的URL 还有文章的URL+/comment-page-1/, /comment-page-2/ 等的重复。

7、打印页面(这个比较少)

如果你的cms会产打印页面而且从你的文章页面还有链接,在绝大部分情况下谷歌会发现这些页面,除非你特别阻止他们。谷歌该展示那一个版本?一个有广告和周边内容的页面或者一个只有你文章的页面。

8、www vs no-www

这是一个最老的问题了,但是当两个版本都可以访问时,有时搜索引擎还是会混淆WWW vs. non-WWW重复内容。另一个不常见的情形还有就是http vs https 重复内容。

二、概念上的解决方案:添加“canonical”标签

正如上面确定的,不同的URL产生同样的内容会导致重复内容是一个问题,但是它可以被解决的。人类在发表文章时通常可以很容易地告诉你某个文章的正确的URL应该是什么。

三、识别重复内容

1、谷歌网站管理员工具

谷歌网站管理员工具是一个很好的识别重复内容的工具。如果你转到谷歌网站管理员工具查看你的网站,故障诊断—>HTML建议,你就看到这样的界面

如果页面有重复的title或者重复描述的话,那里几乎没有什么好事情。点击它会显示那些URL有重复标题或者描述将帮助你识别出问题。问题是如果你有一篇文章关于“keyword -X”显示在两个分类里面,他们的title可能会不一样。比如他们的标题会是”Keyword X – Category X – Example Site” 和 “Keyword X – Category Y – Example Site”. 谷歌不会把他们作为重复标题,但是你可以通过搜索找到他们。

2、使用搜索指令查找Title或其他片段

有几个搜索运算符在这种情况下是非常有帮助的。如果你想找到你网站上包含你的关键字“X”文章的所有URL,你可以输入在谷歌搜索框中输入以下指令:

site:example.com intitle:”Keyword X”

谷歌将会展示你在example.com上所有页面包含那个关键词的。你搜索title部分的关键词越具体,也越容易找到重复内容并清除他们。你也可以使用同样的方法来识别别人网站上有没有你的重复内容。比如说,你文章的完整title是Keyword X – why it is awesome,你可以搜索

intitle:”Keyword X – why it is awesome”

谷歌会返回所有网站上包含这个title的。有时你也可以搜索你文章中的一两个句子,因为有些内容搜刮的人可能会改掉你的title。

四、解决重复内容的实践操作

一旦你决定哪个URL是你文章该规范化的URL,你就不得不开始一些规范化的过程。这基本上意味着让搜索引擎知道和让他尽快发现这个规范化版本。这里有四个解决这个问题的方法:

1、避免重复的内容

对于上述引起重复的内容的原因有些很简单的方法修复他们

  • URL中的session ID?
    通常你可以你的系统设置里面取消
  • 有打印页面
    这些都完全没有必要,你可以使用print 样式表
  • 在wordpress中使用评论分页
    这个问题你可以在设置里面取消评论分页嘛
  • 参数的不同顺序
    告诉你的程序员建立一个代码来在同样的顺序上排序(这里通常指代的是URL factory)
  • 跟踪参数问题
    大部分情况下你可以使用hash值#号来代替参数跟踪营销活动
  • WWW vs non-WWW问题
    选择你想要的版本并重定向一下坚持下去。你可以在谷歌网站管理员工具里面设置。

如果您的问题不是那么容易解决,它可能仍然是值得的付出努力来防止出现完全重复的内容。以上就是迄今为止最好的解决办法。

2、把重复内容重定向到规范化的URL(301重定向重复内容)

在某些情况下,不可能完全阻止你使用的系统文章内容产生错误的URL,但是你是可以重定向他们的。此外,如果你解决了重复内容问题,确保你把所有老的重复内容URL重定向到合适的规范化URL。

3、在重复页面添加一个Canonical标签

有时你不想去或者不能解决文章的重复问题时,但是你必须知道这是错误的URL。对于这个特殊的问题,搜索引擎也引进了这个Canonical 元素。

rel="canonical" 标签是 Google,雅虎,微软等搜索引擎一起推出的一个标签,它主要用来解决由于 URL 形式不同而造成的重复内容的问题。

只需在页面在网页的<head>标签内添加,类似下面的代码即可。

<link rel=’canonical’ href=’http://www.biaodianfu.com/duplicate-content.html’ />

在这个Canonical link标签里面的href部分你放置文章正确规范化的URL,当谷歌或者其他支持这个属性的搜索引擎发现了这个link元素,它会做一个软的301跳转:它也会传递这个网页的大部分链接价值到你的规范化URL。这个过程会比301跳转慢,所以你使用301的话将更可取。(http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html

4、在重复内容页面添加一个超链接到规范化的URL

如果你不能做到上面这些的话,可能你不能控制内容展示网站上的<head>部分,在页面顶部或者底部添加一个链接指向你的原始页面也是个不错的主意。还有一些其他的你想在你的RSS feed中添加一个链接指向你的文章。一些搜刮者可能会过滤掉这些链接,但是一些可能会留在那里,如果谷歌计算到好几个链接指向你的文章它也会很快知道这就是确切的规范化文章版本。

五、总结

重复的内容无处不在发生。我还没有遇到超过1000页面的网站没有一点重复内容。这件事需要你在任何时候保持关注。这是可以解决的而且回报会很多。在解决了重复内容之后你的高质量内容网页排名可能会飙升。当然首先你要识别确定这些问题,帮助你的程序员想出解决问题的方案甚至帮你解决问题。转载请以超链接形式标明来源。

本文由熊出没In微薄翻译并推荐,E文原文为:http://yoast.com/articles/duplicate-content/

码字很辛苦,转载请注明来自标点符《SEO问题之重复内容如何解决》

评论

  1. 亿品元素 #1

    学习一下,呵呵

    回复
    2011-03-2