SEO之sitemap.xml

33 sec read

Sitemap 简介:Sitemap 即网站地图一般有两种,一种是给用户看的,主要格式为HTML,主要是呈现网站各个栏目的分布,这里不做讨论。而对于SEOer 来说,要关注的是给搜索引擎看的网站地图。Sitemap(sitemap.xml) 可以方便快速的告知搜索引擎网站上有哪些可供抓取的页面。在Sitemap里,你可以列出你网站中需要蜘蛛索引的网址,以及该页面上次更新的时间、更改的频率以及相对于网站上其他页面的重要程度等,以便搜索引擎可以更加智能地抓取网站。

使用sitemap.xml 并不能保证全部网页被搜索引擎收录,但它能保证让网页更快更及时的收录。目前Google,雅虎,微软都支持最新的sitemap协议(sitemap 0.9)。

Sitemap 特别适用于以下情况:1.网站内含有动态内容;2.网站内存在flash或JS等蜘蛛无法正常抓取的页面;3.链向新网站新页面的链接不多;4.网站内大量数据相互之间没有很好的链接。

Sitemap 的作用:1.告诉蜘蛛网页的更新频率(网页内有些页面可能几个月不更新,我的确是每天更新,根据不能得情况设定不同的更新频率,一方面是减轻服务器压力,另一方面是减轻蜘蛛的压力,让它检索最主要的内容)2.告诉蜘蛛修改时间(告诉搜索引擎哪些是最新修改的);3.告诉蜘蛛网页的相对重要性(比如:主页的相对重要性为1.0,栏目页的相对重要性为0.8,内容页相对重要性则为0.5。这个优先级只是说明特定网址相对于您网站上其他网址的重要性,并不会影响网页在搜索结果中的排名。)。

Sitemap 0.9协议内容

Sitemap 协议格式由XML  标记组成。Sitemap需使用UTF-8 编码,且内容需要经过实体转译。(实体转译主要是将URL中“&”符号转译成“&”等。) 

Sitemap 必须:

以 <urlset> 开始标记作为开始,以 </urlset> 结束标记作为结束;在 <urlset> 标记中指定协议标准;每个网址包含一个<url> 条目作为 XML 父标记;在每个 <url> 父标记中包含一个 <loc> 子标记条目;Sitemap 中的所有网址都必须来自于同一个主机。

sitemap 示例:

sitemap.xml

XML标记定义说明:

<urlset> 必需,用以指明协议。

<url> 必需,每个网址的父标记。

<loc> 必需,网页地址,需有“http://”开始,如为目录以“/”结束。

<lastmod> 可选,页面最后修改时间,需要使用W3C标准时间格式

<changfreg> 可选,页面修改频率,可选参数为(always,hourly,daily,weekly,monthly,yearly,never)。“always”应用于每次访问而改变的文档,“never”值则应用于存档类的页面。应该注意的是蜘蛛只是将修改频率作为参考而不是命令。对标记为“hourly”页面的抓取频率可能低于每小时一次,而对标记为“yearly”页面的抓取频率可能高于每年一次。抓取工具也可能会定期抓取标记为“never”的网页。

<priority> 可选,网页的重要性。此重要性是相对于此网站的其他页面而言的网,有效值范围从 0.0 到 1.0,该值不会影响您的网页与其他网站上网页的比较结果。一个网页的默认值0.5。为网页指定重要性并不会影响网址在搜索引擎结果页上的排名。搜索引擎在同一网站上选择不同网址时会使用此信息,因此,可以使用此标记增加最重要的网页在搜索索引中显示的可能性。另,为网站中的所有网址都指定高重要性并不会带来什么好处,因为优先级重要性是相对的,只用于自己网站网页间的比较。

使用 Sitemap 索引文件(对多个 Sitemap 文件进行分组)

Sitemap 文件包含的网址不得超过 50,000 个,并且文件不得超过 10MB。可以使用 gzip 压缩 Sitemap 文件,以减少带宽要求,但是解压缩后的 Sitemap 文件不得超过 10MB。如果要列出 50,000 个以上的网址,就需要创建多个 Sitemap 文件。

Sitemap 索引文件的 XML 格式与 Sitemap 文件的 XML 格式非常相似。

Sitemap 索引文件必须:以 <sitemapindex> 开始,以 </sitemapindex> 结束;每个 Sitemap 包含一个<sitemap> 条目作为 XML 父标记;每个 <sitemap> 父标记包含一个 <loc> 子标记条目;可选的 <lastmod> 标记同样适用于 Sitemap 索引文件。

注意:Sitemap 索引文件只能指定与其位于同一网站的 Sitemap,与 Sitemap 一样,Sitemap 索引文件也必须为 UTF-8 编码。

XML Sitemap 索引示例

sitemap_index

sitemap 索引XML标记定义

<sitemapindex> 必须,声明协议内容。

<sitemap> 必须,每个sitemap的父标签。

<loc> 必须,sitemap地址。

<lastmod> 可选,sitemap的更新时间。通过最近修改的时间,搜索引擎抓取只检索索引中的 Sitemap 子集,也就是说,抓取工只检索某个特定日期之后修改的 Sitemap。通过这一递增的 Sitemap 提取机制,可以快速发现超大型网站上的新网址。

 参考网站 1.http://www.google.com/support/webmasters/bin/topic.py?topic=8476 2.http://www.sitemaps.org/

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

App Store Top 1000 关键词分析

做这个分析的主要目的是分析用户的搜索习惯及用户的需求方向,寻找可能的机会。以下分析是7月初进行的,数据比较老,
42 sec read

心理账户在产品营销的应用思考

什么是心理账户 心理账户是芝加哥大学行为科学教授理查德·萨勒(Richard Thaler)提出的概念。他认为
5 sec read

One Reply to “SEO之sitemap.xml”

发表评论

电子邮件地址不会被公开。 必填项已用*标注