<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>标点符 &#187; 百度</title>
	<atom:link href="http://www.biaodianfu.com/tag/%e7%99%be%e5%ba%a6/feed" rel="self" type="application/rss+xml" />
	<link>http://www.biaodianfu.com</link>
	<description>编译自己的互联网生活</description>
	<lastBuildDate>Tue, 31 Jan 2012 01:07:39 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>百度搜索URL参数解析</title>
		<link>http://www.biaodianfu.com/baidu-url-secret.html</link>
		<comments>http://www.biaodianfu.com/baidu-url-secret.html#comments</comments>
		<pubDate>Wed, 18 Jan 2012 10:07:33 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4580</guid>
		<description><![CDATA[百度的搜索URL存在着一定的规律和逻辑，下面的链接是我使用百度搜索“标点符”后得到的链接，下面就来一起分析下百度搜索结果URL的秘密。 http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&#38;rsv_spt=1&#38;issp=1&#38;rsv_bp=0&#38;ie=utf-8&#38;tn=baiduhome_pg&#38;inputT=2969 URL中的s?表示搜索，&#38;符号起到参数分割的作用。上述链接涉及到的参数如下： wd：Keyword，查询的关键词，有时还会是 word，比如www.hao123.com打开的链接就是word，wd后面的关键词使用gb2312进行编码，如果搜索词中出现空格则使用+号替换； rsv_spt：识别浏览器，目前测试下来Chrome、FireFox、Safari的为3，IE浏览器为1； rsv_bp：判断搜索位置：0为从百度首页进入，1为搜索结果顶部搜索，2为搜索结果底部搜索； ie：Input Encoding，查询关键词的编码，缺省设置为简体中文，即ie=gb2312； tn：搜索框来源标识，如百度首页的就是baiduhome_ph，hao123站来的sitehao123，遨游浏览器的为tn=myie2dg等。除了百度自身用来数据统计好，词数据还对百度搜索联盟分成起到跟踪作用。tn=baidulocal 表示百度站内搜索，返回的结果很干净，无广告干扰； inputT：搜索响应时间，单位是毫秒； 以上我上面的URL中出现的参数，但是百度的搜索引擎参数远远比上面的还要多。再来看看还有哪些参数： bs：Before Search，上一次搜索的关键词；百度会记录上一次用户的搜索词是什么； sr：结合bs使用。一般查询sr=0或者为空值，但sr=1时，查询将结合bs的值一起作为查询的关键字。默认值为0，除0，1外其它值无效。 pn：Page Number，搜索结果的页码，从零开始计数。即pn = ${结果页码-1}*rn； rn：Record Number，搜索结果显示条数，缺省设置rn=10，取值范围:10-100； cl：Class，搜索类型，cl=3为网页搜索，cl=2为图片搜索； lm：搜索结果的时间限制。以天为单位，例如搜索最近一个月的网页，lm=30.默认值为0，表示没有时间限制； ct：语言限制。0-所有语言，1-简体中文网页，2-繁体中文网页；其它不确定或者无效或。默认值为0； q5：搜索内容位置限制。0-所有内容；1-网页标题(相当于使用&#8217;title:&#8217;查询前缀)；2-url(相当于使用&#8217;inurl:&#8217;查询前缀)；其它值等效于0，默认值为0 ； q6：搜索内容网站限制。例如q6=www.biaodianfu.com，表示只搜索http://www.biaodianfu.com/的网页；相当于使用了&#8217;site:前缀&#8217;，默认值为空 dq：不建议使用该参数。查询内容来原的地区限制。具体值有百度确定，默认值为空。使用这个参数的效果很差； oq：相关搜索的主词，例如，搜索“标点符”后点击“标点符号”，出现的相关搜索，用来记录来源词“标点符”，或输入搜索词，输入到一半点推荐关键词的那个词，两个通过出现rsp/rsv_bp进行区分； rsp：相关搜索词的位置，第一个推荐词为0，第二个为1，以此类推； usm：在百度搜索任何词从任何一页点到第三页以后的，都会随机出现usm的参数。当usm=0的时候是正常排名 。当usm=1的时候所有排名后移一位，当usm=2的时候排名后移两位，以此类推。而词参数影响排名的效果只对第三页以及第三页以后的有效，也就是说前20名的排名不受词因素影响。此参数具体作用未知； f：搜索判断，f=8用户自主搜索，f=3下拉框推荐，f=1相关搜索； rsv_ers：出现的值为rsv_ers=xn0或rsv_ers=xn1，目前还不知道具体的作用。 rs_src：目前看到的都是rs_src=0，此参数与rsv_ers同时出现。 目前发现的参数就这么多，以后如有补充，后期会追加，关于Google搜索URL的分析，下篇日志中再发出。 Related posts: Google Analytics中organic和referral的区别 对卓越网的分析【SEO每周一站】 JSON 轻量级的数据交换格式]]></description>
			<content:encoded><![CDATA[<p>百度的搜索URL存在着一定的规律和逻辑，下面的链接是我使用百度搜索“标点符”后得到的链接，下面就来一起分析下百度搜索结果URL的秘密。</p>
<p><a href="http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&amp;rsv_spt=1&amp;issp=1&amp;rsv_bp=0&amp;ie=utf-8&amp;tn=baiduhome_pg&amp;inputT=2969">http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&amp;rsv_spt=1&amp;issp=1&amp;rsv_bp=0&amp;ie=utf-8&amp;tn=baiduhome_pg&amp;inputT=2969</a></p>
<p>URL中的s?表示搜索，&amp;符号起到参数分割的作用。上述链接涉及到的参数如下：</p>
<ul>
<li>wd：Keyword，查询的关键词，有时还会是 word，比如<a href="http://www.hao123.com/">www.hao123.com</a>打开的链接就是word，wd后面的关键词使用gb2312进行编码，如果搜索词中出现空格则使用+号替换；</li>
<li>rsv_spt：识别浏览器，目前测试下来Chrome、FireFox、Safari的为3，IE浏览器为1；</li>
<li>rsv_bp：判断搜索位置：0为从百度首页进入，1为搜索结果顶部搜索，2为搜索结果底部搜索；</li>
<li>ie：Input Encoding，查询关键词的编码，缺省设置为简体中文，即ie=gb2312；</li>
<li>tn：搜索框来源标识，如百度首页的就是baiduhome_ph，hao123站来的sitehao123，遨游浏览器的为tn=myie2dg等。除了百度自身用来数据统计好，词数据还对百度搜索联盟分成起到跟踪作用。tn=baidulocal 表示百度站内搜索，返回的结果很干净，无广告干扰；</li>
<li>inputT：搜索响应时间，单位是毫秒；</li>
</ul>
<p>以上我上面的URL中出现的参数，但是百度的搜索引擎参数远远比上面的还要多。再来看看还有哪些参数：</p>
<ul>
<li>bs：Before Search，上一次搜索的关键词；百度会记录上一次用户的搜索词是什么；</li>
<li>sr：结合bs使用。一般查询sr=0或者为空值，但sr=1时，查询将结合bs的值一起作为查询的关键字。默认值为0，除0，1外其它值无效。</li>
<li>pn：Page Number，搜索结果的页码，从零开始计数。即pn = ${结果页码-1}*rn；</li>
<li>rn：Record Number，搜索结果显示条数，缺省设置rn=10，取值范围:10-100；</li>
<li>cl：Class，搜索类型，cl=3为网页搜索，cl=2为图片搜索；</li>
<li>lm：搜索结果的时间限制。以天为单位，例如搜索最近一个月的网页，lm=30.默认值为0，表示没有时间限制；</li>
<li>ct：语言限制。0-所有语言，1-简体中文网页，2-繁体中文网页；其它不确定或者无效或。默认值为0；</li>
<li>q5：搜索内容位置限制。0-所有内容；1-网页标题(相当于使用&#8217;title:&#8217;查询前缀)；2-url(相当于使用&#8217;inurl:&#8217;查询前缀)；其它值等效于0，默认值为0 ；</li>
<li>q6：搜索内容网站限制。例如q6=www.biaodianfu.com，表示只搜索<a href="http://www.biaodianfu.com/">http://www.biaodianfu.com/</a>的网页；相当于使用了&#8217;site:前缀&#8217;，默认值为空</li>
<li>dq：不建议使用该参数。查询内容来原的地区限制。具体值有百度确定，默认值为空。使用这个参数的效果很差；</li>
<li>oq：相关搜索的主词，例如，搜索“标点符”后点击“标点符号”，出现的相关搜索，用来记录来源词“标点符”，或输入搜索词，输入到一半点推荐关键词的那个词，两个通过出现rsp/rsv_bp进行区分；</li>
<li>rsp：相关搜索词的位置，第一个推荐词为0，第二个为1，以此类推；</li>
<li>usm：在百度搜索任何词从任何一页点到第三页以后的，都会随机出现usm的参数。当usm=0的时候是正常排名 。当usm=1的时候所有排名后移一位，当usm=2的时候排名后移两位，以此类推。而词参数影响排名的效果只对第三页以及第三页以后的有效，也就是说前20名的排名不受词因素影响。此参数具体作用未知；</li>
<li>f：搜索判断，f=8用户自主搜索，f=3下拉框推荐，f=1相关搜索；</li>
<li>rsv_ers：出现的值为rsv_ers=xn0或rsv_ers=xn1，目前还不知道具体的作用。</li>
<li>rs_src：目前看到的都是rs_src=0，此参数与rsv_ers同时出现。</li>
</ul>
<p>目前发现的参数就这么多，以后如有补充，后期会追加，关于Google搜索URL的分析，下篇日志中再发出。</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/google-analytics-organic-referral.html' rel='bookmark' title='Google Analytics中organic和referral的区别'>Google Analytics中organic和referral的区别</a></li>
<li><a href='http://www.biaodianfu.com/joyo-seo.html' rel='bookmark' title='对卓越网的分析【SEO每周一站】'>对卓越网的分析【SEO每周一站】</a></li>
<li><a href='http://www.biaodianfu.com/json.html' rel='bookmark' title='JSON 轻量级的数据交换格式'>JSON 轻量级的数据交换格式</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-url-secret.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度推广跟踪（bdclkid）的分析</title>
		<link>http://www.biaodianfu.com/baidu-bdclkid.html</link>
		<comments>http://www.biaodianfu.com/baidu-bdclkid.html#comments</comments>
		<pubDate>Thu, 14 Jul 2011 04:27:52 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[竞价]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4020</guid>
		<description><![CDATA[百度推广跟踪会将百度推广的每次点击信息以参数（bdclkid）的方式传递到推广目标网页，当推广目标网页的百度统计代码执行时，便会自动建立点击信息与访问数据之间的关联，以实现跟踪百度推广点击的目的。中间收集的数据包括访客通过哪个关键词点击并访问了您网站、该关键词属于哪个推广计划、以及该点击的费用及转化收益等，以便您及时了解百度推广的真实效果。简单的说是一个山寨Google Analytics与Google Adwords的绑定的功能。 在分析前，先猜测下要实现红框中的功能，百度竞价系统至少需要给百度统计提供哪些信息，才能使数据可以串联起来。在分析前除了要考虑上面的呈现外还要考虑是否对百度自身的业务提升起到促进作用。 百度统计可以通过URL获取用户搜索关键词，但是无法获取竞价投放词，所以必须使用参数来传递投放词ID。 考虑到一个关键词会对应对个创意，仅收集关键词是不够的，所以需要对创意ID进行参数传递。 一个关键词可以在多个单元下，而一个单元只能对应一个计划，所以还需要进行传递的参数为单元ID，通过单元ID可以反推计划。 推广URL的速度统计，需要统计点击时间的时间戳，此部分也需要进行参数传递。 百度对竞价广告当前所在的位置也会做相应的收集，虽然这些数据没有在百度统计报告中直接展现给用户。 跟踪参数的分析 百度推广跟踪共有44个字符组成：t3P_J2bt8jQ1Hf1KMr4lfatdv4AK0gsDyu3GoeIXZ_cP 花了一点时间，把百度的参数仔细的一点点拆解，中间帮百度赚了很多钱啊！拆解下来的结论如下： 第一段：随机数 第二段：“_”常量 第三段：单元ID 第四段：时间戳 第五段：IP地址 第六段：“t”常量 第七段：关键词 第八段：“K0gs”常量 第九段：广告位置 第十段：创意ID 分析到这，但是心中还是有疑问的？百度统计自身就可以获取用户IP，为啥还要通过参数传递？是用来判断恶意点击的吗？随机数又是用来干啥的？期待牛人再做细化的分析。 再来说说广告位置字符的含义： c为百度搜索左侧（带背景的推广链接） D为百度搜索左侧（不带背景的推广链接） k为百度搜索右侧 e为百度搜索底部 6为百度知道左侧 Y为百度知道右侧 d为知道内页右侧 V为知道内页底部 o为百度百科右侧 F为百度新闻右侧 X为百度图片上方 7为百度图片下方 A为百度图片内页 Z为百度视频上方 z为百度贴吧上方 s为百度网盟站点 百度的竞价分析系统到此分析完毕，目前能力有限，也只能分析到这地步。再来看看Google的跟踪参数gclid。Google gclid共由26个字符组成：CPvch82S_akCFQEDHAodwkYYzQ 从多次获取的gclid参数来看没有具体的规律，Google采取的方式应该和百度的不一样，百度是先编码再拼接，Google是先拼接再编码。所以找不到它的规律。为唯一的规律是每个字符位置的字符如下（期待有人可以更加深入的进行分析）： 01 [01] C 02 [08] IJKLMNOP 03 [32] -CDGHKLOPSTWX_abefijmnqruvyz2367 04 [64] -CDEFG0ABHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz123456789 [...]]]></description>
			<content:encoded><![CDATA[<p>百度推广跟踪会将百度推广的每次点击信息以参数（bdclkid）的方式传递到推广目标网页，当推广目标网页的百度统计代码执行时，便会自动建立点击信息与访问数据之间的关联，以实现跟踪百度推广点击的目的。中间收集的数据包括访客通过哪个关键词点击并访问了您网站、该关键词属于哪个推广计划、以及该点击的费用及转化收益等，以便您及时了解百度推广的真实效果。简单的说是一个山寨Google Analytics与Google Adwords的绑定的功能。</p>
<p><img class="alignnone size-full wp-image-4021" title="百度统计" src="http://www.biaodianfu.com/wp-content/uploads/2011/07/baidu-ppc.png" alt="" width="338" height="381" /></p>
<p>在分析前，先猜测下要实现红框中的功能，百度竞价系统至少需要给百度统计提供哪些信息，才能使数据可以串联起来。在分析前除了要考虑上面的呈现外还要考虑是否对百度自身的业务提升起到促进作用。</p>
<ol>
<li>百度统计可以通过URL获取用户搜索关键词，但是无法获取竞价投放词，所以必须使用参数来传递投放词ID。</li>
<li>考虑到一个关键词会对应对个创意，仅收集关键词是不够的，所以需要对创意ID进行参数传递。</li>
<li>一个关键词可以在多个单元下，而一个单元只能对应一个计划，所以还需要进行传递的参数为单元ID，通过单元ID可以反推计划。</li>
<li>推广URL的速度统计，需要统计点击时间的时间戳，此部分也需要进行参数传递。</li>
<li>百度对竞价广告当前所在的位置也会做相应的收集，虽然这些数据没有在百度统计报告中直接展现给用户。</li>
</ol>
<p><strong>跟踪参数的分析</strong></p>
<p>百度推广跟踪共有44个字符组成：<span style="color: #00ccff;">t3P</span>_<span style="color: #993366;">J2bt8jQ</span><span style="color: #00ccff;">1Hf1K</span><span style="color: #993366;">Mr4lfa</span>t<span style="color: #00ccff;">dv4A</span>K0gs<span style="color: #00ccff;">D</span><span style="color: #993366;">yu3GoeIXZ_cP</span></p>
<p>花了一点时间，把百度的参数仔细的一点点拆解，中间帮百度赚了很多钱啊！拆解下来的结论如下：</p>
<ul>
<li>第一段：随机数</li>
<li>第二段：“_”常量</li>
<li>第三段：单元ID</li>
<li>第四段：时间戳</li>
<li>第五段：IP地址</li>
<li>第六段：“t”常量</li>
<li>第七段：关键词</li>
<li>第八段：“K0gs”常量</li>
<li>第九段：广告位置</li>
<li>第十段：创意ID</li>
</ul>
<p>分析到这，但是心中还是有疑问的？百度统计自身就可以获取用户IP，为啥还要通过参数传递？是用来判断恶意点击的吗？随机数又是用来干啥的？期待牛人再做细化的分析。</p>
<p><strong>再来说说广告位置字符的含义：</strong></p>
<ul>
<li>c为百度搜索左侧（带背景的推广链接）</li>
<li>D为百度搜索左侧（不带背景的推广链接）</li>
<li>k为百度搜索右侧</li>
<li>e为百度搜索底部</li>
<li>6为百度知道左侧</li>
<li>Y为百度知道右侧</li>
<li>d为知道内页右侧</li>
<li>V为知道内页底部</li>
<li>o为百度百科右侧</li>
<li>F为百度新闻右侧</li>
<li>X为百度图片上方</li>
<li>7为百度图片下方</li>
<li>A为百度图片内页</li>
<li>Z为百度视频上方</li>
<li>z为百度贴吧上方</li>
<li>s为百度网盟站点</li>
</ul>
<p>百度的竞价分析系统到此分析完毕，目前能力有限，也只能分析到这地步。再来看看Google的跟踪参数gclid。Google gclid共由26个字符组成：<span style="color: #3366ff;">CPvch82S_akCFQEDHAodwkYYzQ</span></p>
<p>从多次获取的gclid参数来看没有具体的规律，Google采取的方式应该和百度的不一样，百度是先编码再拼接，Google是先拼接再编码。所以找不到它的规律。为唯一的规律是每个字符位置的字符如下（期待有人可以更加深入的进行分析）：</p>
<ul>
<li>01 [01] C</li>
<li>02 [08] IJKLMNOP</li>
<li>03 [32] -CDGHKLOPSTWX_abefijmnqruvyz2367</li>
<li>04 [64] -CDEFG0ABHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz123456789</li>
<li>05 [32] -0_ghijklmnopqrstuvwxyz123456789</li>
<li>06 [32] -IJKLMNOPYZ_abcdefopqrstuv456789</li>
<li>07 [32] -CDGHKLOPSTWX_abefijmnqruvyz2367</li>
<li>08 [64] -ABCDEFG0HIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz123456789</li>
<li>09 [32] -_ghijklmnopqrstuvwxyz0123456789</li>
<li>10 [04] JZp5</li>
<li>11 [08] IMQUYcgk</li>
<li>12 [01] C</li>
<li>13 [01] F</li>
<li>14 [10] QRSUWYZcde</li>
<li>15 [61] -ABCEFGHIJKLMNOPQRSTUVWXYZ_abcdefghiklmnopqrstuvwxy0123456789</li>
<li>16 [63] -ABCDEFGHIJKLMNOQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz0123456789</li>
<li>17 [17] DFGHIQabgiknrsx57</li>
<li>18 [04] AQgw</li>
<li>19 [01] o</li>
<li>20 [01] d</li>
<li>21 [64] -ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz0123456789</li>
<li>22 [32] ABCDEFGHQRSTUVWXghijklmnwxyz0123</li>
<li>23 [64] -ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz0123456789</li>
<li>24 [64] -ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz0123456789</li>
<li>25 [62] -ABCDEFHIJKLMOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz0123456789</li>
<li>26 [04] AQgw</li>
</ul>
<p>本文的分析过程中，参考了鱼励的另外一篇 <a href="http://yuli.in/webanalytics/%e7%99%be%e5%ba%a6%e7%ab%9e%e4%bb%b7%e9%93%be%e6%8e%a5bdclkid%e5%85%a8%e8%a7%a3%e5%af%86/">百度竞价链接bdclkid全解密</a>  中间的有些观点有些不一致。大家各有各的看法，在此感谢下鱼励，有些东西节省了我很多的时间。</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/ubuntu.html' rel='bookmark' title='ubuntu基于debian的Linux系统'>ubuntu基于debian的Linux系统</a></li>
<li><a href='http://www.biaodianfu.com/open-xml.html' rel='bookmark' title='百度搜索开放平台xml格式规范'>百度搜索开放平台xml格式规范</a></li>
<li><a href='http://www.biaodianfu.com/googlebot-ua-ip.html' rel='bookmark' title='Google蜘蛛UA及IP'>Google蜘蛛UA及IP</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-bdclkid.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>百度搜索研发部：页面价值</title>
		<link>http://www.biaodianfu.com/page-value.html</link>
		<comments>http://www.biaodianfu.com/page-value.html#comments</comments>
		<pubDate>Tue, 07 Jun 2011 16:40:17 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3822</guid>
		<description><![CDATA[搜索引擎每天处理着数以亿计的查询请求，每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候，通过查询返回的网页结果，这些需求被满足了，我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言，页面的价值是指什么，我们为什么要研究页面价值，技术上怎样判断页面的价值呢？本文将逐一回答这些问题。 一、 什么页面价值。 前面我们说了，某个页面满足了某一用户的特定需求，就体现了这个页面对用户的价值。那么对搜索引擎而言，价值体现在哪些方面呢？一个简单的推论，所有可能会对用户产生价值的页面都是对搜索引擎有价值的，将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求，我们称这种价值为检索价值。只要是能解决某个用户信息需求的，并且是可以通过某些正常检索需求到达的，那么就是有检索价值的。 小学生张三喜欢在qzone上写日记，写他前天吃了什么，今天玩了什么。这些内容，是有价值的。它们对张三的家长、同学、老师，以及其他小学生，和对小学生日记感兴趣的人来说，都是有价值的。对于这个信息体来说，“张三”这个名字是检索的“key”。 有一些信息单元，只有“浏览”价值，而没有到达该信息的检索途径，那么该资源可能是有价值的，但检索价值就很低。比如一张百度大厦附近的地图，从浏览角度，是有价值的；但是如果没有任何周边文字说明（或者link的anchor text），只有一张光秃秃的地图，就没有检索价值。当然，如果图片的内容识别技术，有朝一日能自动识别出这个是“百度大厦附近地图”，或者能够自动分析出地图内的各种大厦、街道、餐馆等的名称，那么这张图一样变得有检索价值了。所以一个页面是否有检索价值，应该取决于两点： 信息解读：检索价值通过页面文本进行判断（包括文字说明、链接锚文字、图片Alt属性等），当文字满足一定的条件（简单的判断方法是单页面的文字数量-重复无效文字数量或可以抽取出内容的关键词）才算是有检索价值。 1） 是否能解决某个特定的需求（价值） 2） 是否可以通过某个常规的搜索方式获得该信息（检索） 那么，没有检索价值的页面，是否对搜索引擎就没有价值了呢？仔细想想，答案是否定的。索引只是搜索引擎的一个环节，对于其他环节而言，没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言，有一些页面，本身没有检索价值，但通过这些页面的抓取和分析，能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息，从而节省更多的流量进行更加有效的抓取。 考虑到这种价值可以算作一种“间接的”检索价值，最终还是立足于索引价值的，在本文中就不再展开论述，我们只关注“检索价值”这一根本问题。下文中提到的“页面价值”特指页面的“检索价值”。 信息解读：无检索价值页面会被作为中介被搜索引擎利用。 二、 为什么要研究页面价值 首先，互联网上的页面是无穷尽的，而搜索引擎的硬件资源是有限的，想用有限的资源去覆盖无穷尽的互联网，我们就需要对页面价值做出判断，不收录那些无检索价值的页面，少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。 信息解读：无检索价值页面或低无检索价值页面不收录。 第二，搜索引擎spider的抓取能力是有限的，出于访问友好性的考虑，对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下，抓取或页面更新就需要有一个先后顺序，而这一排序的主要参考依据就是页面价值，或者说对页面价值的预测（未抓取时）。这是页面价值在spider调度方面的应用。 信息解读：抓取的顺序会按页面价值进行排序（这方面可以对照着服务器日志比对下），同事百度会对一些页面进行价值预测。价值预测的方法我们这边也来预测下：1、由高页面价值链向 2、在同一个网站域名下或频道目录下。 第三，对于某些页面，页面内容发生变化，导致它的检索价值从有到无，典型的就是变为“死链”，或者“被 黑”。对于这些页面，好的搜索引擎会在第一时间将其排除出索引，或在检索时对其进行屏蔽，以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面，它不仅具有很高的检索价值，而且有很强的“时效性”，能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言，越快的收录和索引页面意味着越多的额外资源开销，以多快的速度收录和以多短的周期更新索引，需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。 信息解读：百度对内容更改很敏感，当检索价值从有到无时，会被K。造成检索价值从有到无的主要原因：1、页面被删除或弃用 2、蜘蛛不能正常抓取页面。为了保证时效性，百度的抓取频道很可能受百度搜索结果页面的点击量的影响。 最后，普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的，在相关性大体相当的情况下，用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。 信息解读：百度排名优先判断页面的相关性，其实每个页面的相关性差距不大。相关性的主要目的是建立索引。排名的主要影响因素还是在页面价值上。 可以说，页面检索价值的研究是搜索引擎中的一项较为基础的工作，对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。 三、 如何判断页面价值 前文中提到过一个小学生张三qzone日记的例子。我们认为这个页面是有价值的，对张三的同学，朋友，家人都有价值。与此类似的，百度CEO李彦宏在i贴吧上发表一条十几个字的i贴，也是有价值的，对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴长度可能远小于张三的日记，但就这两个页面的价值来说，我们都会有一个共同的认识，即从普遍意义上讲，李彦宏的i贴价值远大于张三的日记。（当然，对于张三的妈妈来说很可能这个价值的关系是相反的） 信息解读：页面价值与受欢迎程度相关，或是潜在关注群体相关。判断条件可能为1、用户搜索结果页点击 2、查询词的搜索量 再举个例子，搜索某个人的手机号码，搜索引擎返回了一个结果，是这个人在某个论坛上的一个回复。虽然这个手机号码关心的人不多，但因为资源是绝对稀缺的，对于关心这个手机号码的查询需求，这个页面是完全不可替代的，因此具有极高的价值。 信息解读：页面价值与资源的稀缺性相关，稀缺的资源具有较高的价值。判断的条件可能是关键词索引量的多少。 另外，页面检索价值，还受到页面质量的影响。相似的页面，对于满足用户需求来说，往往会有很大差异，比如资源下载速度，页面的布局，广告的多寡。这类差异，姑且称之为页面质量。 信息解读：下载速度，页面的布局，广告的多寡这些可作为页面价值判断的标准，其中广告的多寡很容易进行判断、页面的布局页较好判断，但是下载速度受不同运营商的影响可能比较难判断。 最后，有些页面具有明显的公众话题性质，且这些资源往往在刚刚产生时有非常高的关注度，随着时间的推移热度显著下降，有着“新闻”的特征。典型的像各种“门”事件，地震、火灾等大型的自然灾害。我们认为这类资源具有“时效性”特征。 信息解读：页面质量的实效性判断相对比较简单，主要判断的是最近一段时间的搜索量的变化，对于急剧上升的关键词肯那个对用户的价值在近期会很大。 所以，一个页面的检索价值，大致受以下四个要素的影响： 感兴趣的受众群大小 该页面的稀缺程度（可替代性） 该页面的质量高低 该页面的时效性特征强弱 这四种要素，简称受众，稀缺，质量和时效性。 1. 受众 受众群体的大小，即代表了用户检索需求的大小。评价受众的大小主要依据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限于： 网站忠实用户群大小 一般来说，拥有自己忠实用户群的知名网站，他们的成功，在于他们的内容和服务，比别人更能吸引和满足用户。从这个角度来说，我们可以推论，拥有更多忠实用户群的网站上的内容，会比忠实用户群较少的网站上的内容，有更多的既有和潜在受众群。这样的话，忠实用户群大小，就可以变成对站点内资源检索价值的一种衡量指标。忠实用户群的好处在于，它是变动的。如果一个网站变差了，那么用户就会用脚投票。超链有过期问题，作弊问题，而虚假用户群作弊很难。一般所谓的网站知名度，会和忠实用户群数量密切相关。 信息解读：网站流量变化会影响网站的页面价值（考虑到很多网站没有百度统计、百度带给网站的流量页不能考察用户的忠实度，可以考察用户忠实度的应该是二次搜索点击率。） 资源分布规律 我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪新闻首页的那些推介内容。新浪编辑为什么要推这些内容？因为他们认为这些是用户最感兴趣的。那么从索引价值角度而言，相当于有一个庞大的编辑团队，已经对这些内容打上了“符合大众口味”的标签。搜索引擎只需要乐享其成就行了。这样的话，资源相对于某些结构性关键页面（首页、频道页等）的链接深度，也可以成为衡量一个资源受众群大小的指标了。 信息解读：资源的链接深度会影响到受众群体，简单的讲就是页面相对权重，即站内权重。 [...]]]></description>
			<content:encoded><![CDATA[<p>搜索引擎每天处理着数以亿计的查询请求，每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候，通过查询返回的网页结果，这些<strong>需求被满足</strong>了，我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言，页面的价值是指什么，我们为什么要研究页面价值，技术上怎样判断页面的价值呢？本文将逐一回答这些问题。</p>
<p><strong>一、 </strong><strong>什么页面价值。</strong></p>
<p>前面我们说了，某个页面满足了某一用户的特定需求，就体现了这个页面对用户的价值。那么对搜索引擎而言，价值体现在哪些方面呢？一个简单的推论，所有可能会对用户产生价值的页面都是对搜索引擎有价值的，将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求，我们称这种价值为<strong>检索价值</strong>。只要是能解决某个用户信息需求的，并且是可以通过某些正常检索需求到达的，那么就是有检索价值的。</p>
<p>小学生张三喜欢在qzone上写日记，写他前天吃了什么，今天玩了什么。这些内容，是有价值的。它们对张三的家长、同学、老师，以及其他小学生，和对小学生日记感兴趣的人来说，都是有价值的。对于这个信息体来说，“张三”这个名字是检索的“<strong>key</strong>”。</p>
<p>有一些信息单元，只有“浏览”价值，而没有到达该信息的检索途径，那么该资源可能是有<strong>价值</strong>的，但<strong>检索价值</strong>就很低。比如一张百度大厦附近的地图，从浏览角度，是有价值的；但是如果<strong>没有任何周边文字说明（或者link的anchor text），</strong>只有一张光秃秃的地图，就没有检索价值。当然，如果图片的内容识别技术，有朝一日能自动识别出这个是“百度大厦附近地图”，或者能够自动分析出地图内的各种大厦、街道、餐馆等的名称，那么这张图一样变得有检索价值了。所以一个页面是否有检索价值，应该取决于两点：</p>
<p><strong><span style="color: #ff0000;">信息解读：检索价值通过页面文本进行判断（包括文字说明、链接锚文字、图片Alt属性等），当文字满足一定的条件（简单的判断方法是单页面的文字数量-重复无效文字数量或可以抽取出内容的关键词）才算是有检索价值。</span></strong></p>
<p><strong>1） </strong><strong>是否能解决某个特定的需求（价值）</strong></p>
<p><strong>2） </strong><strong>是否可以通过某个常规的搜索方式获得该信息（检索）</strong></p>
<p>那么，没有检索价值的页面，是否对搜索引擎就没有价值了呢？仔细想想，答案是否定的。索引只是搜索引擎的一个环节，对于其他环节而言，没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言，有一些页面，本身没有检索价值，但通过这些页面的抓取和分析，能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息，从而节省更多的流量进行更加有效的抓取。</p>
<p>考虑到这种价值可以算作一种“间接的”检索价值，最终还是立足于索引价值的，在本文中就不再展开论述，我们只关注“检索价值”这一根本问题。下文中提到的“页面价值”特指页面的“检索价值”。</p>
<p><span style="color: #ff0000;"><strong>信息解读：无检索价值页面会被作为中介被搜索引擎利用。</strong></span></p>
<p><strong>二、 </strong><strong>为什么要研究页面价值</strong></p>
<p>首先，互联网上的页面是无穷尽的，而搜索引擎的硬件资源是有限的，想用有限的资源去覆盖无穷尽的互联网，我们就需要对页面价值做出判断，<strong><span style="color: #000000;">不收录那些无检索价值的页面，少收录那些检索价值低的页面。</span></strong>这是页面价值在收录控制方面的应用。</p>
<p><strong><span style="color: #ff0000;">信息解读：无检索价值页面或低无检索价值页面不收录。</span></strong></p>
<p>第二，搜索引擎spider的抓取能力是有限的，出于访问友好性的考虑，对于一个网站或一个IP抓取速率需要有一个<strong>抓取速率的上限</strong>。在这一限制下，<span style="color: #000000;">抓取或页面更新就需要有一个先后顺序，而这一排序的主要参考依据就是页面价值，或者说对页面价值的预测（未抓取时）</span>。这是页面价值在spider调度方面的应用。</p>
<p><strong><span style="color: #ff0000;">信息解读：抓取的顺序会按页面价值进行排序（这方面可以对照着服务器日志比对下），同事百度会对一些页面进行价值预测。价值预测的方法我们这边也来预测下：1、由高页面价值链向 2、在同一个网站域名下或频道目录下。</span></strong></p>
<p>第三，对于某些页面，<span style="color: #000000;"><strong>页面内容发生变化，导致它的检索价值从有到无</strong></span>，典型的就是变为“死链”，或者“被 黑”。对于这些页面，好的搜索引擎会在<span style="color: #000000;"><strong>第一时间</strong></span>将其排除出索引，或在检索时对其进行屏蔽，以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面，它不仅具有很高的检索价值，而且有很强的“时效性”，能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言，越快的收录和索引页面意味着越多的额外资源开销，以多快的速度收录和以多短的周期更新索引，需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。</p>
<p><strong><span style="color: #ff0000;">信息解读：百度对内容更改很敏感，当检索价值从有到无时，会被K。造成检索价值从有到无的主要原因：1、页面被删除或弃用 2、蜘蛛不能正常抓取页面。为了保证时效性，百度的抓取频道很可能受百度搜索结果页面的点击量的影响。</span></strong></p>
<p>最后，普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的，在<strong><span style="color: #ff0000;">相关性</span></strong>大体相当的情况下，用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在<strong><span style="color: #ff0000;">ranking</span></strong>方面的应用。</p>
<p><span style="color: #ff0000;"><strong>信息解读：百度排名优先判断页面的相关性，其实每个页面的相关性差距不大。相关性的主要目的是建立索引。排名的主要影响因素还是在页面价值上。</strong></span></p>
<p>可以说，页面检索价值的研究是搜索引擎中的一项较为基础的工作，对页面价值的认识和判断的准确程度直接影响着搜索引擎的<span style="color: #000000;"><strong>覆盖率、死链率、时效性</strong></span>等几大主要指标。</p>
<p><strong>三、 </strong><strong>如何判断页面价值</strong></p>
<p>前文中提到过一个小学生张三qzone日记的例子。我们认为这个页面是有价值的，对张三的同学，朋友，家人都有价值。与此类似的，百度CEO李彦宏在i贴吧上发表一条十几个字的i贴，也是有价值的，对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴长度可能远小于张三的日记，但就这两个页面的价值来说，我们都会有一个共同的认识，即从普遍意义上讲，李彦宏的i贴价值远大于张三的日记。（当然，对于张三的妈妈来说很可能这个价值的关系是相反的）</p>
<p><strong><span style="color: #ff0000;">信息解读：页面价值与受欢迎程度相关，或是潜在关注群体相关。判断条件可能为1、用户搜索结果页点击 2、查询词的搜索量</span></strong></p>
<p>再举个例子，搜索某个人的手机号码，搜索引擎返回了一个结果，是这个人在某个论坛上的一个回复。虽然这个手机号码关心的人不多，但因为资源是绝对稀缺的，对于关心这个手机号码的查询需求，这个页面是完全不可替代的，因此具有极高的价值。</p>
<p><strong><span style="color: #ff0000;">信息解读：页面价值与资源的稀缺性相关，稀缺的资源具有较高的价值。判断的条件可能是关键词索引量的多少。</span></strong></p>
<p>另外，页面检索价值，还受到页面质量的影响。相似的页面，对于满足用户需求来说，往往会有很大差异，比如资源下载速度，页面的布局，广告的多寡。这类差异，姑且称之为页面质量。</p>
<p><strong><span style="color: #ff0000;">信息解读：下载速度，页面的布局，广告的多寡这些可作为页面价值判断的标准，其中广告的多寡很容易进行判断、页面的布局页较好判断，但是下载速度受不同运营商的影响可能比较难判断。</span></strong></p>
<p>最后，有些页面具有明显的公众话题性质，且这些资源往往在刚刚产生时有非常高的关注度，随着时间的推移热度显著下降，有着“新闻”的特征。典型的像各种“门”事件，地震、火灾等大型的自然灾害。我们认为这类资源具有“时效性”特征。</p>
<p><strong><span style="color: #ff0000;">信息解读：页面质量的实效性判断相对比较简单，主要判断的是最近一段时间的搜索量的变化，对于急剧上升的关键词肯那个对用户的价值在近期会很大。</span></strong></p>
<p>所以，一个页面的检索价值，大致受以下四个要素的影响：</p>
<ul>
<li>感兴趣的受众群大小</li>
<li>该页面的稀缺程度（可替代性）</li>
<li>该页面的质量高低</li>
<li>该页面的时效性特征强弱</li>
</ul>
<p>这四种要素，简称<strong>受众，稀缺，质量和时效性。</strong></p>
<p><strong>1. </strong><strong>受众</strong></p>
<p>受众群体的大小，即代表了用户检索需求的大小。评价受众的大小主要依据信息<strong>发布源的受众</strong>和<strong>信息内容本身受众</strong>两大方面。具体因素包括且不限于：</p>
<p><strong>网站忠实用户群大小</strong></p>
<p>一般来说，拥有自己忠实用户群的知名网站，他们的成功，在于他们的内容和服务，比别人更能吸引和满足用户。从这个角度来说，我们可以推论，拥有更多忠实用户群的网站上的内容，会比忠实用户群较少的网站上的内容，有更多的既有和潜在受众群。这样的话，忠实用户群大小，就可以变成对站点内资源检索价值的一种衡量指标。忠实用户群的好处在于，它是变动的。如果一个网站变差了，那么用户就会用脚投票。超链有过期问题，作弊问题，<strong>而虚假用户群作弊很难</strong>。一般所谓的网站知名度，会和忠实用户群数量密切相关。</p>
<p><strong><span style="color: #ff0000;">信息解读：网站流量变化会影响网站的页面价值（考虑到很多网站没有百度统计、百度带给网站的流量页不能考察用户的忠实度，可以考察用户忠实度的应该是二次搜索点击率。）</span></strong></p>
<p><strong>资源分布规律</strong></p>
<p>我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪新闻首页的那些推介内容。新浪编辑为什么要推这些内容？因为他们认为这些是用户最感兴趣的。那么从索引价值角度而言，相当于有一个庞大的编辑团队，已经对这些内容打上了“符合大众口味”的标签。搜索引擎只需要乐享其成就行了。这样的话，资源相对于某些结构性关键页面（首页、频道页等）的链接深度，也可以成为衡量一个资源受众群大小的指标了。</p>
<p><span style="color: #ff0000;"><strong>信息解读：资源的链接深度会影响到受众群体，简单的讲就是页面相对权重，即站内权重。</strong></span></p>
<p><strong>访问热门度</strong></p>
<p>我们再从访问热门度角度来考虑受众群大小问题。这个是最直接的，当然，它需要第三方的工具来获取关键数据。通过这个途径，获取的不应仅仅是需要入库的页面，还有用户访问一个网站的访问模式。</p>
<p><strong><span style="color: #ff0000;">信息解读：百度统计的目的还有马上要上线的百度分享或是百度工具条都可以作为获取此方面数据的来源。</span></strong></p>
<p><strong>超链</strong></p>
<p>超链某种程度上也是受众群大小的反映。某个资源的质量越高，接触的受众群越大，那么获得正常链接的数量往往也越大。</p>
<p><strong><span style="color: #ff0000;">信息解读：相对于上面的内部权重，这里主要是页面的流行度，可以说是外部权重。</span></strong></p>
<p><strong>内容特征</strong></p>
<p>A：我写博客：“传言郭德纲要上春晚了。”</p>
<p>B：我写博客：“我今天吃早饭了。”</p>
<p>同样的来源，前者的受众必然高于后者。即：当在发布源相同的情况下，具有公众属性的内容分值会更高。</p>
<p><strong><span style="color: #ff0000;">信息解读：包含公众内容的页面价值相对于不包含公众内容的价值要高。</span></strong></p>
<p><strong>2. </strong><strong>稀缺</strong></p>
<p>稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复，稀缺是否等同于无重复，我们应该怎样解读这一概念呢？可以看一个例子：</p>
<p>某人发表了一篇针对某新闻事件的原创博客，随后被新浪转载到了新闻频道。从描述的内容上讲，这是一种重复。但这种重复仅仅是主体内容上的重复，一方面它的转载带来了访问速度、稳定性等方面的增益，并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为<strong>站点增益</strong>。另一方面，它在转载过程中可能会改变页面的标题，而且依托其受众，在转载页面上，还有可能出现更多的有价值评论和回复等，还有可能存在指向其它相关事件的新闻链接。这些可以被称之为<strong>内容增益</strong>。因此即使主题内容没有任何变化，新浪的这次转载也是有价值的，其稀缺度也是较高的。</p>
<p><span style="color: #ff0000;"><strong>信息解读：内容的价值判断不是按照发布的时间或者版权方来衡量的，百度的衡量标准主要是通过站点增益（网站的权重越高越有优势）和内容增益（相关内容或其他相关链接）来度量的。</strong></span></p>
<p>同样，反过来说，如果转载的网站相当不知名，则其无法带来站点名/稳定性/速度的增益。更有甚者，转载之后在页面上加入大量广告妨碍阅读，或者只转载了内容中不完整的一部分，这样的转载，或者说采集，就是纯重复的，与采集源相比，就是没有检索价值的了。</p>
<p><strong><span style="color: #ff0000;">信息解读：百度是对广告有做判断的呃，页面上存在大量的广告肯定影响用户体验，这也是百度不愿看到的。</span></strong></p>
<p>综上所述，对于主体内容重复的页面，我们应该评价其是否存在站点增益和内容增益，只有对于大量完全无增益的重复页面，我们才应该认为其稀缺度较低。</p>
<p><strong>3. </strong><strong>质量</strong></p>
<p>页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低，应该是从最基础的需求依次递进的。</p>
<p>首先，不能是<span style="color: #000000;">死链</span>、网站要有一定的稳定性、访问速度要令人满意。</p>
<p>其次，主体内容是否完整、版式和字体是否易读、各类广告会不会太多。</p>
<p>最后，信息是否丰富、延伸出的次级需求是否满足。</p>
<p>典型的低质量页面存在以下一些特征：</p>
<ul>
<li>主需求无效/未满足（过期分类广告/软件下载页面，<strong>下载链接无效</strong>等）</li>
<li>死链</li>
<li><strong>虚假信息/诈骗等</strong></li>
<li>空页面</li>
<li>站点不稳定</li>
<li>影响主需求的权限问题（下载/浏览需要<span style="color: #000000;"><strong>注册会员/积分</strong></span>等）</li>
<li>信息不完整（<strong>转载不全</strong>等）</li>
<li>浏览体验差（广告/<strong>字体</strong>/页面布局等）</li>
</ul>
<p>典型的高质量页面存在以下一些特征：</p>
<p>访问速度快（页面加载快/资源下载速度快）</p>
<ul>
<li>页面整洁干净，主体内容在显著位置。</li>
<li>页面信息完整。</li>
<li>页面元素丰富（<strong>文字、图片、评论、相关推荐等</strong>）</li>
</ul>
<p><span style="color: #ff0000;"><strong>信息解读：对图文并或相关推荐等增加页面的价值。</strong></span></p>
<p><strong>4. </strong><strong>时效性</strong></p>
<p>“时效性”是页面价值的一个属性，它一般体现在两个方面：一是页面所描述的事物本身有着较强的公众话题性，容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度，随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面，如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前，我们认为该页面具有时效性。</p>
<p>需要说明的是，搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索，而所有的有价值新资源中，有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的，比如介绍如何瘦身的知识性文章，张三的日记。页面价值中的“时效性”指得是一种突发时效性，也就是所有有价值页面中最需要及时收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方，产生最好的性价比。</p>
<p>判断页面的时效性价值，主要通过下面一些途径：</p>
<ul>
<li>页面本身受众是否有短时间的突增，比如超链爆发。妈妈喊你吃饭的帖子就是一个典型的例子。</li>
<li>描述相同事物的互联网页面是否有段时间的突增。妈妈喊你吃饭事件短时间内爆发出大量相关讨论、报道，和这一事件相关的所有内容都具有了时效性属性。</li>
<li>根据一个集合内的页面是否具有上述两种特征，推测该集合的时效性价值。比如魔兽 世界 吧经常爆出一些热门帖子，公 众 话题，我们推测出自魔兽 世界 吧的帖子其时效性“<strong>潜在价值</strong>”比较高。</li>
</ul>
<p><strong>四、 </strong><strong>页面价值的研究重点</strong></p>
<p>前文已经介绍了页面价值的含义，研究的意义与价值判断的方法。最后我们再看一下，从技术角度上，这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面：</p>
<ol>
<li>对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度，这个认识是否全面，对于不断变化的互联网环境与用户需求，这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升，是一个很重要问题。</li>
<li>对于反映页面价值的页面特征提取。巧妇难为无米之炊，挖掘更多的页面特征，更准确合理的特征提取是页面价值判定准确率提升的基础。</li>
<li>对各种页面特征的组合策略（机器学习）。针对不用的应用方向，需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。</li>
</ol>
<p><span style="color: #ff0000;"><strong>看完这篇文章后应该对百度大致的排名影响因素有了了解，其中上述讲到的很多东西可以去实践，去优化。对于百度官方的每一篇网站真的应该好好的去学习研究。</strong></span></p>
<p>原文链接：<a href="http://stblog.baidu-tech.com/?p=392">http://stblog.baidu-tech.com/?p=392</a></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/baidu-seo-index-questions.html' rel='bookmark' title='百度站长俱乐部收录相关问题'>百度站长俱乐部收录相关问题</a></li>
<li><a href='http://www.biaodianfu.com/baidu-seo-link-questions.html' rel='bookmark' title='百度站长俱乐部权重传递相关问题'>百度站长俱乐部权重传递相关问题</a></li>
<li><a href='http://www.biaodianfu.com/the-improvement-for-sorting-algorithm-of-search-engine.html' rel='bookmark' title='基于网页分块的搜索引擎排序算法改进'>基于网页分块的搜索引擎排序算法改进</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/page-value.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>怎样抓取关键词查询量：百度指数的分析</title>
		<link>http://www.biaodianfu.com/baidu-index-theory.html</link>
		<comments>http://www.biaodianfu.com/baidu-index-theory.html#comments</comments>
		<pubDate>Mon, 30 May 2011 04:25:48 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3758</guid>
		<description><![CDATA[获取百度指数中每个关键词的查询量，可能是很多做SEO或PPC的朋友们一直想做的事，但是百度指数并不是那么容易的被抓取，主要是他的查询并不是走的一般的HTTP协议，而是AMF协议，导致给数据抓取造成了一些麻烦。下面就一起来分析到底百度是如何进行查询数据的。 百度指数的趋势分析Flash（http://index.baidu.com/fla/TrendAnalyser.swf）采用了一种股市（stock）类的Flash报表作为原型，并在其基础上结合了自身的特色进行重新开发。 百度指数Flash的完整运行流程如下： 页面加载Flash。 Flash解析HTML中设定的flashvars参数，设定通信网关（http://index.baidu.com/gateway.php，返回数据的url地址）、显示数据时间段，生成图片的网页地址以及调用数据的key（没有注册key将不能获得数据）。 Flash根据参数向服务器（http://index.baidu.com/gateway.php）以POST方式发送请求，参数进行了加密处理。 Gateway返回加密过的数据。 Flash对数据解密，并进过内部运算后显示。 捕捉用户拖拽类型动作，重复3~5。 若用户鼠标悬停在某时间点上，则以GET方式（JSONP调用）。 返回的数据触发页面js脚本(不是直接给flash)的newsReturnCallback函数，参数为返回的json类型数据。数据经过处理后生成新的json数据，再通过js传递给Flash。 Flash解析传入的json数据，显示冒泡窗口，将url地址和标题数据显示出来。 捕捉用户鼠标悬停类型动作，重复7~9。 百度指数的查询请求参数： 如上图所示，百度指数是AMF协议进行通讯。 [0] 为要查询的关键词 [1] 是地区ID，用来限定查询的城市的 [2] 未知 [3] 参数3是时间，通过网页源文件里的eval(DEC()) [4] 5位随机数+md5(参数3+utf8(关键字)+ZZg&#60;XWe7SZcBJ^aH)+5位随机数) 参数4的算法来自于网络，可能不准确，具体可以查看附件中的Flash源代码。大家可以自己分析，分析出来后记得把结果告诉我~ 百度指数的查询返回数据： userIndexes为每天的查询量 mediaIndexes为媒体关注度 相关资料： AMF简介：http://en.wikipedia.org/wiki/Action_Message_Format 开源PHP AMF 程序：http://sourceforge.net/projects/amfphp/ 百度指数flash程序代码：http://t.cn/hDN9UV Related posts: 百度索引库有多大 百度框计算，框的是寂寞 关键词工具整理]]></description>
			<content:encoded><![CDATA[<p>获取百度指数中每个关键词的查询量，可能是很多做SEO或PPC的朋友们一直想做的事，但是百度指数并不是那么容易的被抓取，主要是他的查询并不是走的一般的HTTP协议，而是AMF协议，导致给数据抓取造成了一些麻烦。下面就一起来分析到底百度是如何进行查询数据的。</p>
<p>百度指数的趋势分析Flash（<a href="http://index.baidu.com/fla/TrendAnalyser.swf">http://index.baidu.com/fla/TrendAnalyser.swf</a>）采用了一种股市（stock）类的Flash报表作为原型，并在其基础上结合了自身的特色进行重新开发。</p>
<p><strong>百度指数Flash的完整运行流程如下：</strong></p>
<ol>
<li>页面加载Flash。</li>
<li>Flash解析HTML中设定的flashvars参数，设定通信网关（<a href="http://index.baidu.com/gateway.php">http://index.baidu.com/gateway.php</a>，返回数据的url地址）、显示数据时间段，生成图片的网页地址以及调用数据的key（没有注册key将不能获得数据）。</li>
<li>Flash根据参数向服务器（http://index.baidu.com/gateway.php）以POST方式发送请求，参数进行了加密处理。</li>
<li>Gateway返回加密过的数据。</li>
<li>Flash对数据解密，并进过内部运算后显示。</li>
<li>捕捉用户拖拽类型动作，重复3~5。</li>
<li>若用户鼠标悬停在某时间点上，则以GET方式（JSONP调用）。</li>
<li>返回的数据触发页面js脚本(不是直接给flash)的newsReturnCallback函数，参数为返回的json类型数据。数据经过处理后生成新的json数据，再通过js传递给Flash。</li>
<li>Flash解析传入的json数据，显示冒泡窗口，将url地址和标题数据显示出来。</li>
<li>捕捉用户鼠标悬停类型动作，重复7~9。</li>
</ol>
<p><strong>百度指数的查询请求参数：</strong></p>
<p><img class="alignnone size-full wp-image-3759" title="baidu-index-request" src="http://www.biaodianfu.com/wp-content/uploads/2011/05/baidu-index-request.png" alt="" width="462" height="265" /></p>
<p>如上图所示，百度指数是AMF协议进行通讯。</p>
<ul>
<li>[0] 为要查询的关键词</li>
<li>[1] 是地区ID，用来限定查询的城市的</li>
<li>[2] 未知</li>
<li>[3] 参数3是时间，通过网页源文件里的eval(DEC())</li>
<li>[4] 5位随机数+md5(参数3+utf8(关键字)+ZZg&lt;XWe7SZcBJ^aH)+5位随机数)</li>
</ul>
<p>参数4的算法来自于网络，可能不准确，具体可以查看附件中的Flash源代码。大家可以自己分析，分析出来后记得把结果告诉我~</p>
<p><strong>百度指数的查询返回数据：</strong></p>
<p><img class="alignnone size-full wp-image-3760" title="baidu-index-response" src="http://www.biaodianfu.com/wp-content/uploads/2011/05/baidu-index-response.png" alt="" width="518" height="304" /></p>
<ul>
<li>userIndexes为每天的查询量</li>
<li>mediaIndexes为媒体关注度</li>
</ul>
<p><strong>相关资料：</strong></p>
<ul>
<li>AMF简介：<a href="http://en.wikipedia.org/wiki/Action_Message_Format">http://en.wikipedia.org/wiki/Action_Message_Format</a></li>
<li>开源PHP AMF 程序：<a href="http://sourceforge.net/projects/amfphp/">http://sourceforge.net/projects/amfphp/</a></li>
<li>百度指数flash程序代码：<a title="http://vdisk.me/?m=t&amp;a=get_share_file&amp;ss=60fefUHApDhr2NrZ8srg0--2BsDt39rkNh0P3Yj1jP1goY--2FVa54MzX03bpZMlHwcm88XXM" href="http://t.cn/hDN9UV?u=1622094042" target="_blank">http://t.cn/hDN9UV</a></li>
</ul>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/baidu-index-database.html' rel='bookmark' title='百度索引库有多大'>百度索引库有多大</a></li>
<li><a href='http://www.biaodianfu.com/baidu-box-computing.html' rel='bookmark' title='百度框计算，框的是寂寞'>百度框计算，框的是寂寞</a></li>
<li><a href='http://www.biaodianfu.com/keyword-tools.html' rel='bookmark' title='关键词工具整理'>关键词工具整理</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-index-theory.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>百度遵守的蜘蛛访问协议</title>
		<link>http://www.biaodianfu.com/baidu-robots.html</link>
		<comments>http://www.biaodianfu.com/baidu-robots.html#comments</comments>
		<pubDate>Tue, 03 May 2011 04:47:12 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3663</guid>
		<description><![CDATA[禁止搜索引擎收录的方法 什么是robots.txt文件? 搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。 robots.txt文件放在哪里? robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站（比如http://www.abc.com）时，首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件，如果Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。 我在robots.txt中设置了禁止百度收录我网站的内容，为何还出现在百度搜索结果中？ 如果其他网站链接了您robots.txt文件中设置的禁止收录的网页，那么这些网页仍然可能会出现在百度的搜索结果中，但您的网页上的内容不会被抓取、建入索引和显示，百度搜索结果中展示的仅是其他网站对您相关网页的描述。 备注：这就是为什么还可以使用百度搜索淘宝网的原因。 禁止搜索引擎跟踪网页的链接，而只对网页建索引 如果您不想搜索引擎追踪此网页上的链接，且不传递链接的权重，请将此元标记置入网页的 &#60;HEAD&#62; 部分：&#60;meta name=”robots” content=”nofollow”&#62; 如果您不想百度追踪某一条特定链接，百度还支持更精确的控制，请将此标记直接写在某条链接上： &#60;a href=”signin.php” rel=”nofollow“&#62;sign in&#60;/a&#62; 要允许其他搜索引擎跟踪，但仅防止百度跟踪您网页的链接，请将此元标记置入网页的 &#60;HEAD&#62; 部分：&#60;meta name=”Baiduspider” content=”nofollow”&#62; 禁止搜索引擎在搜索结果中显示网页快照，而只对网页建索引 要防止所有搜索引擎显示您网站的快照，请将此元标记置入网页的 &#60;HEAD&#62; 部分：&#60;meta name=”robots” content=”noarchive”&#62; 要允许其他搜索引擎显示快照，但仅防止百度显示，请使用以下标记：&#60;meta name=”Baiduspider” content=”noarchive“&#62; 注：此标记只是禁止百度显示该网页的快照，百度会继续为网页建索引，并在搜索结果中显示网页摘要。 我想禁止百度图片搜索收录某些图片，该如何设置？ 禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现，请参考“robots.txt文件用法举例”中的例10、11、12。 我在robots.txt中设置了禁止百度收录我网站的内容，为何还出现在百度搜索结果中？ 如果其他网站链接了您robots.txt文件中设置的禁止收录的网页，那么这些网页仍然可能会出现在百度的搜索结果中，但您的网页上的内容不会被抓取、建入索引和显示，百度搜索结果中展示的仅是其他网站对您相关网页的描述。 robots.txt文件的格式 “robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：”&#60;field&#62;:&#60;optionalspace&#62;&#60;value&#62;&#60;optionalspace&#62;”。 在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下： User-agent:该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中，加入”User-agent:SomeBot”和若干Disallow、Allow行，那么名为”SomeBot”只受到”User-agent:SomeBot”后面的Disallow和Allow行的限制。 Disallow:该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html，而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url，在”/robots.txt”文件中，至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。 Allow:该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。 需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。 使用”*”和”$”： Baiduspider支持使用通配符”*”和”$”来模糊匹配url。 ”$” 匹配行结束符。”*” 匹配0或多个任意字符。 更多robots.txt使用方法请查考：http://www.robotstxt.org/ 本文出处：http://www.baidu.com/search/robots.html Related posts: [...]]]></description>
			<content:encoded><![CDATA[<p><strong>禁止搜索引擎收录的方法</strong></p>
<p><strong>什么是robots.txt文件?</strong></p>
<p>搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。</p>
<p><strong>robots.txt文件放在哪里? </strong></p>
<p>robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站（比如http://www.abc.com）时，首先会检查该网站中是否存在<a href="http://www.abc.com/robots.txt">http://www.abc.com/robots.txt</a>这个文件，如果Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。</p>
<p><strong>我在robots.txt中设置了禁止百度收录我网站的内容，为何还出现在百度搜索结果中？</strong></p>
<p>如果其他网站链接了您robots.txt文件中设置的禁止收录的网页，那么这些网页仍然可能会出现在百度的搜索结果中，但您的网页上的内容不会被抓取、建入索引和显示，<span style="color: #ff0000;">百度搜索结果中展示的仅是其他网站对您相关网页的描述</span>。</p>
<p><span style="color: #ff0000;">备注：这就是为什么还可以使用百度搜索淘宝网的原因。</span></p>
<p><strong>禁止搜索引擎跟踪网页的链接，而只对网页建索引</strong></p>
<p>如果您不想搜索引擎追踪此网页上的链接，且不传递链接的权重，请将此元标记置入网页的 <em>&lt;HEAD&gt;</em> 部分：<em>&lt;meta name=”robots” content=”nofollow”&gt;</em></p>
<p>如果您不想百度追踪某一条特定链接，百度还支持更精确的控制，请将此标记直接写在某条链接上： &lt;<em>a href=”signin.php” rel=”<span style="color: #ff0000;">nofollow</span>“&gt;sign in</em>&lt;/a&gt;</p>
<p>要允许其他搜索引擎跟踪，但仅防止百度跟踪您网页的链接，请将此元标记置入网页的 <em>&lt;HEAD&gt;</em> 部分：<em>&lt;meta name=”Baiduspider” content=”nofollow”&gt;</em></p>
<p><strong>禁止搜索引擎在搜索结果中显示网页快照，而只对网页建索引</strong></p>
<p>要防止所有搜索引擎显示您网站的快照，请将此元标记置入网页的 <em>&lt;HEAD&gt;</em> 部分：<em>&lt;meta name=”robots” content=”noarchive”&gt;</em></p>
<p>要允许其他搜索引擎显示快照，但仅防止百度显示，请使用以下标记：<em>&lt;meta name=”Baiduspider” content=”<span style="color: #ff0000;">noarchive</span>“&gt;</em></p>
<p><strong>注：</strong>此标记只是禁止百度显示该网页的快照，百度会继续为网页建索引，并在搜索结果中显示网页摘要。</p>
<p><strong>我想禁止百度图片搜索收录某些图片，该如何设置？</strong></p>
<p>禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现，请参考“robots.txt文件用法举例”中的例10、11、12。</p>
<p><strong>我在robots.txt中设置了禁止百度收录我网站的内容，为何还出现在百度搜索结果中？</strong></p>
<p>如果其他网站链接了您robots.txt文件中设置的禁止收录的网页，那么这些网页仍然可能会出现在百度的搜索结果中，但您的网页上的内容不会被抓取、建入索引和显示，百度搜索结果中展示的仅是其他网站对您相关网页的描述。</p>
<p><strong>robots.txt文件的格式</strong></p>
<p>“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：”&lt;field&gt;:&lt;optionalspace&gt;&lt;value&gt;&lt;optionalspace&gt;”。</p>
<p>在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：</p>
<p>User-agent:该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中，加入”User-agent:SomeBot”和若干Disallow、Allow行，那么名为”SomeBot”只受到”User-agent:SomeBot”后面的Disallow和Allow行的限制。</p>
<p>Disallow:该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html，而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url，在”/robots.txt”文件中，至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。</p>
<p>Allow:该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。</p>
<p>需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。</p>
<p>使用”*”和”$”： Baiduspider支持使用通配符”*”和”$”来模糊匹配url。 ”$” 匹配行结束符。”*” 匹配0或多个任意字符。</p>
<p><strong>更多robots.txt使用方法请查考：<a href="http://www.robotstxt.org/">http://www.robotstxt.org/</a></strong></p>
<p><strong>本文出处：<a href="http://www.baidu.com/search/robots.html">http://www.baidu.com/search/robots.html</a></strong></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/wordpress-robots-txt.html' rel='bookmark' title='我的wordpress所使用的robots.txt'>我的wordpress所使用的robots.txt</a></li>
<li><a href='http://www.biaodianfu.com/baidu-seo-link-questions.html' rel='bookmark' title='百度站长俱乐部权重传递相关问题'>百度站长俱乐部权重传递相关问题</a></li>
<li><a href='http://www.biaodianfu.com/delay-yahoo-slurp-crawl.html' rel='bookmark' title='减少雅虎蜘蛛的抓取频率的方法'>减少雅虎蜘蛛的抓取频率的方法</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-robots.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度site指令查收录的问题汇总</title>
		<link>http://www.biaodianfu.com/baidu-site-index.html</link>
		<comments>http://www.biaodianfu.com/baidu-site-index.html#comments</comments>
		<pubDate>Tue, 03 May 2011 04:30:15 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[收录]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3661</guid>
		<description><![CDATA[我知道大多数站长，会使用不带关键词的site语法来进行收录量观察。这是一种方法，但很不准确。site语法设定的初衷，其实是期望用户可以设定约束搜索范围，实现更加精准的搜索。这同intitle，inurl，本质上是相同的。而在这些高级语法下的结果数，和常规搜索一样，都是“估值”，而非精确值。因此，很有可能site下的“结果数”减少了，实际被索引数却可能增加了。 更加精确的方法是什么呢？ 1，对来自搜索引擎的流量进行监控。这是最直接和本质的。如果流量没有大的波动，而site下的数值发生巨大波动，这只能说明site搜索结果数的不精确性。 2，对站内url进行抽样监控。有些url已经被搜索引擎收录了，那么取出一个集合，作为收录状态监控集；每天的新url尚未被收录，也可以对其进行索引状态的监控。脚本是很容易写的，这种基于抽样的评估也是很有效的。 3，由搜索引擎提供的统计工具。我们是否应该提供类似统计工具，目前还在评估中。 RE： 1、如果流量没有大的波动，但实际上新的页面是已经被收录，只是因为排名不好，所以并没有流量过来，这样子的话也不能说site的结果不准?只能说是权重不够高。因为一个新站，前期一定只是一个积累的过程，可能流量并不是那么的重要，但是收录的确还是很重要的。代表的是，你已经进入了百度的索引了。 2、url抽样监控，这样子的一个收录监控方式，我想，对于我们这些小站长或是个人站长来说，在现阶段来说，在高手眼里的小技术的脚本，可能就是一座难以逾越的大山。而互联网上，因为来说草根站长是占了绝大的一部分。 3、如果是百度提供类似统计工具，我相信站长们都是无上欢迎的。 4、其实site来说，对于站长本身，很大一部分就是让自己心里有了一个底，可以用一个脚本来替换得到更准确的值的确是可行的，而且自己是可以通过流量统计后台来实现成效的检验的。但是有一点可能被您给忽略了，site用的最多的场合不是自用，而是交换友情链接的时候用的。估计很小部分的人会交换一个友情从而去动用脚本去检测索引对方网站的具体数据，这一块，要如何更好地解决呢? RE： 1，已经强调过很多次了，百度site语法的结果数不准。而且这种不准的幅度甚至不是稳定的，可能今天比较接近真实值，明天就发生大波动了。其中的原因不便多解释，但是请不必再就这个问题反复提问了。 2，没有想像那么难。连备案这种复杂的事情都能搞定，学点脚本编程，实在不算什么。而且，作为站长，如果想深入的研究sem，我可以坦白的讲，数据分析是必须的。在网络上搜到的东鳞西爪的所谓seo技巧，大多是别人嚼剩下的、没什么大用的、甚至有害的东西。站长要学会的首要事情之一，是对自己的网站日志做深入解剖，并能针对问题做各种实验和分析。 3，略。 4，有一点可以肯定，索引结果数肯定不会是一个网站在搜索引擎中的站点评级指标。这是很容易理解的。举个例子，site:www.126.com，就几百条而已。从投票权角度，它的权重会低于大部分索引了成千上万网页的站点？所以站长若要搞搞友情链接，更重要的是用自己的经验去做价值分析——他是想捞一票就走的，还是想正经在互联网上立立腕儿的。 请问为什么site:www.domain.com 的结果要比 site:www.domain.com+关键词 的结果少很多。site:  www.domain.com+关键词 的结果，有参与到搜索结果的排序中来吗？ 第一个问题，正是体现了百度site搜索时计算结果数的不准确，完全是反常识的。 第二个问题，site本意起到限定作用，那么“abc site:www.domain.com”的意思，即是“在www.domain.com的限定集内，abc搜索结果按权值高低的正常排序”。 site不带任何参数的情况下的结果是按照权值高低来进行排列的吗？site后第一名不是首页，是网站被降权了的一种体现吗？ 无关键词的site搜索，结果排序你可以看做是“随机”的。这个策略我们会改的。 信息解读： 1）百度的site指令不太准，也没按照权重进行排序（现在好像改过来了），可以使用类似 site:www.biaodianfu.com + 进行收录查询。 2）百度已经有查收录准确的工具了，但是需要使用百度统计非常的无语，这种捆绑的行为可想而知。 3）收录的关注不应该太大，只有当新上页面或改变的时候才去关注，平时每天关注没有什么意义。 Related posts: 百度站长俱乐部重复页面相关问题 domain指令与link指令 ISAPI Rewrite 3 ,IIS服务器URL重写模块]]></description>
			<content:encoded><![CDATA[<p>我知道大多数站长，会使用不带关键词的site语法来进行收录量观察。这是一种方法，但很不准确。site语法设定的初衷，其实是期望用户可以设定约束搜索范围，实现更加精准的搜索。这同intitle，inurl，本质上是相同的。而在这些高级语法下的结果数，和常规搜索一样，都是“估值”，而非精确值。因此，很有可能site下的“结果数”减少了，实际被索引数却可能增加了。</p>
<p><strong>更加精确的方法是什么呢？</strong></p>
<p>1，对来自搜索引擎的流量进行监控。这是最直接和本质的。如果流量没有大的波动，而site下的数值发生巨大波动，这只能说明site搜索结果数的不精确性。</p>
<p>2，对站内url进行抽样监控。有些url已经被搜索引擎收录了，那么取出一个集合，作为收录状态监控集；每天的新url尚未被收录，也可以对其进行索引状态的监控。脚本是很容易写的，这种基于抽样的评估也是很有效的。</p>
<p>3，由搜索引擎提供的统计工具。我们是否应该提供类似统计工具，目前还在评估中。</p>
<p><strong>RE：</strong></p>
<p>1、如果流量没有大的波动，但实际上新的页面是已经被收录，只是因为排名不好，所以并没有流量过来，这样子的话也不能说site的结果不准?只能说是权重不够高。因为一个新站，前期一定只是一个积累的过程，可能流量并不是那么的重要，但是收录的确还是很重要的。代表的是，你已经进入了百度的索引了。</p>
<p>2、url抽样监控，这样子的一个收录监控方式，我想，对于我们这些小站长或是个人站长来说，在现阶段来说，在高手眼里的小技术的脚本，可能就是一座难以逾越的大山。而互联网上，因为来说草根站长是占了绝大的一部分。</p>
<p>3、如果是百度提供类似统计工具，我相信站长们都是无上欢迎的。</p>
<p>4、其实site来说，对于站长本身，很大一部分就是让自己心里有了一个底，可以用一个脚本来替换得到更准确的值的确是可行的，而且自己是可以通过流量统计后台来实现成效的检验的。但是有一点可能被您给忽略了，site用的最多的场合不是自用，而是交换友情链接的时候用的。估计很小部分的人会交换一个友情从而去动用脚本去检测索引对方网站的具体数据，这一块，要如何更好地解决呢?</p>
<p><strong>RE：</strong></p>
<p>1，已经强调过很多次了，百度site语法的结果数不准。而且这种不准的幅度甚至不是稳定的，可能今天比较接近真实值，明天就发生大波动了。其中的原因不便多解释，但是请不必再就这个问题反复提问了。</p>
<p>2，没有想像那么难。连备案这种复杂的事情都能搞定，学点脚本编程，实在不算什么。而且，作为站长，如果想深入的研究sem，我可以坦白的讲，数据分析是必须的。在网络上搜到的东鳞西爪的所谓seo技巧，大多是别人嚼剩下的、没什么大用的、甚至有害的东西。站长要学会的首要事情之一，是对自己的网站日志做深入解剖，并能针对问题做各种实验和分析。</p>
<p>3，略。</p>
<p>4，有一点可以肯定，索引结果数肯定不会是一个网站在搜索引擎中的站点评级指标。这是很容易理解的。举个例子，site:www.126.com，就几百条而已。从投票权角度，它的权重会低于大部分索引了成千上万网页的站点？所以站长若要搞搞友情链接，更重要的是用自己的经验去做价值分析——他是想捞一票就走的，还是想正经在互联网上立立腕儿的。</p>
<p><strong>请问为什么site:www.domain.com 的结果要比 site:www.domain.com+关键词 的结果少很多。site:  www.domain.com+关键词 的结果，有参与到搜索结果的排序中来吗？</strong></p>
<p>第一个问题，正是体现了百度site搜索时计算结果数的不准确，完全是反常识的。</p>
<p>第二个问题，site本意起到限定作用，那么“abc site:www.domain.com”的意思，即是“在www.domain.com的限定集内，abc搜索结果按权值高低的正常排序”。</p>
<p><strong>site不带任何参数的情况下的结果是按照权值高低来进行排列的吗？site后第一名不是首页，是网站被降权了的一种体现吗？</strong></p>
<p>无关键词的site搜索，结果排序你可以看做是“随机”的。这个策略我们会改的。</p>
<p><span style="color: #ff0000;"><strong>信息解读：</strong></span></p>
<p><strong>1）百度的site指令不太准，也没按照权重进行排序（现在好像改过来了），可以使用类似 <em>site:www.biaodianfu.com + </em>进行收录查询。</strong></p>
<p><strong>2）百度已经有查收录准确的工具了，但是需要使用百度统计非常的无语，这种捆绑的行为可想而知。</strong></p>
<p><strong>3）收录的关注不应该太大，只有当新上页面或改变的时候才去关注，平时每天关注没有什么意义。</strong></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/baidu-seo-duplication-questions.html' rel='bookmark' title='百度站长俱乐部重复页面相关问题'>百度站长俱乐部重复页面相关问题</a></li>
<li><a href='http://www.biaodianfu.com/domain-link.html' rel='bookmark' title='domain指令与link指令'>domain指令与link指令</a></li>
<li><a href='http://www.biaodianfu.com/isapi-rewrite-3.html' rel='bookmark' title='ISAPI Rewrite 3 ,IIS服务器URL重写模块'>ISAPI Rewrite 3 ,IIS服务器URL重写模块</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-site-index.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度站长俱乐部排名相关问题</title>
		<link>http://www.biaodianfu.com/baidu-seo-ranking-questions.html</link>
		<comments>http://www.biaodianfu.com/baidu-seo-ranking-questions.html#comments</comments>
		<pubDate>Mon, 02 May 2011 12:02:42 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[排名]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3659</guid>
		<description><![CDATA[请问是否有SEO这么一说,看现在花花绿绿的SEO文章,以及一些SEO的公司，难道真的可以通过某种技巧达到某个好的排名 的确有seo一说，也的确有这种“效果”。但是想做长青树的站长应时刻记得这样一个问题：SEO是手段，不是目的；目的是留住用户，并成就自己的生意。如果你想做长期买卖，而短期手段是对目标有侵害的，那么即便短期有收益，也应忌用。目前的seo中，对从搜索引擎如何获取流量，讨论颇多；如何借用搜索引擎的力量，更好的促成自己的事业，却很少讨论。这是一个不健康的状态。我们之所以开通这个俱乐部，也有这个期望，能对当下之风气产生一些影响，使踏踏实实做事的人，更有收获。百度作为这个市场上支配性的一个角色，也理应担起这个责任。 网站排名为什么会剧烈下跌？ 合理的判断原则就是：这个关键词以及对应的资源，以及相应的排序，对用户而言，是否是有价值的？如果是，那么这种波动是有问题的；如果否，那么就是正常的。 百度11位现象是怎么回事？ 这是一个很有意思的“术语”。作为搜索引擎，10位还是11位不是关键，关键是用户体验。作为站长，在看待网站排序的时候，如果不仅仅是从自己的利益角度出发，也能从一个普通用户角度出发，那么我们相信，大家就能找到更多的共鸣了。呵呵。 被降权的网站要多长时间恢复？ 有自动check和释放机制，但之后会有一个观察期。若在观察期内未发现作奸犯科，就会以常规资源对待吧。此外，惩罚机制会越来越趋于合理化，而不是简单一棍子打死。 百度对网站权重判断是从那几个方面来判断的，侧重点于那些？ 我们对网站的判断，是多方面综合的，网站的稳定程度，内容及页面的质量等等都在我们的考量范围内。 网站某些频道权重被下调且排名大幅下降许多站长都有过网站排名突然整体下滑的经历，本来排名很好的页面，一夜之间大部分页面排名找不到，只有少部分页面排名还能找到，但一般也只是在第11位。这期间甚至对网站没有做过任何的修改，内部原因的可能性不大。原因众说纷纭，有说是被百度人工干预了，被拔毛、被降权，也有说是百度算法更新导致的。请问lee老大，这种详情页面排名突然大批量大幅度下降的情况主要是什么原因导致的？如果是网站自己的原因，该从什么地方检查？ “大批量”“大幅度”这类形容词对于不同站点意义是不同的。这里无法简单给出“正常”或“异常”判断。我们对网站以及页面在收录和排名上的判断有非常多策略，发生网页排名波动的原因多种多样，有可能是百度的排序算法做了某些变化导致的整体波动，有可能是某个网站自身的问题。可以检查一下自己的网站，是否服务运行稳定（包括安全因素，如是否被黑被挂马），是否存在“低质量”“作弊”页面，等等。 百度网页搜索网页排序问题FAQ http://www.baidu.com/search/guide.html#2 百度在针对一些关键词排名 不能很好的去重   导致搜索一个关键词 很多时候一个站 多个2级域名重复参与排序   一个站就占据了起码多个排序位置（最多见过6-7个的） 我们是倾向于在满足查询相关性的前提下，提供丰富结果的。对此类问题，也是我们未来致力于改进的地方。 信息解读： 1）百度11位现象与用户体验相关，造成用户体验差的很可能原因是目标页面不是用户想要的。即用户打开了A页面后又回到了百度进入B页面，如果这样的量过多，应该会产生11位现象。这个是我的乱猜的。 2）百度目前不能解决一个站多个排名的现象，这一点还是可以使用二级域名利用下的。 No related posts.]]></description>
			<content:encoded><![CDATA[<p><strong>请问是否有</strong><strong>SEO</strong><strong>这么一说</strong><strong>,</strong><strong>看现在花花绿绿的</strong><strong>SEO</strong><strong>文章</strong><strong>,</strong><strong>以及一些</strong><strong>SEO</strong><strong>的公司，难道真的可以通过某种技巧达到某个好的排名</strong></p>
<p>的确有seo一说，也的确有这种“效果”。但是想做长青树的站长应时刻记得这样一个问题：SEO是手段，不是目的；目的是留住用户，并成就自己的生意。如果你想做长期买卖，而短期手段是对目标有侵害的，那么即便短期有收益，也应忌用。目前的seo中，对从搜索引擎如何获取流量，讨论颇多；如何借用搜索引擎的力量，更好的促成自己的事业，却很少讨论。这是一个不健康的状态。我们之所以开通这个俱乐部，也有这个期望，能对当下之风气产生一些影响，使踏踏实实做事的人，更有收获。百度作为这个市场上支配性的一个角色，也理应担起这个责任。</p>
<p><strong>网站排名为什么会剧烈下跌？</strong></p>
<p>合理的判断原则就是：这个关键词以及对应的资源，以及相应的排序，对用户而言，是否是有价值的？如果是，那么这种波动是有问题的；如果否，那么就是正常的。</p>
<p><strong>百度11位现象是怎么回事？</strong></p>
<p>这是一个很有意思的“术语”。作为搜索引擎，10位还是11位不是关键，关键是用户体验。作为站长，在看待网站排序的时候，如果不仅仅是从自己的利益角度出发，也能从一个普通用户角度出发，那么我们相信，大家就能找到更多的共鸣了。呵呵。</p>
<p><strong>被降权的网站要多长时间恢复？</strong></p>
<p>有自动check和释放机制，但之后会有一个观察期。若在观察期内未发现作奸犯科，就会以常规资源对待吧。此外，惩罚机制会越来越趋于合理化，而不是简单一棍子打死。</p>
<p><strong>百度对网站权重判断是从那几个方面来判断的，侧重点于那些？</strong></p>
<p>我们对网站的判断，是多方面综合的，网站的稳定程度，内容及页面的质量等等都在我们的考量范围内。</p>
<p><strong>网站某些频道权重被下调且排名大幅下降</strong>许多站长都有过网站排名突然整体下滑的经历，本来排名很好的页面，一夜之间大部分页面排名找不到，只有少部分页面排名还能找到，但一般也只是在第11位。这期间甚至对网站没有做过任何的修改，内部原因的可能性不大。原因众说纷纭，有说是被百度人工干预了，被拔毛、被降权，也有说是百度算法更新导致的。<strong>请问lee老大，这种详情页面排名突然大批量大幅度下降的情况主要是什么原因导致的？如果是网站自己的原因，该从什么地方检查？</strong></p>
<p>“大批量”“大幅度”这类形容词对于不同站点意义是不同的。这里无法简单给出“正常”或“异常”判断。我们对网站以及页面在收录和排名上的判断有非常多策略，发生网页排名波动的原因多种多样，有可能是百度的排序算法做了某些变化导致的整体波动，有可能是某个网站自身的问题。可以检查一下自己的网站，是否服务运行稳定（包括安全因素，如是否被黑被挂马），是否存在“低质量”“作弊”页面，等等。<br />
百度网页搜索网页排序问题FAQ <a href="http://www.baidu.com/search/guide.html#2">http://www.baidu.com/search/guide.html#2</a></p>
<p><strong>百度在针对一些关键词排名 不能很好的去重   导致搜索一个关键词 很多时候一个站 多个2级域名重复参与排序   一个站就占据了起码多个排序位置（最多见过6-7个的）</strong></p>
<p>我们是倾向于在满足查询相关性的前提下，提供丰富结果的。对此类问题，也是我们未来致力于改进的地方。</p>
<p><span style="color: #ff0000;"><strong>信息解读：</strong></span></p>
<p><strong>1）百度11位现象与用户体验相关，造成用户体验差的很可能原因是目标页面不是用户想要的。即用户打开了A页面后又回到了百度进入B页面，如果这样的量过多，应该会产生11位现象。这个是我的乱猜的。</strong></p>
<p><strong>2）百度目前不能解决一个站多个排名的现象，这一点还是可以使用二级域名利用下的。</strong></p>
<p>No related posts.</p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-seo-ranking-questions.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度站长俱乐部策略相关问题</title>
		<link>http://www.biaodianfu.com/baidu-seo-strategy-questions.html</link>
		<comments>http://www.biaodianfu.com/baidu-seo-strategy-questions.html#comments</comments>
		<pubDate>Mon, 02 May 2011 11:40:59 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3650</guid>
		<description><![CDATA[链接点击率是否计入排名算法 百度是否有会估算某网页的某个反向链接被点击次数（例如：从工具条、流量统计等工具得到的部分数据）？比如是否把链接的点击率计入算法之中？是否会利用这点来判断哪些是隐藏链接？或者判断外链的相关性等因素。 我只能说，一切有利于排序改进的因素，都有可能被搜索引擎尝试应用。 百度是不是调整了对新站的策略 搜索引擎策略一天一小变，一月一大变。我真的说不好这种现象是什么策略造成的。但我们在制定策略的时候，评价标准只是对用户搜索需求满足有怎样的影响，而不会去评价对某个站长的利益有怎样的影响。这一点请大家谅解。 经过近一年的观察发现，百度对于普通中小站点中内页建立索引比较慢，相反，一些大站的内页很容易建立索引获得排名，百度是否对于内页赋予的权重很低（相对于首页）？尤其是新站？在百度上搜索，我们经常会发现：搜索结果显示的网页往往都是网站首页（主域名）或频道首页（二级域名），而内容页出现的几率很低，这跟Google有很大的区别，区别在于用户到达网站的起始页的层级不同，这决定着 用户获取“既定信息”所需的时间长短；为什么百度不更多的在搜索结果里提炼出有效的内容页来直接展示给用户？还是有UE方面的深入考虑？ 一个普通用户，如果用你的关键词去搜，怎样的结果是合理的？如果你不喜欢的结果，恰是用户所喜欢的，那么除非版权问题之类，否则很难得到解决；如果你不喜欢的结果，也是普通用户所不喜欢的，那么这是一个会被百度关注的问题。其实百度没啥神秘的，用这个逻辑可以解决一堆的猜想。 关于新站内页的疑问百度对新站的收录，在内页方面存在困难，首页可以很快收录，但就是不收录内页，而且快照时间戳也一直停留在首页被收录的时间档。网站更新以及链接方面都在持续操作。想问下，这是百度对新站考核的一种机制还是程序本身的BUG。 山贼入伙，还需要“投名状”呢；入搜索引擎的伙，也得要点考察期吧。 对于网站主域名是不是比目录更有优势? 在一些搜索结果中，观察一些地区的大型网站首页（首页是个目录）比不过小网站的首页，大网站的权重之说似乎不足说明这个，小网站基本不用靠什么资源就能在第一页，不知道这算不算是ＢＵＧ, 反之，在Google中不会出现这样的情况。 你觉得从用户体验角度出发，理想情况下应该是怎样的？那就是搜索引擎的努力目标。现阶段的种种不佳表现，只能说明，同志仍须努力。 一个站的关键词，在不同地区检索的结果也不同？这种情况也是偶尔见到，想问下，这个现象是不是随着发展 会逐渐显现明显？百度是不是针对地区性的搜索提高了地方性网站的权重？（竞价存在这样的问题，我这里问的是自然搜索） 如果你在中关村，搜“银行”，然后结果全是中关村周围的银行网点，按距离你的远近排序，这听上去不是一件很美妙的事情吗？呵呵。我也希望那一天尽早到来。 信息解读： 1）百度对新站有考察期。 2）百度上面的链接点击率是算在排名里的，百度本身会对用户点击进行跟踪，也有软件专门刷点击来刷排名。 3）百度权重是二级域名&#62;目录&#62;内页，而Google是内页&#62;目录&#62;二级域名。两个搜索引擎的策略上的差异，百度期望呈现给用户最好的，谷歌期望把最好的内容呈现给用户。两者是有差别的（意会）。 4）百度是存在按地域显示不同搜索结果的。具体怎么判读网站是属于哪个地域的，影响因素还是很多的。 No related posts.]]></description>
			<content:encoded><![CDATA[<p><strong>链接点击率是否计入排名算法</strong></p>
<p>百度是否有会估算某网页的某个反向链接被点击次数（例如：从工具条、流量统计等工具得到的部分数据）？比如是否把链接的点击率计入算法之中？是否会利用这点来判断哪些是隐藏链接？或者判断外链的相关性等因素。<br />
我只能说，一切有利于排序改进的因素，都有可能被搜索引擎尝试应用。</p>
<p><strong>百度是不是调整了对新站的策略</strong></p>
<p>搜索引擎策略一天一小变，一月一大变。我真的说不好这种现象是什么策略造成的。但我们在制定策略的时候，评价标准只是对用户搜索需求满足有怎样的影响，而不会去评价对某个站长的利益有怎样的影响。这一点请大家谅解。</p>
<p><strong>经过近一年的观察发现，百度对于普通中小站点中内页建立索引比较慢，相反，一些大站的内页很容易建立索引获得排名，百度是否对于内页赋予的权重很低（相对于首页）？尤其是新站？在百度上搜索，我们经常会发现：搜索结果显示的网页往往都是网站首页（主域名）或频道首页（二级域名），而内容页出现的几率很低，这跟</strong><strong>Google</strong><strong>有很大的区别，区别在于用户到达网站的起始页的层级不同，这决定着</strong><strong> </strong><strong>用户获取</strong><strong>“</strong><strong>既定信息</strong><strong>”</strong><strong>所需的时间长短；为什么百度不更多的在搜索结果里提炼出有效的内容页来直接展示给用户？还是有</strong><strong>UE</strong><strong>方面的深入考虑？</strong></p>
<p>一个普通用户，如果用你的关键词去搜，怎样的结果是合理的？如果你不喜欢的结果，恰是用户所喜欢的，那么除非版权问题之类，否则很难得到解决；如果你不喜欢的结果，也是普通用户所不喜欢的，那么这是一个会被百度关注的问题。其实百度没啥神秘的，用这个逻辑可以解决一堆的猜想。</p>
<p><strong>关于新站内页的疑问</strong>百度对新站的收录，在内页方面存在困难，首页可以很快收录，但就是不收录内页，而且快照时间戳也一直停留在首页被收录的时间档。网站更新以及链接方面都在持续操作。想问下，这是百度对新站考核的一种机制还是程序本身的BUG。</p>
<p>山贼入伙，还需要“投名状”呢；入搜索引擎的伙，也得要点考察期吧。</p>
<p><strong>对于网站主域名是不是比目录更有优势</strong><strong>?</strong></p>
<p>在一些搜索结果中，观察一些地区的大型网站首页（首页是个目录）比不过小网站的首页，大网站的权重之说似乎不足说明这个，小网站基本不用靠什么资源就能在第一页，不知道这算不算是ＢＵＧ, 反之，在Google中不会出现这样的情况。<br />
你觉得从用户体验角度出发，理想情况下应该是怎样的？那就是搜索引擎的努力目标。现阶段的种种不佳表现，只能说明，同志仍须努力。</p>
<p><strong>一个站的关键词，在不同地区检索的结果也不同？这种情况也是偶尔见到，想问下，这个现象是不是随着发展 会逐渐显现明显？百度是不是针对地区性的搜索提高了地方性网站的权重？（竞价存在这样的问题，我这里问的是自然搜索）</strong></p>
<p>如果你在中关村，搜“银行”，然后结果全是中关村周围的银行网点，按距离你的远近排序，这听上去不是一件很美妙的事情吗？呵呵。我也希望那一天尽早到来。</p>
<p><span style="color: #ff0000;"><strong>信息解读：</strong></span></p>
<p><strong>1）百度对新站有考察期。</strong></p>
<p><strong>2）百度上面的链接点击率是算在排名里的，百度本身会对用户点击进行跟踪，也有软件专门刷点击来刷排名。</strong></p>
<p><strong>3）百度权重是二级域名&gt;目录&gt;内页，而Google是内页&gt;目录&gt;二级域名。两个搜索引擎的策略上的差异，百度期望呈现给用户最好的，谷歌期望把最好的内容呈现给用户。两者是有差别的（意会）。</strong></p>
<p><strong>4）百度是存在按地域显示不同搜索结果的。具体怎么判读网站是属于哪个地域的，影响因素还是很多的。</strong></p>
<p>No related posts.</p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-seo-strategy-questions.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度站长俱乐部黑帽SEO相关问题</title>
		<link>http://www.biaodianfu.com/baidu-seo-blackhat-questions.html</link>
		<comments>http://www.biaodianfu.com/baidu-seo-blackhat-questions.html#comments</comments>
		<pubDate>Mon, 02 May 2011 11:31:13 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[黑帽]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3647</guid>
		<description><![CDATA[百度如何看待站群优化？ 我只能说，我们在技术实现上，尚有诸多缺陷和漏洞。这类司空见惯的问题，理应得到合理的处置。 购买链接是否会被百度惩罚? 这种手段奏效，说明百度在识别和处理超链作弊方面，仍存在很多问题。这类问题理应得到妥善的解决，以使互联网环境得到净化。我们回头会和相关的同事就此问题了解一下。 目前刷百度相关搜索和搜索下拉框的方法很多，怎样才能限制或者根除这种现象。有没有像投诉平台这样的地方，可以让大家投诉，给大家一个更好的相关搜索？ 这个问题的确很恼人。目前我们正在全力处理中，可预期将有大幅改观。投诉可以发送到webmaster@baidu.com，肯定可以送达相关工程师，但不会有具体的回复。此外，处理多半是策略级的升级，个案的针对性处理会比较少。 网站遭到恶意群发导致被降权怎么办好？ 我们有很完善的识别算法，这些行为并不会导致你的网站受到影响。 文本锚链接采用和背景色一样 这是一个没太多建设性的问题，因为答案是如此的显而易见。这个地方不是用来给spammer试探用的，我们还是期望看到更多富于建设性的沟通。 百度对黑链行为有什么惩罚措施吗？ 最近我的经常被人挂黑链了，而且经常能在QQ群里面收到出售黑链信息，更有甚者直接在论坛出售，关于黑链现在越来越开猖獗了，如此这样是一种灾难。百度如何对站外作弊的手法判断是不是竞争对手所做，比如买黑链，建群站，群发垃圾垃圾等，这些竞争对手都能帮你做。可否透露下百度对这个判断的原理，站长如何防范，发现被人陷害的话，如何举报或采取其他措施？ 如果想维护一个策略的生命周期的话，最好的方式是保守策略细节的秘密。但有一点可以确定，一个成熟的搜索引擎，不会轻易的通过一两个要素来判断一个网站的生死。 百度对站群如何定义？ 互联网是在不断变化的，站群在每个时期的定义也不一样。不必纠结于概念，建议认真的思考一下，为何要做一堆的网站，这些网站是否对用户有价值，如果没有搜索引擎，还会不会这样做。不是太极拳，提醒大家真正重视起“对用户的价值”，这是我们的处事原则。像站群，我们并没有严格、一成不变的定义，也不会仅根据“是不是站群”就决定如何处理这些网站。我们的系统和策略会根据这些网站对普通用户的价值如何，做出评估和判断。当然，目前还有一些漏网之鱼，正是我们改进策略的动力和目标。我们一直有一个很好的反馈途径，有问题可以来下面的地址提交反馈，当然，请尽量清晰的描述问题，虽然我们无法具体一一回复，但我们有专人负责收集、分类，并转给相关的负责人分析，并会成为算法改进的依据。http://tousu.baidu.com/webmaster/add/#2至于“很多不公平的情况”，这正是我们致力改进的，但罗马不是一天建成的，我们需要时间来逐步的完善，各位的意见和建议，对完善的过程有很大的促进作用，有什么意见，尽管提吧。 信息解读： 1）百度目前对站群采取的措施还不是很够，主要原因应该是技术上的瓶颈。 2）百度对购买链接的行为目前还没有具体的好办法解决。购买链接的那伙人才会继续猖獗。基于链接问题没有解决，所以给的权重也不是很大。 3）刷百度下拉框，百度还是没有能力进行避免，如果想尝试的，可以去试试，毕竟刷联想词不会对网站本身带来负面影响。 Related posts: 百度的快照与页面上的时间 百度索引库有多大 百度北斗，现在的百度内容网络]]></description>
			<content:encoded><![CDATA[<p><strong>百度如何看待站群优化？</strong></p>
<p>我只能说，我们在技术实现上，尚有诸多缺陷和漏洞。这类司空见惯的问题，理应得到合理的处置。</p>
<p><strong>购买链接是否会被百度惩罚</strong><strong>?</strong></p>
<p>这种手段奏效，说明百度在识别和处理超链作弊方面，仍存在很多问题。这类问题理应得到妥善的解决，以使互联网环境得到净化。我们回头会和相关的同事就此问题了解一下。</p>
<p><strong>目前刷百度相关搜索和搜索下拉框的方法很多，怎样才能限制或者根除这种现象。有没有像投诉平台这样的地方，可以让大家投诉，给大家一个更好的相关搜索？</strong></p>
<p>这个问题的确很恼人。目前我们正在全力处理中，可预期将有大幅改观。投诉可以发送到<a href="mailto:webmaster@baidu.com">webmaster@baidu.com</a>，肯定可以送达相关工程师，但不会有具体的回复。此外，处理多半是策略级的升级，个案的针对性处理会比较少。</p>
<p><strong>网站遭到恶意群发导致被降权怎么办好？</strong></p>
<p>我们有很完善的识别算法，这些行为并不会导致你的网站受到影响。</p>
<p><strong>文本锚链接采用和背景色一样</strong></p>
<p>这是一个没太多建设性的问题，因为答案是如此的显而易见。这个地方不是用来给spammer试探用的，我们还是期望看到更多富于建设性的沟通。</p>
<p><strong>百度对黑链行为有什么惩罚措施吗？</strong></p>
<p>最近我的经常被人挂黑链了，而且经常能在QQ群里面收到出售黑链信息，更有甚者直接在论坛出售，关于黑链现在越来越开猖獗了，如此这样是一种灾难。百度如何对站外作弊的手法判断是不是竞争对手所做，比如买黑链，建群站，群发垃圾垃圾等，这些竞争对手都能帮你做。可否透露下百度对这个判断的原理，站长如何防范，发现被人陷害的话，如何举报或采取其他措施？</p>
<p>如果想维护一个策略的生命周期的话，最好的方式是保守策略细节的秘密。但有一点可以确定，一个成熟的搜索引擎，不会轻易的通过一两个要素来判断一个网站的生死。</p>
<p><strong>百度对站群如何定义？</strong></p>
<p>互联网是在不断变化的，站群在每个时期的定义也不一样。不必纠结于概念，建议认真的思考一下，为何要做一堆的网站，这些网站是否对用户有价值，如果没有搜索引擎，还会不会这样做。不是太极拳，提醒大家真正重视起“对用户的价值”，这是我们的处事原则。像站群，我们并没有严格、一成不变的定义，也不会仅根据“是不是站群”就决定如何处理这些网站。我们的系统和策略会根据这些网站对普通用户的价值如何，做出评估和判断。当然，目前还有一些漏网之鱼，正是我们改进策略的动力和目标。我们一直有一个很好的反馈途径，有问题可以来下面的地址提交反馈，当然，请尽量清晰的描述问题，虽然我们无法具体一一回复，但我们有专人负责收集、分类，并转给相关的负责人分析，并会成为算法改进的依据。<a href="http://tousu.baidu.com/webmaster/add/#2">http://tousu.baidu.com/webmaster/add/#2</a>至于“很多不公平的情况”，这正是我们致力改进的，但罗马不是一天建成的，我们需要时间来逐步的完善，各位的意见和建议，对完善的过程有很大的促进作用，有什么意见，尽管提吧。</p>
<p><span style="color: #ff0000;"><strong>信息解读：</strong></span></p>
<p><strong>1）百度目前对站群采取的措施还不是很够，主要原因应该是技术上的瓶颈。</strong></p>
<p><strong>2）百度对购买链接的行为目前还没有具体的好办法解决。购买链接的那伙人才会继续猖獗。基于链接问题没有解决，所以给的权重也不是很大。</strong></p>
<p><strong>3）刷百度下拉框，百度还是没有能力进行避免，如果想尝试的，可以去试试，毕竟刷联想词不会对网站本身带来负面影响。</strong></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/baidu-cache-time.html' rel='bookmark' title='百度的快照与页面上的时间'>百度的快照与页面上的时间</a></li>
<li><a href='http://www.biaodianfu.com/baidu-index-database.html' rel='bookmark' title='百度索引库有多大'>百度索引库有多大</a></li>
<li><a href='http://www.biaodianfu.com/baidu-beidou.html' rel='bookmark' title='百度北斗，现在的百度内容网络'>百度北斗，现在的百度内容网络</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-seo-blackhat-questions.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度站长俱乐部页面相关问题</title>
		<link>http://www.biaodianfu.com/baidu-seo-page-questions.html</link>
		<comments>http://www.biaodianfu.com/baidu-seo-page-questions.html#comments</comments>
		<pubDate>Mon, 02 May 2011 10:34:38 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3645</guid>
		<description><![CDATA[js代码弹窗是否会影响自然排名 任何对用户体验有增益或者减益的做法，其实会影响到用户的”投票”行为。而这些投票行为，又会影响搜索引擎对这个网站的评价算法。所以，弹不弹窗并不重要呀，关键是这种弹窗会对用户造成什么样的影响。  网页中是否推荐设置keywords和description？如果每页都设置这两个属性，是否会被搜索引擎判断为过度优化或作弊而处罚？ 可以肯定的回复：不会。但也不见得会起到SEOER预期的排序效果。我们会慎重的对待这些meta信息。 实际上我们非常欢迎网站首页和索引页严肃的设置meta description，这样会使得搜索引擎摘要更好提取，对用户更友好，更易读。 对于已被百度收录的网站，大量修改页面标题（如增加前缀或后缀）是否会给网站排名带来消极影响？ title是极重要的内容。大幅修改，只会带来大幅波动。所以请慎重对待网页标题。至于标题长短对于权重的影响，我在另一个帖子中有说明。 如同一个页面上的出链越多，每个链接获得的超链权重越小一样，title上的关键词越多，单个关键词获得的权重也会越低。这是很直观的逻辑。但是，如果为追求某个关键词的权重，极力压缩标题长度，那么真正合乎该页面的搜索需求，又很难被命中。所以，一般性的建议就是，实事求是的将页面主旨反映在标题中即可。如果要做长青树，不要在乎一时一刻的seo效果（那个很累、很烦），把网站的忠实用户人气做起来就成了。 在原网页没有改变TITLE的情况下为何百度搜索结果中所示显的网页的TITLE并非跟网站实际TITLE一样？ 原因比较复杂，需要针对性分析。主要原因可能是tag title提取失败，系统只好从其他地方取了一些文本作为标题。这种提取失败的原因，有网页设计层面的（比如全是flash或者ajax），也有 robots封禁层面的（某些重要网页虽然不抓取，但会保留url本身）。还有一些系统异常也会造成类似的现象。如果不符合一般性的预期，这类问题都可以直接提交至webmaster@baidu.com。会有工程师跟进的。 修改首页的meta description是否会受到惩罚？ 这个肯定是多虑了。我们鼓励大家通过meta description来撰写网站的简介。只是过于频繁的修改，未必会及时的反馈在摘要中。 百度对网页标题长度有没有限制？ 这个自然是没有限制的。很多人喜欢往标题里塞很多关键词，以为那样就全面开花，但很可能适得其反。这个原理同在一个页面上设超链个数一样。分一杯羹的人越多，每个人所得的羹越少。 搜索结果页中的“描述”部分，百度如何判断～ 百度对网页“描述”这部分展示，来源于四个方面：1、页面本身的description；2、用户当前搜索关键词在页面的分布比例；3、部分百度合作或权威站点对该站（页）的注释；4、百度会从代码中随机（跟多是按顺序）展示。不知道哪个说法更接近于真相，还是兼而有之？对站长们有什么好的建议呢？标题通常来自网页的&#60;title&#62;&#60;/title&#62;。 首页的摘要会比较多的来自meta description，普通网页则是根据搜索关键词动态提取的。 百度如何对待一个改版的网站？ 如果是内容发生根本性变化，则理论上会被视为一个全新网站，旧有超链失效。以前有商家在淘宝上用低价物品炒皇冠，炒成后再换其他高价值商品卖。这显然是一个漏洞。过期超链无效，本质上也是如此，这是合乎一般逻辑的。呵呵。 请问百度对于网页改版是如何看待的。标题和描述都不改，但是页面会加多内容，布局也会有变化。 仅是内容的变化，spider会重新抓取网页，然后更新索引。布局的变化，只要不是将内容用脚本（比如ajax）隐藏起来的做法，都不会产生什么影响。影响比较大的是网站结构的变更，比如域名或者网站结构变化，导致原有的url访问失效等。如果处理不当，会导致索引量在短期内大幅下跌。 信息解读： 1）Javascript的弹窗应该会影响百度上的排名。 2）对于页面title，不建议进行大批量得修改，大批量的修改可能会带来不好的后果。 3）description对于页面很重要，建议每个页面添加。 4）页面改版，不要一下子改的太多，太多影响很严重。建议一点点的改。 5）keywords属性的话，大家还是不要再花心思关注了，那没用。 Related posts: 创新工场 李开复的SEO 淘宝站内搜索的优化 对汽车之家的分析【SEO每周一站】]]></description>
			<content:encoded><![CDATA[<p><strong>js</strong><strong>代码弹窗是否会影响自然排名</strong></p>
<p>任何对用户体验有增益或者减益的做法，其实会影响到用户的”投票”行为。而这些投票行为，又会影响搜索引擎对这个网站的评价算法。所以，弹不弹窗并不重要呀，关键是这种弹窗会对用户造成什么样的影响。 </p>
<p><strong>网页中是否推荐设置</strong><strong>keywords</strong><strong>和</strong><strong>description</strong><strong>？如果每页都设置这两个属性，是否会被搜索引擎判断为过度优化或作弊而处罚？</strong></p>
<p>可以肯定的回复：不会。但也不见得会起到SEOER预期的排序效果。我们会慎重的对待这些meta信息。</p>
<p>实际上我们非常欢迎网站首页和索引页严肃的设置meta description，这样会使得搜索引擎摘要更好提取，对用户更友好，更易读。</p>
<p><strong>对于已被百度收录的网站，大量修改页面标题（如增加前缀或后缀）是否会给网站排名带来消极影响？</strong></p>
<p>title是极重要的内容。大幅修改，只会带来大幅波动。所以请慎重对待网页标题。至于标题长短对于权重的影响，我在另一个帖子中有说明。 如同一个页面上的出链越多，每个链接获得的超链权重越小一样，title上的关键词越多，单个关键词获得的权重也会越低。这是很直观的逻辑。但是，如果为追求某个关键词的权重，极力压缩标题长度，那么真正合乎该页面的搜索需求，又很难被命中。所以，一般性的建议就是，实事求是的将页面主旨反映在标题中即可。如果要做长青树，不要在乎一时一刻的seo效果（那个很累、很烦），把网站的忠实用户人气做起来就成了。</p>
<p><strong>在原网页没有改变</strong><strong>TITLE</strong><strong>的情况下为何百度搜索结果中所示显的网页的</strong><strong>TITLE</strong><strong>并非跟网站实际</strong><strong>TITLE</strong><strong>一样？</strong></p>
<p>原因比较复杂，需要针对性分析。主要原因可能是tag title提取失败，系统只好从其他地方取了一些文本作为标题。这种提取失败的原因，有网页设计层面的（比如全是flash或者ajax），也有 robots封禁层面的（某些重要网页虽然不抓取，但会保留url本身）。还有一些系统异常也会造成类似的现象。如果不符合一般性的预期，这类问题都可以直接提交至<a href="mailto:webmaster@baidu.com">webmaster@baidu.com</a>。会有工程师跟进的。</p>
<p><strong>修改首页的</strong><strong>meta description</strong><strong>是否会受到惩罚？</strong></p>
<p>这个肯定是多虑了。我们鼓励大家通过meta description来撰写网站的简介。只是过于频繁的修改，未必会及时的反馈在摘要中。</p>
<p><strong>百度对网页标题长度有没有限制？</strong></p>
<p>这个自然是没有限制的。很多人喜欢往标题里塞很多关键词，以为那样就全面开花，但很可能适得其反。这个原理同在一个页面上设超链个数一样。分一杯羹的人越多，每个人所得的羹越少。</p>
<p><strong>搜索结果页中的</strong><strong>“</strong><strong>描述</strong><strong>”</strong><strong>部分，百度如何判断～</strong></p>
<p>百度对网页“描述”这部分展示，来源于四个方面：1、页面本身的description；2、用户当前搜索关键词在页面的分布比例；3、部分百度合作或权威站点对该站（页）的注释；4、百度会从代码中随机（跟多是按顺序）展示。不知道哪个说法更接近于真相，还是兼而有之？对站长们有什么好的建议呢？标题通常来自网页的&lt;title&gt;&lt;/title&gt;。</p>
<p>首页的摘要会比较多的来自meta description，普通网页则是根据搜索关键词动态提取的。</p>
<p><strong>百度如何对待一个改版的网站？</strong></p>
<p>如果是内容发生根本性变化，则理论上会被视为一个全新网站，旧有超链失效。以前有商家在淘宝上用低价物品炒皇冠，炒成后再换其他高价值商品卖。这显然是一个漏洞。过期超链无效，本质上也是如此，这是合乎一般逻辑的。呵呵。</p>
<p><strong>请问百度对于网页改版是如何看待的。标题和描述都不改，但是页面会加多内容，布局也会有变化。</strong></p>
<p>仅是内容的变化，spider会重新抓取网页，然后更新索引。布局的变化，只要不是将内容用脚本（比如ajax）隐藏起来的做法，都不会产生什么影响。影响比较大的是网站结构的变更，比如域名或者网站结构变化，导致原有的url访问失效等。如果处理不当，会导致索引量在短期内大幅下跌。</p>
<p><span style="color: #ff0000;"><strong>信息解读：</strong></span></p>
<p><strong>1）Javascript的弹窗应该会影响百度上的排名。</strong></p>
<p><strong>2）对于页面title，不建议进行大批量得修改，大批量的修改可能会带来不好的后果。</strong></p>
<p><strong>3）description对于页面很重要，建议每个页面添加。</strong></p>
<p><strong>4）页面改版，不要一下子改的太多，太多影响很严重。建议一点点的改。</strong></p>
<p><strong>5）keywords属性的话，大家还是不要再花心思关注了，那没用。</strong></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/innovation-works.html' rel='bookmark' title='创新工场 李开复的SEO'>创新工场 李开复的SEO</a></li>
<li><a href='http://www.biaodianfu.com/taobao-seo.html' rel='bookmark' title='淘宝站内搜索的优化'>淘宝站内搜索的优化</a></li>
<li><a href='http://www.biaodianfu.com/autohome.html' rel='bookmark' title='对汽车之家的分析【SEO每周一站】'>对汽车之家的分析【SEO每周一站】</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-seo-page-questions.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

