<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>标点符 &#187; 网站分析</title>
	<atom:link href="http://www.biaodianfu.com/category/sem/web-analytics/feed" rel="self" type="application/rss+xml" />
	<link>http://www.biaodianfu.com</link>
	<description>编译自己的互联网生活</description>
	<lastBuildDate>Tue, 31 Jan 2012 01:07:39 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>百度搜索URL参数解析</title>
		<link>http://www.biaodianfu.com/baidu-url-secret.html</link>
		<comments>http://www.biaodianfu.com/baidu-url-secret.html#comments</comments>
		<pubDate>Wed, 18 Jan 2012 10:07:33 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4580</guid>
		<description><![CDATA[百度的搜索URL存在着一定的规律和逻辑，下面的链接是我使用百度搜索“标点符”后得到的链接，下面就来一起分析下百度搜索结果URL的秘密。 http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&#38;rsv_spt=1&#38;issp=1&#38;rsv_bp=0&#38;ie=utf-8&#38;tn=baiduhome_pg&#38;inputT=2969 URL中的s?表示搜索，&#38;符号起到参数分割的作用。上述链接涉及到的参数如下： wd：Keyword，查询的关键词，有时还会是 word，比如www.hao123.com打开的链接就是word，wd后面的关键词使用gb2312进行编码，如果搜索词中出现空格则使用+号替换； rsv_spt：识别浏览器，目前测试下来Chrome、FireFox、Safari的为3，IE浏览器为1； rsv_bp：判断搜索位置：0为从百度首页进入，1为搜索结果顶部搜索，2为搜索结果底部搜索； ie：Input Encoding，查询关键词的编码，缺省设置为简体中文，即ie=gb2312； tn：搜索框来源标识，如百度首页的就是baiduhome_ph，hao123站来的sitehao123，遨游浏览器的为tn=myie2dg等。除了百度自身用来数据统计好，词数据还对百度搜索联盟分成起到跟踪作用。tn=baidulocal 表示百度站内搜索，返回的结果很干净，无广告干扰； inputT：搜索响应时间，单位是毫秒； 以上我上面的URL中出现的参数，但是百度的搜索引擎参数远远比上面的还要多。再来看看还有哪些参数： bs：Before Search，上一次搜索的关键词；百度会记录上一次用户的搜索词是什么； sr：结合bs使用。一般查询sr=0或者为空值，但sr=1时，查询将结合bs的值一起作为查询的关键字。默认值为0，除0，1外其它值无效。 pn：Page Number，搜索结果的页码，从零开始计数。即pn = ${结果页码-1}*rn； rn：Record Number，搜索结果显示条数，缺省设置rn=10，取值范围:10-100； cl：Class，搜索类型，cl=3为网页搜索，cl=2为图片搜索； lm：搜索结果的时间限制。以天为单位，例如搜索最近一个月的网页，lm=30.默认值为0，表示没有时间限制； ct：语言限制。0-所有语言，1-简体中文网页，2-繁体中文网页；其它不确定或者无效或。默认值为0； q5：搜索内容位置限制。0-所有内容；1-网页标题(相当于使用&#8217;title:&#8217;查询前缀)；2-url(相当于使用&#8217;inurl:&#8217;查询前缀)；其它值等效于0，默认值为0 ； q6：搜索内容网站限制。例如q6=www.biaodianfu.com，表示只搜索http://www.biaodianfu.com/的网页；相当于使用了&#8217;site:前缀&#8217;，默认值为空 dq：不建议使用该参数。查询内容来原的地区限制。具体值有百度确定，默认值为空。使用这个参数的效果很差； oq：相关搜索的主词，例如，搜索“标点符”后点击“标点符号”，出现的相关搜索，用来记录来源词“标点符”，或输入搜索词，输入到一半点推荐关键词的那个词，两个通过出现rsp/rsv_bp进行区分； rsp：相关搜索词的位置，第一个推荐词为0，第二个为1，以此类推； usm：在百度搜索任何词从任何一页点到第三页以后的，都会随机出现usm的参数。当usm=0的时候是正常排名 。当usm=1的时候所有排名后移一位，当usm=2的时候排名后移两位，以此类推。而词参数影响排名的效果只对第三页以及第三页以后的有效，也就是说前20名的排名不受词因素影响。此参数具体作用未知； f：搜索判断，f=8用户自主搜索，f=3下拉框推荐，f=1相关搜索； rsv_ers：出现的值为rsv_ers=xn0或rsv_ers=xn1，目前还不知道具体的作用。 rs_src：目前看到的都是rs_src=0，此参数与rsv_ers同时出现。 目前发现的参数就这么多，以后如有补充，后期会追加，关于Google搜索URL的分析，下篇日志中再发出。 Related posts: Google Analytics中organic和referral的区别 对卓越网的分析【SEO每周一站】 JSON 轻量级的数据交换格式]]></description>
			<content:encoded><![CDATA[<p>百度的搜索URL存在着一定的规律和逻辑，下面的链接是我使用百度搜索“标点符”后得到的链接，下面就来一起分析下百度搜索结果URL的秘密。</p>
<p><a href="http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&amp;rsv_spt=1&amp;issp=1&amp;rsv_bp=0&amp;ie=utf-8&amp;tn=baiduhome_pg&amp;inputT=2969">http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&amp;rsv_spt=1&amp;issp=1&amp;rsv_bp=0&amp;ie=utf-8&amp;tn=baiduhome_pg&amp;inputT=2969</a></p>
<p>URL中的s?表示搜索，&amp;符号起到参数分割的作用。上述链接涉及到的参数如下：</p>
<ul>
<li>wd：Keyword，查询的关键词，有时还会是 word，比如<a href="http://www.hao123.com/">www.hao123.com</a>打开的链接就是word，wd后面的关键词使用gb2312进行编码，如果搜索词中出现空格则使用+号替换；</li>
<li>rsv_spt：识别浏览器，目前测试下来Chrome、FireFox、Safari的为3，IE浏览器为1；</li>
<li>rsv_bp：判断搜索位置：0为从百度首页进入，1为搜索结果顶部搜索，2为搜索结果底部搜索；</li>
<li>ie：Input Encoding，查询关键词的编码，缺省设置为简体中文，即ie=gb2312；</li>
<li>tn：搜索框来源标识，如百度首页的就是baiduhome_ph，hao123站来的sitehao123，遨游浏览器的为tn=myie2dg等。除了百度自身用来数据统计好，词数据还对百度搜索联盟分成起到跟踪作用。tn=baidulocal 表示百度站内搜索，返回的结果很干净，无广告干扰；</li>
<li>inputT：搜索响应时间，单位是毫秒；</li>
</ul>
<p>以上我上面的URL中出现的参数，但是百度的搜索引擎参数远远比上面的还要多。再来看看还有哪些参数：</p>
<ul>
<li>bs：Before Search，上一次搜索的关键词；百度会记录上一次用户的搜索词是什么；</li>
<li>sr：结合bs使用。一般查询sr=0或者为空值，但sr=1时，查询将结合bs的值一起作为查询的关键字。默认值为0，除0，1外其它值无效。</li>
<li>pn：Page Number，搜索结果的页码，从零开始计数。即pn = ${结果页码-1}*rn；</li>
<li>rn：Record Number，搜索结果显示条数，缺省设置rn=10，取值范围:10-100；</li>
<li>cl：Class，搜索类型，cl=3为网页搜索，cl=2为图片搜索；</li>
<li>lm：搜索结果的时间限制。以天为单位，例如搜索最近一个月的网页，lm=30.默认值为0，表示没有时间限制；</li>
<li>ct：语言限制。0-所有语言，1-简体中文网页，2-繁体中文网页；其它不确定或者无效或。默认值为0；</li>
<li>q5：搜索内容位置限制。0-所有内容；1-网页标题(相当于使用&#8217;title:&#8217;查询前缀)；2-url(相当于使用&#8217;inurl:&#8217;查询前缀)；其它值等效于0，默认值为0 ；</li>
<li>q6：搜索内容网站限制。例如q6=www.biaodianfu.com，表示只搜索<a href="http://www.biaodianfu.com/">http://www.biaodianfu.com/</a>的网页；相当于使用了&#8217;site:前缀&#8217;，默认值为空</li>
<li>dq：不建议使用该参数。查询内容来原的地区限制。具体值有百度确定，默认值为空。使用这个参数的效果很差；</li>
<li>oq：相关搜索的主词，例如，搜索“标点符”后点击“标点符号”，出现的相关搜索，用来记录来源词“标点符”，或输入搜索词，输入到一半点推荐关键词的那个词，两个通过出现rsp/rsv_bp进行区分；</li>
<li>rsp：相关搜索词的位置，第一个推荐词为0，第二个为1，以此类推；</li>
<li>usm：在百度搜索任何词从任何一页点到第三页以后的，都会随机出现usm的参数。当usm=0的时候是正常排名 。当usm=1的时候所有排名后移一位，当usm=2的时候排名后移两位，以此类推。而词参数影响排名的效果只对第三页以及第三页以后的有效，也就是说前20名的排名不受词因素影响。此参数具体作用未知；</li>
<li>f：搜索判断，f=8用户自主搜索，f=3下拉框推荐，f=1相关搜索；</li>
<li>rsv_ers：出现的值为rsv_ers=xn0或rsv_ers=xn1，目前还不知道具体的作用。</li>
<li>rs_src：目前看到的都是rs_src=0，此参数与rsv_ers同时出现。</li>
</ul>
<p>目前发现的参数就这么多，以后如有补充，后期会追加，关于Google搜索URL的分析，下篇日志中再发出。</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/google-analytics-organic-referral.html' rel='bookmark' title='Google Analytics中organic和referral的区别'>Google Analytics中organic和referral的区别</a></li>
<li><a href='http://www.biaodianfu.com/joyo-seo.html' rel='bookmark' title='对卓越网的分析【SEO每周一站】'>对卓越网的分析【SEO每周一站】</a></li>
<li><a href='http://www.biaodianfu.com/json.html' rel='bookmark' title='JSON 轻量级的数据交换格式'>JSON 轻量级的数据交换格式</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-url-secret.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GA小技巧:使用jQuery来方便的布置事件跟踪代码</title>
		<link>http://www.biaodianfu.com/jquery-google-analytics-trackevent.html</link>
		<comments>http://www.biaodianfu.com/jquery-google-analytics-trackevent.html#comments</comments>
		<pubDate>Thu, 22 Dec 2011 10:31:59 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[Google Analytics]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4554</guid>
		<description><![CDATA[Google Analytics的事件跟踪是个神器，基本上你能想到什么他就能帮你做什么。但是按照Google Analytics的帮助文章中方法去布置可能会让你觉得麻烦。解决方法有很多种。以下为我使用的小技巧分享给大家。 如果你需要跟踪某几个链接在页面上的点击数。事先给需要记录的点击链接上添加一个类。如： &#60;a href=“http://www.domain.com/dir/”  class=”tracklink”&#62;跟踪地址&#60;/a&#62; 当每个需要跟踪的链接上都添加了class=”tracklink” 后，你只需添加如下jQuery代码就可以统计所有要统计的链接的点击了。 &#60;script type=”text/javascript”&#62; $(document).ready(function(){ $(&#8216;a.tracklink&#8217;).click(function(){ _gaq.push(['_trackEvent', 'tracklink', 'Click', $(this).attr('href')]); }); }); &#60;/script&#62; 代码非常的短，也非常的简单。非常适合原先网站上就使用jQuery的朋友们~ Related posts: 使用谷歌统计来跟踪网页加载时间 SuperFish一款基于jQuery的级联下拉菜单 使用GA在URL上添加UTM参数避免重复页面方法]]></description>
			<content:encoded><![CDATA[<p>Google Analytics的事件跟踪是个神器，基本上你能想到什么他就能帮你做什么。但是按照Google Analytics的帮助文章中方法去布置可能会让你觉得麻烦。解决方法有很多种。以下为我使用的小技巧分享给大家。</p>
<p>如果你需要跟踪某几个链接在页面上的点击数。事先给需要记录的点击链接上添加一个类。如：</p>
<p>&lt;a href=“http://www.domain.com/dir/”  class=”tracklink”&gt;跟踪地址&lt;/a&gt;</p>
<p>当每个需要跟踪的链接上都添加了class=”tracklink” 后，你只需添加如下jQuery代码就可以统计所有要统计的链接的点击了。</p>
<p align="left">&lt;script type=”text/javascript”&gt;<br />
$(document).ready(function(){<br />
$(&#8216;a.tracklink&#8217;).click(function(){<br />
_gaq.push(['_trackEvent', 'tracklink', 'Click', $(this).attr('href')]);<br />
});<br />
});<br />
&lt;/script&gt;</p>
<p align="left">代码非常的短，也非常的简单。非常适合原先网站上就使用jQuery的朋友们~</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/google-analytics-page-loading-time.html' rel='bookmark' title='使用谷歌统计来跟踪网页加载时间'>使用谷歌统计来跟踪网页加载时间</a></li>
<li><a href='http://www.biaodianfu.com/superfish-jquery.html' rel='bookmark' title='SuperFish一款基于jQuery的级联下拉菜单'>SuperFish一款基于jQuery的级联下拉菜单</a></li>
<li><a href='http://www.biaodianfu.com/google-analytics-url-no-duplication-page.html' rel='bookmark' title='使用GA在URL上添加UTM参数避免重复页面方法'>使用GA在URL上添加UTM参数避免重复页面方法</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/jquery-google-analytics-trackevent.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>页面停留时间和网站停留时间详解</title>
		<link>http://www.biaodianfu.com/tiome-on-page-and-time-on-site.html</link>
		<comments>http://www.biaodianfu.com/tiome-on-page-and-time-on-site.html#comments</comments>
		<pubDate>Sat, 08 Oct 2011 15:01:30 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[停留时间]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4425</guid>
		<description><![CDATA[一、页面停留时间与网站停留时间是如何计算出来的？ 假设用户访问了网站的主页（Home）。分析工具将这个访问者标记为一个Visit，接着这个访问者又浏览了另外两个页面（Page2和Page3），然后他离开了你的网站。如下图所示： 我们想要知道的是： Tp = 花费在一个页面上的时间 Ts = 花费在这网站上的总时间 假如这个用户从10:00开始访问网站： 对于Page2而言，访问时间是10:05-10:01，即4分钟。 接着访问者来到了Page3页面，他发现改页面无法满足他的需求或是他要找的内容已在Page3页面找到。那么接下来就是离开。 那么，这个访问者到底在Page3停留了多长时间呢？由于不知道用户在Page3具体的离开时间，我们也就无法计算访问者到底在Page3上停留了多长时间。因此，网站分析程序不知道访问者花在网站最后一个页面上的时间是多少。 下图表示各个页面网站分析工具统计的访问时间： Tp (Home) = 1 分钟 Tp (Page2) = 4 分钟 Tp (Page3) = N/A Ts = 5 分钟。 从上面的数据中很容易的看出这样的数据并不合理，因为你不知道访问者花在最后一个页面上的时间是多少，因此网站分析工具给你的时间统计一般都会少于用户实际在网站上停留的时间。 网站停留时间的准确性与跳出率和退出率有关。跳出率和退出率越大，平均停留时间越不准确。 二、页面停留时间或是网站停留时间有什么用？ 如果把页面停留时间和网站停留时间单纯的拿出来看，那么意义不是很大，主要原因有以下方面： 这些指标是战术层面的，我们无法认识到这些数据对公司的业绩的影响。单纯的页面停留时间或网站停留时间并不能反映到具体的营收。 这些指标需要很多的推断，简单的逻辑是这些数据越大越好，这些数据无法直接推断出某夜页面是好是坏。 这些指标主要是短期数据，随着互联网的发展，依照会话来度量指标现在远远不能满足需求，长期的访客行为，顾客生命周期等可能更加能反映问题。 不同的停留时间需要用不同的逻辑去判断。下面就开看看淘宝的例子： 网站 平均访问页数 平均访问时间 转化率 淘宝 30 30分钟 10% 淘宝商城 10 10分钟 2% 出现上述不同数据的主要原因有：淘宝就像超市，访客没有明确的目标，进了超市但是最终会买点什么，淘宝商城更像商场，去商场的用户多半是带着明确的目标去的，他们直奔目标，快速搜索，快速的购物，快速的离开。 从用户行为的维度看，淘宝的用户在淘宝和淘宝商城有着不同的购物行为，就像相同的人在商城和超市的举止言行肯定不同，所以淘宝商城的页面风格更加简洁，服务更标准化，商家更优质化。 同样的，作为旅游预订类网站，来到网站的用户基本上都有很明确的预订需求，我们需要做的是如何让用户在最短的时间内找到适合的产品。 [...]]]></description>
			<content:encoded><![CDATA[<p><strong>一、</strong><strong>页面停留时间与网站停留时间是如何计算出来的？</strong></p>
<p>假设用户访问了网站的主页（Home）。分析工具将这个访问者标记为一个Visit，接着这个访问者又浏览了另外两个页面（Page2和Page3），然后他离开了你的网站。如下图所示：</p>
<p><img class="alignnone size-full wp-image-4426" title="visit" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/visit.png" alt="" width="464" height="202" /></p>
<p>我们想要知道的是：</p>
<p><img class="alignnone size-full wp-image-4427" title="visit-time" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/visit-time.png" alt="" width="467" height="249" /></p>
<ul>
<li>Tp = 花费在一个页面上的时间</li>
<li>Ts = 花费在这网站上的总时间</li>
</ul>
<p>假如这个用户从10:00开始访问网站：</p>
<p><img class="alignnone size-full wp-image-4428" title="visit-first-time" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/visit-first-time.png" alt="" width="480" height="235" /></p>
<p>对于Page2而言，访问时间是10:05-10:01，即4分钟。</p>
<p>接着访问者来到了Page3页面，他发现改页面无法满足他的需求或是他要找的内容已在Page3页面找到。那么接下来就是离开。</p>
<p><img class="alignnone size-full wp-image-4429" title="visit-second-time" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/visit-second-time.png" alt="" width="480" height="235" /></p>
<p>那么，这个访问者到底在Page3停留了多长时间呢？由于不知道用户在Page3具体的离开时间，我们也就无法计算访问者到底在Page3上停留了多长时间。因此，网站分析程序不知道访问者花在网站最后一个页面上的时间是多少。</p>
<p>下图表示各个页面网站分析工具统计的访问时间：</p>
<p><img class="alignnone size-full wp-image-4430" title="visit-now-time" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/visit-now-time.png" alt="" width="477" height="241" /></p>
<ul>
<li>Tp (Home) = 1 分钟</li>
<li>Tp (Page2) = 4 分钟</li>
<li>Tp (Page3) = N/A</li>
<li>Ts = 5 分钟。</li>
</ul>
<p>从上面的数据中很容易的看出这样的数据并不合理，因为你不知道访问者花在最后一个页面上的时间是多少，因此网站分析工具给你的时间统计一般都会少于用户实际在网站上停留的时间。</p>
<p>网站停留时间的准确性与跳出率和退出率有关。跳出率和退出率越大，平均停留时间越不准确。</p>
<p><strong>二、页面停留时间或是网站停留时间有什么用？</strong></p>
<p>如果把页面停留时间和网站停留时间单纯的拿出来看，那么意义不是很大，主要原因有以下方面：</p>
<ol>
<li>这些指标是战术层面的，我们无法认识到这些数据对公司的业绩的影响。单纯的页面停留时间或网站停留时间并不能反映到具体的营收。</li>
<li>这些指标需要很多的推断，简单的逻辑是这些数据越大越好，这些数据无法直接推断出某夜页面是好是坏。</li>
<li>这些指标主要是短期数据，随着互联网的发展，依照会话来度量指标现在远远不能满足需求，长期的访客行为，顾客生命周期等可能更加能反映问题。</li>
</ol>
<p>不同的停留时间需要用不同的逻辑去判断。下面就开看看淘宝的例子：</p>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="top" width="85"><strong>网站</strong></td>
<td valign="top" width="161"><strong>平均访问页数</strong></td>
<td valign="top" width="123"><strong>平均访问时间</strong></td>
<td valign="top" width="94"><strong>转化率</strong></td>
</tr>
<tr>
<td valign="top" width="85">淘宝</td>
<td valign="top" width="161">30</td>
<td valign="top" width="123">30分钟</td>
<td valign="top" width="94">10%</td>
</tr>
<tr>
<td valign="top" width="85">淘宝商城</td>
<td valign="top" width="161">10</td>
<td valign="top" width="123">10分钟</td>
<td valign="top" width="94">2%</td>
</tr>
</tbody>
</table>
<p>出现上述不同数据的主要原因有：淘宝就像超市，访客没有明确的目标，进了超市但是最终会买点什么，淘宝商城更像商场，去商场的用户多半是带着明确的目标去的，他们直奔目标，快速搜索，快速的购物，快速的离开。</p>
<p>从用户行为的维度看，淘宝的用户在淘宝和淘宝商城有着不同的购物行为，就像相同的人在商城和超市的举止言行肯定不同，所以淘宝商城的页面风格更加简洁，服务更标准化，商家更优质化。</p>
<p>同样的，作为旅游预订类网站，来到网站的用户基本上都有很明确的预订需求，我们需要做的是如何让用户在最短的时间内找到适合的产品。</p>
<p><strong>三、页面停留时间和网站停留时间数据如何应用？</strong></p>
<p><strong>1</strong><strong>、判断页面用户体验</strong></p>
<p>从页面停留时间的计算方法中我们知道不可能用户在离开前在页面上停留多长时间，即页面停留时间是在有后续行为的情况下计算出来的，对已这部分数据先期可用的，就是把每套页面的停留时间统计出来，判断用户停留高或者低的主要原因，比如：用户在搜索结果页停留时间长了，是不是搜索结果不能满足用户需求，用户在列表页停留时间长了，是不是我们的列表页筛选做的还不够人性化，在产品终页停留长了是不是因为终页内容展示过多或者用户没有找到他想要的内容等。</p>
<p><strong>2</strong><strong>、访客再营销</strong></p>
<p>记录网站停留时间较长，但是最后没有下单的用户，对这些用户进行再营销，由此产生的问题是，用户只有在登录的情况下我们才能获取到用户ID，记录下用户ID以后还需通过程序分析，需要给该用户推荐什么样的内容。可行性不是很高。</p>
<p><strong>3</strong><strong>、主动弹出客服弹出框或优惠信息</strong></p>
<p>当用户在特定页面停留过长时，弹出客服框。主动与访客接触。解决访客疑惑。促使访客下单。但是此部分用户体验会不太好，可以学习下新浪微博的那种在页面顶部的提示功能。</p>
<p><strong>4</strong><strong>、当转化目标来用</strong></p>
<p>在没有下单流程的网站，可以使用页面或者网站停留时间来作为完成一个目标，继而计算目标转化率，比如哪些主要以电话作为目标的网站，如果有N多的人（比例要大）到达终页没有下单，直接打电话预订，就可以使用停留时间来作为目标。</p>
<p><strong>参考链接：</strong></p>
<p><a href="http://www.kaushik.net/avinash/standard-metrics-revisited-time-on-page-and-time-on-site/">http://www.kaushik.net/avinash/standard-metrics-revisited-time-on-page-and-time-on-site/</a></p>
<p><a href="http://www.roirevolution.com/blog/2008/05/time_on_page_and_time_on_site_how_confident_are_yo.php">http://www.roirevolution.com/blog/2008/05/time_on_page_and_time_on_site_how_confident_are_yo.php</a></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/google-serp-date.html' rel='bookmark' title='Google对网页时间的关注'>Google对网页时间的关注</a></li>
<li><a href='http://www.biaodianfu.com/webmaster-tools.html' rel='bookmark' title='网站管理员工具及站长帮助'>网站管理员工具及站长帮助</a></li>
<li><a href='http://www.biaodianfu.com/more-twitter-like-website.html' rel='bookmark' title='如雨后春笋般的微博客'>如雨后春笋般的微博客</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/tiome-on-page-and-time-on-site.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>SQL Server 2008 数据挖掘算法浅析</title>
		<link>http://www.biaodianfu.com/sql-server-2008-data-mining-algorithms.html</link>
		<comments>http://www.biaodianfu.com/sql-server-2008-data-mining-algorithms.html#comments</comments>
		<pubDate>Thu, 06 Oct 2011 00:24:05 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4378</guid>
		<description><![CDATA[什么是数据挖掘？ 数据挖掘是商务智能应用中较高层次的一项技术，而商务智能中还包括数据仓库、ETL、联机分析、商业报表等多项技术。数据挖掘在商务智能应用中提供的是一种自动化或半自动化的数据分析手段，利用数据挖掘用户将可以更加方便地发现数据的模式（其实就是用户关心的业务模式），用户还可以利用这些模式对某些符合特征的数据作出预测。 那么数据挖掘究竟是怎么做到上面这些貌似神奇的事情的呢？现在主流的数据挖掘技术有两种，其中之一来源于我们每一个人可能都学习过的一门学科——统计学，例如聚类、关联规则、时间序列等，而另外一种则来源于我们每一个人都听说过的一门学科——机器学习（俗称人工智能），例如神经元网络、遗传算法等。 数据挖掘能干什么？ 分类 分类可以把大量数据（在数据挖掘中也称为事例CASE）分成多个类别，而分类的依据就是这些事例中的属性。 聚类 分类有一个同胞兄弟就是聚类，聚类相对分类更加自动，聚类也将大量实例分成多个类别，不过这次是根据属性值的相似程度自动汇聚成不同的类别。通常把分类成为有监督的算法，而聚类则被称为无监督的算法，主要原因就是分类在执行前就已经有了明确的类别，而聚类在分析前还不知道有多少分类，而是通过不断的迭代使得各分类之间的边界更加清晰，然后再分析这些分类之间的差别，因此聚类也成为无监督的算法。 关联 关联是找到事例中出现频率较高的组合规则。 序列 提到关联，另外一个同胞兄弟就是序列。序列也是发现组合规律的，不过关联中所提到的规律不涉及到先后次序，而序列则是有先后次序的。 回归 对连续的结果值（不依靠人为分段Discretize）进行预测的算法归为回归。 SQL Server 2008 中的数据挖掘算法 1.决策树算法 决策树，又称判定树，是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点，用属性的取值作为分支，也就是类似流程图的过程，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息量最大的属性，中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性，决策树的叶结点是样本的类别值。 从树的根结点出发，将测试条件用于检验记录，根据测试结果选择适当的分支，沿着该分支或者达到另一个内部结点，使用新的测试条件或者达到一个叶结点，叶结点的类称号就被赋值给该检验记录。决策树的每个分支要么是一个新的决策节点，要么是树的结尾，称为叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。决策树算法能从一个或多个的预测变量中，针对类别因变量，预测出个例的趋势变化关系。 在SQL Server 2008中，我们可以通过挖掘模型查看器来查看决策树模型。如图1所示。 在图1中，我们可以看到决策树显示由一系列拆分组成，最重要的拆分由算法确定，位于“全部”节点中查看器的左侧。其他拆分出现在右侧。依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。并能通过滑块来筛选依赖关系强度。 2.聚类分析算法 聚类分析算法就是衡量个体间的相似度，是依据个体的数据点在几何空间的距离来判断的，距离越近，就越相似，就越容易归为一类。在最初定义分类后，算法将通过计算确定分类表示点分组情况的适合程度，然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程，直到它不能再通过重新定义分类来改进结果为止。简单得说，聚类就是将数据对象的集合分组成为由类似的对象组成的多个类的过程。聚类用在商务方面的客户分析中，可以从客户库中发现不同的客户群，并分析不同客户群的行为模式。 在SQL Server 2008中，我们可以通过挖掘模型查看器来查看聚类分析模型。如图2所示。 在图2中，分类关系图表现个类间关联性的强弱。分类剖面图了解因变量与自变量的关联性强弱程度。分类特征主要呈现每一类的特性。分类对比主要呈现出两类间特性的比较。 3.Naive Bayes 算法 Naive Bayes 算法是 Microsoft SQL Server Analysis Services 提供的一种分类算法，用于预测性建模。Naive Bayes算法使用贝叶斯定理，假定一个属性值对给定类的影响独立于其他属性的值。与其他算法相比，该算法所需的运算量小，因而能够快速生成挖掘模型，以发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测，在用于大型数据库时，该算法也表现出了高准确率与高速度，能与决策树和神经网络相媲美。 算法采用监督式的学习方式，在分类之前，需要事先知道分类的类型。通过对训练样本的学习，来有效得进行分类。就是通过训练样本中的属性关系，产生训练样本的中心概念，用这些已经产生的中心概念，对未分类的数据对象进行预测。 在SQL Server 2008中，我们可以通过挖掘模型查看器来查看Naive Bayes模型。如图3所示。 在图3中，依赖关系网络可以对数据的分布进一步了解。属性配置文件可以了解每个变量的特性分布情况。属性特征可以看出不同群分类的基本特性概率。属性对比就是呈现属性之间的特性对比。 4.关联规则算法 关联算法规则是要发现数据库中变量和个体之间关系程度，也就是要发现大量数据中项集之间有趣的关联或相关联系。例如，在关联规则挖掘中，典型的例子就是购物篮分析，该分析过程就是通过分析顾客所购买的不同商品之间的联系，来挖掘顾客的购买习惯，并帮助销售商制定营销策略。关联规则算法中有两个重要的参数支持度和置信度。支持度就是指X项集和Y项集中，同时发生X，Y事件的概率。置信度就是指X项集和Y项集中，X事件发生的概率下，Y事件发生的概率。 在SQL Server 2008中，我们可以通过挖掘模型查看器来查看关联规则模型。如图4所示 在图4中，规则可以查看算法中产生的关联规则，我们可以通过此来了解关联规则内容以及其支持度和置信度。项集可以查看算法中产生的对象组，我们可以通过此来了解各个对象组内容及其支持。依赖关系网络可以呈现产品间的相关性，并通过图形了解产品间的相关性。 5.顺序分析和聚类分析算法 顺序分析和聚类分析算法是由 Microsoft SQL [...]]]></description>
			<content:encoded><![CDATA[<p><strong>什么是数据挖掘？</strong></p>
<p>数据挖掘是商务智能应用中较高层次的一项技术，而商务智能中还包括数据仓库、ETL、联机分析、商业报表等多项技术。数据挖掘在商务智能应用中提供的是一种自动化或半自动化的数据分析手段，利用数据挖掘用户将可以更加方便地发现数据的模式（其实就是用户关心的业务模式），用户还可以利用这些模式对某些符合特征的数据作出预测。</p>
<p>那么数据挖掘究竟是怎么做到上面这些貌似神奇的事情的呢？现在主流的数据挖掘技术有两种，其中之一来源于我们每一个人可能都学习过的一门学科——统计学，例如聚类、关联规则、时间序列等，而另外一种则来源于我们每一个人都听说过的一门学科——机器学习（俗称人工智能），例如神经元网络、遗传算法等。</p>
<p><strong>数据挖掘能干什么？</strong></p>
<ul>
<li><strong>分类 </strong>分类可以把大量数据（在数据挖掘中也称为事例CASE）分成多个类别，而分类的依据就是这些事例中的属性。</li>
<li><strong>聚类 </strong>分类有一个同胞兄弟就是聚类，聚类相对分类更加自动，聚类也将大量实例分成多个类别，不过这次是根据属性值的相似程度自动汇聚成不同的类别。通常把分类成为有监督的算法，而聚类则被称为无监督的算法，主要原因就是分类在执行前就已经有了明确的类别，而聚类在分析前还不知道有多少分类，而是通过不断的迭代使得各分类之间的边界更加清晰，然后再分析这些分类之间的差别，因此聚类也成为无监督的算法。</li>
<li><strong>关联 </strong>关联是找到事例中出现频率较高的组合规则。</li>
<li><strong>序列 </strong>提到关联，另外一个同胞兄弟就是序列。序列也是发现组合规律的，不过关联中所提到的规律不涉及到先后次序，而序列则是有先后次序的。</li>
<li><strong>回归 </strong>对连续的结果值（不依靠人为分段Discretize）进行预测的算法归为回归。</li>
</ul>
<p><strong>SQL Server 2008 中的数据挖掘算法</strong></p>
<p><strong>1.决策树算法</strong></p>
<p>决策树，又称判定树，是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点，用属性的取值作为分支，也就是类似流程图的过程，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息量最大的属性，中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性，决策树的叶结点是样本的类别值。</p>
<p>从树的根结点出发，将测试条件用于检验记录，根据测试结果选择适当的分支，沿着该分支或者达到另一个内部结点，使用新的测试条件或者达到一个叶结点，叶结点的类称号就被赋值给该检验记录。决策树的每个分支要么是一个新的决策节点，要么是树的结尾，称为叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。决策树算法能从一个或多个的预测变量中，针对类别因变量，预测出个例的趋势变化关系。</p>
<p>在SQL Server 2008中，我们可以通过挖掘模型查看器来查看决策树模型。如图1所示。</p>
<p><img class="alignnone size-full wp-image-4380" title="BI000" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/BI000.jpg" alt="" width="496" height="192" /></p>
<p>在图1中，我们可以看到决策树显示由一系列拆分组成，最重要的拆分由算法确定，位于“全部”节点中查看器的左侧。其他拆分出现在右侧。依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。并能通过滑块来筛选依赖关系强度。</p>
<p><strong>2.聚类分析算法</strong></p>
<p>聚类分析算法就是衡量个体间的相似度，是依据个体的数据点在几何空间的距离来判断的，距离越近，就越相似，就越容易归为一类。在最初定义分类后，算法将通过计算确定分类表示点分组情况的适合程度，然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程，直到它不能再通过重新定义分类来改进结果为止。简单得说，聚类就是将数据对象的集合分组成为由类似的对象组成的多个类的过程。聚类用在商务方面的客户分析中，可以从客户库中发现不同的客户群，并分析不同客户群的行为模式。</p>
<p>在SQL Server 2008中，我们可以通过挖掘模型查看器来查看聚类分析模型。如图2所示。</p>
<p><img class="alignnone size-full wp-image-4381" title="BI001" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/BI001.jpg" alt="" width="496" height="204" /></p>
<p>在图2中，分类关系图表现个类间关联性的强弱。分类剖面图了解因变量与自变量的关联性强弱程度。分类特征主要呈现每一类的特性。分类对比主要呈现出两类间特性的比较。</p>
<p><strong>3.Naive Bayes 算法</strong></p>
<p>Naive Bayes 算法是 Microsoft SQL Server Analysis Services 提供的一种分类算法，用于预测性建模。Naive Bayes算法使用贝叶斯定理，假定一个属性值对给定类的影响独立于其他属性的值。与其他算法相比，该算法所需的运算量小，因而能够快速生成挖掘模型，以发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测，在用于大型数据库时，该算法也表现出了高准确率与高速度，能与决策树和神经网络相媲美。</p>
<p>算法采用监督式的学习方式，在分类之前，需要事先知道分类的类型。通过对训练样本的学习，来有效得进行分类。就是通过训练样本中的属性关系，产生训练样本的中心概念，用这些已经产生的中心概念，对未分类的数据对象进行预测。</p>
<p>在SQL Server 2008中，我们可以通过挖掘模型查看器来查看Naive Bayes模型。如图3所示。</p>
<p><img class="alignnone size-full wp-image-4382" title="BI002" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/BI002.jpg" alt="" width="497" height="199" /></p>
<p>在图3中，依赖关系网络可以对数据的分布进一步了解。属性配置文件可以了解每个变量的特性分布情况。属性特征可以看出不同群分类的基本特性概率。属性对比就是呈现属性之间的特性对比。</p>
<p><strong>4.关联规则算法</strong></p>
<p>关联算法规则是要发现数据库中变量和个体之间关系程度，也就是要发现大量数据中项集之间有趣的关联或相关联系。例如，在关联规则挖掘中，典型的例子就是购物篮分析，该分析过程就是通过分析顾客所购买的不同商品之间的联系，来挖掘顾客的购买习惯，并帮助销售商制定营销策略。关联规则算法中有两个重要的参数支持度和置信度。支持度就是指X项集和Y项集中，同时发生X，Y事件的概率。置信度就是指X项集和Y项集中，X事件发生的概率下，Y事件发生的概率。</p>
<p>在SQL Server 2008中，我们可以通过挖掘模型查看器来查看关联规则模型。如图4所示</p>
<p><img class="alignnone size-full wp-image-4383" title="BI003" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/BI003.jpg" alt="" width="497" height="206" /></p>
<p>在图4中，规则可以查看算法中产生的关联规则，我们可以通过此来了解关联规则内容以及其支持度和置信度。项集可以查看算法中产生的对象组，我们可以通过此来了解各个对象组内容及其支持。依赖关系网络可以呈现产品间的相关性，并通过图形了解产品间的相关性。</p>
<p><strong>5.顺序分析和聚类分析算法</strong></p>
<p>顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。可以使用该算法来研究包含可通过下面的路径或顺序链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。</p>
<p>在SQL Server 2008中，我们可以通过挖掘模型查看器来查看顺序分析模型。如图5所示</p>
<p><img class="alignnone size-full wp-image-4384" title="BI005" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/BI005.jpg" alt="" width="497" height="215" /></p>
<p>在图5中分类关系图可以显示挖掘模型中的所有分类，分类之间连线的明暗程度表示分类的相似程度。通过调整分类右侧的滑块，可以调整显示的连线数。分类剖面图提供算法创建的分类的总体视图，显示了分类中的每个属性以及属性的分布。分类特征可以检查分类的组成特征。分类对比可以比较两个分类的属性。状态转换可以在选中一个分类后，可在选中的分类中浏览序列状态之间的转换。</p>
<p><strong>6.时序算法</strong></p>
<p>时序算法提供了一些针对连续值预测进行了优化的回归算法，并将时间序列分解成主要趋势成分，季节变化成分，并检验理论模型是否能反应现象。</p>
<p>在SQL Server 2008中，我们可以通过挖掘模型查看器来查看时序模型。如图6所示</p>
<p><img class="alignnone size-full wp-image-4385" title="BI006" src="http://www.biaodianfu.com/wp-content/uploads/2011/10/BI006.jpg" alt="" width="495" height="190" /></p>
<p>在图6中，图表栏显示预测变量个产品过去值以及预测值，以及误差区间。模型将算法以完成的模型显示为树。</p>
<p><strong>7.神经网络算法</strong></p>
<p>神经网络是一组连接的输入输出单元，其中每一个连接都与一个权相连接。在训练学习阶段，通过调整训练网络的权，使得能够预测输入样本的正确类标号。神经网络算法创建由多至三层神经元组成的网络。这些层分别是输入层、可选隐藏层和输出层。输入层：输入神经元定义数据挖掘模型的所有输入属性值及其概率。隐藏神经元接收来自输入神经元的输入，并向输出神经元提供输出。隐藏层是向各种输入概率分配权重的位置。权重说明某一特定输入对于隐藏神经元的相关性或重要性。输入所分配的权重越大，则输入的值越重要。输出神经元代表数据挖掘模型的可预测属性值。</p>
<p>在SQL Server 2008中，我们可以通过挖掘模型查看器来查看神经网络模型。输入选择神经网络模型将用作输入的属性和属性值。输出指定使用输出的神经网络的属性。变量指定属性右侧的条表示指定输入属性状态所倾向的输出属性状态。 条的大小则表示输出状态倾向于输入状态的程度。</p>
<p><strong>8.逻辑回归算法</strong></p>
<p>逻辑回归是根据输入域值对记录进行分类的统计方法，通过建立一组方程，把输入域值与输出字段每一类的概率联系起来。模型在分析二分类或有序因变量与解释变量的关系，用自变量去预测因变量在给定某个值的概率。一旦生成模型，便可用于估计新的数据的概率。概率最大的目标类被指定为该记录的预测输出值。逻辑回归算法是神经网络算法的一种变体，用于确定多个因素对一对结果的影响。通过对输入和输出之间的关系进行建模。来测量每个输入对输出的影响，并权衡不同输入在完成的模型中的作用。</p>
<p><strong>9.线性回归算法</strong></p>
<p>线形回归算法是一种常用的用于统计并作出预测的方法，使决策树算法的一种变体，有助于计算依赖变量和独立变量之间的线性关系，根据输入字段估计预测输出字段的最佳线形方程，然后使用该关系进行预测。使用线性回归确定两个连续列之间的关系，代表一条直线或者平面，以评估数据列之间的关系。</p>
<p>参考链接：<a href="http://www.cnblogs.com/mingle/archive/2009/11/04/1596258.html">http://www.cnblogs.com/mingle/archive/2009/11/04/1596258.html</a></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/microsoft-expression-studio-3.html' rel='bookmark' title='Microsoft Expression Studio 3 中文版下载'>Microsoft Expression Studio 3 中文版下载</a></li>
<li><a href='http://www.biaodianfu.com/e-commerce-user-analysis.html' rel='bookmark' title='电子商务网站用户群体的划分'>电子商务网站用户群体的划分</a></li>
<li><a href='http://www.biaodianfu.com/stack-exchanges-architecture.html' rel='bookmark' title='Stack Exchange的系统架构'>Stack Exchange的系统架构</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/sql-server-2008-data-mining-algorithms.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google Analytics 最新会话定义</title>
		<link>http://www.biaodianfu.com/google-analytics-session.html</link>
		<comments>http://www.biaodianfu.com/google-analytics-session.html#comments</comments>
		<pubDate>Mon, 12 Sep 2011 09:28:30 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[Google Analytics]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4320</guid>
		<description><![CDATA[Google 与最近修改了Analalytics 对会话的定义，下面就来分析下Google 为什么要做这样的修改，及修改后对统计到的数据有何影响？ 在 Google Analytics（分析）报告界面中，会话个数会被计为访问次数。新来看看Google Analytics 先前Session 的定义是什么样子的。 2011年8月11日前下列事件将终止会话（后续活动将会被视为新会话）： 某个访问者的两次网页浏览间隔超过三十分钟； 每天结束的时候； 当一个访问者关闭浏览器时 2011年8月11日后下列事件将终止会话（后续活动将会被视为新会话）： 用户退出浏览器。 用户离开了您的网站，并且在会话时间结束之前没有回来。 用户访问您网站上的某个网页，直到会话结束还停留在该网页上（没有触发任何事件或虚拟网页浏览）。 用户清除了其浏览器中的 Cookie。 在该报告的配置文件中设置时区时时间到了午夜。 当访问者的流量来源参数改变时。这些流量来源参数包括：utm_source, utm_medium, utm_term, utm_content, utm_id, utm_campaign, and gclid（autotagging参数） 以下活动不会导致会话结束： 用户在您的网站上打开了多个标签/窗口，并在其中至少一个标签/窗口上保持活动状态。 用户在没有退出浏览器的情况下离开您的网站，并在会话时间结束之前返回。 这次Session的主要变动就是当用户从新的渠道进入网站时会标注新的Session。 对于此次Session的改变，以下为我自己的理解： 1、Session是针对ga.js进行设置的，所以“在该报告的配置文件中设置时区时时间到了午夜”应该不是在ga.js中控制的，因为其无法获取配置文件中设置的时区。并不是按照用户的电脑上的时间进行设置的。需要对Session做这样的设置应该是和数据处理有关。与统计本身无关。认定是Google是在数据处理中财将Seesion终止是因为同个统计可能会有不同的配置时区。 2、Session的改变时为了更好的进行流量归属的划分。能更好的支撑起Google Analytics的多渠道转化。每次新的渠道都会被认为是一次新的访问。  参考资料： http://analytics.blogspot.com/2011/08/update-to-sessions-in-google-analytics.html http://www.google.com/support/analyticshelp/bin/answer.py?answer=1006241&#38;topic=1006224&#38;hl=zh_CN Related posts: Google Analytics 数据导出工具：Excellent Analytics 搜索引擎工具栏到底有什么用 谷歌分析报告之按小时查看数据]]></description>
			<content:encoded><![CDATA[<p>Google 与最近修改了Analalytics 对会话的定义，下面就来分析下Google 为什么要做这样的修改，及修改后对统计到的数据有何影响？</p>
<p>在 Google Analytics（分析）报告界面中，会话个数会被计为访问次数。新来看看Google Analytics 先前Session 的定义是什么样子的。</p>
<p>2011年8月11日前下列事件将终止会话（后续活动将会被视为新会话）：</p>
<ul>
<li>某个访问者的两次网页浏览间隔超过三十分钟；</li>
<li>每天结束的时候；</li>
<li>当一个访问者关闭浏览器时</li>
</ul>
<div>2011年8月11日后下列事件将终止会话（后续活动将会被视为新会话）：</div>
<ul>
<li>用户退出浏览器。</li>
<li>用户离开了您的网站，并且在会话时间结束之前没有回来。</li>
<li>用户访问您网站上的某个网页，直到会话结束还停留在该网页上（没有触发任何事件或虚拟网页浏览）。</li>
<li>用户清除了其浏览器中的 Cookie。</li>
<li>在该报告的配置文件中设置时区时时间到了午夜。</li>
<li>当访问者的流量来源参数改变时。这些流量来源参数包括：<em>utm_source</em>, <em>utm_medium</em>, <em>utm_term</em>, <em>utm_content</em>, <em>utm_id</em>, <em>utm_campaign</em>, and <em>gclid（autotagging参数）</em></li>
</ul>
<p>以下活动不会导致会话结束：</p>
<ul>
<li>用户在您的网站上打开了多个标签/窗口，并在其中至少一个标签/窗口上保持活动状态。</li>
<li>用户在没有退出浏览器的情况下离开您的网站，并在会话时间结束之前返回。</li>
</ul>
<p>这次Session的主要变动就是当用户从新的渠道进入网站时会标注新的Session。</p>
<p>对于此次Session的改变，以下为我自己的理解：</p>
<p>1、Session是针对ga.js进行设置的，所以“在该报告的配置文件中设置时区时时间到了午夜”应该不是在ga.js中控制的，因为其无法获取配置文件中设置的时区。并不是按照用户的电脑上的时间进行设置的。需要对Session做这样的设置应该是和数据处理有关。与统计本身无关。认定是Google是在数据处理中财将Seesion终止是因为同个统计可能会有不同的配置时区。</p>
<p>2、Session的改变时为了更好的进行流量归属的划分。能更好的支撑起Google Analytics的多渠道转化。每次新的渠道都会被认为是一次新的访问。</p>
<p> 参考资料：</p>
<p><a href="http://analytics.blogspot.com/2011/08/update-to-sessions-in-google-analytics.html">http://analytics.blogspot.com/2011/08/update-to-sessions-in-google-analytics.html</a></p>
<p><a href="http://www.google.com/support/analyticshelp/bin/answer.py?answer=1006241&amp;topic=1006224&amp;hl=zh_CN">http://www.google.com/support/analyticshelp/bin/answer.py?answer=1006241&amp;topic=1006224&amp;hl=zh_CN</a></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/google-analytics-data-in-excel.html' rel='bookmark' title='Google Analytics 数据导出工具：Excellent Analytics'>Google Analytics 数据导出工具：Excellent Analytics</a></li>
<li><a href='http://www.biaodianfu.com/toolbar.html' rel='bookmark' title='搜索引擎工具栏到底有什么用'>搜索引擎工具栏到底有什么用</a></li>
<li><a href='http://www.biaodianfu.com/google-analytics-by-hour.html' rel='bookmark' title='谷歌分析报告之按小时查看数据'>谷歌分析报告之按小时查看数据</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/google-analytics-session.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>数据会骗人：辛普森悖论</title>
		<link>http://www.biaodianfu.com/simpson-paradox.html</link>
		<comments>http://www.biaodianfu.com/simpson-paradox.html#comments</comments>
		<pubDate>Thu, 08 Sep 2011 01:51:33 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4264</guid>
		<description><![CDATA[当人们尝试探究两种变量是否具有相关性的时候，比如新生录取率与性别，报酬与性别等，会分别对之进行分组研究。辛普森悖论是在这种研究中，在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方，会在总评中反而是失势的一方。该现象于20世纪初就有人讨论，但一直到1951年E.H.辛普森在他发表的论文中，该现象才算正式被描述解释。后来就以他的名字命名该悖论。 一所美国高校的两个学院，分别是法学院和商学院，新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计： 法学院 性别 录取 拒收 总数 录取比例 男生 8 45 53 15.1% 女生 51 101 152 33.6% 合计 59 146 205   商学院 性别 录取 拒收 总数 录取比例 男生 201 50 251 80.1% 女生 92 9 101 91.1% 合计 293 59 352   根据上面两个表格来看，女生在两个学院都被优先录取。即女生的录取比率较高。现在将两学院的数据汇总： 性别 录取 拒收 总数 录取比例 男生 209 95 304 68.8% [...]]]></description>
			<content:encoded><![CDATA[<p>当人们尝试探究两种变量是否具有相关性的时候，比如新生录取率与性别，报酬与性别等，会分别对之进行分组研究。<strong>辛普森悖论</strong>是在这种研究中，在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方，会在总评中反而是失势的一方。该现象于20世纪初就有人讨论，但一直到1951年E.H.辛普森在他发表的论文中，该现象才算正式被描述解释。后来就以他的名字命名该悖论。</p>
<p>一所美国高校的两个学院，分别是法学院和商学院，新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计：</p>
<p>法学院</p>
<table>
<tbody>
<tr>
<td>性别</td>
<th>录取</th>
<th>拒收</th>
<th>总数</th>
<th>录取比例</th>
</tr>
<tr>
<td>男生</td>
<td>8</td>
<td>45</td>
<td>53</td>
<td>15.1%</td>
</tr>
<tr>
<td>女生</td>
<td>51</td>
<td>101</td>
<td>152</td>
<td>33.6%</td>
</tr>
<tr>
<td>合计</td>
<td>59</td>
<td>146</td>
<td>205</td>
<td> </td>
</tr>
</tbody>
</table>
<p>商学院</p>
<table>
<tbody>
<tr>
<td>性别</td>
<th>录取</th>
<th>拒收</th>
<th>总数</th>
<th>录取比例</th>
</tr>
<tr>
<td>男生</td>
<td>201</td>
<td>50</td>
<td>251</td>
<td>80.1%</td>
</tr>
<tr>
<td>女生</td>
<td>92</td>
<td>9</td>
<td>101</td>
<td>91.1%</td>
</tr>
<tr>
<td>合计</td>
<td>293</td>
<td>59</td>
<td>352</td>
<td> </td>
</tr>
</tbody>
</table>
<p>根据上面两个表格来看，女生在两个学院都被优先录取。即女生的录取比率较<strong>高</strong>。现在将两学院的数据汇总：</p>
<table>
<tbody>
<tr>
<td>性别</td>
<th>录取</th>
<th>拒收</th>
<th>总数</th>
<th>录取比例</th>
</tr>
<tr>
<td>男生</td>
<td>209</td>
<td>95</td>
<td>304</td>
<td>68.8%</td>
</tr>
<tr>
<td>女生</td>
<td>143</td>
<td>110</td>
<td>253</td>
<td>56.5%</td>
</tr>
<tr>
<td>合计</td>
<td>352</td>
<td>205</td>
<td>557</td>
<td> </td>
</tr>
</tbody>
</table>
<p>在总评中，女生的录取比率反而比男生<strong>低</strong>。</p>
<p>上面的数字太凌乱，可以直接看下面的数据：</p>
<table width="300">
<tbody>
<tr>
<th scope="col"> </th>
<th scope="col">男</th>
<th scope="col"> </th>
<th scope="col">女</th>
</tr>
<tr>
<th scope="row">历史系</th>
<td align="middle">1/5</td>
<td align="middle">&lt;</td>
<td align="middle">2/8</td>
</tr>
<tr>
<th scope="row">地理系</th>
<td align="middle">6/8</td>
<td align="middle">&lt;</td>
<td align="middle">4/5</td>
</tr>
<tr>
<th scope="row">总体</th>
<td align="middle">7/13</td>
<td align="middle">&gt;</td>
<td align="middle">6/13</td>
</tr>
</tbody>
</table>
<p>借助一幅向量图可以更好的了解情况</p>
<p><img class="alignnone size-full wp-image-4294" title="simpsons-paradox" src="http://www.biaodianfu.com/wp-content/uploads/2011/09/simpsons-paradox.png" alt="" width="603" height="280" /></p>
<p>女生单独两个矢量斜率都比男生大，说明它们的比率都比较高。但最后男生总体向量斜率却大于女生</p>
<p>这个例子说明，简单的将分组数据相加汇总，是不能反映真实情况的。</p>
<p>就上述例子说，导致辛普森悖论有两个前提。</p>
<ol>
<li>两个分组的录取率相差很大，就是说法学院录取率很低，而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院，相反，男性申请者大部分分布于商学院。结果在数量上来说，拒收率高的法学院拒收了很多的女生，男生虽然有更<strong>高</strong>的<strong>拒收率</strong>，但被拒收的<strong>数量</strong>却相对<strong>不算多</strong>。而录取率很高的商学院录取了很多男生。使得最后汇总的时候，男生在数量上反而占优。</li>
<li>有潜在因素影响着录取情况。就是说，性别并非是录取率高低的唯一因素，甚至可能是毫无影响的。至于在学院中出现的比率差，可能是随机事件。又或者是其他因素作用，比如入学成绩，却刚好出现这种录取比例，使人牵强误认为这是由性别差异而造成的。</li>
</ol>
<p>为了避免辛普森悖论的出现，就需要斟酌各分组的权重，并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况，是否存在潜在因素，综合考虑。</p>
<p>参考地址：</p>
<p><a href="http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA">http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA</a></p>
<p><a href="http://plato.stanford.edu/entries/paradox-simpson/#Causation">http://plato.stanford.edu/entries/paradox-simpson/#Causation</a></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/joyo-seo.html' rel='bookmark' title='对卓越网的分析【SEO每周一站】'>对卓越网的分析【SEO每周一站】</a></li>
<li><a href='http://www.biaodianfu.com/chinese-url.html' rel='bookmark' title='对URL中使用中文的分析'>对URL中使用中文的分析</a></li>
<li><a href='http://www.biaodianfu.com/social-networking-services.html' rel='bookmark' title='支撑起SNS的六度分隔理论和150法则'>支撑起SNS的六度分隔理论和150法则</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/simpson-paradox.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>使用 PHP导出Google Analytics数据。</title>
		<link>http://www.biaodianfu.com/gapi-google-analytics-php-interface.html</link>
		<comments>http://www.biaodianfu.com/gapi-google-analytics-php-interface.html#comments</comments>
		<pubDate>Fri, 26 Aug 2011 09:24:28 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[程序设计]]></category>
		<category><![CDATA[网站分析]]></category>
		<category><![CDATA[API]]></category>
		<category><![CDATA[Google Analytics]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4196</guid>
		<description><![CDATA[上篇文章介绍了一个Excel导出Google Analytics 数据，这一篇算是进阶，教你怎么使用PHP 导出Google Analytics数据。 关于Google Analytics接口的介绍请看这里：Google Analytic 数据导出API接口 GAPI 即 Google Analytics PHP5 Interface的主要功能有： 自动选择连接方式是curl或fopen 支持GA维度指标数据 账户数据映射-获得参数的方法 报告数据映射-获得维度和指标的方法 容易使用的过滤器 面向对象的代码可以让你在其他系统中使用。 GAPI使用示例： &#60;?php define('ga_email','username@gmail.com'); define('ga_password','password'); define('ga_profile_id_cn_0','1234567'); require 'gapi.class.php'; $start = mktime(0,0,0,date("m"),date("d")-30,date("Y")); $end = mktime(0,0,0,date("m"),date("d")-2,date("Y")); $start_date = date("Y-m-d",$start); $end_date = date("Y-m-d",$end); $ga = new gapi(ga_email,ga_password,isset($_SESSION['ga_auth_token'])?$_SESSION['ga_auth_token']:null); $_SESSION['ga_auth_token'] = $ga-&#62;getAuthToken(); ?&#62; &#60;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" [...]]]></description>
			<content:encoded><![CDATA[<p>上篇文章介绍了一个<a title="Google Analytics 数据导出工具：Excellent Analytics" href="http://www.biaodianfu.com/google-analytics-data-in-excel.html">Excel导出Google Analytics 数据</a>，这一篇算是进阶，教你怎么使用PHP 导出Google Analytics数据。</p>
<p>关于Google Analytics接口的介绍请看这里：<a title="Google Analytic 数据导出API接口" href="http://www.biaodianfu.com/google-analytics-data-export-api.html" rel="bookmark">Google Analytic 数据导出API接口</a></p>
<p>GAPI 即 Google Analytics PHP5 Interface的主要功能有：</p>
<ul>
<li>自动选择连接方式是curl或fopen</li>
<li>支持GA维度指标数据</li>
<li>账户数据映射-获得参数的方法</li>
<li>报告数据映射-获得维度和指标的方法</li>
<li>容易使用的过滤器</li>
<li>面向对象的代码可以让你在其他系统中使用。</li>
</ul>
<p>GAPI使用示例：</p>
<pre lang="php" line="0" escaped="true">&lt;?php
define('ga_email','username@gmail.com');
define('ga_password','password');
define('ga_profile_id_cn_0','1234567'); require 'gapi.class.php';

$start = mktime(0,0,0,date("m"),date("d")-30,date("Y"));
$end = mktime(0,0,0,date("m"),date("d")-2,date("Y"));
$start_date = date("Y-m-d",$start);
$end_date = date("Y-m-d",$end);
$ga = new gapi(ga_email,ga_password,isset($_SESSION['ga_auth_token'])?$_SESSION['ga_auth_token']:null);
$_SESSION['ga_auth_token'] = $ga-&gt;getAuthToken();
?&gt;

&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"&gt;
&lt;html xmlns="http://www.w3.org/1999/xhtml" dir="ltr" lang="zh-CN"&gt;
&lt;head profile="http://gmpg.org/xfn/11"&gt;
 &lt;title&gt;EDM流量数据&lt;/title&gt;
 &lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" /&gt;
&lt;/head&gt;
&lt;body&gt;

&lt;strong&gt;EDM流量数据&lt;/strong&gt;
&lt;table&gt;&lt;tr&gt;&lt;th&gt;日期&lt;/th&gt;&lt;th&gt;访问者&lt;/th&gt;&lt;th&gt;浏览量&lt;/th&gt;&lt;th&gt;跳出率&lt;/th&gt;&lt;th&gt;订单数&lt;/th&gt;&lt;/tr&gt;
&lt;?php $filter = "medium==edm";?&gt;
&lt;?php $ga-&gt;requestReportData(ga_profile_id_cn_0,array('date'),array('visits','pageviews','bounces','entrances','goal1Completions','goal2Completions','goal3Completions','goal4Completions','goal5Completions'),'-date',$filter,$start_date,$end_date); ?&gt;
&lt;?php foreach($ga-&gt;getResults() as $result):?&gt;
&lt;tr&gt;
&lt;td&gt;&lt;?php echo $result; ?&gt;&lt;/td&gt;
&lt;td&gt;&lt;?php echo $result-&gt;getVisits(); ?&gt;&lt;/td&gt;
&lt;td&gt;&lt;?php echo $result-&gt;getPageviews(); ?&gt;&lt;/td&gt;
&lt;td&gt;&lt;?php echo round($result-&gt;getBounces()/$result-&gt;getEntrances()*100,2).'%'; ?&gt;&lt;/td&gt;
&lt;td&gt;&lt;?php echo $result-&gt;getGoal1Completions() ?&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;?php endforeach;?&gt;
&lt;/table&gt;
&lt;/body&gt;
&lt;/html&gt;</pre>
<p>官方地址：<a href="http://code.google.com/p/gapi-google-analytics-php-interface/">http://code.google.com/p/gapi-google-analytics-php-interface/</a></p>
<p>GA维度和指标：<a href="http://code.google.com/intl/en/apis/analytics/docs/gdata/gdataReferenceDimensionsMetrics.html">http://code.google.com/intl/en/apis/analytics/docs/gdata/gdataReferenceDimensionsMetrics.html</a></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/google-urchin.html' rel='bookmark' title='Google Urchin来自Google的日志分析软件'>Google Urchin来自Google的日志分析软件</a></li>
<li><a href='http://www.biaodianfu.com/hex-color.html' rel='bookmark' title='十六进制HTML颜色'>十六进制HTML颜色</a></li>
<li><a href='http://www.biaodianfu.com/google-analytics-data-export-api.html' rel='bookmark' title='Google Analytic 数据导出API接口'>Google Analytic 数据导出API接口</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/gapi-google-analytics-php-interface.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Google Analytics 数据导出工具：Excellent Analytics</title>
		<link>http://www.biaodianfu.com/google-analytics-data-in-excel.html</link>
		<comments>http://www.biaodianfu.com/google-analytics-data-in-excel.html#comments</comments>
		<pubDate>Fri, 26 Aug 2011 05:04:05 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[Google Analytics]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4187</guid>
		<description><![CDATA[Excellent Analytics 是一个免费的可以让你在Excel中直接导出Google Analytics的插件，为那些不知道怎么使用Google API的用户提供方面的数据导出功能。 Excellent Analytics 的功能点： 提供Google Analytics所有维度和指标的查询 可以使用过滤器生成特殊的查询 所有的查询结果保存在Excel中。 在Excel中处理Google Analytics的好处： 少使用一种工具 使用熟悉的界面 合并不同数据源的数据 使用Eecel的公式、图表、透视表 定义和计算自定义的KPI 按照你喜欢的方式呈现数据 与其他Excel共享工作薄 将Google Analytics的数据导出到Excel后你就可以自由的排序、操作和分发数据了。也可以使用Excel来合并其他来源的数据如线下数据。 需要注意的事：高级群体（segment ）中的“all visits”无法与AdWords数据中的visitors指标合并。 官方网站：http://excellentanalytics.com/ Related posts: Google Analytic 数据导出API接口 Google Analytics 最新会话定义 《Web Analytics: An Hour a Day》PDF电子书]]></description>
			<content:encoded><![CDATA[<p>Excellent Analytics 是一个免费的可以让你在Excel中直接导出Google Analytics的插件，为那些不知道怎么使用Google API的用户提供方面的数据导出功能。</p>
<p><img class="alignnone size-full wp-image-4192" title="Google-Analytics" src="http://www.biaodianfu.com/wp-content/uploads/2011/08/Google-Analytics.jpg" alt="" width="340" height="245" /></p>
<p>Excellent Analytics 的功能点：</p>
<ul>
<li>提供Google Analytics所有维度和指标的查询</li>
<li>可以使用过滤器生成特殊的查询</li>
<li>所有的查询结果保存在Excel中。</li>
</ul>
<p>在Excel中处理Google Analytics的好处：</p>
<ul>
<li>少使用一种工具</li>
<li>使用熟悉的界面</li>
<li>合并不同数据源的数据</li>
<li>使用Eecel的公式、图表、透视表</li>
<li>定义和计算自定义的KPI</li>
<li>按照你喜欢的方式呈现数据</li>
<li>与其他Excel共享工作薄</li>
</ul>
<p>将Google Analytics的数据导出到Excel后你就可以自由的排序、操作和分发数据了。也可以使用Excel来合并其他来源的数据如线下数据。</p>
<p>需要注意的事：高级群体（segment ）中的“all visits”无法与AdWords数据中的visitors指标合并。</p>
<p>官方网站：<a href="http://excellentanalytics.com/">http://excellentanalytics.com/</a></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/google-analytics-data-export-api.html' rel='bookmark' title='Google Analytic 数据导出API接口'>Google Analytic 数据导出API接口</a></li>
<li><a href='http://www.biaodianfu.com/google-analytics-session.html' rel='bookmark' title='Google Analytics 最新会话定义'>Google Analytics 最新会话定义</a></li>
<li><a href='http://www.biaodianfu.com/web-analytics-an-hour-a-day.html' rel='bookmark' title='《Web Analytics: An Hour a Day》PDF电子书'>《Web Analytics: An Hour a Day》PDF电子书</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/google-analytics-data-in-excel.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>数据分析中常用的数据模型</title>
		<link>http://www.biaodianfu.com/data-model.html</link>
		<comments>http://www.biaodianfu.com/data-model.html#comments</comments>
		<pubDate>Tue, 26 Jul 2011 01:21:56 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[数据模型]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4091</guid>
		<description><![CDATA[一、抽样分析模型 建模方法 首先确定统计的时间段，暂定为15天；从数据库中随机抽取若干名用户作为分析样本建立分析模型，模型图中假定抽样人数为100人，15天内最高使用量为200最少为15，在横坐标轴依次画出每人的使用量立柱图；然后向右侧画出最高点和最低点的水平引线；然后垂直划线连接水平线，得到上下交点之间的线段，分别在线段的中点和三分点处水平画出“中分线”“上分线”“下分线”。 分析方法 根据立柱图的分布比率确定哪条线为“多”“少”的分割线； 高柱和低柱比较均衡，则以中分线为分割线； 普遍偏高，少量低柱，则以上分线为分割线； 普遍偏低，少量高柱，则以下分线为分割线； 优点：统计建模方便快捷； 缺点：不能获得准确的宏观数据，仅获得近似的参考数据。 二、数据区间对比分析模型 建模方法 假定统计时间段为15天，抽取10000人，分别统计他们的使用量，假定最多使用量为200，最少使用量为0；模型的横坐标为使用量，纵坐标为发送人数；在横坐标上，以10条为量级，从少到多依次画出不同数量区间的发送人数立柱图，连接主图顶部重点，得到人数波动曲线。 分析方法 波动曲线的顶点和与顶点最近的最低点，即为使用量“多”和“少”的分水岭，连接两点，取中点画垂直线，即得到二分法的临界线，左侧为非活跃用户，右侧为活跃用户。如图示 根据柱状图在不同量级的分布状况，也可以采用多分法细分用户类型，如图示。 三、对比分析模型曲线类型分析 利用“数量区间对比模型”分析，不仅能得到分类用户量级标准、人数、和使用量数据，通过分析使用量曲线类型，可以得到产品和运营的宏观印象。以下对四种典型的曲线类型进行分析。 常见状态（产品研发和市场发展的初期） 有基本稳定的用户群 缺少优质用户，拔高乏力 缺少高粘度产品（功能） 基本功能还行，除了基本功能，别的不爱用 维持状态（市场发展中后期） 通过若干时间的经营，产品有一定影响，同时拥有少量fans 对初级用户的引导不够，致使中间用户空虚 产品本身或有某种缺陷，不为多数人接受，只有少数人突破瓶颈，习惯产品才成长成高级 理想状态（初、中、后期） 市场发展势头良好，用户上手快，越用越熟练，越用越喜欢 证明产品功能，用户教育俱佳 需加大对潜在用户的宣传力度，扩大用户数 严峻状态（初、中、后期） 市场发展形势不客观，用户浅尝辄止，流失严重 产品存在重大缺陷或基本功能设计实现欠佳，无法留住用户 宣传引导力度不够 Related posts: 手机客户端开发定位 刘兴亮：微博的传播机制 新浪微博客试用体会]]></description>
			<content:encoded><![CDATA[<p><strong>一、抽样分析模型</strong></p>
<p><strong><img class="alignnone size-full wp-image-4092" title="chouyang" src="http://www.biaodianfu.com/wp-content/uploads/2011/07/chouyang.png" alt="" width="476" height="328" /></strong></p>
<p><strong>建模方法</strong></p>
<p>首先确定统计的时间段，暂定为15天；从数据库中随机抽取若干名用户作为分析样本建立分析模型，模型图中假定抽样人数为100人，15天内最高使用量为200最少为15，在横坐标轴依次画出每人的使用量立柱图；然后向右侧画出最高点和最低点的水平引线；然后垂直划线连接水平线，得到上下交点之间的线段，分别在线段的中点和三分点处水平画出“中分线”“上分线”“下分线”。</p>
<p><strong>分析方法</strong></p>
<p>根据立柱图的分布比率确定哪条线为“多”“少”的分割线；</p>
<ol>
<li>高柱和低柱比较均衡，则以中分线为分割线；</li>
<li>普遍偏高，少量低柱，则以上分线为分割线；</li>
<li>普遍偏低，少量高柱，则以下分线为分割线；</li>
</ol>
<p><strong>优点：</strong>统计建模方便快捷；</p>
<p><strong>缺点：</strong>不能获得准确的宏观数据，仅获得近似的参考数据。</p>
<p>二、<strong>数据区间对比分析模型</strong></p>
<p><strong><img class="alignnone size-full wp-image-4093" title="qujian" src="http://www.biaodianfu.com/wp-content/uploads/2011/07/qujian.png" alt="" width="457" height="333" /></strong></p>
<p><strong>建模方法</strong></p>
<p>假定统计时间段为15天，抽取10000人，分别统计他们的使用量，假定最多使用量为200，最少使用量为0；模型的横坐标为使用量，纵坐标为发送人数；在横坐标上，以10条为量级，从少到多依次画出不同数量区间的发送人数立柱图，连接主图顶部重点，得到人数波动曲线。</p>
<p><strong>分析方法</strong></p>
<ol>
<li>波动曲线的顶点和与顶点最近的最低点，即为使用量“多”和“少”的分水岭，连接两点，取中点画垂直线，即得到二分法的临界线，左侧为非活跃用户，右侧为活跃用户。如图示</li>
<li>根据柱状图在不同量级的分布状况，也可以采用多分法细分用户类型，如图示。</li>
</ol>
<p>三、<strong>对比分析模型曲线类型分析</strong></p>
<p>利用“数量区间对比模型”分析，不仅能得到分类用户量级标准、人数、和使用量数据，通过分析使用量曲线类型，可以得到产品和运营的宏观印象。以下对四种典型的曲线类型进行分析。</p>
<p><img class="alignnone size-full wp-image-4094" title="paowuxian" src="http://www.biaodianfu.com/wp-content/uploads/2011/07/paowuxian.png" alt="" width="309" height="225" /></p>
<p><strong>常见状态</strong>（产品研发和市场发展的初期）</p>
<ol>
<li>有基本稳定的用户群</li>
<li>缺少优质用户，拔高乏力</li>
<li>缺少高粘度产品（功能）</li>
<li>基本功能还行，除了基本功能，别的不爱用</li>
</ol>
<p><img class="alignnone size-full wp-image-4095" title="fanpaowuxian" src="http://www.biaodianfu.com/wp-content/uploads/2011/07/fanpaowuxian.png" alt="" width="310" height="223" /></p>
<p><strong>维持状态</strong>（市场发展中后期）</p>
<ol>
<li>通过若干时间的经营，产品有一定影响，同时拥有少量fans</li>
<li>对初级用户的引导不够，致使中间用户空虚</li>
<li>产品本身或有某种缺陷，不为多数人接受，只有少数人突破瓶颈，习惯产品才成长成高级</li>
</ol>
<p><img class="alignnone size-full wp-image-4096" title="shangxie" src="http://www.biaodianfu.com/wp-content/uploads/2011/07/shangxie.png" alt="" width="313" height="219" /></p>
<p><strong>理想状态</strong>（初、中、后期）</p>
<ol>
<li>市场发展势头良好，用户上手快，越用越熟练，越用越喜欢</li>
<li>证明产品功能，用户教育俱佳</li>
<li>需加大对潜在用户的宣传力度，扩大用户数</li>
</ol>
<p><img title="xiaxie" src="http://www.biaodianfu.com/wp-content/uploads/2011/07/xiaxie.png" alt="" width="307" height="218" /></p>
<p><strong>严峻状态</strong>（初、中、后期）</p>
<ol>
<li>市场发展形势不客观，用户浅尝辄止，流失严重</li>
<li>产品存在重大缺陷或基本功能设计实现欠佳，无法留住用户</li>
<li>宣传引导力度不够</li>
</ol>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/mobile-soft.html' rel='bookmark' title='手机客户端开发定位'>手机客户端开发定位</a></li>
<li><a href='http://www.biaodianfu.com/transmission-mechanism-of-micro-blog.html' rel='bookmark' title='刘兴亮：微博的传播机制'>刘兴亮：微博的传播机制</a></li>
<li><a href='http://www.biaodianfu.com/sina-twitter-2.html' rel='bookmark' title='新浪微博客试用体会'>新浪微博客试用体会</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/data-model.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>统计指标和术语汇总</title>
		<link>http://www.biaodianfu.com/metrics.html</link>
		<comments>http://www.biaodianfu.com/metrics.html#comments</comments>
		<pubDate>Tue, 26 Jul 2011 01:03:21 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[网站分析]]></category>
		<category><![CDATA[指标]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=4083</guid>
		<description><![CDATA[页面浏览量 PV(page view)，即页面浏览数，或点击量，通常是衡量一个频道或网站甚至一个网页的主要指标。 用户刷新页面不记录到页面浏览量中。 独立访客数 UV(unique visitor)：独立访客，将每台独立上网电脑（以cookie为依据）视为一位访客，一天之内（00:00-24:00），访问您网站的访客数量。一天之内相同cookie的访问只被计算1次。 平均访问页数 这是一个平均数，即在一定时间内全部页面浏览量与所有独立访客数相除的结果，即一个用户浏览的网页数量。这一指标表明了访问者对网站内容或者产品信息感兴趣的程度，也就是常说的网站“粘性”。 访问次数 也称为登陆数，一个登陆是指客户开始访问网站到离开网站的过程。其中：相邻两次点击页面时间间隔在30分钟以内为一次登陆，大于30分钟为两次登陆。 平均网站访问时间 同一个访问过程中最后一个页面的访问时间减去第一个页面的访问时间，得到此访问在网站上的停留时间。 页面停留时间 显示访问者在某个特定页面或某组页面上花费的时间。∑（时间戳（N+1）-时间戳(N)）/(页面访问量-退出数) 新访客数 独立访客中，历史首次访问您网站的访客数。 重复访客者数 重复访问者。是指在一定时期内（两年）不止一次访问一个网站的独立用户。 新访客率 某段时间内某个页面或多个页面新访客数占所有唯一身份访问者的比例。 回访率 重复访客占所有唯一身份访问者的比例。  独立IP数 指访问某个站点或点击某个页面的不同IP地址的人数。 在同一天内，只记录第一次进入网站的具有独立IP的访问者，在同一天内再次访问该网站则不计数。独立IP访问者提供了一定时间内不同观众数量的统计指标，而没有反应出网站的全面活动。 访问频度 是指您网站上访问者每日访问的频度，用于揭示您网站内容对访问者的吸引程度。 跳出率 某个时间段内，只浏览了一页即离开网站的访问次数占总访问次数的比例。对于某页面的跳出率算法：从这个页面进入网站没有再点击其他页即离开的次数/所有进入这个页面的次数对于整个网站跳出率的算法：只浏览一个页面即离开的访问次数/进入网站的总次数 退出率 某个时间段内，离开网页的次数占该网页总浏览次数的比例。从本页退出网站的次数/本页的综合浏览量。 页面打开时间 页面顶部JS代码与页面底部JS代码执行时间的差值。  唯一身份浏览量 唯一浏览量（如最常见内容报告中所示）会汇总由同一用户在同一会话期间生成的综合浏览量。唯一浏览量表示该页被浏览（一次或多次）期间的会话次数。 页面价值 页面价值是指用户在到达目标页面或完成电子商务交易（或两者都有）前访问页面的平均价值。其计算公式如下：页面价值 =（总目标价值+电子商务收入）/指定页面的唯一身份浏览量 投放词ROI 订单佣金/点击单价*点击量 登陆页面 即访问入口：每次访问过程中，用户进入的第一个页面，此页面可以显示网站对外或搜索引擎的一些链接入口。 访问路径 每个访问者从进入您的网站开始访问，一直到最后离开您的网站，整个过程中先后浏览的页面称为访问路径。 离开页面 是指某个访客本次访问您网站时所访问的最后一个页面。 目标完成数 到达目标页面的会话数目。 目标转化率 目标完成的会话占总会话的比例。 路径进入数 进入用户预定义的浏览路径的会话数。 路径完成数 完成预定义的浏览路径的会话数。即设置的浏览路径每个步骤（页面）都覆盖到的会话的数目。 [...]]]></description>
			<content:encoded><![CDATA[<p><strong>页面浏览量</strong><strong> </strong>PV(page view)，即页面浏览数，或点击量，通常是衡量一个频道或网站甚至一个网页的主要指标。 用户刷新页面不记录到页面浏览量中。</p>
<p><strong>独立访客数 </strong>UV(unique visitor)：独立访客，将每台独立上网电脑（以cookie为依据）视为一位访客，一天之内（00:00-24:00），访问您网站的访客数量。一天之内相同cookie的访问只被计算1次。</p>
<p><strong>平均访问页数</strong><strong> </strong>这是一个平均数，即在一定时间内全部页面浏览量与所有独立访客数相除的结果，即一个用户浏览的网页数量。这一指标表明了访问者对网站内容或者产品信息感兴趣的程度，也就是常说的网站“粘性”。</p>
<p><strong>访问次数 </strong>也称为登陆数，一个登陆是指客户开始访问网站到离开网站的过程。其中：相邻两次点击页面时间间隔在30分钟以内为一次登陆，大于30分钟为两次登陆。</p>
<p><strong>平均网站访问时间 </strong>同一个访问过程中最后一个页面的访问时间减去第一个页面的访问时间，得到此访问在网站上的停留时间。</p>
<p><strong>页面停留时间 </strong>显示访问者在某个特定页面或某组页面上花费的时间。∑（时间戳（N+1）-时间戳(N)）/(页面访问量-退出数)</p>
<p><strong>新访客数 </strong>独立访客中，历史首次访问您网站的访客数。<strong></strong></p>
<p><strong>重复访客者数 </strong>重复访问者。是指在一定时期内（两年）不止一次访问一个网站的独立用户。</p>
<p><strong>新访客率 </strong>某段时间内某个页面或多个页面新访客数占所有唯一身份访问者的比例。</p>
<p><strong>回访率 </strong>重复访客占所有唯一身份访问者的比例。 </p>
<p><strong>独立IP数 </strong>指访问某个站点或点击某个页面的不同IP地址的人数。 在同一天内，只记录第一次进入网站的具有独立IP的访问者，在同一天内再次访问该网站则不计数。独立IP访问者提供了一定时间内不同观众数量的统计指标，而没有反应出网站的全面活动。</p>
<p><strong>访问频度 </strong>是指您网站上访问者每日访问的频度，用于揭示您网站内容对访问者的吸引程度。</p>
<p><strong>跳出率 </strong>某个时间段内，只浏览了一页即离开网站的访问次数占总访问次数的比例。对于某页面的跳出率算法：从这个页面进入网站没有再点击其他页即离开的次数/所有进入这个页面的次数对于整个网站跳出率的算法：只浏览一个页面即离开的访问次数/进入网站的总次数<strong></strong></p>
<p><strong>退出率 </strong>某个时间段内，离开网页的次数占该网页总浏览次数的比例。从本页退出网站的次数/本页的综合浏览量。</p>
<p><strong>页面打开时间 </strong>页面顶部JS代码与页面底部JS代码执行时间的差值。</p>
<p> <strong>唯一身份浏览量 </strong>唯一浏览量（如最常见内容报告中所示）会汇总由同一用户在同一会话期间生成的综合浏览量。唯一浏览量表示该页被浏览（一次或多次）期间的会话次数。</p>
<p><strong>页面价值 </strong>页面价值是指用户在到达目标页面或完成电子商务交易（或两者都有）前访问页面的平均价值。其计算公式如下：页面价值 =（总目标价值+电子商务收入）/指定页面的唯一身份浏览量</p>
<p><strong>投放词ROI </strong>订单佣金/点击单价*点击量</p>
<p><strong>登陆页面 </strong>即访问入口：每次访问过程中，用户进入的第一个页面，此页面可以显示网站对外或搜索引擎的一些链接入口。</p>
<p><strong>访问路径 </strong>每个访问者从进入您的网站开始访问，一直到最后离开您的网站，整个过程中先后浏览的页面称为访问路径。</p>
<p><strong>离开页面 </strong>是指某个访客本次访问您网站时所访问的最后一个页面。</p>
<p><strong>目标完成数 </strong>到达目标页面的会话数目。</p>
<p><strong>目标转化率 </strong>目标完成的会话占总会话的比例。</p>
<p><strong>路径进入数 </strong>进入用户预定义的浏览路径的会话数。</p>
<p><strong>路径完成数 </strong>完成预定义的浏览路径的会话数。即设置的浏览路径每个步骤（页面）都覆盖到的会话的数目。</p>
<p><strong>路径转化率 </strong>完成浏览路径的会话占进入浏览路径的会话的比例。如100个人（准确的说应该是100个会话，这里假设每个人只访问了一次会话）开始了注册流程，但是最终只有20个人注册成功了（到达注册成功页面），则转化率为20%。</p>
<p><strong>搜索深度 </strong>同一用户一次会话的搜索次数。</p>
<p><strong>搜索次数 </strong>用户使用搜索功能的次数</p>
<p><strong>搜索退出率 </strong>搜索后退出数站总搜索者的比例。</p>
<p><strong>网站 </strong>主要单个域名或多个域名的站点集合。</p>
<p><strong>频道</strong><strong>/</strong><strong>栏目 </strong>将网站中的各种内容根据功能归类，划分出若干逻辑上的频道或栏目。</p>
<p><strong>过滤页面 </strong>网站中的某些页面并不是独立的页面，而是附属于某个页面，如滚动条页面就是附属于首页的页面，用户可以将这些附属页面设置为过滤页面。过滤后的浏览数方能真正反映网站的访问情况。</p>
<p><strong>特定页面 </strong>对于需要特殊分析的页面，通过设置，从众多页面中独立出来，进行特定分析的页面。</p>
<p><strong>定义页面 </strong>页面功能没有定义的页面，即没有归类到任何频道的页面。</p>
<p><strong>热门 </strong>最受欢迎的页面或频道，即浏览数排名前若干位（可由用户自行定义）的页面或频道。</p>
<p><strong>冷门 </strong>最不受欢迎的页面或频道，即浏览数排名后若干位（可由用户自行定义）的页面或频道。</p>
<p><strong>热点 </strong>将一个网页中包含的各个链接根据功能归类划分出若干板块，比如机票板块、酒店板块、广告板块等，每个板块成为一个热点。进而分析出该页面上的各个热点板块被点击的情况。</p>
<p><strong>沉默时间 </strong>注册用户最后一次访问网站到分析日的天数。</p>
<p><strong>沉默用户 </strong>在沉默时间内未访问网站的注册用户。</p>
<p><strong>重度访问用户 </strong>按每次访问的停留时间划分，把停留时间超过20分钟的用户归为重度访问用户；按每次访问产生的浏览数划分，把一次访问浏览超过10个页面的用户归为重度访问用户。对于重度访问用户，包括以下四个指标，每个指标值越大，表明用户品质越高。</p>
<ul>
<li>重度用户比例（次数）=（浏览数≥11页面的访问数）/ 总访问数</li>
<li>重度用户比例（时长）=（&gt;20分钟的访问数）/ 总访问数</li>
<li>重度用户指数=（&gt;20分钟的浏览数）/（&gt;20分钟的访问数）</li>
<li>重度访问量比列=（&gt;20分钟的浏览数）/ 总浏览数</li>
</ul>
<p> <strong>轻度访问用户 </strong>按每次访问的停留时间划分，把停留时间不超过1分钟的用户归为轻度访问用户。对于轻度访问用户，包括以下三个指标，每个指标值越小，表明用户品质越高。</p>
<ul>
<li>轻度用户比例=（0-1分钟的访问数）/ 总访问数</li>
<li>轻度用户指数=（0-1分钟的浏览数）/（0-1分钟的访问数）</li>
<li>轻度访问量比例=（0-1分钟的浏览数）/ 总浏览</li>
</ul>
<p><strong>拒绝率 </strong>一次访问只访问一个页面的访问次数占总访问数的比例，比例越小，表明用户品质越高。</p>
<ul>
<li>拒绝率（一个页面）= 只访问1个页面的访问数 / 总访问数</li>
<li>拒绝率（首页）= 只访问首页的访问数 / 总访问数</li>
</ul>
<p><strong>访客 </strong>所有访问网站的用户。</p>
<p><strong>会员 </strong>所有注册过的访客。</p>
<p><strong><strong>客户 </strong></strong>所有消费过的会员。</p>
<p><strong>时段 </strong>按照一天24个小时自然时间段进行划分。</p>
<p><strong>地区 </strong>访问客户的来源地区，是根据IP地区对照表，查询访问客户的IP地址落在哪个IP区段内，而得到其对应的地区。地区包括国内地区和国外地区，国内地区以省为单位，国外地区以国家为单位。</p>
<p><strong>IP</strong><strong>地址 </strong>IP地址由4个数组成，每个数可取值0～255， 各数之间用一个点号”.”分开，例如： 202.103.8.46。</p>
<p><strong>运营商 </strong>客户端接入互联网的服务提供商，比如中国电信、中国网通、教育网等。</p>
<p><strong>接入方式 </strong>客户端接入互联网的方式，比如拨号、专线、ISDN、ADSL等。</p>
<p><strong>广告 </strong>通过在别的网站上放置网站链接或弹出窗口等方式介绍本网站的一种商业活动。</p>
<p><strong>邮件 </strong>通过发送电子邮件，邮件中包含链接地址，吸引用户通过点击邮件中包含的链接地址访问本网站，实际上也是广告的一种。</p>
<p><strong>搜索引擎 </strong>在互联网上为您提供信息”检索”服务的网站。</p>
<p><strong>关键字 </strong>用户通过搜索引擎“检索”的内容。</p>
<p><strong>投放词 </strong>在百度竞价系统后台设置的关键词。</p>
<p><strong>曝光数 </strong>广告的展示次数。</p>
<p><strong>广告点击数 </strong>用户点击弹出广告的次数，即Click数。</p>
<p><strong>趋势 </strong>趋势分为两种，第一种是以时段为单位的一天24小时发展趋势。第二种是以日为单位的周、月、以及指定区间发展趋势。</p>
<p><strong>汇总 </strong>对多网站的分析进行汇总。</p>
<p><strong>同期比较 </strong>对任意两个日、周、月、以及指定区间的浏览数（或访问数、或用户数、停留时间）进行比较。比较对象可以是页面、频道、栏目、广告、地区等。</p>
<p><strong>聚合 </strong>对日期的聚合，比如周聚合就是将7天的数据合在一起为一个分析项，聚合目的就是以聚合项为单位分析网站发展的趋势。</p>
<p><strong>环比 </strong>在趋势分析中，当前日期数据与上一日期数据的比成为环比。</p>
<p><strong>Excel</strong><strong>导出 </strong>将分析结果以Excel表格形式输出。</p>
<p><strong>网站拓扑结构 </strong>网站的拓扑结构是由网站汇总、网站分析和频道分析三类节点构成。其中，网站汇总下可以有部门汇总，网站分析下可以有子网站，频道分析下可以有子频道。用户根据网站拓扑结构，来查询所需要的分析结果。</p>
<p><strong>日志文件 </strong>日志文件是指被分析网站的工作日志。</p>
<p><strong>状态代码 </strong>也称作错误代码，是为服务器所接收每个请求（网页点击）分配的 3 位数代码。</p>
<p>&nbsp;</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/ie-png-problem.html' rel='bookmark' title='IE不能显示PNG图片问题'>IE不能显示PNG图片问题</a></li>
<li><a href='http://www.biaodianfu.com/user-viscosity.html' rel='bookmark' title='怎样提高用户粘度'>怎样提高用户粘度</a></li>
<li><a href='http://www.biaodianfu.com/dd_belatedpng-js.html' rel='bookmark' title='DD_belatedPNG.js让IE6支持透明PNG图片'>DD_belatedPNG.js让IE6支持透明PNG图片</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/metrics.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

