<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>标点符 &#187; 蜘蛛</title>
	<atom:link href="http://www.biaodianfu.com/tag/%e8%9c%98%e8%9b%9b/feed" rel="self" type="application/rss+xml" />
	<link>http://www.biaodianfu.com</link>
	<description>编译自己的互联网生活</description>
	<lastBuildDate>Wed, 08 Feb 2012 08:42:34 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>使用Google Analytics跟踪搜索引擎的抓取记录</title>
		<link>http://www.biaodianfu.com/tracking-robots-with-google-analytics.html</link>
		<comments>http://www.biaodianfu.com/tracking-robots-with-google-analytics.html#comments</comments>
		<pubDate>Mon, 13 Jun 2011 11:15:28 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[网站推广]]></category>
		<category><![CDATA[Google Analytics]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3866</guid>
		<description><![CDATA[由于Google Analytics是基于javascript创建的，所以在正常情况下Google Analytics是无法跟踪到搜索引擎蜘蛛的爬行轨迹的。但是通过对google analytics原理的学习，你就可以自己动手去实现跟踪爬虫轨迹。方法和前面的使用Google Analytics跟踪手机站流量类似。很早以前也发表了一篇使用PHP跟踪爬虫轨迹的文章，很简单的代码实现，大家也可以做参考。同样这里的方法也使用PHP实现： &#60;?php /*  * Name:Tracking Robots With Google Analytics  * Author:biaodianfu  * URI;http://www.biaodianfu.com/tracking-robots-with-google-analytics.html  */ $utmac = 'UA-16811947-5'; //输入Goolgle Analytics配置生成的跟踪ID $domain = 'biaodianfu.com'; //输入要统计的网站的域名 $utmGifLocation = "http://www.google-analytics.com/__utm.gif"; //请求URL地址 $utmv = "4.8.9"; //Google Analytics统计版本 $title = ""; //网站标题，wp_title() ; /* Robots  * Google  http://www.google.com/support/webmasters/bin/answer.py?hl=cn&#38;answer=1061943  * Baidu  http://tieba.baidu.com/club/9374916/p/10669831  * Yahoo  http://en.wikipedia.org/wiki/Yahoo!_Slurp  * Bing  http://www.bing.com/community/site_blogs/b/webmaster/archive/2009/07/17/new-bot-work-continues-at-bing.aspx [...]]]></description>
			<content:encoded><![CDATA[<p>由于Google Analytics是基于javascript创建的，所以在正常情况下Google Analytics是无法跟踪到搜索引擎蜘蛛的爬行轨迹的。但是通过对google analytics原理的学习，你就可以自己动手去实现跟踪爬虫轨迹。方法和前面的<a title="使用Google Analytics来统计手机网站的流量" href="http://www.biaodianfu.com/google-analytics-no-javascript.html">使用Google Analytics跟踪手机站流量</a>类似。很早以前也发表了一篇使用<a title="PHP版记录蜘蛛爬行历史" href="http://www.biaodianfu.com/php-spider-log.html">PHP跟踪爬虫轨迹</a>的文章，很简单的代码实现，大家也可以做参考。同样这里的方法也使用PHP实现：</p>
<pre lang="php" line="0" escaped="true">&lt;?php
/*
 * Name:Tracking Robots With Google Analytics
 * Author:biaodianfu
 * URI;http://www.biaodianfu.com/tracking-robots-with-google-analytics.html
 */
$utmac = 'UA-16811947-5'; //输入Goolgle Analytics配置生成的跟踪ID
$domain = 'biaodianfu.com'; //输入要统计的网站的域名
$utmGifLocation = "http://www.google-analytics.com/__utm.gif"; //请求URL地址
$utmv = "4.8.9"; //Google Analytics统计版本
$title = ""; //网站标题，wp_title() ;

/* Robots
 * Google  http://www.google.com/support/webmasters/bin/answer.py?hl=cn&amp;answer=1061943
 * Baidu  http://tieba.baidu.com/club/9374916/p/10669831
 * Yahoo  http://en.wikipedia.org/wiki/Yahoo!_Slurp
 * Bing  http://www.bing.com/community/site_blogs/b/webmaster/archive/2009/07/17/new-bot-work-continues-at-bing.aspx
 * SOSO  http://help.soso.com/webspider.htm
 */
$bots = array( 'compatible; Googlebot/([0-9.]{1,10})?' =&gt; 'Google',
                'Googlebot/([0-9.]{1,10})?'=&gt;'Google',
                'Googl(e|ebot)(-News)/([0-9.]{1,10})' =&gt; 'Google News',
                'Googl(e|ebot)(-News)/' =&gt; 'Google News',
                'Googl(e|ebot)(-Image)/([0-9.]{1,10})' =&gt; 'Google Image',
                'Googl(e|ebot)(-Image)/' =&gt; 'Google Image',
                'Googl(e|ebot)(-Video)/([0-9.]{1,10})' =&gt; 'Google Video',
                'Googl(e|ebot)(-Video)/' =&gt; 'Google Video',
                'Googl(e|ebot)(-Sitemaps)/([0-9.]{1,10})?' =&gt; 'Google-Sitemaps',
                'Googl(e|ebot)(-Sitemaps)' =&gt; 'Google-Sitemaps',
                'compatible; Googlebot-Mobile/([0-9.]{1,10})?' =&gt; 'Google Mobile',
                'Googl(e|ebot)(-Mobile)/([0-9.]{1,10})?' =&gt; 'Google Mobile',
                'compatible; Mediapartners-Google/([0-9.]{1,10})?' =&gt; 'Google Mediapartners',
                'Mediapartners-Google[ /]([0-9.]{1,10})' =&gt; 'Google Mediapartners',
                'Mediapartners-Google' =&gt; 'Google Mediapartners',
                '^AdsBot-Google' =&gt; 'Google-AdsBot',
                '^Feedfetcher-Google' =&gt; 'Google-Feedfetcher',
                'compatible; Baiduspider/([0-9.]{1,10})?' =&gt; 'Baidu',
                'Baiduspider' =&gt; 'Baidu',
                'BaiduCustomer' =&gt; 'Baidu Customer',
                'Baidu-Thumbnail' =&gt; 'Baidu Thumbnail',
                'Baidu-Transcoder' =&gt; 'Baidu Mobile',
                'baiduspider-mobile-gate' =&gt; 'Baidu Mobile',
                'Yahoo(! ([a-z]{1,3} )?Slurp|-)' =&gt; 'Yahoo',
                'Yahoo! Slurp China' =&gt; 'Yahoo China',
                'YahooFeedSeeker' =&gt; 'Yahoo Feed',
                'Yahoo-Blogs' =&gt; 'Yahoo Blog',
                'Yahoo ContentMatch Crawler' =&gt; 'Yahoo Ads',
                'Yahoo-MMCrawler ' =&gt; 'Yahoo Image',
                'MSN(BOT|PTC)[ /]([0-9.]{1,10})' =&gt; 'MSN',
                'MS Search ([0-9.]{1,10}) Robot' =&gt; 'MSN',
                'MSNBOT_Mobile' =&gt; 'MSN Mobile',
                'MSMOBOT' =&gt; 'MSN Mobile',
                'MSNBOT-(MEDIA|PRODUCTS|ACADEMIC|NEWSBLOGS)[ /]([0-9.]{1,10})' =&gt; 'MS Live Search',
                'Sosospider' =&gt; 'SoSo',
                'Sosoblogspider' =&gt; 'SoSo Blog',
                'Sosoimagespider' =&gt; 'SoSo IMAGE',
                'Sogou web spider[ /]([0-9.]{1,10})' =&gt; 'Sogou',
                'Sogou-Test-Spider[ /]([0-9.]{1,10})' =&gt; 'Sogou',
                'Sogou web robot' =&gt; 'Sogou',
                'Sogou orion spider[ /]([0-9.]{1,10})' =&gt; 'Sogou',
                'YodaoBot[ /]([0-9.]{1,10})' =&gt; 'Youdao',
                'YodaoBot-Image[ /]([0-9.]{1,10})' =&gt; 'Youdao Image',
                'YodaoBot-Reader[ /]([0-9.]{1,10})' =&gt; 'Youdao Reader',
                'QihooBot[ /]([0-9.]{1,10})' =&gt; 'Qihoo',
                'gougou' =&gt; 'GouGou',
                '(robot|spider|harvest|bot|(?&lt;!msie)crawler)' =&gt; 'Unknown Robot'
                );

$os = array ( 'wi(n|ndows)?' =&gt; 'windows',
              'linux[ /\-]([a-z0-9._]{1,10})' =&gt; 'linux',
              'linux' =&gt; 'linux',
              'Mac[ _]?OS[ _]?X[ /]([0-9.]{1,10})' =&gt; 'macosx',
              'Mac[ _]?OS[ _]?X' =&gt; 'macosx',
              'Mac 10.([0-9.]{1,10})' =&gt; 'macosx',
              'Mac(_Power|intosh.+P)PC' =&gt; 'macppc',
              'beos[ a-z]*([0-9.]{1,10})' =&gt; 'beos',
              'beos' =&gt; 'beos',
              'fedora' =&gt; 'fedora',
              'free[ \-]?bsd[ /]([a-z0-9._]{1,10})' =&gt; 'freebsd',
              'free[ \-]?bsd' =&gt; 'freebsd',
              'open[ \-]?bsd[ /]([a-z0-9._]{1,10})' =&gt; 'openbsd',
              'open[ \-]?bsd' =&gt; 'openbsd',
              'PCLinuxOS[ /]?([0-9.]{1,10})' =&gt; 'pclinux',
              'ubuntu' =&gt; 'ubuntu'
              );

function domainHash($domain) {
 if(!$domain || $domain=="") return 1;
 $h=0; $g=0;
 for($i=strlen($domain)-1;$i&gt;=0;$i--) {
  $c = (int)(ord($domain[$i]));
  $h = (($h &lt;&lt; 6) &amp; 0xfffffff) + $c + ($c &lt;&lt; 14);
  $g = ($h &amp; 0xfe00000);
  if($g!=0) $h = ($h ^ ($g &gt;&gt; 21));
 }
 return $h;
}

function httpRequest($utmUrl){
    if(function_exists('curl_exec')){
    $ch = curl_init();
        curl_setopt($ch, CURLOPT_HEADER, 1);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($ch, CURLOPT_URL, $utmUrl);
  $data = curl_exec($ch);
  curl_close($ch);
    }
    elseif(function_exists('file_get_contents')){
        $options = array(
            "http" =&gt; array(
                "method" =&gt; "GET",
                "user_agent" =&gt; $_SERVER["HTTP_USER_AGENT"],
                "header" =&gt; ("Accepts-Language: " . $_SERVER["HTTP_ACCEPT_LANGUAGE"]))
        );
        $data = file_get_contents( $utmUrl, false, stream_context_create($options));
    }
}

if ( empty( $_SERVER['HTTP_REFERER'] ) &amp;&amp; $_SERVER["HTTP_USER_AGENT"] ){
    foreach ( $os as $patternos =&gt; $o ){
        if ( preg_match('#'.$patternos.'#msi', $_SERVER["HTTP_USER_AGENT"] ) == 0){
            foreach( $bots as $patternbots =&gt; $bot ){
                if (preg_match( '#'.$patternbots.'#i' , $_SERVER['HTTP_USER_AGENT'] ) == 1){
                    $botname = preg_replace ( "/\\s{1,}/i" , '-' , $bot );
                    $utmUrl = $utmGifLocation . "?" .
                              "utmwv=" . $utmv .
                              "&amp;utmn=" . rand(0, 0x7fffffff) .
                              "&amp;utmhn=" . urlencode($_SERVER["SERVER_NAME"]) .
                              "&amp;utmdt=" . urlencode($title).
                              "&amp;utmr=-" .
                              "&amp;utmp=" . urlencode($_SERVER["REQUEST_URI"]) .
                              "&amp;utmac=" . $utmac .
                              "&amp;utmcc=" .
                                '__utma%3D'.domainHash($domain).'.'.rand(0, 0x7fffffff).'.'.time().'.'.time

().'.'.time().'.1%3B%2B'.
                                '__utmb%3D'.domainHash($domain).'%3B%2B'.
                                '__utmc%3D'.domainHash($domain).'%3B%2B'.
                                '__utmz%3D'.domainHash($domain).'.'.time().'.1.1.utmccn%3D(organic)%7Cutmcsr%

3D'.$botname.'%7Cutmctr%3D'.$_SERVER["REQUEST_URI"].'%7Cutmcmd%3Dorganic%3B%2B'.
                                '__utmv%3D'.domainHash($domain).'.Robot%20hostname%3A%20'.gethostbyaddr( $_SERVER

['REMOTE_ADDR'] ).'%3B';
                    httpRequest($utmUrl);
                }
            }
        }
    }
}
?&gt;</pre>
<p>本方法适合使用虚拟主机的朋友，如果您自己有服务器的话建议还是开启服务器日志使用awstats进行分析，英文这样你才能真正的了解蜘蛛，特别是对服务器状态码分析统计。</p>
<p>以上代码参考了一个法文网站，由于代码比较老（2008年的），同时中间的搜索引擎的User-Agent和不太适合中国网站，百度也在近期修改了User-Agent。自己修改了下代码。本代码还未测试，如果发现问题请及时联系。</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/spamreport.html' rel='bookmark' title='向搜索引擎举报作弊网站地址'>向搜索引擎举报作弊网站地址</a></li>
<li><a href='http://www.biaodianfu.com/php-spider-log.html' rel='bookmark' title='PHP版记录蜘蛛爬行历史'>PHP版记录蜘蛛爬行历史</a></li>
<li><a href='http://www.biaodianfu.com/webmaster-tools.html' rel='bookmark' title='网站管理员工具及站长帮助'>网站管理员工具及站长帮助</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/tracking-robots-with-google-analytics.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>百度站长俱乐部蜘蛛相关问题</title>
		<link>http://www.biaodianfu.com/baidu-seo-spider-questions.html</link>
		<comments>http://www.biaodianfu.com/baidu-seo-spider-questions.html#comments</comments>
		<pubDate>Mon, 02 May 2011 10:02:02 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=3637</guid>
		<description><![CDATA[百度数据更新的周期大概是多长？ 如果是一个变化频繁的入口索引页面，相信这个变化周期会很短；而是相对稳固的内容型页面，周期则会相对较长。站长们观察一下蜘蛛的爬取日志，发现的规律会比这边的说明更有价值。此外，搜索结果页上的那个时间，一直很让人confusing，我们正在考虑修改。 HTTPS的网页网页被收录一般来说，网站所有者不是太希望 https 的网页被收录。如果收录了，如果处理？把 https 的网页URL更换成 http 形式的？ 如果不希望被收录，常规的做法是设置robots文件。https主要的出发点是安全，并没有太多考虑搜索引擎。从用户角度，很多采用了https的站点（尤其是首页），也是需要被搜索到的，比如支付宝，贝宝等。通常情况下，搜索引擎对这类网页并不做内容解析，而只是将url进行索引。 百度是否能正常抓到网页的中Unicode编码的文字？ 目前百度对unicode编码只支持utf8，今后会逐渐增加对其它编码方案（如utf16）的支持。 ip 地址形式的URL被收录。 IP地址的url被收录，除了spider在机制上的不完善之外，通常站点设计上也有一些缺陷。一般情况下，这类问题是可以被规避的。 流量被蜘蛛占用，怎么限制它 正常情况下，Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。一个小网站的抓取频率远高于新内容产出速度，通常会是下面这两种问题有中的一个： 1）有其他程序冒充Baiduspider抓取。建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充，Baiduspider的hostname以*.baidu.com的格式命名。 2）网站程序有漏洞，产生了无穷尽的url，被Baiduspider当成了很多新内容而频繁的抓取。建议分析网站的访问日志，看看Baiduspider所 抓取的内容是否是你想让百度收录的，如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。 百度对JS代码里的链接识别么 我们也希望能解析flash、js里的内容。但目前离理想状态尚有距离。 请问百度支持通过robots提交Sitemap么？ 暂时还没这个打算。一般情况下，spider能处理大多数网站的数据抓取和更新，而无须借助sitemap。 option标签里面的链接可以被蜘蛛抓到么？ 可以提取。效果等同于&#60;A href=”http://www.163.com/”&#62;163&#60;/A&#62;。 百度是否跟踪JavaScript链接 知道百度支持nofollow后又有了这个问题，百度是否跟踪JS链接并传递权重？因为有的时候某些页面得到太多权重没什么意义，比如用户登录、注册页面之类的。是否可以用简单的JS阻挡链接传递权重。javascript的解析，是很多搜索引擎正在做的事情；同理，对flash的解析。毕竟有那么多应用javascript或者flash的网站，其实 并没有意识到，他们的做法给搜索引擎的收录和索引带来的麻烦。所以，如果期望不被搜索引擎收录的话，最直接的手段，还是写robots文件。 百度的互联网论坛收录开放协议现在还有用吗？ 预告一下，随着站长平台的逐步完善，这个问题将会得到比较稳妥、彻底的解决。过去的做法不够系统。 关于外链接入已经被robots.txt屏蔽的URL，爬虫是否先抓取的问题 一个url只要被robots屏蔽，baiduspider就不会进行抓取，这是肯定的。就算某个链接可以通过外链进入到，我们也不会去抓取这个页面。 百度是否能抓取CSS样式表并识别分析？ 百度是能够抓取并分析CSS的。 没有提交给百度也无反向链接为何被百度收录 只要是存在的链接都应该收录，但是蜘蛛能不能抓到是另外的问题了。我们把问题明确一下：是否能识别和处理纯文本形式的链接（非&#60;a&#62;&#60;/a&#62;标签）？答案是可以的，搜索引擎的spider需要及时发现和抓取互联网上的链接，至于链接是什么形式，并不重要。 百度是否抓取并且分析代码中注释掉的内容 在html中的注释内容，会在正文提取环节忽略。 搜索引擎在高峰时段大量抓取页面，导致服务器出现负载问题。但是我不希望屏蔽它的抓取，应该如何处理？能否在高峰时段对spider返回 202 状态码，告知spider“服务器已接受请求，但尚未处理。”？这会对网站造成什么影响？ 会延迟百度对新网页的收录速度。正常情况下，Baiduspider的抓取频率大致上和网站新资源产生的速度相符，并不会给网站带来很大的压力。但现在网站结构通常都比较复杂，多种url形式指向的可能是相同的内容，或者会自动产生大量无检索价值的网页。我们目前发现的问题，主要来源于此，建议先分析一下spider的抓取日志，看看是否抓取了你不希望搜索引擎收录的形式，如果有，robots掉它们可以节省大量的资源。 网站首页有更新 但是看iis日志 还是出现304状态码 如果日志中记录的是304，说明baidupdier并没有真正获取更新这个页面，但是返回304是网站站点服务器的行为，我们无法确定具体是什么问题导致的。对于首页这样的重要页面，baiduspider很可能会一天访问多次，如果其中只是有部分304的话，很可能是正常的。 为什么有些站每天不更新反而百度的快照天天新。有些站提供原创内容每天更新反而百度快照不更新。 前面曾经说过，我们内部也对结果页上的时间戳（在url后面）很纠结，有计划整改。实际上有的搜索引擎早已经把这个时间戳去掉了，而代之以网页更新的实际时间。这个时间戳既然给内部人员也带来了困扰，那么对站长和用户，显见也是有困扰的。所以，我的建议是不必太过关注这个时间戳。如果期望看到精确的spider行为，最直接的手段是分析网站日志。我个人觉得站长如果想做出点名堂，一些起码的技术手段还是要会的，数据分析对SEM极端重要。而不要动辄用“草根”来给自己开脱。 以前百度显示网页体积的时候最大是125K，超过这个范围快照显示就不正常，是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了？ 页面大小和搜索引擎的抓取之间没有直接关系。但我们建议网页（包括代码在内）不要过大，过大的网页会有抓取截断；而内容部分，也不要过大，过大会被索引截断。当然，抓取截断的上限，会远大于索引截断的上限。 在百度快照里页面没有显现完整，首页底部（友情链接及版权信息那块）代码和页面都没在快照中出现，那么友情链接对其他网站还有用吗？ 这种情况不会影响友情链接。另外，我们建议尽量将页面大小控制在合适范围内。补充一下，cache只是显示一部分。而底部链接提取只和该网页是否被抓全有关。百度spider抓取的网页文件非常之大，链接提取完全不必担心。 [...]]]></description>
			<content:encoded><![CDATA[<p><strong>百度数据更新的周期大概是多长？</strong></p>
<p>如果是一个变化频繁的入口索引页面，相信这个变化周期会很短；而是相对稳固的内容型页面，周期则会相对较长。站长们观察一下蜘蛛的爬取日志，发现的规律会比这边的说明更有价值。此外，搜索结果页上的那个时间，一直很让人confusing，我们正在考虑修改。</p>
<p><strong>HTTPS</strong><strong>的网页网页被收录一般来说，网站所有者不是太希望</strong><strong> https </strong><strong>的网页被收录。如果收录了，如果处理？把</strong><strong> https </strong><strong>的网页</strong><strong>URL</strong><strong>更换成</strong><strong> http </strong><strong>形式的？</strong></p>
<p>如果不希望被收录，常规的做法是设置robots文件。https主要的出发点是安全，并没有太多考虑搜索引擎。从用户角度，很多采用了https的站点（尤其是首页），也是需要被搜索到的，比如支付宝，贝宝等。通常情况下，搜索引擎对这类网页并不做内容解析，而只是将url进行索引。</p>
<p><strong>百度是否能正常抓到网页的中</strong><strong>Unicode</strong><strong>编码的文字？</strong></p>
<p>目前百度对unicode编码只支持utf8，今后会逐渐增加对其它编码方案（如utf16）的支持。</p>
<p><strong>ip </strong><strong>地址形式的</strong><strong>URL</strong><strong>被收录。</strong></p>
<p>IP地址的url被收录，除了spider在机制上的不完善之外，通常站点设计上也有一些缺陷。一般情况下，这类问题是可以被规避的。</p>
<p><strong>流量被蜘蛛占用，怎么限制它</strong></p>
<p>正常情况下，Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。一个小网站的抓取频率远高于新内容产出速度，通常会是下面这两种问题有中的一个：<br />
1）有其他程序冒充Baiduspider抓取。建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充，Baiduspider的hostname以*.baidu.com的格式命名。<br />
2）网站程序有漏洞，产生了无穷尽的url，被Baiduspider当成了很多新内容而频繁的抓取。建议分析网站的访问日志，看看Baiduspider所 抓取的内容是否是你想让百度收录的，如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。</p>
<p><strong>百度对</strong><strong>JS</strong><strong>代码里的链接识别么</strong></p>
<p>我们也希望能解析flash、js里的内容。但目前离理想状态尚有距离。</p>
<p><strong>请问百度支持通过</strong><strong>robots</strong><strong>提交</strong><strong>Sitemap</strong><strong>么？</strong></p>
<p>暂时还没这个打算。一般情况下，spider能处理大多数网站的数据抓取和更新，而无须借助sitemap。</p>
<p><strong>option</strong><strong>标签里面的链接可以被蜘蛛抓到么？</strong></p>
<p>可以提取。效果等同于&lt;A href=”http://www.163.com/”&gt;163&lt;/A&gt;。</p>
<p><strong>百度是否跟踪</strong><strong>JavaScript</strong><strong>链接</strong></p>
<p>知道百度支持nofollow后又有了这个问题，百度是否跟踪JS链接并传递权重？因为有的时候某些页面得到太多权重没什么意义，比如用户登录、注册页面之类的。是否可以用简单的JS阻挡链接传递权重。javascript的解析，是很多搜索引擎正在做的事情；同理，对flash的解析。毕竟有那么多应用javascript或者flash的网站，其实 并没有意识到，他们的做法给搜索引擎的收录和索引带来的麻烦。所以，如果期望不被搜索引擎收录的话，最直接的手段，还是写robots文件。</p>
<p><strong>百度的互联网论坛收录开放协议现在还有用吗？</strong></p>
<p>预告一下，随着站长平台的逐步完善，这个问题将会得到比较稳妥、彻底的解决。过去的做法不够系统。</p>
<p><strong>关于外链接入已经被</strong><strong>robots.txt</strong><strong>屏蔽的</strong><strong>URL</strong><strong>，爬虫是否先抓取的问题</strong></p>
<p>一个url只要被robots屏蔽，baiduspider就不会进行抓取，这是肯定的。就算某个链接可以通过外链进入到，我们也不会去抓取这个页面。</p>
<p><strong>百度是否能抓取CSS样式表并识别分析？</strong></p>
<p>百度是能够抓取并分析CSS的。</p>
<p><strong>没有提交给百度也无反向链接为何被百度收录</strong></p>
<p>只要是存在的链接都应该收录，但是蜘蛛能不能抓到是另外的问题了。我们把问题明确一下：是否能识别和处理纯文本形式的链接（非&lt;a&gt;&lt;/a&gt;标签）？答案是可以的，搜索引擎的spider需要及时发现和抓取互联网上的链接，至于链接是什么形式，并不重要。</p>
<p><strong>百度是否抓取并且分析代码中注释掉的内容</strong></p>
<p>在html中的注释内容，会在正文提取环节忽略。</p>
<p><strong>搜索引擎在高峰时段大量抓取页面，导致服务器出现负载问题。但是我不希望屏蔽它的抓取，应该如何处理？能否在高峰时段对</strong><strong>spider</strong><strong>返回</strong><strong> 202 </strong><strong>状态码，告知</strong><strong>spider“</strong><strong>服务器已接受请求，但尚未处理。</strong><strong>”</strong><strong>？这会对网站造成什么影响？</strong><strong></strong></p>
<p>会延迟百度对新网页的收录速度。正常情况下，Baiduspider的抓取频率大致上和网站新资源产生的速度相符，并不会给网站带来很大的压力。但现在网站结构通常都比较复杂，多种url形式指向的可能是相同的内容，或者会自动产生大量无检索价值的网页。我们目前发现的问题，主要来源于此，建议先分析一下spider的抓取日志，看看是否抓取了你不希望搜索引擎收录的形式，如果有，robots掉它们可以节省大量的资源。</p>
<p><strong>网站首页有更新 但是看iis日志 还是出现304状态码</strong></p>
<p>如果日志中记录的是304，说明baidupdier并没有真正获取更新这个页面，但是返回304是网站站点服务器的行为，我们无法确定具体是什么问题导致的。对于首页这样的重要页面，baiduspider很可能会一天访问多次，如果其中只是有部分304的话，很可能是正常的。</p>
<p><strong>为什么有些站每天不更新反而百度的快照天天新。有些站提供原创内容每天更新反而百度快照不更新。</strong></p>
<p>前面曾经说过，我们内部也对结果页上的时间戳（在url后面）很纠结，有计划整改。实际上有的搜索引擎早已经把这个时间戳去掉了，而代之以网页更新的实际时间。这个时间戳既然给内部人员也带来了困扰，那么对站长和用户，显见也是有困扰的。所以，我的建议是不必太过关注这个时间戳。如果期望看到精确的spider行为，最直接的手段是分析网站日志。我个人觉得站长如果想做出点名堂，一些起码的技术手段还是要会的，数据分析对SEM极端重要。而不要动辄用“草根”来给自己开脱。</p>
<p><strong>以前百度显示网页体积的时候最大是125K，超过这个范围快照显示就不正常，是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了？</strong></p>
<p>页面大小和搜索引擎的抓取之间没有直接关系。但我们建议网页（包括代码在内）不要过大，过大的网页会有抓取截断；而内容部分，也不要过大，过大会被索引截断。当然，抓取截断的上限，会远大于索引截断的上限。</p>
<p><strong>在百度快照里页面没有显现完整，首页底部（友情链接及版权信息那块）代码和页面都没在快照中出现，那么友情链接对其他网站还有用吗？</strong></p>
<p>这种情况不会影响友情链接。另外，我们建议尽量将页面大小控制在合适范围内。补充一下，cache只是显示一部分。而底部链接提取只和该网页是否被抓全有关。百度spider抓取的网页文件非常之大，链接提取完全不必担心。</p>
<p><strong>百度建议URL静态化吗？还是像Google一样，不建议URL静态化？对伪静态怎样看待？和真的静态文件一样吗？</strong></p>
<p>对URL的动静态，没有歧视政策。之所以以前有过提倡静态的说法，是因为很多动态URL，带了很多参数，而实质上内容是一样的。这个给spider以及站长都带来不必要的麻烦。我们在这上边花了不少精力。所以，总的原则就是，URL的动静态无所谓，只是尽可能的避免重复即可。但是动态url也不要动态得太变态，搞几十个参数，那会吓着蜘蛛。酝酿中的sem指南，会有对url优化方面的详细说明。</p>
<p><span style="color: #ff0000;"><strong>信息解读：</strong></span></p>
<p><strong>1）百度会抓取HTTPS网站的首页，对于不想给百度抓取的内容可以考虑使用HTTPS协议哈。</strong></p>
<p><strong>2）IP地址一般不会被百度给收录。</strong></p>
<p><strong>3）百度可以对常用编码进行解析，如果针对的是百度进行SEO，那么最好是GB2312和UTF-8。</strong></p>
<p><strong>4）百度目前不能识别JS和Flash中的链接。</strong></p>
<p><strong>5）百度目前是抓取CSS样式的，主要的功能应该是检测文本的颜色是否和背景颜色相同。</strong></p>
<p><strong>6）页面中的注释会在页面解析的时候进行过滤。</strong></p>
<p><strong>7）百度快照时间并不是百度蜘蛛抓取时间，这点希望大家都别太在意。</strong></p>
<p><strong>8）百度对页面抓取的大小超过125K，但是个人不建议网页太大，内容越多，页面的中心思想越不突出。快照的大小不等于抓取文档的大小。</strong></p>
<p><strong>9）URL静态和动态对SEO没什么影响，但是需要避免动态参数太多，让蜘蛛陷入死循环。</strong></p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/netease.html' rel='bookmark' title='网易：网聚人的力量'>网易：网聚人的力量</a></li>
<li><a href='http://www.biaodianfu.com/crawl_access.html' rel='bookmark' title='Google Search Appliance 对“robots.txt”文件的访问权'>Google Search Appliance 对“robots.txt”文件的访问权</a></li>
<li><a href='http://www.biaodianfu.com/blog-list.html' rel='bookmark' title='博客推广资源'>博客推广资源</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/baidu-seo-spider-questions.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google搜索引擎蜘蛛等级</title>
		<link>http://www.biaodianfu.com/googlebot.html</link>
		<comments>http://www.biaodianfu.com/googlebot.html#comments</comments>
		<pubDate>Sun, 13 Sep 2009 00:30:09 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=911</guid>
		<description><![CDATA[这里要说的是Google蜘蛛的等级，而不是Google蜘蛛的种类，对于Google蜘蛛的种类有网页搜索的，图片搜索的等，。。这里主要说的是网页搜素引擎的等级。 1号蜘蛛 Google超级服务器每天放出的大量蜘蛛称为1号蜘蛛，其抓取速度非常快，并将采集到的信息分类整理到庞大的数据库。其中有个数据库都是用来存索引到的网站域名的，这个数据库是1号蜘蛛的核心，在这个数据库中还分为10各PR等级的数据库，10个等级的数据库的更新周期也是不同的。以一个PR=4的网站为例，1号蜘蛛爬行的周期大概7天一次，所以说一帮网站没个7天收录都有大幅变化。其实7天这个数据还是蛮准的，但只针对PR=4的网站，越是PR高的网站其更新周期就越短，越是PR低的网站更新周期就越长。  2号蜘蛛  2号蜘蛛是在一号蜘蛛爬行的过程中放出去的，主要爬行的是1号蜘蛛爬过网站的外部链接，其抓取能力要比1号蜘蛛小的多，蜘蛛每天小幅收录网页主要靠2号蜘蛛。 3号蜘蛛 3号蜘蛛的主要任务是爬行2号蜘蛛爬过的网站外部链接。3号蜘蛛的活动基本在2号蜘蛛后面n按时间先后顺序进行抓取。 形象的说是1号蜘蛛在爬行A网站的时候发现了链向B完整的链接，1号网站就将B网站地址发给2号蜘蛛，2号蜘蛛在爬行B网站的时候又发现了C网站，然后2号蜘蛛就将C网站地址发给3号蜘蛛，3号蜘蛛抓取C网站内容。目前GOOGLE为了限制抓取的无限循环对蜘蛛只分为这三个等级.并对其等级的抓取率有个很明确的标准。 比如说：A网站被1号蜘蛛爬行后的一篇文章最后时间为2009-9-1，那当A网站被从别的网站过来的2号蜘蛛给爬行首先有可能会对其收录的是最近发表的几篇文章如：2009-8-31，2008-8-30发布的文章，对2009-8-31和2008-8-30这些文章将会进行第2次第3次的访问，之后再爬行2008-9-1以后的信息.如果网站没有任何更新，它将对其近一个月内的更改内容进行2次爬行。如果外部来的2号与3号蜘蛛越多，同一篇文章有可能会被爬上好几次。 以下为GOOGLE提供的官方数据 1号蜘蛛 基本抓取率在5%~10% 基于PR=0 没有任何导入链接与提交时 有可能被抓取的周期在6个月~12个月不等 基于PR=1 没有任何导入链接与提交时 有可能每次被抓取的周期在4个月~8个月不等 基于PR=2 没有任何导入链接与提交时 有可能被抓取的周期在2个月~4个月不等 基于PR=3 没有任何导入链接与提交时 有可能被抓取的周期在1个月~2个月不等 基于PR=4 没有任何导入链接与提交时 有可能被抓区的周期在1周~1个月不等 当然没有任何导入链接的网站无法做到PR=4，上述此数据只是GOOGLE官方提供的一个基数，意思也就是1号蜘蛛主动爬取你网站的周期数，对于2号或者3号蛛爬取你的网站,也就根据你的导入链接而定，所以你会发现你的网站有时天天在被更新。 2号蜘蛛 基本抓取率是2.5%~5%（基于1号蜘蛛爬行后的数据记录进行再次采集，对于最后次被采集日期的前后进行再次访问） 3号蜘蛛 基本抓取率为1.25%~2.5%（基于1号蜘蛛与2号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问） 以上为ehsy-sem团队的力作，最后感谢ehsy-sem团队的分享。 Related posts: 网站不写title搜索引擎会怎么办 ubuntu基于debian的Linux系统 Google Search Appliance 主机负载计划]]></description>
			<content:encoded><![CDATA[<p>这里要说的是Google蜘蛛的等级，而不是Google蜘蛛的种类，对于Google蜘蛛的种类有网页搜索的，图片搜索的等，。。这里主要说的是网页搜素引擎的等级。</p>
<p><strong>1号蜘蛛</strong></p>
<p>Google超级服务器每天放出的大量蜘蛛称为1号蜘蛛，其抓取速度非常快，并将采集到的信息分类整理到庞大的数据库。其中有个数据库都是用来存索引到的网站域名的，这个数据库是1号蜘蛛的核心，在这个数据库中还分为10各PR等级的数据库，10个等级的数据库的更新周期也是不同的。以一个PR=4的网站为例，1号蜘蛛爬行的周期大概7天一次，所以说一帮网站没个7天收录都有大幅变化。其实7天这个数据还是蛮准的，但只针对PR=4的网站，越是PR高的网站其更新周期就越短，越是PR低的网站更新周期就越长。</p>
<p><strong> 2号蜘蛛</strong></p>
<p> 2号蜘蛛是在一号蜘蛛爬行的过程中放出去的，主要爬行的是1号蜘蛛爬过网站的外部链接，其抓取能力要比1号蜘蛛小的多，蜘蛛每天小幅收录网页主要靠2号蜘蛛。</p>
<p><strong>3号蜘蛛</strong></p>
<p>3号蜘蛛的主要任务是爬行2号蜘蛛爬过的网站外部链接。3号蜘蛛的活动基本在2号蜘蛛后面n按时间先后顺序进行抓取。</p>
<p>形象的说是1号蜘蛛在爬行A网站的时候发现了链向B完整的链接，1号网站就将B网站地址发给2号蜘蛛，2号蜘蛛在爬行B网站的时候又发现了C网站，然后2号蜘蛛就将C网站地址发给3号蜘蛛，3号蜘蛛抓取C网站内容。目前GOOGLE为了限制抓取的无限循环对蜘蛛只分为这三个等级.并对其等级的抓取率有个很明确的标准。</p>
<p>比如说：A网站被1号蜘蛛爬行后的一篇文章最后时间为2009-9-1，那当A网站被从别的网站过来的2号蜘蛛给爬行首先有可能会对其收录的是最近发表的几篇文章如：2009-8-31，2008-8-30发布的文章，对2009-8-31和2008-8-30这些文章将会进行第2次第3次的访问，之后再爬行2008-9-1以后的信息.如果网站没有任何更新，它将对其近一个月内的更改内容进行2次爬行。如果外部来的2号与3号蜘蛛越多，同一篇文章有可能会被爬上好几次。</p>
<p>以下为GOOGLE提供的官方数据</p>
<p><strong>1号蜘蛛</strong></p>
<p>基本抓取率在5%~10%</p>
<p>基于PR=0 没有任何导入链接与提交时 有可能被抓取的周期在6个月~12个月不等</p>
<p>基于PR=1 没有任何导入链接与提交时 有可能每次被抓取的周期在4个月~8个月不等</p>
<p>基于PR=2 没有任何导入链接与提交时 有可能被抓取的周期在2个月~4个月不等</p>
<p>基于PR=3 没有任何导入链接与提交时 有可能被抓取的周期在1个月~2个月不等</p>
<p>基于PR=4 没有任何导入链接与提交时 有可能被抓区的周期在1周~1个月不等</p>
<p>当然没有任何导入链接的网站无法做到PR=4，上述此数据只是GOOGLE官方提供的一个基数，意思也就是1号蜘蛛主动爬取你网站的周期数，对于2号或者3号蛛爬取你的网站,也就根据你的导入链接而定，所以你会发现你的网站有时天天在被更新。</p>
<p><strong>2号蜘蛛</strong></p>
<p>基本抓取率是2.5%~5%（基于1号蜘蛛爬行后的数据记录进行再次采集，对于最后次被采集日期的前后进行再次访问）</p>
<p><strong>3号蜘蛛</strong></p>
<p>基本抓取率为1.25%~2.5%（基于1号蜘蛛与2号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问）</p>
<p>以上为ehsy-sem团队的力作，最后感谢ehsy-sem团队的分享。</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/no-title-page.html' rel='bookmark' title='网站不写title搜索引擎会怎么办'>网站不写title搜索引擎会怎么办</a></li>
<li><a href='http://www.biaodianfu.com/ubuntu.html' rel='bookmark' title='ubuntu基于debian的Linux系统'>ubuntu基于debian的Linux系统</a></li>
<li><a href='http://www.biaodianfu.com/google-crawl-sched.html' rel='bookmark' title='Google Search Appliance 主机负载计划'>Google Search Appliance 主机负载计划</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/googlebot.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>搜索引擎蜘蛛抓取页面的原理</title>
		<link>http://www.biaodianfu.com/web-spider.html</link>
		<comments>http://www.biaodianfu.com/web-spider.html#comments</comments>
		<pubDate>Sat, 12 Sep 2009 13:30:35 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[搜索优化]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=901</guid>
		<description><![CDATA[搜索引擎蜘蛛（Spider），又叫机器人（robots），每个主流的搜索引擎都有自己的搜索引擎蜘蛛，如：Googlebot（Google蜘蛛）、baiduspider（百度蜘蛛）、Yahoo Slurp（Yahoo蜘蛛）、Msnbot（必应蜘蛛）。蜘蛛(Web spider)是指“自动化浏览网络”的程序，用来抓取网页的一个程序。 抓取网页的时候，蜘蛛一般有两种策略：广度优先和深度优先。 广度优先指蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。 深度优先就是让蜘蛛从起始页开始尽量的在抓取网页时往网页更深层次的挖掘进去指蜘蛛，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。但效率会很低，而且容易迷路。 目前大多数搜索引擎使用的是广度优先法则。 广度优先：A-B,C,D,E,F-H,G-I 深度优先：A-B,A-C,A-D,A-E-H-I,A-F-G 由于不可能抓取所有的网页，蜘蛛对一般网站都设置了访问的层数。如上图，A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层，I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。所以说扁平化的网站结构设计更有助于搜索引擎抓取其更多的网页。 Related posts: 网站管理员工具及站长帮助 百度站长俱乐部蜘蛛相关问题 使用Google Analytics跟踪搜索引擎的抓取记录]]></description>
			<content:encoded><![CDATA[<p>搜索引擎蜘蛛（Spider），又叫机器人（robots），每个主流的搜索引擎都有自己的搜索引擎蜘蛛，如：Googlebot（Google蜘蛛）、baiduspider（百度蜘蛛）、Yahoo Slurp（Yahoo蜘蛛）、Msnbot（必应蜘蛛）。蜘蛛(Web spider)是指“自动化浏览网络”的程序，用来抓取网页的一个程序。</p>
<p>抓取网页的时候，蜘蛛一般有两种策略：广度优先和深度优先。</p>
<p><strong>广度优先</strong>指蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。</p>
<p><strong>深度优先</strong>就是让蜘蛛从起始页开始尽量的在抓取网页时往网页更深层次的挖掘进去指蜘蛛，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。但效率会很低，而且容易迷路。</p>
<p>目前大多数搜索引擎使用的是广度优先法则。</p>
<p><img title="zhizhu" src="http://www.biaodianfu.com/wp-content/uploads/2009/09/zhizhu.png" alt="zhizhu" width="523" height="218" /></p>
<p>广度优先：A-B,C,D,E,F-H,G-I</p>
<p>深度优先：A-B,A-C,A-D,A-E-H-I,A-F-G</p>
<p>由于不可能抓取所有的网页，蜘蛛对一般网站都设置了访问的层数。如上图，A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层，I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。所以说扁平化的网站结构设计更有助于搜索引擎抓取其更多的网页。</p>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/webmaster-tools.html' rel='bookmark' title='网站管理员工具及站长帮助'>网站管理员工具及站长帮助</a></li>
<li><a href='http://www.biaodianfu.com/baidu-seo-spider-questions.html' rel='bookmark' title='百度站长俱乐部蜘蛛相关问题'>百度站长俱乐部蜘蛛相关问题</a></li>
<li><a href='http://www.biaodianfu.com/tracking-robots-with-google-analytics.html' rel='bookmark' title='使用Google Analytics跟踪搜索引擎的抓取记录'>使用Google Analytics跟踪搜索引擎的抓取记录</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/web-spider.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>PHP版记录蜘蛛爬行历史</title>
		<link>http://www.biaodianfu.com/php-spider-log.html</link>
		<comments>http://www.biaodianfu.com/php-spider-log.html#comments</comments>
		<pubDate>Sun, 02 Aug 2009 08:23:01 +0000</pubDate>
		<dc:creator>标点符</dc:creator>
				<category><![CDATA[PHP]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.biaodianfu.com/?p=330</guid>
		<description><![CDATA[&#60;? function get_naps_bot() { $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); if (strpos($useragent, 'googlebot') !== false){ return 'Google'; } if (strpos($useragent, 'baiduspider') !== false){ return 'Baidu'; } if (strpos($useragent, 'msnbot') !== false){ return 'Bing'; } if (strpos($useragent, 'slurp') !== false){ return 'Yahoo'; } if (strpos($useragent, 'sosospider') !== false){ return 'Soso'; } if (strpos($useragent, 'sogou spider') !== false){ return 'Sogou'; [...]]]></description>
			<content:encoded><![CDATA[<pre lang="php" escaped="true">
&lt;? function get_naps_bot()
{
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);

if (strpos($useragent, 'googlebot') !== false){
return 'Google';
}

if (strpos($useragent, 'baiduspider') !== false){
return 'Baidu';
}
if (strpos($useragent, 'msnbot') !== false){
return 'Bing';
}

if (strpos($useragent, 'slurp') !== false){
return 'Yahoo';
}

if (strpos($useragent, 'sosospider') !== false){
return 'Soso';
}

if (strpos($useragent, 'sogou spider') !== false){
return 'Sogou';
}

if (strpos($useragent, 'yodaobot') !== false){
return 'Yodao';
}
return false;
}

function nowtime(){
$date=date("Y-m-d.G:i:s");
return $date;
}

$searchbot = get_naps_bot();

if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotlog.txt";
$time=nowtime();
$data=fopen($file,"a");
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n");
fclose($data);
}
?&gt;</pre>
<p>Related posts:<ol>
<li><a href='http://www.biaodianfu.com/discuz-dfopen-fsockopen.html' rel='bookmark' title='dfopen()：discuz封装的fsockopen()'>dfopen()：discuz封装的fsockopen()</a></li>
<li><a href='http://www.biaodianfu.com/php-curl-class.html' rel='bookmark' title='PHP 5 curl Class'>PHP 5 curl Class</a></li>
<li><a href='http://www.biaodianfu.com/php-get-remote-pic.html' rel='bookmark' title='PHP自动保存文章中的外部图片'>PHP自动保存文章中的外部图片</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.biaodianfu.com/php-spider-log.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

