百度超越时空的快照

0 sec read

前些天百度更新其算法一大批网站的快照时间发生的巨大错误(这周已经修复),具体表现在搜索结果的快照时间上,在百度搜索结果页的网站快照时间出现了巨大错误,如1995,2042年,还有2009-2-31等。

2009-2-31

baidu_kuaizhao

原因分析,百度在快照的时候加入了网页上的时间作为参考依据,百度的想法是获取比如博客文章页的发表时间,因为博客发表文章后内容基本不会改变,所以说快照也不需要改变,百度原来的想法是将百度快照停留在网页生成的时间(如果网页不发生改变的话)。百度首先想到的是利用有些网站页面上有发表文章的时间时间来判断,但是百度忘记排除了其他一些干扰信息。如网站上出现别的日期,如合同到期日期,产品保质期,活动结束日期等,就照成了快照时间的超时,如果是记录历史发生过的事,这个就会照成快照回复到很久以前,比如网站是2005年建成的,但是网站上出现了2005年某一天的日期,那么快照时间就很可能停留在1995年。据观察百度前一段时间出现问题时能获取的时间格式为“2009年10月1日”“2009-10-1”这两种时间格式。

通过百度这次出现的错误,可以发现百度快照是参考网页上时间的(不知修复后是否取消了此次算法),不过还是可以做一个尝试,就是在当天网页上显示当天时间,看是否会影响百度的快照更新时间。

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

美团酒旅实时数据规则引擎的学习

美团点评酒旅运营需求在离线场景下,已经得到了较为系统化的支持,通过对离线数据收集、挖掘,可对目标用户进行T+1
19 sec read

什么是 Real-Time Marketing?

什么是实时营销? 实时营销就是让营销在当下发生的。这个“时刻”可以多种形式。“时刻”指的是关于目标受众的需求和
1 sec read

App Store Top 1000 关键词分析

做这个分析的主要目的是分析用户的搜索习惯及用户的需求方向,寻找可能的机会。以下分析是7月初进行的,数据比较老,
42 sec read

发表评论

电子邮件地址不会被公开。 必填项已用*标注