标点符(钱魏 Way)

百度超越时空的快照

前些天百度更新其算法一大批网站的快照时间发生的巨大错误(这周已经修复),具体表现在搜索结果的快照时间上,在百度搜索结果页的网站快照时间出现了巨大错误,如1995,2042年,还有2009-2-31等。

2009-2-31

baidu_kuaizhao

原因分析,百度在快照的时候加入了网页上的时间作为参考依据,百度的想法是获取比如博客文章页的发表时间,因为博客发表文章后内容基本不会改变,所以说快照也不需要改变,百度原来的想法是将百度快照停留在网页生成的时间(如果网页不发生改变的话)。百度首先想到的是利用有些网站页面上有发表文章的时间时间来判断,但是百度忘记排除了其他一些干扰信息。如网站上出现别的日期,如合同到期日期,产品保质期,活动结束日期等,就照成了快照时间的超时,如果是记录历史发生过的事,这个就会照成快照回复到很久以前,比如网站是2005年建成的,但是网站上出现了2005年某一天的日期,那么快照时间就很可能停留在1995年。据观察百度前一段时间出现问题时能获取的时间格式为“2009年10月1日”“2009-10-1”这两种时间格式。

通过百度这次出现的错误,可以发现百度快照是参考网页上时间的(不知修复后是否取消了此次算法),不过还是可以做一个尝试,就是在当天网页上显示当天时间,看是否会影响百度的快照更新时间。

码字很辛苦,转载请注明来自标点符《百度超越时空的快照》

评论