标点符(钱魏 Way)

Google Search Appliance 抓取频度调节

在“抓取频度调节”页上,您可以对不同网址的抓取时间进行微调。 您可以增加对新闻文档的抓取频度,而减少对存档文档的抓取频度。 在服务器文档对 GET 请求中的 If-Modified-Since 标头响应不正确时,您也可以重新抓取那些在正常情况下不会被重新抓取的网址。

频繁抓取

您可能有经常更改的内容,更新频率为每小时一次,甚至每几分钟一次。 在抓取并编制索引 > 抓取频度调节页上,您可以指定经常更改的网页的网址格式,这样就可以经常抓取它们,保证您提供的索引是最新的。

频繁更改的内容部分超载有可能降低系统性能。 请尽可能减少网址数量以避免降低性能。

要为抓取经常更改的内容设置选项:

  1. 频繁抓取下,输入经常更改的内容的网址格式
  2. 点击保存更改按钮
  3. 在左侧菜单中,点击抓取并编制索引,然后点击抓取网址链接
  4. 检查从以下网址开始抓取框中的网址,以确保能够访问这些文档

检查在仅跟踪和抓取以下格式的网址框中的网址,以确保其中包含您在 频繁抓取部分输入的格式。

很少抓取

为从未更新或修改的文档编制索引,如稳定的数据库等;或为邮件或新闻存档中那些只是逐步增加的文档编制索引,您可以让抓取工具重复使用那些已抓取的网址。 网址的重复使用减轻了您网络服务器上的负载。 请确保可以从起始网址中访问您指定的存档网址格式,并且这些格式还存在于仅跟踪和抓取以下格式的网址框中。

始终强制重新抓取

首次抓取网址时,将为数据编制索引并存储在磁盘上。 随后,为加快抓取速度并减少服务器负载,只有在 Google Search Appliance 的 If-Modified-Since 请求标头上的日期之后修改的文件才会被抓取。 这些更新将添加到索引中去。

只有当您的索引中出现了过期网页时,才能在始终强制重新抓取部分输入网址格式。 尽管抓取工具确实会尽力找出日期发生错误的服务器并自动做出调整,但还是可能出现其他类型的错误配置。

请确保您的服务器保持正确时间。 如果您认为您的一台或多台网络服务器不支持 If-Modified-Since 选项或有配置错误,请使用此部分输入要重新抓取的网址格式。 向您的网站管理员提交您的网络服务器的问题。

码字很辛苦,转载请注明来自标点符《Google Search Appliance 抓取频度调节》

评论