标点符(钱魏 Way)

Google Search Appliance 抓取队列

抓取队列是设备等待抓取的网址以及已到抓取时间的网址的集合。 该信息可帮助您确定在恰当时间是否正在抓取特定主机,以及为什么来自某文档的信息比其他信息要新,等等。

由于抓取队列会在抓取工具处理新信息的过程中不断更改,因此该队列是动态的。 所以,抓取队列快照显示的是当前状况,但不是将来发生的情况的确切预测。 在您获取抓取队列快照之后,队列可能会更改。

请注意,创建抓取队列快照会占用大量资源,因此会降低抓取工具本身的性能。

抓取队列快照

表中列示出了以前抓取的快照。 您可以查看快照的内容,导入到 .csv 文件中,或者将其删除。

在您通过点击获取抓取队列开始获取后,快照即会显示在表中。 在快照生成过程中,其状态为“正在获取”,并且显示“取消”链接。 快照完成后,“取消”链接会变为“删除”链接。

定义快照

获取当前抓取队列的快照:

  1. 名称最多支持 20 个字母数字类字符、连字符和下划线。 名称不能以连字符开始
  2. 对于包含的网址数量,指定您希望快照包含的队列中的网址数量(最多 100,000)。
  3. 对于包含的未来小时数,请指定您希望快照显示的预定小时数(从现在开始向后)。 快照还会包含到期预定网址。
  4. 默认情况下,抓取队列快照包含所有主机。 要将快照限制为单个主机,请点击仅包含该主机的网址,并输入主机名。

Search Appliance 每次只可以创建一个抓取队列快照。

查看快照

点击“查看”,然后点击主机名,即可显示相应主机的快照内容。 抓取队列的快照会显示在获取快照之前等待被抓取的网址。

每一快照都包含以下信息。

项目 说明
PageRank 要抓取的资源的网页排名。 网页排名是影响资源在队列中位置的因素之一,它会让较重要文档的抓取频率高于较不重要的文档。 请注意,在导出快照时不会包含网页排名信息。
上次抓取时间 最后一次抓取该网址的时间。
下一个预定时间 预定抓取资源的时间。 该时间可能会改变,并且受网页排名、队列到期项目状况及其他因素的影响。过期项在被抓取前显示为红色。 如果您一直看到同一到期项,则可能需要进一步进行调查。

只有在首次抓取了网址之后,才会显示下一个预定时间。

更改间隔 希望对这一网络资源进行更改的频率。 首次抓取之后,设备将所有网址的更改间隔初始化为两天。 然后,设备会根据网址的实际更改频率调整更改间隔。

设备在每次抓取网址时都会了解在上次抓取后该资源是否发生过更改。 如果资源已更改,更改间隔会缩短。 如果资源未发生更改,更改间隔会延长。

您可以使用抓取频度调节功能更改这一计算过程。

只有在首次抓取了网址之后,“更改间隔”才会出现。

网址 所含内容被抓取的网络资源。
码字很辛苦,转载请注明来自标点符《Google Search Appliance 抓取队列》

评论