标点符(钱魏 Way)

Google Search Appliance 主机负载计划

抓取网址的数量上限

您的许可指定了您可以抓取的网址的上限。 不过,如果您的网址尚未达到许可所规定的上限,您可以为想要抓取的网址指定较小的数量上限。 如果您输入的数字小于许可指定的总页数上限,您可以提高系统性能。 在您点击保存时间表和主机负载按钮后,系统最多比您指定数量抓取约 10% 的内容系统抓取的网址要稍微多一些,这样在清除重复后,页数与您指定的上限将非常接近

请注意: 如果您将此框保留为空,系统将不断抓取网址,直至达到您的许可的上限。

网络服务器主机负载

网络服务器主机负载值指定了在各个网络服务器上为进行抓取建立的并行连接的个数上限。 我们建议您从 4 个连接开始,只有当确信您的网络服务器能够处理您指定的负载时再逐渐提高该值。 如果您无法确定网络服务器的负载能力,请与您所抓取网站的网站管理员联系。

对于文件服务器和对于代理服务器后面的网络服务器,设备处理主机负载的方式有所不同。 在这些情况下,设备会将多个服务器视为单一主机,并将一个主机负载设置应用于所有服务器。 例如,如果在有 10 个文件服务器的环境中将主机负载设置为 4,那么一次最多只能连接四个服务器,按抓取队列指定的顺序对全部 10 个服务器进行抓取。

警告: 一些服务器可能无法处理高负载。

如果抓取工具认定服务器不能处理定义的主机负载,它将降低抓取速率,直到达到可接受的响应时间为止

请注意: 并行连接的数量偶尔可能低于您在此指定的值,这取决于您的系统行为。 系统会尽力保持这个数量。

网络服务器主机负载例外

网络服务器主机负载例外使您通过为指定的网络服务器分配不同的主机负载上限来指定网络服务器主机负载例外。 在您没有指定主机负载例外的时间段中,将应用默认的网络服务器主机负载。例如,您可能有三个网络服务器,它们可以在夜间处理更多的抓取负载。 对于这三台网络服务器,从晚上 12 点到早晨 6 点设置的默认主机负载为 4,而您可以指定一个比 4 高的负载。

尽可能减少服务器在日间的主机负载,可以对从上午 9:00 至下午 5:00 这一时间段设置例外值 0,这样服务器将不能处理额外负载。

您输入的主机名应该是完全限定的主机名,可以为 ASCII 或 IP 地址。

当使用代理抓取网站时,将使用相同的主机负载来抓取代理后面的所有网站。 所用的主机负载将是针对使用代理抓取的所有网址格式指定的主机负载上限。 您应该执行以下操作中的一项操作:

  • 对您想使用代理来抓取的网站不指定主机负载,这种情况下会使用主机负载上限
  • 指定足够小的主机负载以不影响任何代理站点的性能

以下规则也适用于本页上的条目:

  • 每行只允许有一个主机名条目
  • 主机负载为零 (0) 并不会完全停止抓取,而只是将与主机的接触次数减少为每小时大约三次
  • 您可以将负载系数指定为小数值。 例如,0.5、1 或 2.0

值 2 表示,平均每个主机只使用两个并行连接。 值 .25 表示,平均只有 25% 的时间在使用与网络服务器的连接。

码字很辛苦,转载请注明来自标点符《Google Search Appliance 主机负载计划》

评论