标点符(钱魏 Way)

Google Search Appliance 查询扩展

查询扩展可让 Search Appliance 自动向用户的搜索查询添加额外字词,以返回更多相关结果。 使用查询扩展时,Search Appliance 可扩展两类字词:

  • 用户给出的词的同词干词。 例如,如果用户查找“engineer”,Search Appliance 能向查询中添加“engineers”。
  • 一个或多个以空格分隔的字词(与用户提供的词互为同义词或与密切相关)。 例如,如果用户搜索“FAQ”,设备可能将“frequently asked questions”添加到该查询,或者,如果用户输入“office building”,查询可能扩展到包含“office tower”。

本主题包含以下几个部分:

  • 关于查询扩展字词
  • 创建同义词文件
  • 创建黑名单文件
  • 设置并管理查询扩展文件
  • 设置查询扩展策略
  • 查询扩展和相关查询的关系

关于查询扩展字词

我们提供了内置的字词匹配逻辑,您可以指定自己的字词匹配列表。 每个前端都具有相应的策略,用于指定是否使用 Search Appliance 的内置逻辑(“标准”字词集)、您自己的同义词列表(“本地”字词集)或同时使用二者(“完全”字词集)。

在建立查询扩展策略时,添加更多字词可生成更多结果(正面影响),但也可能会产生没有用处的附带性扩展,此时,您需要对这两方面进行权衡。 您需要监控结果质量,以确保不会产生不必要的扩展。

查询扩展无法传递。 只有原始查询字词才能扩展;同义词无法扩展。

标准字词

默认情况下,会以英语、法语、德语、意大利语、葡萄牙语和西班牙语提供 Search Appliance 查询扩展字词。 逻辑会考虑查询中字词的上下文,并可能在一个查询中将某个字词与它的同义词匹配,而在另一个查询中却不这么做。

本地字词

您可以创建针对 Latin1 字母表的本地查询扩展策略。 本地查询扩展策略由两种文件构成: 同义词文件和黑名单文件。 您可以使用一种类型的文件,也可以同时使用两种类型的文件,还可以创建最多含有 100 个文件的组合文件。 包含重音字符的文件应经过 UTF-8 编码

本地同义词对于配置网站特有的术语表很有用。 下面是一些示例:

  • 部件制造商可以配置将作废部件号与替代部件号进行匹配的同义词。 对旧部件感兴趣的用户将也会收到新部件的相关信息。
  • 大学可以通过配置同义词将课程缩写扩展成全称。 例如,关于 CS101 的查询可以包含从 computer science 101 得到的结果。
  • 制造商可以配置其产品大类的相关查询,以便加入其产品名的查询。

您可以通过创建黑名单控制查询扩展。 黑名单是从查询扩展中排除的一组字词。 黑名单可用于删除不想要的搜索结果,这些搜索结果源自与您环境中使用的特殊字符匹配或阐明了它们的同义词。 假设您为生产名为“Glue”的产品的软件公司管理设备,该产品能够实现不同软件组件的交互。 您可以在黑名单中添加“glue”,以确保用户查询不会扩展到“adhesive”。

要使用本地字词集配置查询扩展,您可以创建一个或多个同义词文件、黑名单文件或同时创建两种文件, 然后上传文件并应用设置。 以下部分说明了如何创建和启用这些文件。

请注意: 包含特殊字符“与”符号 (&) 和下划线 (_) 的同义词被视为有效,并且其结果会得以扩展。

对于使用所支持语言的客户,我们提供了预配置本地同义词文件。 英语文件名为 Google_English_stems,法语文件名为 Google_French_stems,依此类推。 默认情况下,这些文件会出现在查询扩展文件列表中。 每个文件都包含一组可作为标准字词补充的常用字词。 您可以照“原样”使用预配置本地文件;也可以下载文件并进行修改,然后将修改后的文件上传;还可以禁用该文件。 不过,您不能删除这些文件。

码字很辛苦,转载请注明来自标点符《Google Search Appliance 查询扩展》

评论