标点符(钱魏 Way)

Google Search Appliance 文档日期

利用文档日期页,您可以按文档中的日期来排列和显示搜索结果。 您可以在此页定义 Search Appliance 为文档编制索引时所用的规则。

Search Appliance 可从文档的标题、正文、网址或元标记中提取日期,也可从 HTTP 服务器返回的最后修改日期中提取日期默认情况下,会在 HTTP 标头针对所有文档返回的最后修改日期字段中查找日期。 文档日期搜索还会在非 HTML 文件的正文中查找日期。

对于从标题、正文、网址或元标记中提取的日期而言,遇到的第一个最常用格式的日期即视为文档日期。 已移到某个目录并按最后修改日期排序的文件可以反映复制或移动该文件的日期。

Search Appliance 可以提取以下范围内的日期

  • 开始日期: 1970 年 1 月 1 日
  • 结束日期: 从现在起两天后

Search Appliance 能够识别大多数格式合理的日期。 不过,请不要使用仅提及年份(YY 或 YYYY)的格式,例如 2002。 对于格式为月年的日期,则会假定日期为当月第一天。目前,文档日期可以识别大多数 Latin-1 月份名称,但不能识别中文、日语或韩语的月份名称

日期格式含义

格式

说明 示例

YYYY

年份的所有数字

2001

YY

年份末尾的两个数字

99

YR

年份的所有四位数字或仅最后两位数字。

YY,YYYY

M

月份由一位或两位数字表示

2 或 02

D

以一位或两位数字表示一个月中某一天

7 或 07

MM

月份由两位数字表示

02

DD

以两位数字表示的一个月中某一天 07

WK

星期几

Monday 或 Mon

MON March 或 Mar
O 本地时间与通用时间 (UT) 的关系。

O 在遵循 ISO/IEC 8824 的标准日期格式中使用。

O 以加号 (+)、减号 (-) 或字母 Z 来标记。减号表示本地时间早于世界时间,加号表示本地时间晚于世界时间,字母 Z 表示本地时间等于世界时间。

太平洋标准时间将带有负号,因为它早于世界时 (UT)。

可接受的日期格式

格式

分隔符

示例

YYYY-M-D

连字符

2001-2-27

YYYY-D-M

连字符

2001-27-2

YYYY.M.D

时间段

2001.2.27

YYYY.D.M

时间段

2001.27.2

YYYY/M/D

斜线

2001/2/27

YYYY/D/M

斜线

2001/27/2

D-M-YYYY

连字符

20-2-1999

M-D-YYYY

连字符

2-23-1999

D.M.YYYY

时间段

20.2.1999

M.D.YYYY

时间段

2.23.1999

D/M/YYYY

斜线

20/2/1999

M/D/YYYY

斜线

2/23/1999

YY-MM-DD

连字符

99-04-27

DD-MM-YY

连字符

27-04-99

MM-DD-YY

连字符

04-27-99

YY.MM.DD

时间段

99.04.27

DD.MM.YY

时间段

27.04.99

MM.DD.YY

时间段

04.27.99

YY/MM/DD

斜线

99/04/27

DD/MM/YY

斜线

27/04/99

MM/DD/YY

斜线

04/27/99

WK,D MON,YR

逗号

Tue, 3 March, 2001

WK,MON D,YR

逗号

Tue, March 3, 2001

D MON,YR

空格和逗号

2 Jan, 99

MON YYYY

空格

March 2001

MON D,YR

空格和逗号

Mar 03, 99

MON YY

空格

Mar 99

YYYYMMDDHHmmSSOHH'mm' (无) 20020821041649+08'00'
YYYYMMDDHHmm

(无)

200208211616

YYYYMMDDHH

(无)

2002082116

YYYYMMDD

(无)

20010323

YYYYMM

(无)

200103

YYYY

(无)

2007

DDMMYYYY

(无)

23032001

MMDDYYYY

(无)

03232001

YYMMDD

(无)

990225

DDMMYY

(无)

150299

MMDDYY (无) 021599
YYYY

(无)

2007

使用日期为 ISO-8601 格式 (YYYY-MM-DD) 的元标记,以避免文档标题或正文中多个日期及多种格式所引起的混乱。

各个文件的日期会返回到结果的日期字段中。 这一功能无法关闭,不过您可以选择不在前端上向您的用户显示该字段。 要了解按日期进行排序的详情,请参阅公共 Search Appliance 文档网页上的“搜索协议参考”中的“排序”部分。

如果没有找到文件日期,编制索引时则不必包含日期数据。无日期数据的结果会显示在有日期的结果后面,并按相关性排

如果您的一些文档包含默认日期规则的例外情况,请输入这些文件的具体网址或格式,并将这些规则置于列表顶端。 处理这些规则时,会按照规则列表中指定的顺序进行。 包含文档有效日期的第一条规则会决定该文档的日期。

要指定文档日期规则,请执行以下操作:

  1. 点击抓取并编制索引,然后点击文档日期
  2. 主机或网址格式列中,输入应用规则的主机或格式
  3. 查找日期列中的下拉列表中,选择指定网址格式文档的日期位置
  4. 如果您选择元标记,请在元标记名称栏中指定元标记名称
  5. 要添加更多规则,请点击添加更多行按钮
  6. 指定所有规则后,点击保存更改按钮

规则示例:

规则号 主机或网址格式 日期位置 元标记名称
1 www.foo.com/example/ 标题  
2 www.foo2.com/存档/ 网址  
3 www.foo.com/ 元标记 publication_date
4 www.foo2.com/ 正文  
5 / 最后修改日期  

因为文档 http://www.foo.com/example/foo.html 与规则 1 中的网址格式匹配,所以我们首先会检查文档标题中的日期。 网址与规则 2 不匹配,因此我们会根据规则 3 进行检查。如果在标题或网址中找不到有效日期,那么我们会根据规则 3 在名为 publication_date 的元标记中查找该日期。如果我们在元标记中找不到有效日期,则会根据规则 5 默认使用 HTTP 服务器最近的修改日期。

我们会提取网址 http://www.foo2.com/archives/20040605/abc.html 中的日期。

因为文档 http://www.foo.com/foo.html 不符合规则 1 中的网址格式,因此我们根据规则 3 在元标记中查找日期;如果根据规则 3 找不到有效日期,则默认根据规则 5 进行查找。

我们会在 http://www.foo2.com/foo.html 文档的正文中寻找日期, 并默认使用最近的修改日期。

由于 http://www.foo3.com/foo.html 文档仅符合规则 5 中的网址格式,因此我们只在最后修改标头中查找日期。

不同日期格式

您的文档集可以包含任意数量的不同日期格式。 不过,您必须分别为各个不同的日期格式指定规则。

例如,foo.html 包含以下日期格式的标题:

    June 7, 2004

而 bar.html 包含以下日期格式的标题:

    6/7/2004

您需要定义两个单独的规则以实现与两个日期格式的匹配:

    规则: contains:foo Location of date: 标题
    规则: contains:bar Location of date: 标题

————————————华丽的分隔线——————————————- 

  以下为使用Google管理员工具获取的文档最后修改日期:

  

码字很辛苦,转载请注明来自标点符《Google Search Appliance 文档日期》

评论