分词系统、词干分析器和干扰词文件如何影响搜索结果 (Search Server 2008)

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2015-03-09

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

分词系统、词干分析器和干扰词文件(也称为“非索引字”文件)全都是作为索引编制和查询过程一部分的组件。

本文内容:

  • 分词系统

  • 词干分析器

  • 干扰词文件

分词系统

分词系统是在索引编制和查询过程中用来将文本字符串拆分成单独字词的组件。在索引编制过程中,可从内容项中将文本作为未拆分的字符串提取出来。分词系统重新确定字符串中每个字词的开始位置和结束位置。此外,分词系统还拆分组合字词,以便用户可以针对原始组合字词的一部分以及组成组合字词的各个词收到查询结果。分词系统还将内容项中的数字和日期转换为标准格式。

每种语言都有不同的分词系统。索引编制引擎决定要使用的分词系统,如果检测到多种语言,则该引擎可以对来自单个文档的文本使用多个分词系统。如果某种特定语言没有分词系统,则使用中性分词系统。

查询引擎也使用分词系统。当用户提交查询时,分词系统将用于拆分组合字词和短语。这就提高了用户的查询与内容索引中的字词匹配的机会。在查询过程中,分词系统的语言由用户的 Web 浏览器的语言决定。

默认情况下,Search Server 2008 在 Search Server 服务器场中的每台服务器上安装下表中列出的分词系统。

阿拉伯语

匈牙利语

旁遮普语

孟加拉语

冰岛语

罗马尼亚语

保加利亚语

印度尼西亚语

俄语

加泰罗尼亚语

意大利语

塞尔维亚语(西里尔文)

克罗地亚语

日语

塞尔维亚语(拉丁语)

捷克语

埃纳德语

斯洛伐克语

丹麦语

朝鲜语

斯洛文尼亚语

荷兰语

拉脱维亚语

西班牙语

英语

立陶宛语

瑞典语

芬兰语

马来语

泰米尔语

法语

马拉雅拉姆语

泰卢固语

德语

马拉地语

泰语

希腊语

挪威语(博克马尔语)

土耳其语

古吉拉特语

波兰语

乌克兰语

希伯来语

葡萄牙语

乌尔都语

印地语

葡萄牙语(巴西)

越南语

词干分析器

词干分析器是用于查找词的根词的组件,它还可以生成该词的变体。例如,在英语中,如果某个查询包含字词“bought”,则词干分析器可以向查询中添加根词“buy”,还可以生成该词的其他形式(如“buys”和“buying”)以添加到查询中。

词干分析器是特定语言的,根据它们支持的语言不同,可能具有不同的功能。某些词干分析器查找根词,但不生成字词的其他形式。在许多语言的查询中,词干分析功能默认是关闭的。您可以在搜索核心结果 Web 部件中为搜索查询启用词干分析功能。

提示

具有分词系统的每种语言都有一个词干分析器(如果该语言支持词干分析)。对于某些语言,已安装但未启用词干分析器。若要启用这些词干分析器,必须编辑注册表。有关如何为这些特定语言启用词干分析器的说明,请参阅如何在 SharePoint Server 2007 中打开分词系统和词干分析器 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x804)。

干扰词文件

当您执行搜索时,语言中的一些字词没有用处。例如,在英语中,字词“the”和“an”几乎不提供任何搜索价值,因为几乎用英语编写的任何文档都包含这些字词。几乎不提供任何搜索价值的字词称为干扰词(也称为“非索引字”)。在索引编制过程中,应删除干扰词以使索引保持较小的规模,这可以提高性能。干扰词包含在您可以编辑的特定语言的文本文件中。在干扰词文件中删除或添加字词要求对内容进行完全爬网。

随着 SharePoint 产品版本的不断演变,干扰词文件发生了非常大的变化。以前包含在干扰词文件中的许多干扰词已从 Search Server 干扰词文件中删除,而包含在内容索引中。默认情况下,用户可以对以前作为干扰词排除的字词执行查询。这些查询称为干扰词查询。您可以在搜索核心结果 Web 部件中禁止此类查询。此外,如果查询中加引号的字符串包含干扰词,则在查询结果中,干扰词可能会被任何字词取代。例如,如果查询包含“configure a server”,则查询结果中将包括其中包含“configure the server”和“configure every server”的内容项。

提示

请不要从干扰词文件中删除全部字词。干扰词文件中必须至少具有一个条目,即使该条目只是一个句点 (.) 字符。

另请参阅

概念

管理设置以改进搜索结果 (Search Server 2008)
配置权威页面 (Search Server 2008)
添加包含最佳匹配的关键字术语 (Search Server 2008)