分词系统、词干分析器和干扰词文件对搜索结果有何影响 (Office SharePoint Server 2007)

SharePoint 2007

分词系统、词干分析器和干扰词文件(也称为非索引字文件)都是索引编制和查询过程中的组件。

本文内容:

分词系统

分词系统是一个在索引编制和查询过程中将文本字符串分为单个单词的组件。在索引编制过程中,文本将作为完整的字符串从内容项中提取出来。分词系统将重新确定字符串中每个单词的开始位置和结束位置。此外,分词系统会将组合词分开,以便用户能够获取有关原始组合词的一部分以及构成组合词的单个字词的查询结果。分词系统还会将内容项中的数字和日期转换为标准形式。

每种语言都具有不同的分词系统。索引引擎将确定要使用的分词系统,如果检测到多种语言,则可以对来自单一文档中的文本使用多个分词系统。如果某种特定语言没有分词系统,则使用中性分词系统。

查询引擎也会使用分词系统。当用户提交查询时,会使用分词系统将组合词和短语分开。这样,用户的查询与内容索引中的字词匹配的机会将会增大。在查询过程中,分词系统的语言由用户的 Web 浏览器的语言决定。

默认情况下,Microsoft Office SharePoint Server 2007 会将下表中列出的分词系统安装在 SharePoint 场中的每台服务器上。

阿拉伯语

匈牙利语

旁遮普语

孟加拉语

冰岛语

罗马尼亚语

保加利亚语

印度尼西亚语

俄语

加泰罗尼亚语

意大利语

塞尔维亚语(西里尔文)

克罗地亚语

日语

塞尔维亚语(拉丁语)

捷克语

埃纳德语

斯洛伐克语

丹麦语

朝鲜语

斯洛文尼亚语

荷兰语

拉脱维亚语

西班牙语

英语

立陶宛语

瑞典语

芬兰语

马来语

泰米尔语

法语

马拉雅拉姆语

泰卢固语

德语

马拉地语

泰语

希腊语

挪威语(博克马尔语)

土耳其语

古吉拉特语

波兰语

乌克兰语

希伯来语

葡萄牙语

乌尔都语

印地语

葡萄牙语(巴西)

越南语

词干分析器

词干分析器是一个查找字词的根词的组件,它还可以生成该字词的变体。例如,在英语中,如果查询包含“bought”这个单词,则词干分析器可以将根词“buy”添加到查询中,并且还可以生成此词的其他形式(如“buys”和“buying”)以将其添加到查询中。

词干分析器特定于语言,并且可能具有不同的功能,具体取决于它们所支持的语言。某些词干分析器可查找根词,但不会生成单词的其他形式。默认情况下,对于多种语言,词干分解功能在查询过程中处于关闭状态。您可以为搜索核心结果 Web 部件中的搜索查询启用词干分解功能。

Note 注意:

如果每种具有分词系统的语言都能够支持词干分解功能,则这些语言将具有词干分析器。对于某些语言,虽然安装了词干分析器,但却未启用。若要启用这些词干分析器,您必须编辑注册表。有关如何为这些特定语言启用词干分析器的说明,请参阅如何在 SharePoint Server 2007 中打开分词系统和词干分析器 (http://go.microsoft.com/fwlink/?linkid=141180&clcid=0x804)。

干扰词文件

在执行搜索时,某种语言的某些词没有用。例如,在英语中,诸如“the”和“an”之类的单词的搜索价值很小,因为几乎每篇英文文档中都包含这些单词。搜索价值很小的单词称为干扰词,也称为非索引字。在索引编制过程中,为了使索引保持更小,将会移除干扰词,这样会提高性能。干扰词包含在可以编辑的特定语言文本文件中。如果要在干扰词文件中移除或添加单词,则需要对内容进行完全爬网。有关详细信息,请参阅编辑干扰词文件 (Office SharePoint Server)

干扰词文件与以前版本的 SharePoint 产品的干扰词文件相比变化很大。以前包括在干扰词文件中的许多干扰词,现在已从 Office SharePoint Server 2007 干扰词文件中移除,并且包含在内容索引中。默认情况下,用户可以对以前作为干扰词排除在外的单词执行查询,这些查询叫做干扰词查询。您可以在搜索核心结果 Web 部件中禁止执行这些搜索。此外,如果查询中带引号的字符串包含干扰词,则在查询结果中,干扰词可能会替换为任何单词。例如,如果查询包括“configure a server”,则查询结果中将包括其中包含“configure the server”和“configure every server”的内容项。

Important 重要说明:

请不要移除干扰词文件中的所有单词。干扰词文件中至少必须具有一项,即使该项只是一个句点 (.) 字符也行。

另请参见

显示: