编辑干扰词文件 (Office SharePoint Server)

干扰词是指对搜索无用的字词,例如单词“the”和“an”。干扰词文件有时又称为“非索引字”文件,其中包含用户运行查询时要排除或忽略的字词列表。这些列表可能包括与搜索无关的字词,例如连词、冠词、形容词和副词,以及公用名、具有冒犯性的字词或不恰当的字词。

本文内容:

  • 了解干扰词文件

  • 编辑干扰词文件

  • 按语言列出的干扰词文件列表

了解干扰词文件

某种语言的干扰词列表存储在该语言的干扰词文件中。如果该语言不存在干扰词列表,Microsoft Office SharePoint Server 2007 将使用非特定语言干扰词文件 noiseneu.txt。指定语言的分词系统将根据该语言的词汇规则确定划分字词的范围,从而标识单个字词。如果某特定语言的分词系统在编制索引或查询期间遇到字词,相应的分词系统会移除干扰词文件中列出的字词。有关干扰词文件所支持的语言的详细信息,请参阅“按语言列出的干扰词文件列表”一节。

默认情况下,系统将在查询服务器上的以下位置创建并存储干扰词文件:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Config。该默认位置的干扰词文件可以复制到查询服务器上每个 Microsoft Search 服务实例所对应的以下文件夹位置:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Applications\\<应用程序 UID>\Config,其中 <应用程序 UID> 是与每个搜索服务实例关联的 GUID。

备注

如果您修改默认位置上的干扰词文件,则在每次创建新共享服务提供程序 (SSP) 时都会自动复制修改后的文件。如果您在创建 SSP 之后修改默认位置上的干扰词文件,则需要将文件从默认位置复制到现有的每个 SSP 的指定目录中。

如果添加干扰词,可能会降低搜索的准确性。但是,内容索引的大小同时也会减小。内容索引越小,性能越高。如果希望搜索返回干扰词,您可以删除这些干扰词。

如果您从干扰词文件中移除字词,则只有在重置内容索引,并对包含所移除关键字的所有内容执行完全爬网后,所做更改才会生效。如果向干扰词文件中添加字词,则不必对所有内容执行完全爬网,因为系统不会搜索新添加的字词。但是,只有在执行完全爬网后,索引大小才会减小。

请不要删除干扰词文件。如果不希望在更新或查询期间移除干扰词,请将这些特定条目从文件中移除。如果删除干扰词文件,所有单个字符都将作为干扰词被移除。

编辑干扰词文件

使用下列过程编辑干扰词文件。

编辑干扰词文件

  1. 启动记事本,然后打开干扰词文件。有关查找和确定相应干扰词文件的信息,请参阅“了解干扰词文件”一节。

  2. 编辑列表,使其仅包含您希望在搜索查询中忽略的字词。

  3. 保存该干扰词文件,然后关闭记事本。

    备注

    保存修改后的干扰词文件时,请始终使用默认“编码”值。

  4. 通过下列步骤重新启动 Office SharePoint Server 搜索服务:

    1. 单击“开始”,指向“管理工具”,然后单击“服务”。

    2. 右键单击“Office SharePoint Server 搜索”,然后单击“重新启动”。

  5. 为了使搜索利用对干扰词文件所做的更改,您必须启动内容源完全爬网。有关如何执行此操作的信息,请参阅启动完全爬网 (Office SharePoint Server 2007)

按语言列出的干扰词文件列表

Office SharePoint Server 2007 包括下列语言的干扰词文件:

语言 文件名

阿拉伯语

noiseara.txt

孟加拉语

noiseben.txt

保加利亚语

noisebul.txt

加泰罗尼亚语

noisecat.txt

简体中文

noisechs.txt

繁体中文

noisecht.txt

克罗地亚语

noisecro.txt

丹麦语

noisedan.txt

荷兰语(荷兰)

noisenld.txt

英语(英国)

noiseeng.txt

英语(美国)

noiseenu.txt

芬兰语

noisefin.txt

法语

noisefra.txt

德语

noisedeu.txt

希腊语

noisegrc.txt

古吉拉特语

noiseguj.txt

希伯来语

noiseheb.txt

印地语

noisehin.txt

冰岛语

noiseice.txt

印度尼西亚语

noiseind.txt

意大利语

noiseita.txt

日语

noisejpn.txt

埃纳德语

noisekan.txt

朝鲜语

noisekor.txt

拉脱维亚语

noiselat.txt

立陶宛语

noiselit.txt

马来语

noisemal.txt

马拉雅拉姆语

noisemly.txt

马拉地语

noisemar.txt

非特定语言

noiseneu.txt

挪威语(博克马尔语)

noisenor.txt

波兰语

noiseplk.txt

波兰语

noisepol.txt

葡萄牙语

noisepor.txt

葡萄牙语(巴西)

noiseptb.txt

旁遮普语

noisepun.txt

罗马尼亚语

noiserom.txt

俄语

noiserus.txt

塞尔维亚语(西里尔文)

noisesbc.txt

塞尔维亚语(拉丁语系)

noisesbl.txt

斯洛伐克语

noisesvk.txt

斯洛文尼亚语

noiseslo.txt

西班牙语

noiseesn.txt

瑞典语

noisesve.txt

泰米尔语

noisetam.txt

泰卢固语

noisetel.txt

泰语

noisetha.txt

土耳其语

noisetur.txt

乌克兰语

noiseurk.txt

乌尔都语(巴基斯坦)

noiseurd.txt