编辑干扰词文件 (Office SharePoint Server)
干扰词是指对搜索无用的字词,例如单词“the”和“an”。干扰词文件有时又称为“非索引字”文件,其中包含用户运行查询时要排除或忽略的字词列表。这些列表可能包括与搜索无关的字词,例如连词、冠词、形容词和副词,以及公用名、具有冒犯性的字词或不恰当的字词。
本文内容:
了解干扰词文件
编辑干扰词文件
按语言列出的干扰词文件列表
了解干扰词文件
某种语言的干扰词列表存储在该语言的干扰词文件中。如果该语言不存在干扰词列表,Microsoft Office SharePoint Server 2007 将使用非特定语言干扰词文件 noiseneu.txt。指定语言的分词系统将根据该语言的词汇规则确定划分字词的范围,从而标识单个字词。如果某特定语言的分词系统在编制索引或查询期间遇到字词,相应的分词系统会移除干扰词文件中列出的字词。有关干扰词文件所支持的语言的详细信息,请参阅“按语言列出的干扰词文件列表”一节。
默认情况下,系统将在查询服务器上的以下位置创建并存储干扰词文件:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Config。该默认位置的干扰词文件可以复制到查询服务器上每个 Microsoft Search 服务实例所对应的以下文件夹位置:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Applications\\<应用程序 UID>\Config,其中 <应用程序 UID> 是与每个搜索服务实例关联的 GUID。
备注
如果您修改默认位置上的干扰词文件,则在每次创建新共享服务提供程序 (SSP) 时都会自动复制修改后的文件。如果您在创建 SSP 之后修改默认位置上的干扰词文件,则需要将文件从默认位置复制到现有的每个 SSP 的指定目录中。
如果添加干扰词,可能会降低搜索的准确性。但是,内容索引的大小同时也会减小。内容索引越小,性能越高。如果希望搜索返回干扰词,您可以删除这些干扰词。
如果您从干扰词文件中移除字词,则只有在重置内容索引,并对包含所移除关键字的所有内容执行完全爬网后,所做更改才会生效。如果向干扰词文件中添加字词,则不必对所有内容执行完全爬网,因为系统不会搜索新添加的字词。但是,只有在执行完全爬网后,索引大小才会减小。
请不要删除干扰词文件。如果不希望在更新或查询期间移除干扰词,请将这些特定条目从文件中移除。如果删除干扰词文件,所有单个字符都将作为干扰词被移除。
编辑干扰词文件
使用下列过程编辑干扰词文件。
编辑干扰词文件
启动记事本,然后打开干扰词文件。有关查找和确定相应干扰词文件的信息,请参阅“了解干扰词文件”一节。
编辑列表,使其仅包含您希望在搜索查询中忽略的字词。
保存该干扰词文件,然后关闭记事本。
备注
保存修改后的干扰词文件时,请始终使用默认“编码”值。
通过下列步骤重新启动 Office SharePoint Server 搜索服务:
单击“开始”,指向“管理工具”,然后单击“服务”。
右键单击“Office SharePoint Server 搜索”,然后单击“重新启动”。
为了使搜索利用对干扰词文件所做的更改,您必须启动内容源完全爬网。有关如何执行此操作的信息,请参阅启动完全爬网 (Office SharePoint Server 2007)。
按语言列出的干扰词文件列表
Office SharePoint Server 2007 包括下列语言的干扰词文件:
语言 | 文件名 |
---|---|
阿拉伯语 |
noiseara.txt |
孟加拉语 |
noiseben.txt |
保加利亚语 |
noisebul.txt |
加泰罗尼亚语 |
noisecat.txt |
简体中文 |
noisechs.txt |
繁体中文 |
noisecht.txt |
克罗地亚语 |
noisecro.txt |
丹麦语 |
noisedan.txt |
荷兰语(荷兰) |
noisenld.txt |
英语(英国) |
noiseeng.txt |
英语(美国) |
noiseenu.txt |
芬兰语 |
noisefin.txt |
法语 |
noisefra.txt |
德语 |
noisedeu.txt |
希腊语 |
noisegrc.txt |
古吉拉特语 |
noiseguj.txt |
希伯来语 |
noiseheb.txt |
印地语 |
noisehin.txt |
冰岛语 |
noiseice.txt |
印度尼西亚语 |
noiseind.txt |
意大利语 |
noiseita.txt |
日语 |
noisejpn.txt |
埃纳德语 |
noisekan.txt |
朝鲜语 |
noisekor.txt |
拉脱维亚语 |
noiselat.txt |
立陶宛语 |
noiselit.txt |
马来语 |
noisemal.txt |
马拉雅拉姆语 |
noisemly.txt |
马拉地语 |
noisemar.txt |
非特定语言 |
noiseneu.txt |
挪威语(博克马尔语) |
noisenor.txt |
波兰语 |
noiseplk.txt |
波兰语 |
noisepol.txt |
葡萄牙语 |
noisepor.txt |
葡萄牙语(巴西) |
noiseptb.txt |
旁遮普语 |
noisepun.txt |
罗马尼亚语 |
noiserom.txt |
俄语 |
noiserus.txt |
塞尔维亚语(西里尔文) |
noisesbc.txt |
塞尔维亚语(拉丁语系) |
noisesbl.txt |
斯洛伐克语 |
noisesvk.txt |
斯洛文尼亚语 |
noiseslo.txt |
西班牙语 |
noiseesn.txt |
瑞典语 |
noisesve.txt |
泰米尔语 |
noisetam.txt |
泰卢固语 |
noisetel.txt |
泰语 |
noisetha.txt |
土耳其语 |
noisetur.txt |
乌克兰语 |
noiseurk.txt |
乌尔都语(巴基斯坦) |
noiseurd.txt |