编辑同义词库文件 (Office SharePoint Server)
同义词库文件是 Microsoft Office SharePoint Server 2007 中的一项查询扩展搜索功能,可让用户在搜索框中键入短语,并获得与所输入短语相关的字词结果。例如,搜索单词“run”时,可能会返回包含单词“run”或“jog”的结果(如果这两个词在同义词库文件中相关)。在同义词库文件中,您可以使用替换集指定替换为备用值的模式,还可以使用扩展集返回与指定模式同义的其他值。
本文内容:
了解同义词库文件
使用替换集
使用扩展集
编辑同义词库文件
按语言列出的同义词库文件列表
了解同义词库文件
安装 Microsoft Office SharePoint Server 2007 之后,将自动包括 Office SharePoint Server 2007 支持的每种语言的同义词库文件,以及非特定语言的同义词库文件:tsneu.xml。非特定语言的 tsneu.xml 同义词库文件应用于没有与查询语言关联的同义词库文件的查询。即使存在与查询语言关联的特定同义词库文件,非特定语言的同义词库文件也将始终应用于查询。有关详细信息,请参阅“按语言列出的同义词库文件列表”一节。
默认情况下,系统将在查询服务器上的以下位置创建并存储同义词库文件:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Config。该默认位置的同义词库文件可以复制到查询服务器上每个 Microsoft Search 服务实例所对应的以下文件夹位置:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Office Server\Applications\<应用程序 UID>\Config,其中 <应用程序 UID> 是与特定的共享服务提供程序关联的 GUID。
备注
如果您修改默认位置上的同义词库文件,则每次创建新的共享服务提供程序 (SSP) 时,都会自动复制修改后的文件。如果在创建 SSP 之后修改默认位置上的同义词库文件,则需要将这些文件从默认位置复制到现有的每个 SSP 的指定目录中。
重要说明: |
---|
一个名为 tsschema.xml 的文件将与同义词库文件安装在同一个目录中。请勿修改此 tsschema.xml 文件。其他所有同义词库文件都引用此文件,并且更改此文件可能会导致搜索操作无法正常执行。 |
默认情况下,每个同义词库文件均包含非活动示例内容。必须先对同义词库文件进行编辑,然后才能使用它进行搜索。同义词库文件主要包含两类条目:替换集和扩展集。这些条目将在本主题的后面部分进行更详细的介绍。Diacritics_sensitive 是第三类条目,用于指定在搜索时是忽略还是包含重音等音调符号标记。情况默认下忽略音调符号,因此该值设为 0。若要在搜索时包含音调符号,请将该值更改为 1。
以下是同义词库文件中默认 XML 的示例:
<XML ID="Microsoft Search Thesaurus">
<!-- Commented out
<thesaurus xmlns="x-schema:tsSchema.xml">
<diacritics_sensitive>0</diacritics_sensitive>
<expansion>
<sub>Internet Explorer</sub>
<sub>IE</sub>
<sub>IE5</sub>
</expansion>
<replacement>
<pat>NT5</pat>
<pat>W2K</pat>
<sub>Windows 2000</sub>
</replacement>
<expansion>
<sub>run</sub>
<sub>jog</sub>
</expansion>
</thesaurus>
-->
</XML>
重要说明: |
---|
从性能角度看,知道同义词库文件中定义的项数很重要,并且该数目不应超过 1,000/10,000(典型/最大)项。请注意:每个 |
添加到同义词库文件中的条目不能只包含特殊字符。不过,您可以拥有空白条目。例如,如果要确保特定术语的查询不返回任何结果,可更改条目。在下面的示例中,对“Windows”一词的查询不会返回任何结果:
<replacement>
<pat>windows</pat>
<sub></sub>
</replacement>
同义词库文件中可能包含干扰词;不过,如果您同时还使用干扰词文件,则它们会在后期被筛选出来。有关详细信息,请参阅编辑干扰词文件 (Office SharePoint Server)。
使用替换集
替换集指定搜索查询中由一个或多个替换项替换的模式。例如,您可以添加一个替换集,其中“W2K”为模式,“Windows2000”为替换项。对“W2K”一词进行查询,Office SharePoint Server 2007 将只返回包含“Windows 2000”的搜索结果。搜索结果不会返回包含“W2K”的项。
每个替换集都包含在 <replacement>
标记内。在替换标记中,可以通过将模式放入 <pat>
标记中来指定一种或多种模式,还可以通过将替换项放入 <sub>
标记中来指定一个或多个替换项。模式和替换项可以包含一个单词,也可以包含一系列单词。例如,若要添加一个将“W2K”作为模式且“Windows2000”作为替换项的替换集,请使用下列代码:
<replacement>
<pat>W2K</pat>
<sub>Windows 2000</sub>
</replacement>
您指定的每种模式均可有多个替换项。
备注
理想情况下,替换集应与所有人具有同一理解的词一起使用。例如,应考虑这样的情形,在查询中,将已弃用的词(如内部产品名称)替换为其他词(如已发布产品名称)。
使用扩展集
扩展集是一组彼此同义的替换项。可以扩展在一个替换项中包含多个匹配项的查询,以包括扩展集中的所有其他替换项。例如,您可以添加一个扩展集,其中以下替换项是同义项:
作家
作者
记者
如果您查询“作者”一词,Office SharePoint Server 2007 还会返回包含“作家”和“记者”的搜索结果。
每个扩展集都包含在 <expansion>
标记内。在 <expansion>
标记内,可以通过将替换项放入 <sub>
标记中来指定一个或多个替换项。例如,在前面的示例中,可以添加以下代码行:
<expansion>
<sub>作家</sub>
<sub>作者</sub>
<sub>记者</sub>
</expansion>
可以在同义词库文件中包含单个字词或短语。指定语言的分词系统将根据该语言的词汇规则确定划分字词的范围,从而标识单个字词。如果您将分词系统无法识别为单个词的字词包括在同义词库文件中,则您还应将其包括在自定义词典中,这样分词系统就不会将其拆分为更小的标记。例如,如果在扩展集中使用单词“IT&T”,但却未将其包括在自定义词典中,则分词系统可能会将该单词拆分为两个单独的词“IT”和“T”。这可能会导致扩展集不能按预期方式执行搜索查询。有关创建和使用自定义词典的详细信息,请参阅创建自定义词典 (Office SharePoint Server 2007)。
编辑同义词库文件
使用下列步骤编辑同义词库文件。
重要说明: |
---|
编辑文件时,必须对文件中的每个条目成对使用相匹配的开始和结束标记。如果同义词库文件中的 XML 标记不匹配,将在应用程序事件日志中记录一条错误。 |
编辑同义词库文件
启动记事本,然后打开同义词库文件。有关查找和标识相应同义词库文件的信息,请参阅“了解同义词库文件”一节。
如果您是首次对同义词库文件进行更改,请删除显示在文件开头的
<!-- Commented out
批注行以及显示在文件末尾的-->
批注行。对同义词库文件进行任何更改。添加、修改或删除替换集或扩展集。
保存同义词库文件,然后关闭记事本。
按语言列出的同义词库文件列表
语言 | 文件名 |
---|---|
阿拉伯语 |
tsara.xml |
孟加拉语 |
tsben.xml |
保加利亚语 |
tsbul.xml |
加泰罗尼亚语 |
tscat.xml |
简体中文 |
tschs.xml |
繁体中文 |
tscht.xml |
克罗地亚语 |
tscro.xml |
荷兰语(荷兰) |
tsnld.xml |
英语(英国) |
tseng.xml |
英语(美国) |
tsenu.xml |
芬兰语 |
tsfin.xml |
法语 |
tsfra.xml |
德语 |
tsdeu.xml |
古吉拉特语 |
tsguj.xml |
希伯来语 |
tsheb.xml |
印地语 |
tshin.xml |
冰岛语 |
tsice.xml |
印度尼西亚语 |
tsind.xml |
意大利语 |
tsita.xml |
日语 |
tsjpn.xml |
埃纳德语 |
tskan.xml |
朝鲜语 |
tskor.xml |
拉脱维亚语 |
tslat.xml |
立陶宛语 |
tslit.xml |
马来语 |
tsmal.xml |
马拉雅拉姆语 |
tsmly.xml |
马拉地语 |
tsma.xml |
非特定语言 |
tsneu.xml |
挪威语(博克马尔语) |
tsnor.xml |
波兰语 |
tsplk.xml |
波兰语 |
tspol.xml |
葡萄牙语(巴西) |
tsptb.xml |
葡萄牙语(葡萄牙) |
tspor.xml |
旁遮普语 |
tspun.xml |
罗马尼亚语 |
tsrom.xml |
俄语 |
tsrus.xml |
塞尔维亚语(西里尔文) |
tssbc.xml |
塞尔维亚语(拉丁语系) |
tssbl.xml |
斯洛伐克语 |
tssvk.xml |
斯洛文尼亚语 |
tsslo.xml |
西班牙语 |
tsesn.xml |
瑞典语 |
tssve.xml |
泰米尔语 |
tstam.xml |
泰卢固语 |
tstel.xml |
泰语 |
tstha.xml |
土耳其语 |
tstur.xml |
乌克兰语 |
tsukr.xml |
乌尔都语(巴基斯坦) |
tsurd.xml |