编辑同义词库文件 (Office SharePoint Server)

同义词库文件是 Microsoft Office SharePoint Server 2007 中的一项查询扩展搜索功能,可让用户在搜索框中键入短语,并获得与所输入短语相关的字词结果。例如,搜索单词“run”时,可能会返回包含单词“run”或“jog”的结果(如果这两个词在同义词库文件中相关)。在同义词库文件中,您可以使用替换集指定替换为备用值的模式,还可以使用扩展集返回与指定模式同义的其他值。

本文内容:

  • 了解同义词库文件

  • 使用替换集

  • 使用扩展集

  • 编辑同义词库文件

  • 按语言列出的同义词库文件列表

了解同义词库文件

安装 Microsoft Office SharePoint Server 2007 之后,将自动包括 Office SharePoint Server 2007 支持的每种语言的同义词库文件,以及非特定语言的同义词库文件:tsneu.xml。非特定语言的 tsneu.xml 同义词库文件应用于没有与查询语言关联的同义词库文件的查询。即使存在与查询语言关联的特定同义词库文件,非特定语言的同义词库文件也将始终应用于查询。有关详细信息,请参阅“按语言列出的同义词库文件列表”一节。

默认情况下,系统将在查询服务器上的以下位置创建并存储同义词库文件:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Config。该默认位置的同义词库文件可以复制到查询服务器上每个 Microsoft Search 服务实例所对应的以下文件夹位置:驱动器:\Program Files\Microsoft Office Servers\12.0\Data\Office Server\Applications\<应用程序 UID>\Config,其中 <应用程序 UID> 是与特定的共享服务提供程序关联的 GUID。

备注

如果您修改默认位置上的同义词库文件,则每次创建新的共享服务提供程序 (SSP) 时,都会自动复制修改后的文件。如果在创建 SSP 之后修改默认位置上的同义词库文件,则需要将这些文件从默认位置复制到现有的每个 SSP 的指定目录中。

Important重要说明:

一个名为 tsschema.xml 的文件将与同义词库文件安装在同一个目录中。请勿修改此 tsschema.xml 文件。其他所有同义词库文件都引用此文件,并且更改此文件可能会导致搜索操作无法正常执行。

默认情况下,每个同义词库文件均包含非活动示例内容。必须先对同义词库文件进行编辑,然后才能使用它进行搜索。同义词库文件主要包含两类条目:替换集和扩展集。这些条目将在本主题的后面部分进行更详细的介绍。Diacritics_sensitive 是第三类条目,用于指定在搜索时是忽略还是包含重音等音调符号标记。情况默认下忽略音调符号,因此该值设为 0。若要在搜索时包含音调符号,请将该值更改为 1。

以下是同义词库文件中默认 XML 的示例:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
        <diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>
Important重要说明:

从性能角度看,知道同义词库文件中定义的项数很重要,并且该数目不应超过 1,000/10,000(典型/最大)项。请注意:每个 <pat><sub> 标记都将作为不符合推荐值的定义项进行计数。

添加到同义词库文件中的条目不能只包含特殊字符。不过,您可以拥有空白条目。例如,如果要确保特定术语的查询不返回任何结果,可更改条目。在下面的示例中,对“Windows”一词的查询不会返回任何结果:

<replacement>
    <pat>windows</pat>
    <sub></sub>
</replacement>

同义词库文件中可能包含干扰词;不过,如果您同时还使用干扰词文件,则它们会在后期被筛选出来。有关详细信息,请参阅编辑干扰词文件 (Office SharePoint Server)

使用替换集

替换集指定搜索查询中由一个或多个替换项替换的模式。例如,您可以添加一个替换集,其中“W2K”为模式,“Windows2000”为替换项。对“W2K”一词进行查询,Office SharePoint Server 2007 将只返回包含“Windows 2000”的搜索结果。搜索结果不会返回包含“W2K”的项。

每个替换集都包含在 <replacement> 标记内。在替换标记中,可以通过将模式放入 <pat> 标记中来指定一种或多种模式,还可以通过将替换项放入 <sub> 标记中来指定一个或多个替换项。模式和替换项可以包含一个单词,也可以包含一系列单词。例如,若要添加一个将“W2K”作为模式且“Windows2000”作为替换项的替换集,请使用下列代码:

<replacement>
    <pat>W2K</pat>
    <sub>Windows 2000</sub>
</replacement>

您指定的每种模式均可有多个替换项。

备注

理想情况下,替换集应与所有人具有同一理解的词一起使用。例如,应考虑这样的情形,在查询中,将已弃用的词(如内部产品名称)替换为其他词(如已发布产品名称)。

使用扩展集

扩展集是一组彼此同义的替换项。可以扩展在一个替换项中包含多个匹配项的查询,以包括扩展集中的所有其他替换项。例如,您可以添加一个扩展集,其中以下替换项是同义项:

  • 作家

  • 作者

  • 记者

如果您查询“作者”一词,Office SharePoint Server 2007 还会返回包含“作家”和“记者”的搜索结果。

每个扩展集都包含在 <expansion> 标记内。在 <expansion> 标记内,可以通过将替换项放入 <sub> 标记中来指定一个或多个替换项。例如,在前面的示例中,可以添加以下代码行:

<expansion>
    <sub>作家</sub>
    <sub>作者</sub>
    <sub>记者</sub>
</expansion>

可以在同义词库文件中包含单个字词或短语。指定语言的分词系统将根据该语言的词汇规则确定划分字词的范围,从而标识单个字词。如果您将分词系统无法识别为单个词的字词包括在同义词库文件中,则您还应将其包括在自定义词典中,这样分词系统就不会将其拆分为更小的标记。例如,如果在扩展集中使用单词“IT&T”,但却未将其包括在自定义词典中,则分词系统可能会将该单词拆分为两个单独的词“IT”和“T”。这可能会导致扩展集不能按预期方式执行搜索查询。有关创建和使用自定义词典的详细信息,请参阅创建自定义词典 (Office SharePoint Server 2007)

编辑同义词库文件

使用下列步骤编辑同义词库文件。

Important重要说明:

编辑文件时,必须对文件中的每个条目成对使用相匹配的开始和结束标记。如果同义词库文件中的 XML 标记不匹配,将在应用程序事件日志中记录一条错误。

编辑同义词库文件

  1. 启动记事本,然后打开同义词库文件。有关查找和标识相应同义词库文件的信息,请参阅“了解同义词库文件”一节。

  2. 如果您是首次对同义词库文件进行更改,请删除显示在文件开头的 <!-- Commented out 批注行以及显示在文件末尾的 --> 批注行。

  3. 对同义词库文件进行任何更改。添加、修改或删除替换集或扩展集。

  4. 保存同义词库文件,然后关闭记事本。

按语言列出的同义词库文件列表

语言 文件名

阿拉伯语

tsara.xml

孟加拉语

tsben.xml

保加利亚语

tsbul.xml

加泰罗尼亚语

tscat.xml

简体中文

tschs.xml

繁体中文

tscht.xml

克罗地亚语

tscro.xml

荷兰语(荷兰)

tsnld.xml

英语(英国)

tseng.xml

英语(美国)

tsenu.xml

芬兰语

tsfin.xml

法语

tsfra.xml

德语

tsdeu.xml

古吉拉特语

tsguj.xml

希伯来语

tsheb.xml

印地语

tshin.xml

冰岛语

tsice.xml

印度尼西亚语

tsind.xml

意大利语

tsita.xml

日语

tsjpn.xml

埃纳德语

tskan.xml

朝鲜语

tskor.xml

拉脱维亚语

tslat.xml

立陶宛语

tslit.xml

马来语

tsmal.xml

马拉雅拉姆语

tsmly.xml

马拉地语

tsma.xml

非特定语言

tsneu.xml

挪威语(博克马尔语)

tsnor.xml

波兰语

tsplk.xml

波兰语

tspol.xml

葡萄牙语(巴西)

tsptb.xml

葡萄牙语(葡萄牙)

tspor.xml

旁遮普语

tspun.xml

罗马尼亚语

tsrom.xml

俄语

tsrus.xml

塞尔维亚语(西里尔文)

tssbc.xml

塞尔维亚语(拉丁语系)

tssbl.xml

斯洛伐克语

tssvk.xml

斯洛文尼亚语

tsslo.xml

西班牙语

tsesn.xml

瑞典语

tssve.xml

泰米尔语

tstam.xml

泰卢固语

tstel.xml

泰语

tstha.xml

土耳其语

tstur.xml

乌克兰语

tsukr.xml

乌尔都语(巴基斯坦)

tsurd.xml