管理同義字檔案 (Search Server 2010)

 

適用版本: Search Server 2010

上次修改主題的時間: 2015-03-09

注意

本文資訊適用於 Microsoft Search Server 2010 與 Microsoft Search Server 2010 Express。

搜尋管理員可使用同義字檔案,指定搜尋查詢中單字或片語的替換或同義字。

  • 指定查詢之單字或片語的替換   搜尋管理員可為使用者可能會在搜尋方塊中輸入之特定單字或片語,指定一或多個單字或片語的替換。例如,管理員可能會指定每當查詢中出現字詞 “Longhorn” 時,搜尋系統就會將其替換為 “Windows Vista” 或 “Vista”。同樣地,管理員也可能會指定每當查詢中出現字詞 “NT5” 或字詞 “W2K” 時,搜尋系統就將其替換為 “Windows 2000”。

    若要指定查詢單字或片語的替換,搜尋管理員要在同義字檔案中插入「替換集」。如需詳細資訊,請參閱本文稍後的<使用替換集>。

  • 指定查詢之單字或片語的同義字   搜尋管理員可為使用者可能會在搜尋方塊中輸入之特定單字或片語指定一或多個單字或片語的同義字。例如,管理員可能會指定 “IE”、“IE8” 及 “Internet Explorer” 為彼此的同義字。當查詢中出現這些字詞的其中之一時,系統就會搜尋其他同義字詞。因此,這三個字詞的其中一個查詢都可能會傳回含有 “IE”、“IE8” 或 “Internet Explorer” 的搜尋結果。

    若要指定查詢之單字或片語的同義字,搜尋管理員要在同義字檔案中插入「擴充集」。如需詳細資訊,請參閱本文稍後的<使用擴充集>。

本文內容:

  • 了解同義字檔案

  • 使用替換集

  • 使用擴充集

  • 使用自訂字典及同義字檔案

  • 編輯同義字檔案

  • 依語言同義字檔案

了解同義字檔案

Microsoft Search Server 2010 安裝程式會為產品支援的每種語言安裝同義字檔案,安裝亦會提供命名為 tsneu.xml 的非語言相關同義字檔案。在查詢處理期間,此檔案會套用至所有查詢,不論查詢語言是否有特定的同義字檔案皆是。如需詳細資訊,請參閱本文稍後的<依語言同義字檔案>。

Search Server 2010 預設會將所有支援語言的同義字檔案安裝在 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Office Server\Config。當搜尋管理員建立 Search Service 應用程式時,搜尋系統會自動從安裝位置將同義字檔案 (包括管理員編輯的任何同義字檔案) 複製到 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Applications\GUID\Config,其中 GUID 是新的 Search Service 應用程式之 GUID。搜尋系統會在每部執行新的 Search Service 應用程式之查詢伺服器上執行相同的作業。因此,執行 Search Service 應用程式之每部查詢伺服器都會有每個同義字檔案的複本。

安裝時,每個同義字檔案都僅含有註解中的非作用中範例內容。因此,您必須先編輯同義字檔案後,搜尋系統才可以使用。除了替換集和擴充集以外,同義字檔案也含有 “diacritics_sensitive” 標記,其會指定搜尋系統要忽略或尊重辨別標記 (如重音)。根據預設,diacritics_sensitive 是設定為 0 而會忽略辨別標記。若要將搜尋系統導向為尊重辨別標記,請將 diacritics_sensitive 的值改設為 1。

下列範例會顯示同義字檔案中的預設 XML:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
        <diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE8</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

使用替換集

搜尋管理員會將「替換集」插入同義字檔案,以指定一或多個單字或片語為使用者可能會在搜尋方塊中輸入之特定單字或片語的替換。同義字檔案中的每個替換集都會以 <replacement> 標記括住。在替換集中,管理員可將每個字詞括在 <pat> (樣式) 標記中,以指定一或多個要替換的查詢單字或片語;管理員也可將每個替換括在 <sub> (替代) 標記中,以指定一或多個替換。例如,下列替換集會將查詢字詞 “Longhorn” 替換為 “Windows Vista” 或 “Vista”:

<replacement>
    <pat>Longhorn</pat>
    <sub>Windows Vista</sub>
    <sub>Vista</sub>
</replacement>

同樣地,下列範例的替換集會指定將查詢字詞 “NT5” 和 “W2K” 替換為 “Windows 2000” :

<replacement>
    <pat>W2K</pat>
    <pat>NT5</pat>  
    <sub>Windows 2000</sub>
</replacement>

搜尋管理員可指定空的替代樣式,以指定特定字詞的查詢不會傳回任何結果。下列範例中,查詢字詞 “bugs” 就不會傳回任何結果:

<replacement>
    <pat>bugs</pat>    
    <sub></sub>
</replacement>

使用擴充集

搜尋管理員可在同義字檔案中使用「擴充集」,以指定一或多個單字或片語為其他字詞的同義字。若搜尋查詢含有擴充集中的任何一個單字或片語,該搜尋查詢就會擴充至包括擴充集中的所有同義字。因此,搜尋查詢若包括擴充集中的任何一個單字或片語,其搜尋結果也會傳回含有該集中任何同義字的結果。

每個擴充集會括在 <expansion> 標記中。在擴充集中,管理員可將每個同義字括在 <sub> 標記中,以指定一或多個同義字。例如,搜尋管理員可能想要指定將 writer、author、blogger 這三個字詞設為同義字的擴充集。若要指定此擴充集,搜尋管理員要將下列幾行新增至同義字檔案:

<expansion>
    <sub>writer</sub>
    <sub>author</sub>
    <sub>blogger</sub>
</expansion>

此擴充集會指定在查詢這三個字詞的任何一個時,也會傳回包含其他兩個字詞的搜尋結果。

使用自訂字典及同義字檔案

特定語言的斷詞工具會依據該語言的語彙規則判斷單字界線,以釐清搜尋查詢中的個別單字。若您的同義字檔案中含有斷詞工具可能會判斷為非單一文字的單字時,您就應該將該文字收錄進自訂字典中,這樣一來,斷詞工具就不會將該文字分割成小 Token。舉例來說,若您在擴充集中使用字詞 “IT&T”,但您未將其收錄在自訂字典中,那麼斷詞工具可能會將該字詞切割成 “IT”、“&” 與 “T” 這三個字詞。這在使用者搜尋查詢 “IT&T” 時,可能會導致同義字檔案中的擴充集無法如預期般地運作。如需如何建立及使用自訂字典的詳細資訊,請參閱<建立自訂字典 (Search Server 2010)>。

編輯同義字檔案

若您在安裝位置中編輯同義字檔案,搜尋系統會自動將編輯的檔案傳播至稍後所建立的 Search Service 應用程式。不過,編輯的同義字檔案不會自動傳播至現有的 Search Service 應用程式。針對每個您想套用變更的現有 Search Service 應用程式,您必須手動將編輯的檔案複製到執行該 Search Service 應用程式之每部查詢伺服器的 Search Service 應用程式資料夾。

注意

  • 命名為 tsschema.xml 的檔案會安裝在與同義字檔案相同的目錄中。請勿修改 tsschema.xml 檔案,因為所有其他的同義字檔案都會使用到這個檔案。變更這個檔案可能會導致未預期的結果。

  • 每個 <pat><sub> 標記都會視為同義字檔案中的一個項目。典型的同義字檔案會包含約 1,000 個項目。基於效能考量,一個同義字檔案中請不要超過 10,000 個項目是很重要的。

  • 若您在同義字檔案中使用了停用字詞檔案中指定的單字,搜尋系統就會將這些文字從同義字檔案中篩選出來。如需詳細資訊,請參閱<管理停用字詞檔案 (Search Server 2010)>。

  • 同義字檔案項目不能僅含特殊字元。

請使用下列程序編輯同義字檔案。

注意

編輯檔案時,您必須在檔案中的每個項目中,使用相符配對的開頭和結尾標記。若同義字檔案中的 XML 標記沒有正確符合,應用程式事件記錄中就會記錄一項錯誤。

編輯同義字檔案

  1. 確認執行此程序的使用者帳戶為本機電腦的管理員群組成員。

  2. 在文字編輯器中開啟同義字檔案。如需如何找出及識別適當的同義字檔案之詳細資訊,請參閱本文稍早的<了解同義字檔案>。

  3. 若您是第一次變更同義字檔案,請先移除檔案開頭的 <!-- Commented out 命令列,以及檔案結尾的 --> 命令列。

  4. 視需要編輯同義字檔案。

  5. 儲存同義字檔案。

    注意

    在儲存同義字檔案時,請一律使用預設的 [編碼] 值,也就是 [Unicode]。

重新啟動 SharePoint Server Search 14 服務

在編輯同義字檔案後,您必須重新啟動 SharePoint Server Search 14 服務,變更才會生效。重新啟動 SharePoint Server Search 14 服務之後,同義字檔案變更就會生效。您並不需要執行編目,變更也會生效。

重新啟動 SharePoint Server Search 14 服務

  1. 確認執行此程序的使用者帳戶為本機電腦的管理員群組成員。

  2. 按一下 [開始],然後指向 [系統管理工具],再按一下 [服務]。

  3. 在 [SharePoint Server Search 14] 上按一下滑鼠右鍵,然後按一下 [重新啟動]。

    重新啟動 SharePoint Server Search 14 服務之後,同義字檔案變更就會生效。

各語言的同義字檔案

下列同義字檔案會自動安裝,且可供您使用。

語言 檔案名稱

非語言相關

tsneu.xml

阿拉伯文

tsara.xml

孟加拉文

tsben.xml

保加利亞文

tsbul.xml

卡達隆尼亞文

tscat.xml

簡體中文

tschs.xml

繁體中文

tscht.xml

克羅埃西亞文

tscro.xml

捷克文

tsces.xml

丹麥文

tsdan

荷蘭文 (荷蘭)

tsnld.xml

英文 (英國)

tseng.xml

英文 (美國)

tsenu.xml

芬蘭文

tsfin.xml

法文 (標準)

tsfra.xml

德文 (標準)

tsdeu.xml

古吉拉特文

tsguj.xml

匈牙利文

tshun.xml

冰島文

tsice.xml

印尼文

tsind.xml

義大利文

tsita.xml

日文

tsjpn.xml

坎那達文

tskan.xml

韓文

tskor.xml

立陶宛文

tslit.xml

馬來文 (馬來西亞)

tsmal.xml

馬來亞拉姆文

tsmly.xml

馬拉提文

tsmar.xml

挪威文 (巴克摩)

tsnor.xml

波蘭文

tsplk.xml

葡萄牙文 (巴西)

tsptb.xml

葡萄牙文 (葡萄牙)

tspor.xml

旁遮普文

tspun.xml

羅馬尼亞文

tsrom.xml

俄文

tsrus.xml

塞爾維亞文 (斯拉夫)

tssbc.xml

塞爾維亞文 (拉丁)

tssbl.xml

斯洛伐克文

tssvk.xml

斯洛維尼亞文

tsslo.xml

西班牙文

tsesn.xml

瑞典文

tssve.xml

坦米爾文

tstam.xml

特拉古文

tstel.xml

泰文

tstha.xml

土耳其文

tstur.xml

烏克蘭文

tsukr.xml

烏都文 (巴基斯坦)

tsurd.xml

越南文

tsvie.xml