管理同義字檔案 (Search Server 2010)
適用版本: Search Server 2010
上次修改主題的時間: 2015-03-09
注意
本文資訊適用於 Microsoft Search Server 2010 與 Microsoft Search Server 2010 Express。
搜尋管理員可使用同義字檔案,指定搜尋查詢中單字或片語的替換或同義字。
指定查詢之單字或片語的替換 搜尋管理員可為使用者可能會在搜尋方塊中輸入之特定單字或片語,指定一或多個單字或片語的替換。例如,管理員可能會指定每當查詢中出現字詞 “Longhorn” 時,搜尋系統就會將其替換為 “Windows Vista” 或 “Vista”。同樣地,管理員也可能會指定每當查詢中出現字詞 “NT5” 或字詞 “W2K” 時,搜尋系統就將其替換為 “Windows 2000”。
若要指定查詢單字或片語的替換,搜尋管理員要在同義字檔案中插入「替換集」。如需詳細資訊,請參閱本文稍後的<使用替換集>。
指定查詢之單字或片語的同義字 搜尋管理員可為使用者可能會在搜尋方塊中輸入之特定單字或片語指定一或多個單字或片語的同義字。例如,管理員可能會指定 “IE”、“IE8” 及 “Internet Explorer” 為彼此的同義字。當查詢中出現這些字詞的其中之一時,系統就會搜尋其他同義字詞。因此,這三個字詞的其中一個查詢都可能會傳回含有 “IE”、“IE8” 或 “Internet Explorer” 的搜尋結果。
若要指定查詢之單字或片語的同義字,搜尋管理員要在同義字檔案中插入「擴充集」。如需詳細資訊,請參閱本文稍後的<使用擴充集>。
本文內容:
了解同義字檔案
使用替換集
使用擴充集
使用自訂字典及同義字檔案
編輯同義字檔案
依語言同義字檔案
了解同義字檔案
Microsoft Search Server 2010 安裝程式會為產品支援的每種語言安裝同義字檔案,安裝亦會提供命名為 tsneu.xml 的非語言相關同義字檔案。在查詢處理期間,此檔案會套用至所有查詢,不論查詢語言是否有特定的同義字檔案皆是。如需詳細資訊,請參閱本文稍後的<依語言同義字檔案>。
Search Server 2010 預設會將所有支援語言的同義字檔案安裝在 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Office Server\Config。當搜尋管理員建立 Search Service 應用程式時,搜尋系統會自動從安裝位置將同義字檔案 (包括管理員編輯的任何同義字檔案) 複製到 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Applications\GUID\Config,其中 GUID 是新的 Search Service 應用程式之 GUID。搜尋系統會在每部執行新的 Search Service 應用程式之查詢伺服器上執行相同的作業。因此,執行 Search Service 應用程式之每部查詢伺服器都會有每個同義字檔案的複本。
安裝時,每個同義字檔案都僅含有註解中的非作用中範例內容。因此,您必須先編輯同義字檔案後,搜尋系統才可以使用。除了替換集和擴充集以外,同義字檔案也含有 “diacritics_sensitive” 標記,其會指定搜尋系統要忽略或尊重辨別標記 (如重音)。根據預設,diacritics_sensitive 是設定為 0 而會忽略辨別標記。若要將搜尋系統導向為尊重辨別標記,請將 diacritics_sensitive 的值改設為 1。
下列範例會顯示同義字檔案中的預設 XML:
<XML ID="Microsoft Search Thesaurus">
<!-- Commented out
<thesaurus xmlns="x-schema:tsSchema.xml">
<diacritics_sensitive>0</diacritics_sensitive>
<expansion>
<sub>Internet Explorer</sub>
<sub>IE</sub>
<sub>IE8</sub>
</expansion>
<replacement>
<pat>NT5</pat>
<pat>W2K</pat>
<sub>Windows 2000</sub>
</replacement>
<expansion>
<sub>run</sub>
<sub>jog</sub>
</expansion>
</thesaurus>
-->
</XML>
使用替換集
搜尋管理員會將「替換集」插入同義字檔案,以指定一或多個單字或片語為使用者可能會在搜尋方塊中輸入之特定單字或片語的替換。同義字檔案中的每個替換集都會以 <replacement>
標記括住。在替換集中,管理員可將每個字詞括在 <pat>
(樣式) 標記中,以指定一或多個要替換的查詢單字或片語;管理員也可將每個替換括在 <sub>
(替代) 標記中,以指定一或多個替換。例如,下列替換集會將查詢字詞 “Longhorn” 替換為 “Windows Vista” 或 “Vista”:
<replacement>
<pat>Longhorn</pat>
<sub>Windows Vista</sub>
<sub>Vista</sub>
</replacement>
同樣地,下列範例的替換集會指定將查詢字詞 “NT5” 和 “W2K” 替換為 “Windows 2000” :
<replacement>
<pat>W2K</pat>
<pat>NT5</pat>
<sub>Windows 2000</sub>
</replacement>
搜尋管理員可指定空的替代樣式,以指定特定字詞的查詢不會傳回任何結果。下列範例中,查詢字詞 “bugs” 就不會傳回任何結果:
<replacement>
<pat>bugs</pat>
<sub></sub>
</replacement>
使用擴充集
搜尋管理員可在同義字檔案中使用「擴充集」,以指定一或多個單字或片語為其他字詞的同義字。若搜尋查詢含有擴充集中的任何一個單字或片語,該搜尋查詢就會擴充至包括擴充集中的所有同義字。因此,搜尋查詢若包括擴充集中的任何一個單字或片語,其搜尋結果也會傳回含有該集中任何同義字的結果。
每個擴充集會括在 <expansion>
標記中。在擴充集中,管理員可將每個同義字括在 <sub>
標記中,以指定一或多個同義字。例如,搜尋管理員可能想要指定將 writer、author、blogger 這三個字詞設為同義字的擴充集。若要指定此擴充集,搜尋管理員要將下列幾行新增至同義字檔案:
<expansion>
<sub>writer</sub>
<sub>author</sub>
<sub>blogger</sub>
</expansion>
此擴充集會指定在查詢這三個字詞的任何一個時,也會傳回包含其他兩個字詞的搜尋結果。
使用自訂字典及同義字檔案
特定語言的斷詞工具會依據該語言的語彙規則判斷單字界線,以釐清搜尋查詢中的個別單字。若您的同義字檔案中含有斷詞工具可能會判斷為非單一文字的單字時,您就應該將該文字收錄進自訂字典中,這樣一來,斷詞工具就不會將該文字分割成小 Token。舉例來說,若您在擴充集中使用字詞 “IT&T”,但您未將其收錄在自訂字典中,那麼斷詞工具可能會將該字詞切割成 “IT”、“&” 與 “T” 這三個字詞。這在使用者搜尋查詢 “IT&T” 時,可能會導致同義字檔案中的擴充集無法如預期般地運作。如需如何建立及使用自訂字典的詳細資訊,請參閱<建立自訂字典 (Search Server 2010)>。
編輯同義字檔案
若您在安裝位置中編輯同義字檔案,搜尋系統會自動將編輯的檔案傳播至稍後所建立的 Search Service 應用程式。不過,編輯的同義字檔案不會自動傳播至現有的 Search Service 應用程式。針對每個您想套用變更的現有 Search Service 應用程式,您必須手動將編輯的檔案複製到執行該 Search Service 應用程式之每部查詢伺服器的 Search Service 應用程式資料夾。
注意
-
命名為 tsschema.xml 的檔案會安裝在與同義字檔案相同的目錄中。請勿修改 tsschema.xml 檔案,因為所有其他的同義字檔案都會使用到這個檔案。變更這個檔案可能會導致未預期的結果。
-
每個
<pat>
或<sub>
標記都會視為同義字檔案中的一個項目。典型的同義字檔案會包含約 1,000 個項目。基於效能考量,一個同義字檔案中請不要超過 10,000 個項目是很重要的。 -
若您在同義字檔案中使用了停用字詞檔案中指定的單字,搜尋系統就會將這些文字從同義字檔案中篩選出來。如需詳細資訊,請參閱<管理停用字詞檔案 (Search Server 2010)>。
-
同義字檔案項目不能僅含特殊字元。
請使用下列程序編輯同義字檔案。
注意
編輯檔案時,您必須在檔案中的每個項目中,使用相符配對的開頭和結尾標記。若同義字檔案中的 XML 標記沒有正確符合,應用程式事件記錄中就會記錄一項錯誤。
編輯同義字檔案
確認執行此程序的使用者帳戶為本機電腦的管理員群組成員。
在文字編輯器中開啟同義字檔案。如需如何找出及識別適當的同義字檔案之詳細資訊,請參閱本文稍早的<了解同義字檔案>。
若您是第一次變更同義字檔案,請先移除檔案開頭的
<!-- Commented out
命令列,以及檔案結尾的-->
命令列。視需要編輯同義字檔案。
儲存同義字檔案。
注意
在儲存同義字檔案時,請一律使用預設的 [編碼] 值,也就是 [Unicode]。
重新啟動 SharePoint Server Search 14 服務
在編輯同義字檔案後,您必須重新啟動 SharePoint Server Search 14 服務,變更才會生效。重新啟動 SharePoint Server Search 14 服務之後,同義字檔案變更就會生效。您並不需要執行編目,變更也會生效。
重新啟動 SharePoint Server Search 14 服務
確認執行此程序的使用者帳戶為本機電腦的管理員群組成員。
按一下 [開始],然後指向 [系統管理工具],再按一下 [服務]。
在 [SharePoint Server Search 14] 上按一下滑鼠右鍵,然後按一下 [重新啟動]。
重新啟動 SharePoint Server Search 14 服務之後,同義字檔案變更就會生效。
各語言的同義字檔案
下列同義字檔案會自動安裝,且可供您使用。
語言 | 檔案名稱 |
---|---|
非語言相關 |
tsneu.xml |
阿拉伯文 |
tsara.xml |
孟加拉文 |
tsben.xml |
保加利亞文 |
tsbul.xml |
卡達隆尼亞文 |
tscat.xml |
簡體中文 |
tschs.xml |
繁體中文 |
tscht.xml |
克羅埃西亞文 |
tscro.xml |
捷克文 |
tsces.xml |
丹麥文 |
tsdan |
荷蘭文 (荷蘭) |
tsnld.xml |
英文 (英國) |
tseng.xml |
英文 (美國) |
tsenu.xml |
芬蘭文 |
tsfin.xml |
法文 (標準) |
tsfra.xml |
德文 (標準) |
tsdeu.xml |
古吉拉特文 |
tsguj.xml |
匈牙利文 |
tshun.xml |
冰島文 |
tsice.xml |
印尼文 |
tsind.xml |
義大利文 |
tsita.xml |
日文 |
tsjpn.xml |
坎那達文 |
tskan.xml |
韓文 |
tskor.xml |
立陶宛文 |
tslit.xml |
馬來文 (馬來西亞) |
tsmal.xml |
馬來亞拉姆文 |
tsmly.xml |
馬拉提文 |
tsmar.xml |
挪威文 (巴克摩) |
tsnor.xml |
波蘭文 |
tsplk.xml |
葡萄牙文 (巴西) |
tsptb.xml |
葡萄牙文 (葡萄牙) |
tspor.xml |
旁遮普文 |
tspun.xml |
羅馬尼亞文 |
tsrom.xml |
俄文 |
tsrus.xml |
塞爾維亞文 (斯拉夫) |
tssbc.xml |
塞爾維亞文 (拉丁) |
tssbl.xml |
斯洛伐克文 |
tssvk.xml |
斯洛維尼亞文 |
tsslo.xml |
西班牙文 |
tsesn.xml |
瑞典文 |
tssve.xml |
坦米爾文 |
tstam.xml |
特拉古文 |
tstel.xml |
泰文 |
tstha.xml |
土耳其文 |
tstur.xml |
烏克蘭文 |
tsukr.xml |
烏都文 (巴基斯坦) |
tsurd.xml |
越南文 |
tsvie.xml |