建立自訂字典 (SharePoint Server 2010)

 

適用版本: SharePoint Server 2010

上次修改主題的時間: 2015-07-06

自訂字典是一個檔案,管理員建立該檔案以指定特定語言的斷詞工具在索引及查詢時應將其視為不可分割的 Token。自訂字典未隨附在產品中。您必須為要修改斷詞工具行為的每種語言建立單獨的自訂字典。

注意

指定語言自訂字典套用至伺服器陣列中所有的 Search Service 應用程式。

本文內容:

  • 使用自訂字典的原因

  • 建立自訂字典的規則

  • 建立自訂字典

  • 將自訂字典複製至每部應用程式伺服器

  • 停止然後重新啟動 SharePoint Server Search 14 服務

  • 執行完整編目

  • 支援的語言

使用自訂字典的原因

若要確認是否必須具備自訂字典以及自訂字典應包含哪些項目,您必須了解斷詞工具的行為。索引系統在對編目內容進行索引時,會使用斷詞工具拆解 Token,此外查詢處理器亦在查詢中使用斷詞工具。在各種案例下,若使用支援斷詞工具語言與方言的自訂字典,則搜尋系統將在確定是否為單字使用斷詞工具之前,會在自訂字典中尋找單字。若單字不在自訂字典中,則斷詞工具將執行一般動作,結果可能將一個 Token 拆解為多個 Token。若該 Token 存在於自訂字典中,則斷詞工具不會對該 Token 執行任何動作。下列兩個範例說明典型的斷詞工具行為,以及自訂字典中項目可能會對該行為產生怎樣的影響。

  • 斷詞工具可能會將 Token「IT&T」在緊挨著分號 (&) 的前後位置進行拆解,結果形成三個 Token「IT」、「&」及「T」。但是,如果 Token「IT&T」位於與所用斷詞工具相同語言的自訂字典中,則在編目或查詢時斷詞工具不會拆解該 Token。如果「IT&T」位於自訂字典中,且文件不包含「IT」或「T」但包含「IT&T」,則包含「IT」或「T」而不包含「IT&T」的查詢不會在結果集中傳回檔案。

  • 斷詞工具可能會對諸如化學文摘服務 (CAS) 註冊編號之類的詞彙產生影響。例如,斷詞工具通常會將出現在連字號或其他特殊字元前後的數字與其他編號分開。例如,氧的 CAS 註冊編號為 7782-44-7。經過斷詞工具處理後,此 CAS 註冊編號拆解為三個區段:數字 7782、44 及 7。透過將出現在主體中的這些 CAS 註冊編號新增到自訂字典,能使搜尋系統對每個編號編製索引,而不會將其拆解為單獨的區段。

正規化與同義字檔案

通常由斷詞工具所套用的具名實體正規化 (例如日期正規化) 不會套用至自訂字典中的詞彙,而自訂字典中的所有詞彙都將被視為相符項目。若同義詞檔案中存有單字或編號,則這一點尤為重要。例如,如果 CAS 註冊編號 7782-44-7 是同義字檔案中擴充集的一部分,而且斷詞工具在連字號處將該編號拆解為三個單獨的數字,則該編號所在的擴充集可能無法按預期方式工作。在這種情況下,透過將 CAS 註冊編號 7782-44-7 新增至適當語言的自訂字典將可解決問題。如需如何使用同義字檔案的資訊,請參閱<管理同義字檔案 (SharePoint Server 2010)>。

建立自訂字典的規則

自訂字典是一個 Unicode 格式的檔案,其中的各個項目必須位於單獨的行中,由換行字元 (CR 與 LF) 分隔。新增自訂字典的項目時,請考慮下列規則,以避免產生意外結果:

  • 項目不區分大小寫。

  • 不能使用縱線字元 (|)。

  • 不能使用空白字元。

  • 不能在項目的開頭使用數字符號字元 (#),但可在項目內或項目尾端使用該字元。

  • 除了前述的縱線字元、數字符號字元及空白字元外,任何英數字元、標點符號、符號與分隔字元均有效。

  • 項目的長度上限為 128 個 (Unicode) 字元。

下表顯示支援與不支援項目的範例。

表 1 – 自訂字典檔案支援與不支援項目的範例

支援 不支援

dogfood

dog food

3#

#3

For#sale

For|sale

ASP.NET

IT&T

(2-Methoxymethylethoxy)propanol

34590-97-8

C7H1603

自訂字典中的項目數沒有固定限制。不過,我們建議自訂字典檔案的總檔案大小不要超過 2 GB。實際上,我們建議您將項目數限制為幾千條。

建立自訂字典

使用下列程序以建立自訂字典。

建立自訂字典

  1. 確認執行此程序的使用者帳戶是本機電腦上管理員群組的成員。

  2. 登入至編目伺服器。

  3. 在文字編輯器中開啟一個新檔案。

    根據上文建立自訂字典的規則中所述的規則,在自訂字典中輸入所需的單字。

  4. 在 [檔案] 功能表上,按一下 [另存新檔]。

  5. 在 [檔案類型] 清單中,選取 [所有檔案]。

  6. 在 [編碼] 清單中,選取 [Unicode]。

  7. 在 [檔案名稱] 方塊中,以下列格式輸入檔案名稱:CustomNNNN.lex,其中「Custom」是文字字串,NNNN 是為其建立自訂字典語言的四位數十六進位碼,lex 是副檔名。如需支援語言與方言的有效檔案名稱清單,請參閱下文中的<支援的語言>。

  8. 在 [儲存位置] 清單中,瀏覽至包含斷詞工具的資料夾。根據預設,此資料夾為 %ProgramFiles%\Microsoft Office Servers\14.0\Bin。

    注意

    僅當自訂字典文件儲存在本機文件系統上的此資料夾中時方可使用。若其僅儲存在 SharePoint 網站等其他位置,則無法使用。

  9. 按一下 [儲存]。

  10. 若伺服器陣列中沒有其他編目伺服器或查詢伺服器,請前往停止然後重新啟動 SharePoint Server Search 14 服務。否則,請跳至下一程序「將自訂字典複製至伺服器陣列中的每部應用程式伺服器」。

將自訂字典複製至每部應用程式伺服器

伺服器陣列中的每部應用程式伺服器都必須有一個自訂字典複本。

將自訂字典複製至每個應用程式

  1. 確認執行此程序的使用者帳戶是伺服器陣列中,每部應用程式伺服器 (即每部編目伺服器或查詢伺服器) 上的管理員群組成員。

  2. 在伺服器陣列中的每部應用程式伺服器上,將新自訂字典文件複製至包含斷詞工具的資料夾。根據預設,此資料夾為 %ProgramFiles%\Microsoft Office Servers\14.0\Bin。

    注意

    僅當自訂字典文件儲存在本機文件系統上的此資料夾中時方可使用。若其僅儲存在 SharePoint 網站等其他位置,則無法使用。

停止然後重新啟動每部應用程式伺服器上的 SharePoint Server Search 14 服務

必須重新啟動伺服器陣列中每部應用程式伺服器上的 SharePoint Server Search 14 服務。

重要

請勿使用管理中心中的 [伺服器上的服務] 頁面以停止並啟動該服務,因為這樣做會移除該服務並刪除索引及相關聯的設定。應使用下列步驟。

停止然後重新啟動每部應用程式伺服器上的 SharePoint Server Search 14 服務

  1. 確認執行此程序的使用者帳戶是本機電腦上管理員群組的成員。

  2. 在 [開始] 功能表上,依序指向 [所有程式] 與 [系統管理工具],然後按一下 [服務]。

  3. 在 [SharePoint Server Search 14] 服務上按一下滑鼠右鍵,然後按一下 [屬性]。[屬性] 對話方塊會隨即顯示。

  4. 按一下 [停止]。該服務停止後,按一下 [啟動]。

  5. 確認 [啟動類型] 未設定為 [停用]。

  6. 針對伺服器陣列中的每部應用程式伺服器 (即每部編目伺服器與每部查詢伺服器) 重複此程序。

執行完整編目

若要將自訂字典套用於內容索引,必須對包含已新增至自訂字典之 Token 的內容執行完整編目。如需執行完整編目的資訊,請參閱<管理編目 (SharePoint Server 2010)>。

支援的語言

下表顯示 SharePoint Server 2010 支援其自訂字典的語言與方言。不能為與語言相關的斷詞工具建立自訂字典。該表包含每種支援語言與方言的語言代碼識別碼 (LCID) 及語言十六進位碼。十六進位碼中的前兩位數字代表方言,後兩位數字代表語言。對於沒有為單獨的方言提供單獨斷詞工具的語言,語言十六進位碼中的前兩位數字一律為零。

表 2 - 支援的語言

語言/方言 LCID 語言十六進位碼

阿拉伯文

1025

0001

孟加拉文

1093

0045

保加利亞文

1026

0002

卡達隆尼亞文

1027

0003

克羅埃西亞文

1050

001a

丹麥文

1030

0006

荷蘭文

1043

0013

英文

1033

0009

法文

1036

000c

德文

1031

0007

古吉拉特文

1095

0047

希伯來文

1037

000d

印度文

1081

0039

冰島文

1039

000f

印尼文

1057

0021

義大利文

1040

0010

日文

1041

0011

坎那達文

1099

004b

拉脫維亞文

1062

0026

立陶宛文

1063

0027

馬來文

1086

003e

馬來亞拉姆文

1100

004c

馬拉提文

1102

004e

挪威文 (巴克摩)

1044

0414

葡萄牙文

2070

0816

葡萄牙文 (巴西)

1046

0416

旁遮普文

1094

0046

羅馬尼亞文

1048

0018

俄文

1049

0019

塞爾維亞文 (斯拉夫)

3098

0c1a

塞爾維亞文 (拉丁)

2074

081a

斯洛伐克文

1051

001b

斯洛維尼亞文

1060

0024

西班牙文

3082

000a

瑞典文

1053

001d

坦米爾文

1097

0049

特拉古文

1098

004a

烏克蘭文

1058

0022

烏都文

1056

0020

越南文

1066

002a

See Also

Concepts

管理同義字檔案 (SharePoint Server 2010)