語言功能 (FAST Search Server 2010 for SharePoint)

 

適用版本: FAST Search Server 2010

上次修改主題的時間: 2015-03-09

FAST Search Server 2010 for SharePoint 的許多語言功能有助於改善搜尋相關性。部分功能可以進行調整,而且其他功能具有無法變更的預設行為。這裡的表格說明不同的語言功能以及它們對相關性與重新叫用的影響。

語言功能 是否對相關性有影響 是否對重新叫用有影響 描述

同義字

同義字是附加至關鍵字的單字清單。關鍵字是組織內識別為一般字詞的單字或片語。您可以將同義字附加至關鍵字,以提高重新叫用。搜尋包括關鍵字的同義字時,也會傳回含有相關關鍵字的搜尋項目。甚至,如果搜尋包括關鍵字,則也會傳回含有同義字的搜尋項目,而不論它們是否包含關鍵字。請注意,這只適用於搜尋單字與任何定義的關鍵字或同義字詞完全相符時。

相關字詞功能

單字可以有多種形式,但基本上表示同一個項目。例如,動詞 "to write" 包括 writing、wrote 及 writes 這類形式。同樣地,名詞通常會包括單數與複數版本,例如 book 與 books。FAST Search Server 2010 for SharePoint 中的相關字詞功能可透過將某種單字形式對應至其變體,以增加相關文件的重新叫用。

在同一個單字有多種形式的語言中,相關字詞功能對達成足夠的重新叫用十分重要。相關字詞功能會套用至已啟用相關字詞功能的 Managed 屬性內容。您無法調整相關字詞功能字典。

拼字檢查及拼字調整

拼字檢查功能透過比較搜尋文字與語言特定字典以及識別拼錯的字詞,改善搜尋品質。如果字典包含頻率十分高的最相符文字,則會透過「您的意思是?」 功能建議該文字。您可以「微調」拼字檢查字典,確定它們可配合已處理文件中單字的出現頻率。使用者只會取得與所處理之內容相關的拼字檢查建議。

您也可以定義拼字檢查例外。這些是在預設拼字檢查字典中找不到但仍為有效單字的單字。當使用者輸入拼字檢查例外清單中所含搜尋單字時,「您的意思是?」 功能就不會建議該字的校正。

拼字檢查字典可增加重新叫用機率與相關性,因為此功能可避免使用到拼錯的字。

反片語

反片語指的是索引時沒有值的片語。"Where can I find information about" 是英文的典型反片語。您無法調整反片語字典。

Token 化

Token 化程序會將文字流分割為可編製索引的個別單字 (Token)。將空格、定位點、句點、逗號、虛線、問號及引號視為分隔字元。東亞語言 (簡體中文、繁體中文、日文、韓文及泰文) 一般不會使用空格隔開單字,因此相關性的 Token 化特別重要.

Token 化是在項目處理及搜尋處理期間針對文字內容執行。FAST Search Server 2010 for SharePoint 中的 Token 化程序包含三個階段:

  • 與語言無關的「輸入正規化」 (將輸入文字轉換為統一格式)。這包含取代複雜字元,例如含有其標準形式的連字,以及將較不常使用的 Unicode 字元取代為相容字元或字元組 (含有 tm 的商標符號或含有半形對應項的全形拉丁字元)。

  • 以文件語言為基礎之特定語言的 Token 化引擎,會根據「斷詞工具」 Tokenizer,將文字分割為個別文字/Token。

  • 索引 Token 是根據與語言無關的規則進行正規化,以確保跨語言的擷取。正規化透過變更字元或移除字元的某個部分,降低字元的複雜性。在 FAST Search Server 2010 for SharePoint 中,所有字元都是小寫,並將重音字元簡化為其無重音的基本字元。

自動語言及編碼偵測

在項目處理期間,FAST Search Server 2010 for SharePoint 可自動辨識 80 個以上使用所有通用編碼的不同語言。文字語言及編碼可定義於文件的中繼資料中,也可由項目處理期間的自動程序決定。此資訊為用於在項目處理期間選取適當的特定語言字典及演算法。

屬性擷取

FAST Search Server 2010 for SharePoint 提供人員名稱、公司名稱及地理名稱/位置的進階、特定語言的屬性擷取程式。

如需詳細資訊,請參閱<管理屬性擷取 (FAST Search Server 2010 for SharePoint)>。

不良內容篩選

FAST Search Server 2010 for SharePoint 可以篩選多種語言的不良內容。預設不會提供不良內容篩選,但是您可以進行設定。

最佳化東亞語言的相關性

因為不同的語言對不同 Token 的形式並沒有固定標準,所以不同主講人可能會對 Token 有不同的認知。例如,部分使用者可能會將 富士山(Mount Fuji) 視為一個 Token,而其他使用者可能會將它視為兩個 Token: 富士 (Fuji) 和 山 (Mount)。

使用者視為一個 Token 與 Tokenizer 模組實際識別為一個 Token 兩者之間的不一致,可能會導致低精確度或低重新叫用數,例如:

  • 簡體中文 Tokenizer 模組會將名稱 萨斯喀彻温 (Saskatchewan) 分成下列 Token: 萨 (Sa)、斯 (s)、喀 (ka)、彻 (tche)、温 (wan)。

    搜尋名稱 "Saska", 萨 (Sa)、斯 (s)、喀 (ka) 也會擷取內含 "Saskatchewan" 的文件,這表示精確度可能會不如預期。

  • 日文 Tokenizer 模組會將 "サスカチュワンサスカトゥーン" (Saskatchewan Saskatoon) 標示為一個 Token。

    搜尋 "Saskatchewan",不會擷取內含 "Saskatchewan Saskatoon" 的文件。因此,會減少重新叫用。

FAST Search Server 2010 for SharePoint 會自動偵測索引項目及使用者地區設定的語言,並據以執行語言特定的 Token 化。不過,您可以使用兩種方法,影響預設 Token 化:「語言 Token 化」和「子字串 Token 化」。

「語言 Token 化」表示會根據特定語言規則,將文字的字串分割為個別 Token。如果是東亞語言,則可以建立自訂字典以影響 Token 化。如果 FAST Search Server 2010 for SharePoint 所提供的系統字典遺漏單字,例如技術字詞、人員名稱或公司名稱,或是預設 Token 化不正確,則可以將單字新增至自訂字典,確保視需要對其進行 Token 化。

「子字串 Token 化」 (也稱為 N-gram Token 化) 通常會套用至公認很難自動 Token 化的 Managed 屬性。「子字串 Token 化」會移除文字中的所有空格,然後將它分割成二元語法 (重疊兩個字元的長 Token)。例如,"アメリカ" (美國) 會分割為: ア,アメ,メリ,リカ (a, ame, meri, ca)。如果未啟用子字串 Token 化,CJK 查詢在某些情況下可能會錯誤 Token 化,因此傳回不足或空白的結果清單。如果使用子字串搜尋,則不會發生此情況,因為每個 Token 的所有 N-gram 子字串會編製索引,且 N-gram 跨越 Token 界限。

子字串 Token 化特別適用於認為重新叫用 (擷取的文件總數) 比精確度 (結果的高相關性) 還要重要的應用程式。使用此功能可改善重新叫用,但是可能會降低精確度並傳回過多項目。請注意,子字串 Token 化會對這些 Managed 屬性的索引大小造成重大影響。因此,建議您不要對任意文字使用此功能,但是如果是包含特定網域的產品名稱、代碼等中繼資料,則可以考慮使用。

另請參閱

如需如何調整語言功能的詳細資訊,請參閱 <調整語言相關性 (FAST Search Server 2010 for SharePoint)