設定全文檢索語言元件

從 SQL Server 2008 開始,全文檢索搜尋幾乎支援 50 種不同的語言,例如英文、西班牙文、中文、日文、阿拉伯文、孟加拉文和印度文。如需支援之全文檢索語言的完整清單,請參閱<sys.fulltext_languages (Transact-SQL)>。全文檢索索引所包含的每個資料行都與 Microsoft Windows 地區設定識別碼 (LCID) 相關聯,而這個識別碼就等於全文檢索搜尋所支援的語言。例如,LCID 1033 等於美式英文,而 LCID 2057 等於英式英文。SQL Server 針對每個支援的全文檢索語言提供了一些語言元件,可支援索引和查詢使用該語言所儲存的全文檢索資料。

語言特有的元件包括斷詞工具和字幹分析器。斷詞工具會根據給定語言的語彙規則來尋找文字分界 (「斷詞」(Word Breaking))。每個斷詞工具都與針對相同語言進行動詞變化的字幹分析器相關聯。如需詳細資訊,請參閱<斷詞工具與字幹分析器>。

此外,從 SQL Server 2008 開始,便提供了包含基本停用字詞 (也稱為非搜尋字) 集合的系統停用字詞表。「停用字詞」(Stopword) 是指無助於搜尋而且全文檢索查詢會忽略的單字。以英文地區設定為例,"a"、"and"、"is" 和 "the" 都會被視為停用字詞。一般而言,您必須設定一或多個同義字檔案和停用字詞表。如需詳細資訊,請參閱<停止字詞和停止清單>。

SQL Server 也會針對每個全文檢索語言安裝同義字檔案,以及全域同義字檔案。已安裝的同義字 (Thesaurus) 檔案基本上是空白的,但是您可以編輯它們,以便定義特定語言或商務狀況的同義字 (Synonym)。透過開發符合全文檢索資料的同義字,您可以有效地擴大針對該資料進行全文檢索查詢的範圍。如需詳細資訊,請參閱<同義字組態>。

在 varbinary、varbinary(max)、image 或 xml 資料類型資料行中索引文件需要執行額外處理的篩選。此篩選必須是文件類型 (.doc、.pdf、.xls 和 .xml 等等) 特有的。如需詳細資訊,請參閱<全文檢索搜尋篩選>。

[!附註]

斷詞工具 (和字幹分析器) 與篩選會在篩選背景程式主機處理序 (fdhost.exe) 中執行。如需有關這個處理序的詳細資訊,請參閱<全文檢索搜尋架構>。