Artykuł
07/22/2011

Konfigurowanie pełnotekstowe składników lingwistyczne

Począwszy od SQL Server 2008, przeszukiwanie pełnego tekstu obsługuje prawie 50 różnych języków, takich jak angielski, hiszpański, chiński, japoński, arabski, Bengalski i Hindi.Aby uzyskać pełną listę obsługiwanych języków pełnego tekstu, zobacz sys.fulltext_languages (języka Transact-SQL).Każdej z kolumn zawartych w indeksu pełnotekstowego jest skojarzony z systemu Microsoft Windows identyfikator ustawienia regionalne (LCID), co daje na język, który jest obsługiwany przez przeszukiwanie pełnego tekstu.Na przykład co daje LCID 1033 angielski USA i LCID 2057, co daje angielskiego.Dla każdego obsługiwanego języka pełnego tekstu, SQL Server zawiera składniki lingwistyczne, które obsługują indeksowania i kwerendy danych pełnego tekstu jest przechowywana w tym języku.

Składniki specyficzne dla języka obejmują dzielącego i program szukający rdzeni.Dzielenie wyrazów znajdzie wyraz granice oparte na regułach leksykalne danego języka (dzielenia wyrazu).Każdy dzielącego jest skojarzony z program szukający rdzeni , conjugates zleceń w tym samym języku.Aby uzyskać więcej informacji, zobacz Moduły dzielenia wyrazów i programy szukające rdzeni.

Ponadto, począwszy od SQL Server 2008, stoplist systemu jest pod warunkiem, że zawiera stopwords podstawowego zestaw (znane również jako słowa ignorowane). A stopword jest wyraz nie pomaga w wyszukiwaniu i jest ignorowany przez kwerendy pełnego tekstu.Na przykład wyrazy angielskie ustawienia regionalne, takie jak "a", "i", "jest" i "" uważa się za stopwords.Zazwyczaj należy skonfigurować jeden lub więcej plików tezaurusa i stoplists.Aby uzyskać więcej informacji, zobacz Stopwords i Stoplists.

SQL Server instaluje plik tezaurusa dla każdego języka pełnego tekstu, jak również globalnego pliku tezaurusa.Pliki tezaurusa zainstalowane są zasadniczo puste, ale można edytować je, aby zdefiniować synonimów dla określonego języka lub scenariusza biznesowego.Poprzez rozwijanie tezaurusa dostosowanych do danych pełnego tekstu, można skutecznie poszerzenia zakres pełnotekstowe kwerendy dotyczące danych.Aby uzyskać więcej informacji, zobacz Konfiguracja tezaurusa.

Indeksowanie dokumentu w varbinary, varbinary(max), image, lub xml kolumna Typ danych wymaga filtr, aby wykonać dodatkowe przetwarzanie.Filtr musi być określony typ dokumentu (doc, PDF, .xls, .xml itd.).Aby uzyskać więcej informacji, zobacz Filtry wyszukiwania pełnotekstowego.

Ostrzeżenie

Word wyłączników (i programy szukające rdzeni) i filtry uruchamiane w procesie hosta demona filtru (fdhost.exe).Aby uzyskać informacje dotyczące tego procesu, zobacz Architektura wyszukiwania pełnotekstowego.

Zobacz także

Share via

Konfigurowanie pełnotekstowe składników lingwistyczne

Zobacz także

Odwołanie

Koncepcje

Inne zasoby

Dodatkowe zasoby