Moduły dzielenia wyrazów i programy szukające rdzeni

Moduły dzielenia wyrazów i programy szukające rdzeni na wszystkich danych indeksowanych pełnego tekstu do wykonywania analizy językowej.Analizy językowej obejmuje znajdowanie granice word (dzielenia wyrazów) i conjugating (wynikające) zleceń.Moduły dzielenia wyrazów i programy szukające rdzeni są języka i zasady dla analizy językowej różnią się w różnych językach.Dla danego języka dzielącego identyfikuje poszczególne wyrazy, określając, gdzie granice word istnieją oparte na leksykalne reguły języka.Każde słowo (znane również jako token) jest wstawiany do indeksu pełnotekstowego, używając skompresowanych reprezentacja zmniejszyć jego rozmiar.program szukający rdzeni Generuje słowa ignorowanego formularzy danego wyrazu, na podstawie przepisów tego języka (na przykład "Uruchamianie", "ran" i "Biegacz" są różne formy wyrazu "Uruchom").

Za pomocą wyłączników specyficzne dla języka w programie word umożliwia wynikowe warunki są dokładniejsze dla tego języka.W przypadku dzielącego rodziny język, ale nie dla określonego języka pomocniczego, używany jest język głównych.Na przykład francuskiej dzielącego jest używany do obsługi tekstu, który jest kanadyjski francuski.Jeśli dzielącego nie jest dostępny dla określonego języka, używany jest obojętny dzielącego.Neutralne dzielącego wyrazy są na znaki neutralne, takich jak spacje i znaki interpunkcyjne.

Rejestracja słowa dzielenie

Dla języka stosowanego moduły dzielenia wyrazów musi być zarejestrowany.Dla zarejestrowanych word wyłączników skojarzone zasoby językowe — programy szukające rdzeni słów ignorowanych (stopwords) i plików tezaurusa — również dostępne do pełnotekstowego indeksowania i badanie operacji.Aby wyświetlić listę języków, których moduły dzielenia wyrazów są aktualnie zarejestrowane z SQL Server, użyj następujących Transact-SQL instrukcja:

Wybierz * Z sys.fulltext_languages

Dodać, usunąć lub zmienić dzielącego należy odświeżyć listę identyfikatorów ustawienia regionalne systemu Microsoft Windows (LCID), które są obsługiwane dla pełnotekstowego indeksowania i badanie.Aby uzyskać więcej informacji, zobacz Jak Zmień listę moduły dzielenia wyrazów zarejestrowanych i filtry (Transact-SQL).

Licencjonowane kilka firm word wyłączników są dostarczane z SQL Server 2008.Moduły dzielenia wyrazów dodatkowe firm (i programy szukające rdzeni) można załadować ręcznie dla kilku języków (duński, Polski i turecki).Aby uzyskać więcej informacji, zobacz Jak Załadować moduły dzielenia wyrazów licencjonowanych firm.

Opcja języka pełnego tekstu

Zlokalizowana wersja dla SQL Server, SQL Server Zestawy instalacji domyślny język pełnego tekstu opcji języka serwera, jeżeli istnieje odpowiednie dopasowanie.Niezlokalizowana wersja dla SQL Server, default full-text language jest opcja angielski.

Podczas tworzenia lub zmiany indeksu pełnotekstowego, można określić inny język dla każdej kolumna indeksowanej pełnego tekstu.Jeżeli język nie zostanie określony dla kolumna, domyślnie przyjmowana jest wartość opcji konfiguracja default full-text language.

Aby uzyskać więcej informacji, zobacz domyślny język pełnego tekstu, opcja.

Ostrzeżenie

Wszystkich kolumn wymienionych w klauzula funkcja pojedynczej zapytanie pełnotekstowe musi używać języka, w kwerendzie nie określono opcji języka.Język używany kolumna indeksowanej pełnotekstowe poszukiwanych określa lingwistyczne analiz wykonanych na argumenty predykaty zapytanie pełnotekstowe (ZAWIERA i FREETEXT) i funkcje (CONTAINSTABLE i FREETEXTTABLE).

Wybieranie języka przy indeksowaniu kolumny

Podczas tworzenia indeksu pełnotekstowego, zaleca się, aby określić język dla każdej kolumna indeksowanej.Jeśli język nie jest określony kolumna, używany jest język domyślny system.Dzielenie wyrazów, które określa język kolumna i program szukający rdzeni są używane do indeksowania tej kolumna.Ponadto plik tezaurusa tego języka będzie używana przez kwerendy pełnego tekstu na kolumna.

Istnieje kilka rzeczy, wybierając język kolumna do tworzenia indeksu pełnotekstowego.Zagadnienia te odnoszą się do sposobu tokenized tekstu i następnie indeksowane przez aparat pełnego tekstu.Aby uzyskać więcej informacji, zobacz Najważniejsze wskazówki dotyczące Wybieranie języka podczas tworzenia indeksu pełnotekstowego.

Aby wyświetlić język dzielenie word kolumna

Wpływ nowe moduły dzielenia wyrazów w programie SQL Server 2008

SQL Server 2008zawiera moduły dzielenia wyrazów dla więcej niż 50 różnych języków, których 23 istnieją również w SQL Server 2005.Tylko moduły dzielenia wyrazów dla języka angielskiego, koreański, tajskim i chiński (wszystkie formularze) pozostają takie same.Dla innych języków SQL Server 2008 wprowadzenie nowej generacji moduły dzielenia wyrazów, które są lepiej lingwistyczne reguły i są bardziej dokładne niż wcześniej wyłączników programu word.Potencjalnie, przywożone nowe słowo wyłączników może działają nieco inaczej niż moduły dzielenia wyrazów w SQL Server 2005 indeksy pełnotekstowe.Jest to istotne, jeśli wykaz pełnotekstowy zostały zaimportowane podczas SQL Server 2005 bazy danych został uaktualniony do SQL Server 2008.Jeden lub więcej języków używanych przez indeksy pełnotekstowe w wykaz pełnotekstowy może teraz zostać skojarzony z nowe moduły dzielenia wyrazów.Aby uzyskać więcej informacji, zobacz Uaktualnienie wyszukiwania pełnotekstowego.

Word dzielenie wersje dla języków obsługiwanych w programie SQL Server 2005

Tylko moduły dzielenia wyrazów dla języka angielskiego, koreański, tajskim i chiński (wszystkie formularze) pozostają takie same.W poniższej tabela przedstawiono moduły dzielenia wyrazów, które istniały w SQL Server 2005 i wskazuje, czy zostały one zaktualizowane w SQL Server 2008.Aby uzyskać pełną listę wszystkich SQL Server 2008 programu word wyłączników, zobacz sys.fulltext_languages (języka Transact-SQL).

Ostrzeżenie

Domyślnie są rejestrowane moduły dzielenia wyrazów w większości języków.Jednak liczba moduły dzielenia wyrazów licencjonowanych firm są domyślnie wyłączone.Aby uzyskać informacje dotyczące tych języków i zarejestrować te moduły dzielenia wyrazów, zobacz Jak Załadować moduły dzielenia wyrazów licencjonowanych firm.

Język

LCID

Moduły dzielenia wyrazów

Brazylijski

1046

Nowość

Chiński (Hongkong SAR, PRC)

3076

Bez zmian

Chiński (Makau SAR)

5124

Bez zmian

Chiński (Singapur)

4100

Bez zmian

Duński (domyślnie wyłączone)

1030

Bez zmian

Holenderski

1043

Nowość

Angielski

1033

Bez zmian

English (United Kingdom)

2057

Bez zmian

Francuski

1036

Nowość

Niemiecki

1031

Nowość

Włoski

1040

Nowość

Japoński

1041

Nowość

Koreański

1042

Bez zmian

Neutralne

0

Nowość

Polski (wyłączone domyślnie)

1045

Bez zmian

Portugalski

2070

Nowość

Rosyjski

1049

Nowość

Chiński (uproszczony)

2052

Bez zmian

Hiszpański

3082

Nowość

Szwedzki

1053

Nowość

Thai

1054

Bez zmian

Chiński (tradycyjny)

1028

Bez zmian

Turecki (domyślnie wyłączone)

1055

Bez zmian

Aby uzyskać pełną listę obsługiwanych języków, zobacz sys.fulltext_languages (języka Transact-SQL).

Błędy przekroczenia limitu czasu dzielenia wyrazów

Dzielenia wyrazów czas-out błąd może wystąpić w różnych sytuacjach.Aby uzyskać informacje dotyczące tych sytuacji oraz reagować w każdej sytuacji, zobacz MSSQLSERVER_30053.

Uzyskiwanie informacji dotyczących moduły dzielenia wyrazów

Wyświetlanie wyników Tokenization dzielenie wyrazów, tezaurus i kombinacji Stoplist

Zwraca informacje o moduły dzielenia wyrazów zarejestrowanych