Artykuł
07/22/2011

Moduły dzielenia wyrazów i programy szukające rdzeni

Moduły dzielenia wyrazów i programy szukające rdzeni na wszystkich danych indeksowanych pełnego tekstu do wykonywania analizy językowej.Analizy językowej obejmuje znajdowanie granice word (dzielenia wyrazów) i conjugating (wynikające) zleceń.Moduły dzielenia wyrazów i programy szukające rdzeni są języka i zasady dla analizy językowej różnią się w różnych językach.Dla danego języka dzielącego identyfikuje poszczególne wyrazy, określając, gdzie granice word istnieją oparte na leksykalne reguły języka.Każde słowo (znane również jako token) jest wstawiany do indeksu pełnotekstowego, używając skompresowanych reprezentacja zmniejszyć jego rozmiar.program szukający rdzeni Generuje słowa ignorowanego formularzy danego wyrazu, na podstawie przepisów tego języka (na przykład "Uruchamianie", "ran" i "Biegacz" są różne formy wyrazu "Uruchom").

Za pomocą wyłączników specyficzne dla języka w programie word umożliwia wynikowe warunki są dokładniejsze dla tego języka.W przypadku dzielącego rodziny język, ale nie dla określonego języka pomocniczego, używany jest język głównych.Na przykład francuskiej dzielącego jest używany do obsługi tekstu, który jest kanadyjski francuski.Jeśli dzielącego nie jest dostępny dla określonego języka, używany jest obojętny dzielącego.Neutralne dzielącego wyrazy są na znaki neutralne, takich jak spacje i znaki interpunkcyjne.

Rejestracja słowa dzielenie

Dla języka stosowanego moduły dzielenia wyrazów musi być zarejestrowany.Dla zarejestrowanych word wyłączników skojarzone zasoby językowe — programy szukające rdzeni słów ignorowanych (stopwords) i plików tezaurusa — również dostępne do pełnotekstowego indeksowania i badanie operacji.Aby wyświetlić listę języków, których moduły dzielenia wyrazów są aktualnie zarejestrowane z SQL Server, użyj następujących Transact-SQL instrukcja:

Wybierz * Z sys.fulltext_languages

Dodać, usunąć lub zmienić dzielącego należy odświeżyć listę identyfikatorów ustawienia regionalne systemu Microsoft Windows (LCID), które są obsługiwane dla pełnotekstowego indeksowania i badanie.Aby uzyskać więcej informacji, zobacz Jak Zmień listę moduły dzielenia wyrazów zarejestrowanych i filtry (Transact-SQL).

Licencjonowane kilka firm word wyłączników są dostarczane z SQL Server 2008.Moduły dzielenia wyrazów dodatkowe firm (i programy szukające rdzeni) można załadować ręcznie dla kilku języków (duński, Polski i turecki).Aby uzyskać więcej informacji, zobacz Jak Załadować moduły dzielenia wyrazów licencjonowanych firm.

Opcja języka pełnego tekstu

Zlokalizowana wersja dla SQL Server, SQL Server Zestawy instalacji domyślny język pełnego tekstu opcji języka serwera, jeżeli istnieje odpowiednie dopasowanie.Niezlokalizowana wersja dla SQL Server, default full-text language jest opcja angielski.

Podczas tworzenia lub zmiany indeksu pełnotekstowego, można określić inny język dla każdej kolumna indeksowanej pełnego tekstu.Jeżeli język nie zostanie określony dla kolumna, domyślnie przyjmowana jest wartość opcji konfiguracja default full-text language.

Aby uzyskać więcej informacji, zobacz domyślny język pełnego tekstu, opcja.

Ostrzeżenie

Wszystkich kolumn wymienionych w klauzula funkcja pojedynczej zapytanie pełnotekstowe musi używać języka, w kwerendzie nie określono opcji języka.Język używany kolumna indeksowanej pełnotekstowe poszukiwanych określa lingwistyczne analiz wykonanych na argumenty predykaty zapytanie pełnotekstowe (ZAWIERA i FREETEXT) i funkcje (CONTAINSTABLE i FREETEXTTABLE).

Wybieranie języka przy indeksowaniu kolumny

Podczas tworzenia indeksu pełnotekstowego, zaleca się, aby określić język dla każdej kolumna indeksowanej.Jeśli język nie jest określony kolumna, używany jest język domyślny system.Dzielenie wyrazów, które określa język kolumna i program szukający rdzeni są używane do indeksowania tej kolumna.Ponadto plik tezaurusa tego języka będzie używana przez kwerendy pełnego tekstu na kolumna.

Istnieje kilka rzeczy, wybierając język kolumna do tworzenia indeksu pełnotekstowego.Zagadnienia te odnoszą się do sposobu tokenized tekstu i następnie indeksowane przez aparat pełnego tekstu.Aby uzyskać więcej informacji, zobacz Najważniejsze wskazówki dotyczące Wybieranie języka podczas tworzenia indeksu pełnotekstowego.

Aby wyświetlić język dzielenie word kolumna

Jak Przeglądanie lub zmienianie właściwości indeksu pełnotekstowego (SQL Server Management Studio)

sys.fulltext_index_columns (języka Transact-SQL)

SELECT 'language_id' AS "LCID" FROM sys.fulltext_index_columns;

Wpływ nowe moduły dzielenia wyrazów w programie SQL Server 2008

SQL Server 2008zawiera moduły dzielenia wyrazów dla więcej niż 50 różnych języków, których 23 istnieją również w SQL Server 2005.Tylko moduły dzielenia wyrazów dla języka angielskiego, koreański, tajskim i chiński (wszystkie formularze) pozostają takie same.Dla innych języków SQL Server 2008 wprowadzenie nowej generacji moduły dzielenia wyrazów, które są lepiej lingwistyczne reguły i są bardziej dokładne niż wcześniej wyłączników programu word.Potencjalnie, przywożone nowe słowo wyłączników może działają nieco inaczej niż moduły dzielenia wyrazów w SQL Server 2005 indeksy pełnotekstowe.Jest to istotne, jeśli wykaz pełnotekstowy zostały zaimportowane podczas SQL Server 2005 bazy danych został uaktualniony do SQL Server 2008.Jeden lub więcej języków używanych przez indeksy pełnotekstowe w wykaz pełnotekstowy może teraz zostać skojarzony z nowe moduły dzielenia wyrazów.Aby uzyskać więcej informacji, zobacz Uaktualnienie wyszukiwania pełnotekstowego.

Word dzielenie wersje dla języków obsługiwanych w programie SQL Server 2005

Tylko moduły dzielenia wyrazów dla języka angielskiego, koreański, tajskim i chiński (wszystkie formularze) pozostają takie same.W poniższej tabela przedstawiono moduły dzielenia wyrazów, które istniały w SQL Server 2005 i wskazuje, czy zostały one zaktualizowane w SQL Server 2008.Aby uzyskać pełną listę wszystkich SQL Server 2008 programu word wyłączników, zobacz sys.fulltext_languages (języka Transact-SQL).

Ostrzeżenie

Domyślnie są rejestrowane moduły dzielenia wyrazów w większości języków.Jednak liczba moduły dzielenia wyrazów licencjonowanych firm są domyślnie wyłączone.Aby uzyskać informacje dotyczące tych języków i zarejestrować te moduły dzielenia wyrazów, zobacz Jak Załadować moduły dzielenia wyrazów licencjonowanych firm.

Język	LCID	Moduły dzielenia wyrazów
Brazylijski	1046	Nowość
Chiński (Hongkong SAR, PRC)	3076	Bez zmian
Chiński (Makau SAR)	5124	Bez zmian
Chiński (Singapur)	4100	Bez zmian
Duński (domyślnie wyłączone)	1030	Bez zmian
Holenderski	1043	Nowość
Angielski	1033	Bez zmian
English (United Kingdom)	2057	Bez zmian
Francuski	1036	Nowość
Niemiecki	1031	Nowość
Włoski	1040	Nowość
Japoński	1041	Nowość
Koreański	1042	Bez zmian
Neutralne	0	Nowość
Polski (wyłączone domyślnie)	1045	Bez zmian
Portugalski	2070	Nowość
Rosyjski	1049	Nowość
Chiński (uproszczony)	2052	Bez zmian
Hiszpański	3082	Nowość
Szwedzki	1053	Nowość
Thai	1054	Bez zmian
Chiński (tradycyjny)	1028	Bez zmian
Turecki (domyślnie wyłączone)	1055	Bez zmian

Aby uzyskać pełną listę obsługiwanych języków, zobacz sys.fulltext_languages (języka Transact-SQL).

Błędy przekroczenia limitu czasu dzielenia wyrazów

Dzielenia wyrazów czas-out błąd może wystąpić w różnych sytuacjach.Aby uzyskać informacje dotyczące tych sytuacji oraz reagować w każdej sytuacji, zobacz MSSQLSERVER_30053.