Moduły dzielenia wyrazów i programy szukające rdzeni
Moduły dzielenia wyrazów i programy szukające rdzeni na wszystkich danych indeksowanych pełnego tekstu do wykonywania analizy językowej.Analizy językowej obejmuje znajdowanie granice word (dzielenia wyrazów) i conjugating (wynikające) zleceń.Moduły dzielenia wyrazów i programy szukające rdzeni są języka i zasady dla analizy językowej różnią się w różnych językach.Dla danego języka dzielącego identyfikuje poszczególne wyrazy, określając, gdzie granice word istnieją oparte na leksykalne reguły języka.Każde słowo (znane również jako token) jest wstawiany do indeksu pełnotekstowego, używając skompresowanych reprezentacja zmniejszyć jego rozmiar.program szukający rdzeni Generuje słowa ignorowanego formularzy danego wyrazu, na podstawie przepisów tego języka (na przykład "Uruchamianie", "ran" i "Biegacz" są różne formy wyrazu "Uruchom").
Za pomocą wyłączników specyficzne dla języka w programie word umożliwia wynikowe warunki są dokładniejsze dla tego języka.W przypadku dzielącego rodziny język, ale nie dla określonego języka pomocniczego, używany jest język głównych.Na przykład francuskiej dzielącego jest używany do obsługi tekstu, który jest kanadyjski francuski.Jeśli dzielącego nie jest dostępny dla określonego języka, używany jest obojętny dzielącego.Neutralne dzielącego wyrazy są na znaki neutralne, takich jak spacje i znaki interpunkcyjne.
Rejestracja słowa dzielenie
Dla języka stosowanego moduły dzielenia wyrazów musi być zarejestrowany.Dla zarejestrowanych word wyłączników skojarzone zasoby językowe — programy szukające rdzeni słów ignorowanych (stopwords) i plików tezaurusa — również dostępne do pełnotekstowego indeksowania i badanie operacji.Aby wyświetlić listę języków, których moduły dzielenia wyrazów są aktualnie zarejestrowane z SQL Server, użyj następujących Transact-SQL instrukcja:
Wybierz * Z sys.fulltext_languages
Dodać, usunąć lub zmienić dzielącego należy odświeżyć listę identyfikatorów ustawienia regionalne systemu Microsoft Windows (LCID), które są obsługiwane dla pełnotekstowego indeksowania i badanie.Aby uzyskać więcej informacji, zobacz Jak Zmień listę moduły dzielenia wyrazów zarejestrowanych i filtry (Transact-SQL).
Licencjonowane kilka firm word wyłączników są dostarczane z SQL Server 2008.Moduły dzielenia wyrazów dodatkowe firm (i programy szukające rdzeni) można załadować ręcznie dla kilku języków (duński, Polski i turecki).Aby uzyskać więcej informacji, zobacz Jak Załadować moduły dzielenia wyrazów licencjonowanych firm.
Opcja języka pełnego tekstu
Zlokalizowana wersja dla SQL Server, SQL Server Zestawy instalacji domyślny język pełnego tekstu opcji języka serwera, jeżeli istnieje odpowiednie dopasowanie.Niezlokalizowana wersja dla SQL Server, default full-text language jest opcja angielski.
Podczas tworzenia lub zmiany indeksu pełnotekstowego, można określić inny język dla każdej kolumna indeksowanej pełnego tekstu.Jeżeli język nie zostanie określony dla kolumna, domyślnie przyjmowana jest wartość opcji konfiguracja default full-text language.
Aby uzyskać więcej informacji, zobacz domyślny język pełnego tekstu, opcja.
Ostrzeżenie
Wszystkich kolumn wymienionych w klauzula funkcja pojedynczej zapytanie pełnotekstowe musi używać języka, w kwerendzie nie określono opcji języka.Język używany kolumna indeksowanej pełnotekstowe poszukiwanych określa lingwistyczne analiz wykonanych na argumenty predykaty zapytanie pełnotekstowe (ZAWIERA i FREETEXT) i funkcje (CONTAINSTABLE i FREETEXTTABLE).
Wybieranie języka przy indeksowaniu kolumny
Podczas tworzenia indeksu pełnotekstowego, zaleca się, aby określić język dla każdej kolumna indeksowanej.Jeśli język nie jest określony kolumna, używany jest język domyślny system.Dzielenie wyrazów, które określa język kolumna i program szukający rdzeni są używane do indeksowania tej kolumna.Ponadto plik tezaurusa tego języka będzie używana przez kwerendy pełnego tekstu na kolumna.
Istnieje kilka rzeczy, wybierając język kolumna do tworzenia indeksu pełnotekstowego.Zagadnienia te odnoszą się do sposobu tokenized tekstu i następnie indeksowane przez aparat pełnego tekstu.Aby uzyskać więcej informacji, zobacz Najważniejsze wskazówki dotyczące Wybieranie języka podczas tworzenia indeksu pełnotekstowego.
Aby wyświetlić język dzielenie word kolumna
Jak Przeglądanie lub zmienianie właściwości indeksu pełnotekstowego (SQL Server Management Studio)
sys.fulltext_index_columns (języka Transact-SQL)
SELECT 'language_id' AS "LCID" FROM sys.fulltext_index_columns;
Wpływ nowe moduły dzielenia wyrazów w programie SQL Server 2008
SQL Server 2008zawiera moduły dzielenia wyrazów dla więcej niż 50 różnych języków, których 23 istnieją również w SQL Server 2005.Tylko moduły dzielenia wyrazów dla języka angielskiego, koreański, tajskim i chiński (wszystkie formularze) pozostają takie same.Dla innych języków SQL Server 2008 wprowadzenie nowej generacji moduły dzielenia wyrazów, które są lepiej lingwistyczne reguły i są bardziej dokładne niż wcześniej wyłączników programu word.Potencjalnie, przywożone nowe słowo wyłączników może działają nieco inaczej niż moduły dzielenia wyrazów w SQL Server 2005 indeksy pełnotekstowe.Jest to istotne, jeśli wykaz pełnotekstowy zostały zaimportowane podczas SQL Server 2005 bazy danych został uaktualniony do SQL Server 2008.Jeden lub więcej języków używanych przez indeksy pełnotekstowe w wykaz pełnotekstowy może teraz zostać skojarzony z nowe moduły dzielenia wyrazów.Aby uzyskać więcej informacji, zobacz Uaktualnienie wyszukiwania pełnotekstowego.
Word dzielenie wersje dla języków obsługiwanych w programie SQL Server 2005
Tylko moduły dzielenia wyrazów dla języka angielskiego, koreański, tajskim i chiński (wszystkie formularze) pozostają takie same.W poniższej tabela przedstawiono moduły dzielenia wyrazów, które istniały w SQL Server 2005 i wskazuje, czy zostały one zaktualizowane w SQL Server 2008.Aby uzyskać pełną listę wszystkich SQL Server 2008 programu word wyłączników, zobacz sys.fulltext_languages (języka Transact-SQL).
Ostrzeżenie
Domyślnie są rejestrowane moduły dzielenia wyrazów w większości języków.Jednak liczba moduły dzielenia wyrazów licencjonowanych firm są domyślnie wyłączone.Aby uzyskać informacje dotyczące tych języków i zarejestrować te moduły dzielenia wyrazów, zobacz Jak Załadować moduły dzielenia wyrazów licencjonowanych firm.
Język |
LCID |
Moduły dzielenia wyrazów |
---|---|---|
Brazylijski |
1046 |
Nowość |
Chiński (Hongkong SAR, PRC) |
3076 |
Bez zmian |
Chiński (Makau SAR) |
5124 |
Bez zmian |
Chiński (Singapur) |
4100 |
Bez zmian |
Duński (domyślnie wyłączone) |
1030 |
Bez zmian |
Holenderski |
1043 |
Nowość |
Angielski |
1033 |
Bez zmian |
English (United Kingdom) |
2057 |
Bez zmian |
Francuski |
1036 |
Nowość |
Niemiecki |
1031 |
Nowość |
Włoski |
1040 |
Nowość |
Japoński |
1041 |
Nowość |
Koreański |
1042 |
Bez zmian |
Neutralne |
0 |
Nowość |
Polski (wyłączone domyślnie) |
1045 |
Bez zmian |
Portugalski |
2070 |
Nowość |
Rosyjski |
1049 |
Nowość |
Chiński (uproszczony) |
2052 |
Bez zmian |
Hiszpański |
3082 |
Nowość |
Szwedzki |
1053 |
Nowość |
Thai |
1054 |
Bez zmian |
Chiński (tradycyjny) |
1028 |
Bez zmian |
Turecki (domyślnie wyłączone) |
1055 |
Bez zmian |
Aby uzyskać pełną listę obsługiwanych języków, zobacz sys.fulltext_languages (języka Transact-SQL).
Błędy przekroczenia limitu czasu dzielenia wyrazów
Dzielenia wyrazów czas-out błąd może wystąpić w różnych sytuacjach.Aby uzyskać informacje dotyczące tych sytuacji oraz reagować w każdej sytuacji, zobacz MSSQLSERVER_30053.
Uzyskiwanie informacji dotyczących moduły dzielenia wyrazów
Wyświetlanie wyników Tokenization dzielenie wyrazów, tezaurus i kombinacji Stoplist
Zwraca informacje o moduły dzielenia wyrazów zarejestrowanych
Zobacz także