Internationale Gesichtspunkte bei der Volltextsuche

Artikel
12/15/2008

Wählen einer Sprache beim Erstellen eines Volltextindexes

Bei der Wahl der Spaltensprache für die Erstellung eines Volltextindexes sind mehrere Dinge zu bedenken. Diese beziehen sich darauf, wie der Text durch Microsoft Volltextmodul für SQL Server (MSFTESQL) in Token zerlegt und anschließend indiziert wird. Bei der Wörtertrennung wird der zu indizierende Text an den Wortgrenzen zerlegt. Im Englischen sind diese Wortgrenzen gewöhnlich durch Leerzeichen oder Satzzeichen gegeben. In anderen Sprachen, wie im Deutschen, können Wörter oder Zeichen kombiniert werden. Daher sollten Sie die Spaltensprache wählen, die erwartungsgemäß in den Zeilen der Spalte gespeichert wird. Wenn Sie sich nicht sicher sind, können Sie die neutrale Wörtertrennung verwenden. Diese nimmt die Zerlegung in Token ausschließlich anhand von Leerzeichen und Satzzeichen vor. Ein weiterer Vorteil der Wahl einer Spaltensprache besteht in der Wortstammerkennung. Als Wortstammerkennung bei Volltextabfragen wird die Suche nach allen Flexionsformen eines Wortes in einer bestimmten Sprache bezeichnet.

Ein weiterer Faktor bei der Wahl der Sprache besteht in der Art und Weise, wie die Daten dargestellt werden. Für Daten, die nicht in varbinary(max)-Spalten gespeichert sind, erfolgt keine spezielle Filterung. Stattdessen durchläuft der Text die Worteinheitenerkennungs-Komponente i. A. unverändert. Die Wörtertrennung ist hauptsächlich für die Verarbeitung von geschriebenem Text konzipiert. Für Text mit speziellen Auszeichnungen (wie z. B. HTML) wird möglicherweise keine große linguistische Genauigkeit bei der Indizierung und Suche erreicht. In diesem Fall haben Sie zwei Möglichkeiten. Die bevorzugte Methode besteht darin, die Textdaten in einer varbinary(max)-Spalte zu speichern und den Dokumenttyp anzugeben, sodass die Daten gefiltert werden können. Ist dies nicht machbar, können Sie u. U. die neutrale Wörtertrennung verwenden und ggf. den Füllwortlisten Markupdaten (wie 'br' in HTML) hinzufügen.

Hinweis:
Eine sprachbasierte Wortstammerkennung ist nicht möglich, wenn Sie die neutrale Sprache angeben.

Sprachunterstützung

In Microsoft SQL Server 2005 können Volltextabfragen zur Suche nach Volltextdaten andere Sprachen als die Standardsprache für die Spalte verwenden. Sofern die Sprache unterstützt wird und ihre Ressourcen installiert sind, wird die in der LANGUAGE language_term-Klausel der CONTAINS-, CONTAINSTABLE-, FREETEXT- und FREETEXTTABLE-Abfrage angegebene Sprache für die Wörtertrennung und Wortstammerkennung sowie die Thesaurus- und Füllwortverarbeitung verwendet.

Die folgende Tabelle zeigt die Sprache, in der die Daten des Volltextindexes gespeichert sind. Die Sprache basiert auf der Unicode-Gebietsschema-ID, die bei der Ausführung von Microsoft SQL Server-Setup ausgewählt wurde.

Unicode-Gebietsschema-ID	Sprache für Volltextdatenspeicherung
Chinesisch Bopomofo (Taiwan)	Chinesisch (traditionell)
Chinesische Interpunktion	Chinesisch (vereinfacht)
Chinesischer Pinselstrich	Chinesisch (vereinfacht)
Chinesischer Pinselstrich (Taiwan)	Chinesisch (traditionell)
Niederländisch	Niederländisch
Englisch (Großbritannien)	Englisch (Großbritannien)
Französisch	Französisch
Unicode (allgemein)	Englisch (USA)
Deutsch	Deutsch
Deutsch (Telefonbuch)	Deutsch
Italienisch	Italienisch
Japanisch	Japanisch
Japanisch (Unicode)	Japanisch
Koreanisch	Koreanisch
Koreanisch (Unicode)	Koreanisch
Spanisch (Spanien)	Spanisch
Schwedisch/Finnisch	Schwedisch

Alle anderen Unicode-Gebietsschema-ID-Werte, die nicht in dieser Liste enthalten sind, werden der sprachneutralen Wörtertrennung und der Wortstammerkennung zugeordnet, die Leerzeichen zum Begrenzen von Wörtern verwendet.

Hinweis:
Die Unicode-Gebietsschema-ID-Einstellung wird auf alle für die Volltextindizierung in Frage kommenden Datentypen angewendet (z. B. char, nchar usw.). Auch wenn die Sortierreihenfolge einer char-, varchar- oder text-Spalte auf eine von der Unicode-Gebietsschema-ID-Sprache abweichende Sprache festgelegt ist, wird die Unicode-Gebietsschema-ID während der Volltextindizierung und -abfrage der char-, varchar- und text-Spalten verwendet.

Die Unicode-Gebietsschema-ID-Einstellung wird auf alle für die Volltextindizierung in Frage kommenden Datentypen angewendet (z. B. char, nchar usw.). Auch wenn die Sortierreihenfolge einer char-, varchar- oder text-Spalte auf eine von der Unicode-Gebietsschema-ID-Sprache abweichende Sprache festgelegt ist, wird die Unicode-Gebietsschema-ID während der Volltextindizierung und -abfrage der char-, varchar- und text-Spalten verwendet.

Siehe auch

Andere Ressourcen

Konzepte der Volltextsuche
Datentypen (Transact-SQL)
CONTAINS (Transact-SQL)
CONTAINSTABLE (Transact-SQL)
FREETEXT (Transact-SQL)
FREETEXTTABLE (Transact-SQL)

Hilfe und Informationen

Informationsquellen für SQL Server 2005