Erstellen eines Benutzerwörterbuchs (Office SharePoint Server 2007)

Artikel
06/12/2012

Ein Benutzerwörterbuch ist eine mit Unicode codierte Datei, mit der Wörter angegeben werden können, die die Wörtertrennung derselben Sprache als vollständige Wörter betrachten soll. Benutzerwörterbücher werden standardmäßig nicht bereitgestellt. Um das Verhalten der Wörtertrennung für mehrere Sprachen zu ändern, müssen Sie ein separates Benutzerwörterbuch für jede Sprache erstellen, für die Sie das Verhalten der Wörtertrennung ändern möchten. Für die sprachneutrale Wörtertrennung kann kein Benutzerwörterbuch erstellt werden.

Hinweis

Benutzerwörterbücher gelten für alle Anbieter für gemeinsame Dienste (Shared Services Providers, SSPs) in der Serverfarm.

In der folgenden Tabelle werden die Sprachen und Dialekte aufgelistet, für die Microsoft Office SharePoint Server 2007 Benutzerwörterbücher unterstützt. Diese Tabelle enthält außerdem die Sprachecode-ID (Language Code Identifier, LCID) und den Hexadezimalsprachcode für alle unterstützten Sprachen und Dialekte.

Beachten Sie, dass die ersten beiden Zahlen des Hexadezimalcodes für jede Sprache den Dialekt darstellen, und die letzten beiden Zahlen die Sprache. Für Sprachen, die nicht über separate Wörtertrennungen für separate Dialekte verfügen, sind die ersten beiden Zahlen des Hexadezimalsprachcodes immer Nullen.

Tabelle 1 – Unterstützte Sprachen

Sprache/Dialekt	LCID	Hexadezimalsprachcode
Arabisch	1025	0001
Bengali	1093	0045
Bulgarisch	1026	0002
Katalanisch	1027	0003
Kroatisch	1050	001a
Dänisch	1030	0006
Niederländisch	1043	0013
Englisch	1033	0009
Französisch	1036	000c
Deutsch	1031	0007
Gudscharati	1095	0047
Hebräisch	1037	000d
Hindi	1081	0039
Isländisch	1039	000f
Indonesisch	1057	0021
Italienisch	1040	0010
Japanisch	1041	0011
Kannada	1099	004b
Lettisch	1062	0026
Litauisch	1063	0027
Malaiisch	1086	003e
Malajalim	1100	004c
Marathi	1102	004e
Norwegisch (Bokmaal)	1044	0414
Portugiesisch	2070	0816
Portugiesisch (Brasilien)	1046	0416
Punjabi	1094	0046
Rumänisch	1048	0018
Russisch	1049	0019
Serbisch (Kyrillisch)	3098	0c1a
Serbisch (Lateinisch)	2074	081a
Slowakisch	1051	001b
Slowenisch	1060	0024
Spanisch	3082	000a
Schwedisch	1053	001d
Tamilisch	1097	0049
Telugu	1098	004a
Ukrainisch	1058	0022
Urdu	1056	0020
Vietnamesisch	1066	002a

Gründe für die Verwendung eines Benutzerwörterbuchs

Mithilfe von Benutzerwörterbüchern wird die Wörtertrennung einer bestimmten Sprache veranlasst, ein bestimmtes Wort zu ignorieren (oder nicht zu trennen). Sie sollten die Verhaltensweise von Wörtertrennungen kennen, um zu verstehen, ob Sie ein Benutzerwörterbuch benötigen und welche Wörter oder Einträge darin enthalten sollen.

Mithilfe der Wörtertrennung werden vom Indizierungssystem Wörter in Token getrennt, wenn der Inhalt indiziert wird. Die Wörtertrennung wird auch vom Abfragesystem zum Trennen von Wörtern in einer Abfrage in Token verwendet. In beiden Fällen gilt, dass beim Vorhandsein eines Benutzerwörterbuchs, das die Sprache und den Dialekt der verwendeten Wörtertrennung unterstützt, der Office Server-Suchdienst bestimmt, ob das Wort im Benutzerwörterbuch vorhanden ist. Erst dann wird festgelegt, ob die Wörtertrennung für das Wort verwendet wird. Wenn das Wort nicht im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung die üblichen Aktionen aus, durch die das Wort möglicherweise in mehrere Wörter oder Token unterteilt wird. Wenn das Wort im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung keine Aktionen für dieses Wort aus.

In den folgenden Beispielen werden das typische Verhalten der Wörtertrennung und die Auswirkungen eines Eintrags im Benutzerwörterbuch auf dieses Verhalten beschrieben.

Beispiel 1

Eine bestimmte Wörtertrennung, die ein Wort wie beispielsweise "IT&T" findet, trennt das Wort möglicherweise am kaufmännischen Und-Zeichen (&). Dies ergibt das Wort "IT" und den Buchstaben "T", was von der Wörtertrennung für die meisten Sprachen als Füllwörter verworfen werden würde. Wenn allerdings das Wort "IT&T" im Benutzerwörterbuch derselben Sprache wie die verwendete Wörtertrennung vorhanden ist, würde das Wort "IT&T" von der Wörtertrennung ignoriert. Das heißt, dass beim Ausführen eines vollständigen Crawls dieses Wort als "IT&T" indiziert würde. Wenn ein Benutzer eine Abfrage für das Wort "IT&T" eingibt, würde dieses Wort von der Wörtertrennung nicht getrennt werden. Insbesondere Abfragen, die "IT" oder "T" enthalten, würden keine Suchergebnisse für Dokumente zurückgeben, die diese Wörter nicht enthalten, aber in denen das Wort "IT&T" vorkommt.

Beispiel 2

Begriffe wie systemische chemische Namen (SCN) oder CAS-Nummern können von der Wörtertrennung betroffen sein. Beispielsweise werden einzelne Zahlen, die vor oder nach einem Bindestrich oder einem anderen Sonderzeichen stehen, von der Wörtertrennung in der Regel von der restlichen Zahl getrennt. Ein Beispiel für eine CAS-Nummer ist 7782-44-7. Hierbei handelt es sich um die CAS-Registrierungsnummer für Sauerstoff. Nach der Verarbeitung durch die Wörtertrennung wird dieses Wort in drei separate Komponenten unterteilt, nämlich in die Zahlen 7782, 44 und 7. Durch Hinzufügen des SCN und der CAS-Nummern aus einem Text zum Benutzerwörterbuch, für jede zutreffende Sprache, können der SCN und die CAS-Nummern indiziert werden, ohne dass sie in separate Nummern getrennt werden. Da die entsprechende Wörtertrennung und das entsprechende Benutzerwörterbuch für die Sprache des Inhalts zum Abfragezeitpunkt verwendet werden, kann ein Benutzer auch einen SCN oder eine CAS-Nummer in die Abfrage einschließen, ohne dass dieser bzw. diese in separate Komponenten unterteilt wird.

Normalisierungen und Thesaurusdateien

Normalisierungen von benannten Entitäten wie etwa die Datumsnormalisierung, die normalerweise von Wörtertrennungen angewendet werden, werden nicht auf Abfrageausdrücke in Benutzerwörterbüchern angewendet. Stattdessen werden alle in Benutzerwörterbüchern angezeigten Abfrageausdrücke als genaue Übereinstimmung behandelt. Dies ist besonders wichtig, wenn Wörter oder Zahlen (siehe oben) in einer Thesaurusdatei vorhanden sind. Wenn beispielsweise die CAS-Nummer 7782-44-7 Teil einer Erweiterungsgruppe im Thesaurus ist und diese Nummer von der Wörtertrennung an den Bindestrichen in drei separate Zahlen getrennt wird, verhält sich die Erweiterungsgruppe, zu der die Zahl gehört, möglicherweise nicht erwartungsgemäß. In diesem Fall wird das Problem durch Hinzufügen der CAS-Nummer 7782-44-7 zum Benutzerwörterbuch der entsprechende Sprache behoben.

Bevor Sie beginnen

Das Erstellen oder Ändern eines Benutzerwörterbuchs ist einfach. Bei einem Benutzerwörterbuch handelt es sich lediglich um eine Datei im Unicode-Format mit Einträgen (die von Ihnen angegebenen Wörter) in separaten Zeilen, die durch einen Wagenrücklauf (CR) und einen Zeilenvorschub (LF) voneinander getrennt werden. Beachten Sie beim Hinzufügen von Einträgen zu einem Benutzerwörterbuch die folgenden Regeln, um unerwartete Ergebnisse zu vermeiden:

Bei Einträgen wird die Groß-/Kleinschreibung nicht beachtet.
Der senkrechte Strich (|) kann nicht in einem Benutzerwörterbuch verwendet werden.
Leerzeichen können nicht in einem Benutzerwörterbuch verwendet werden.
Das Nummernzeichen (#) kann nicht am Anfang eines Eintrags verwendet werden, aber innerhalb oder am Ende eines Eintrags.
Mit Ausnahme der bereits erwähnten senkrechten Striche, Nummernzeichen und Leerzeichen sind alle alphanumerischen Zeichen, Interpunktionszeichen und Umbruchzeichen zulässig.
Die maximale Länge eines Eintrags beträgt 128 (Unicode-) Zeichen.

Die folgende Tabelle enthält Beispiele für unterstützte und nicht unterstützte Einträge.

Tabelle 2 – Beispiele für unterstützte und nicht unterstützte Einträge

Unterstützt	Nicht unterstützt
Hausboot	Haus Boot
3#	#3
Vier#Verkauf	Haus\|Boot
ASP.NET
IT&T
(2-Methoxymethylethoxy)Propanol
34590-97-8
C7H1603

Es gibt keine feste Begrenzung für die Anzahl von Einträgen in einem Benutzerwörterbuch. Es wird jedoch empfohlen, dass ein Benutzerwörterbuch die Dateigröße von insgesamt 2 GB nicht überschreitet. In der Praxis sollten Sie die Anzahl von Einträgen auf ein paar Tausend Einträge begrenzen.

Erstellen eines Benutzerwörterbuchs

Bevor Sie ein Benutzerwörterbuch erstellen, sollten Sie den Abschnitt Bevor Sie beginnen weiter oben in diesem Artikel gelesen haben. Sie sollten nämlich unbedingt den Unterschied zwischen unterstützten und nicht unterstützten Einträgen in einem Benutzerwörterbuch verstehen.

Hinweis

Sie müssen ein Mitglied der Gruppe der Administratoren auf jedem Indexserver und Abfrageserver in der Serverfarm sein, um dieses Verfahren auszuführen.

So erstellen Sie ein Benutzerwörterbuch

Melden Sie sich beim Indexserver als Mitglied der Administratorgruppe an.
Starten Sie Editor, und geben Sie die gewünschten Wörter in Ihr Benutzerwörterbuch ein. Vermeiden Sie unbedingt ungültige Einträge, wie unter Bevor Sie beginnen beschrieben.

Tipp

Beachten Sie, dass jedes Wort in einer separaten Zeile vorhanden sein muss und durch einen Wagenrücklauf (CR) und einen Zeilenvorschub (LF) getrennt werden muss.
Klicken Sie im Menü Datei auf Speichern unter .
Wählen Sie in der Liste Dateityp die Option Alle Dateien aus.
Wählen Sie in der Liste Codierung die Option Unicode aus.
Geben Sie im Feld Dateiname den Dateinamen im folgenden Format ein: CustomNNNN.lex. Dabei steht NNNN für den Hexadezimalsprachcode der Sprache, für die Sie das Benutzerwörterbuch erstellen. In Tabelle 1 weiter oben in diesem Artikel finden Sie eine Liste gültiger Dateinamen für unterstützte Sprachen und Dialekte.
Navigieren Sie in der Liste Speichern in zu dem Ordner mit den Wörtertrennungen. Standardmäßig ist dies Laufwerk:\Programme\Microsoft Office Servers\12\bin, wobei Laufwerk den Buchstaben des Laufwerks bezeichnet, auf dem Microsoft Office SharePoint Server 2007 installiert ist.
Klicken Sie auf Speichern.

Führen Sie das folgende Verfahren nur aus, wenn die Abfrageserver von den Indexservern getrennt sind. Andernfalls wechseln Sie zu Beenden und erneutes Starten des Office SharePoint Server-Suchdiensts.

Kopieren des Benutzerwörterbuchs auf andere Server

Melden Sie sich beim Indexserver als Mitglied der Administratorgruppe an.
Navigieren Sie zu dem Ordner, in dem Sie die Benutzerwörterbuchdatei gespeichert haben.
Kopieren Sie die Benutzerwörterbuchdatei in den Ordner mit den Wörtertrennungen auf dem ersten Abfrageserver. Standardmäßig ist dies Laufwerk:\Programme\Microsoft Office Servers\12\bin, wobei Laufwerk den Buchstaben des Laufwerks bezeichnet, auf dem Microsoft Office SharePoint Server 2007 installiert ist.
Führen Sie einen vollständigen Crawl für den betreffenden Inhalt aus. Informationen zum Ausführen eines vollständigen Crawls finden Sie unter Crawlen von Inhalten (Office SharePoint Server 2007).
Wiederholen Sie die Schritte 1 bis 3 auf jedem Abfrageserver in der Serverfarm.

Beenden und erneutes Starten des Office SharePoint Server-Suchdiensts

Sie müssen den Suchdienst auf allen Index- und Abfrageservern neu starten.

Wichtig

Verwenden Sie nicht die Seite Dienste auf dem Server in der Zentraladministration, um diese Dienste zu beenden und zu starten. Dadurch wird der Dienst entfernt, und der Index und die zugehörige Konfiguration werden gelöscht. Führen Sie stattdessen die folgenden Schritte aus.

So beenden Sie den Office SharePoint Server-Suchdienst und starten ihn erneut

Melden Sie sich am Indexserver als Mitglied der Administratorgruppe an.
Zeigen Sie im Startmenü auf Alle Programme, zeigen Sie auf Verwaltung, und klicken Sie dann auf Dienste.
Führen Sie in der Liste einen Bildlauf nach unten aus, klicken Sie mit der rechten Maustaste auf den Dienst Office SharePoint Server-Suche, und klicken Sie dann auf Eigenschaften. Die Eigenschaftenseite wird angezeigt.
Klicken Sie auf Anhalten. Nachdem der Dienst angehalten wurde, klicken Sie auf Starten.
Stellen Sie sicher, dass Starttyp nicht auf Deaktiviert festgelegt ist.
Wenn die Serverfarm über Abfrageserver verfügt, die vom Indexserver getrennt sind, wiederholen Sie die Schritte 1 bis 5 auf jedem Abfrageserver.

Ausführen eines vollständigen Crawls

Zum Anwenden des Benutzerwörterbuchs auf den Inhaltsindex müssen Sie einen vollständigen Crawl für alle Inhaltsquellen ausführen, die die Wörter enthalten, die Sie dem Benutzerwörterbuch hinzugefügt haben. Informationen zum Ausführen eines vollständigen Crawls finden Sie unter Crawlen von Inhalten (Office SharePoint Server 2007).

Share via