Share via


Erstellen eines Benutzerwörterbuchs (Office SharePoint Server 2007)

Ein Benutzerwörterbuch ist eine mit Unicode codierte Datei, mit der Wörter angegeben werden können, die die Wörtertrennung derselben Sprache als vollständige Wörter betrachten soll. Benutzerwörterbücher werden standardmäßig nicht bereitgestellt. Um das Verhalten der Wörtertrennung für mehrere Sprachen zu ändern, müssen Sie ein separates Benutzerwörterbuch für jede Sprache erstellen, für die Sie das Verhalten der Wörtertrennung ändern möchten. Für die sprachneutrale Wörtertrennung kann kein Benutzerwörterbuch erstellt werden.

Hinweis

Benutzerwörterbücher gelten für alle Anbieter für gemeinsame Dienste (Shared Services Providers, SSPs) in der Serverfarm.

In der folgenden Tabelle werden die Sprachen und Dialekte aufgelistet, für die Microsoft Office SharePoint Server 2007 Benutzerwörterbücher unterstützt. Diese Tabelle enthält außerdem die Sprachecode-ID (Language Code Identifier, LCID) und den Hexadezimalsprachcode für alle unterstützten Sprachen und Dialekte.

Beachten Sie, dass die ersten beiden Zahlen des Hexadezimalcodes für jede Sprache den Dialekt darstellen, und die letzten beiden Zahlen die Sprache. Für Sprachen, die nicht über separate Wörtertrennungen für separate Dialekte verfügen, sind die ersten beiden Zahlen des Hexadezimalsprachcodes immer Nullen.

Tabelle 1 – Unterstützte Sprachen

Sprache/Dialekt LCID Hexadezimalsprachcode

Arabisch

1025

0001

Bengali 

1093

0045

Bulgarisch

1026

0002

Katalanisch

1027

0003

Kroatisch

1050

001a

Dänisch

1030

0006

Niederländisch

1043

0013

Englisch

1033

0009

Französisch

1036

000c

Deutsch

1031

0007

Gudscharati

1095

0047

Hebräisch

1037

000d

Hindi

1081

0039

Isländisch

1039

000f

Indonesisch

1057

0021

Italienisch

1040

0010

Japanisch

1041

0011

Kannada

1099

004b

Lettisch

1062

0026

Litauisch

1063

0027

Malaiisch

1086

003e

Malajalim

1100

004c

Marathi

1102

004e

Norwegisch (Bokmaal)

1044

0414

Portugiesisch

2070

0816

Portugiesisch (Brasilien)

1046

0416

Punjabi

1094

0046

Rumänisch

1048

0018

Russisch

1049

0019

Serbisch (Kyrillisch)

3098

0c1a

Serbisch (Lateinisch)

2074

081a

Slowakisch

1051

001b

Slowenisch

1060

0024

Spanisch

3082

000a

Schwedisch

1053

001d

Tamilisch

1097

0049

Telugu

1098

004a

Ukrainisch

1058

0022

Urdu

1056

0020

Vietnamesisch

1066

002a

Gründe für die Verwendung eines Benutzerwörterbuchs

Mithilfe von Benutzerwörterbüchern wird die Wörtertrennung einer bestimmten Sprache veranlasst, ein bestimmtes Wort zu ignorieren (oder nicht zu trennen). Sie sollten die Verhaltensweise von Wörtertrennungen kennen, um zu verstehen, ob Sie ein Benutzerwörterbuch benötigen und welche Wörter oder Einträge darin enthalten sollen.

Mithilfe der Wörtertrennung werden vom Indizierungssystem Wörter in Token getrennt, wenn der Inhalt indiziert wird. Die Wörtertrennung wird auch vom Abfragesystem zum Trennen von Wörtern in einer Abfrage in Token verwendet. In beiden Fällen gilt, dass beim Vorhandsein eines Benutzerwörterbuchs, das die Sprache und den Dialekt der verwendeten Wörtertrennung unterstützt, der Office Server-Suchdienst bestimmt, ob das Wort im Benutzerwörterbuch vorhanden ist. Erst dann wird festgelegt, ob die Wörtertrennung für das Wort verwendet wird. Wenn das Wort nicht im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung die üblichen Aktionen aus, durch die das Wort möglicherweise in mehrere Wörter oder Token unterteilt wird. Wenn das Wort im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung keine Aktionen für dieses Wort aus.

In den folgenden Beispielen werden das typische Verhalten der Wörtertrennung und die Auswirkungen eines Eintrags im Benutzerwörterbuch auf dieses Verhalten beschrieben.

Beispiel 1

Eine bestimmte Wörtertrennung, die ein Wort wie beispielsweise "IT&T" findet, trennt das Wort möglicherweise am kaufmännischen Und-Zeichen (&). Dies ergibt das Wort "IT" und den Buchstaben "T", was von der Wörtertrennung für die meisten Sprachen als Füllwörter verworfen werden würde. Wenn allerdings das Wort "IT&T" im Benutzerwörterbuch derselben Sprache wie die verwendete Wörtertrennung vorhanden ist, würde das Wort "IT&T" von der Wörtertrennung ignoriert. Das heißt, dass beim Ausführen eines vollständigen Crawls dieses Wort als "IT&T" indiziert würde. Wenn ein Benutzer eine Abfrage für das Wort "IT&T" eingibt, würde dieses Wort von der Wörtertrennung nicht getrennt werden. Insbesondere Abfragen, die "IT" oder "T" enthalten, würden keine Suchergebnisse für Dokumente zurückgeben, die diese Wörter nicht enthalten, aber in denen das Wort "IT&T" vorkommt.

Beispiel 2

Begriffe wie systemische chemische Namen (SCN) oder CAS-Nummern können von der Wörtertrennung betroffen sein. Beispielsweise werden einzelne Zahlen, die vor oder nach einem Bindestrich oder einem anderen Sonderzeichen stehen, von der Wörtertrennung in der Regel von der restlichen Zahl getrennt. Ein Beispiel für eine CAS-Nummer ist 7782-44-7. Hierbei handelt es sich um die CAS-Registrierungsnummer für Sauerstoff. Nach der Verarbeitung durch die Wörtertrennung wird dieses Wort in drei separate Komponenten unterteilt, nämlich in die Zahlen 7782, 44 und 7. Durch Hinzufügen des SCN und der CAS-Nummern aus einem Text zum Benutzerwörterbuch, für jede zutreffende Sprache, können der SCN und die CAS-Nummern indiziert werden, ohne dass sie in separate Nummern getrennt werden. Da die entsprechende Wörtertrennung und das entsprechende Benutzerwörterbuch für die Sprache des Inhalts zum Abfragezeitpunkt verwendet werden, kann ein Benutzer auch einen SCN oder eine CAS-Nummer in die Abfrage einschließen, ohne dass dieser bzw. diese in separate Komponenten unterteilt wird.

Normalisierungen und Thesaurusdateien

Normalisierungen von benannten Entitäten wie etwa die Datumsnormalisierung, die normalerweise von Wörtertrennungen angewendet werden, werden nicht auf Abfrageausdrücke in Benutzerwörterbüchern angewendet. Stattdessen werden alle in Benutzerwörterbüchern angezeigten Abfrageausdrücke als genaue Übereinstimmung behandelt. Dies ist besonders wichtig, wenn Wörter oder Zahlen (siehe oben) in einer Thesaurusdatei vorhanden sind. Wenn beispielsweise die CAS-Nummer 7782-44-7 Teil einer Erweiterungsgruppe im Thesaurus ist und diese Nummer von der Wörtertrennung an den Bindestrichen in drei separate Zahlen getrennt wird, verhält sich die Erweiterungsgruppe, zu der die Zahl gehört, möglicherweise nicht erwartungsgemäß. In diesem Fall wird das Problem durch Hinzufügen der CAS-Nummer 7782-44-7 zum Benutzerwörterbuch der entsprechende Sprache behoben.

Bevor Sie beginnen

Das Erstellen oder Ändern eines Benutzerwörterbuchs ist einfach. Bei einem Benutzerwörterbuch handelt es sich lediglich um eine Datei im Unicode-Format mit Einträgen (die von Ihnen angegebenen Wörter) in separaten Zeilen, die durch einen Wagenrücklauf (CR) und einen Zeilenvorschub (LF) voneinander getrennt werden. Beachten Sie beim Hinzufügen von Einträgen zu einem Benutzerwörterbuch die folgenden Regeln, um unerwartete Ergebnisse zu vermeiden:

  • Bei Einträgen wird die Groß-/Kleinschreibung nicht beachtet.

  • Der senkrechte Strich (|) kann nicht in einem Benutzerwörterbuch verwendet werden.

  • Leerzeichen können nicht in einem Benutzerwörterbuch verwendet werden.

  • Das Nummernzeichen (#) kann nicht am Anfang eines Eintrags verwendet werden, aber innerhalb oder am Ende eines Eintrags.

  • Mit Ausnahme der bereits erwähnten senkrechten Striche, Nummernzeichen und Leerzeichen sind alle alphanumerischen Zeichen, Interpunktionszeichen und Umbruchzeichen zulässig.

  • Die maximale Länge eines Eintrags beträgt 128 (Unicode-) Zeichen.

Die folgende Tabelle enthält Beispiele für unterstützte und nicht unterstützte Einträge.

Tabelle 2 – Beispiele für unterstützte und nicht unterstützte Einträge

Unterstützt Nicht unterstützt

Hausboot

Haus Boot

3#

#3

Vier#Verkauf

Haus|Boot

ASP.NET

IT&T

(2-Methoxymethylethoxy)Propanol

34590-97-8

C7H1603

Es gibt keine feste Begrenzung für die Anzahl von Einträgen in einem Benutzerwörterbuch. Es wird jedoch empfohlen, dass ein Benutzerwörterbuch die Dateigröße von insgesamt 2 GB nicht überschreitet. In der Praxis sollten Sie die Anzahl von Einträgen auf ein paar Tausend Einträge begrenzen.

Erstellen eines Benutzerwörterbuchs

Bevor Sie ein Benutzerwörterbuch erstellen, sollten Sie den Abschnitt Bevor Sie beginnen weiter oben in diesem Artikel gelesen haben. Sie sollten nämlich unbedingt den Unterschied zwischen unterstützten und nicht unterstützten Einträgen in einem Benutzerwörterbuch verstehen.

Hinweis

Sie müssen ein Mitglied der Gruppe der Administratoren auf jedem Indexserver und Abfrageserver in der Serverfarm sein, um dieses Verfahren auszuführen.

So erstellen Sie ein Benutzerwörterbuch

  1. Melden Sie sich beim Indexserver als Mitglied der Administratorgruppe an.

  2. Starten Sie Editor, und geben Sie die gewünschten Wörter in Ihr Benutzerwörterbuch ein. Vermeiden Sie unbedingt ungültige Einträge, wie unter Bevor Sie beginnen beschrieben.

    Tipp

    Beachten Sie, dass jedes Wort in einer separaten Zeile vorhanden sein muss und durch einen Wagenrücklauf (CR) und einen Zeilenvorschub (LF) getrennt werden muss.

  3. Klicken Sie im Menü Datei auf Speichern unter .

  4. Wählen Sie in der Liste Dateityp die Option Alle Dateien aus.

  5. Wählen Sie in der Liste Codierung die Option Unicode aus.

  6. Geben Sie im Feld Dateiname den Dateinamen im folgenden Format ein: CustomNNNN.lex. Dabei steht NNNN für den Hexadezimalsprachcode der Sprache, für die Sie das Benutzerwörterbuch erstellen. In Tabelle 1 weiter oben in diesem Artikel finden Sie eine Liste gültiger Dateinamen für unterstützte Sprachen und Dialekte.

  7. Navigieren Sie in der Liste Speichern in zu dem Ordner mit den Wörtertrennungen. Standardmäßig ist dies Laufwerk:\Programme\Microsoft Office Servers\12\bin, wobei Laufwerk den Buchstaben des Laufwerks bezeichnet, auf dem Microsoft Office SharePoint Server 2007 installiert ist.

  8. Klicken Sie auf Speichern.

    Führen Sie das folgende Verfahren nur aus, wenn die Abfrageserver von den Indexservern getrennt sind. Andernfalls wechseln Sie zu Beenden und erneutes Starten des Office SharePoint Server-Suchdiensts.

Kopieren des Benutzerwörterbuchs auf andere Server

  1. Melden Sie sich beim Indexserver als Mitglied der Administratorgruppe an.

  2. Navigieren Sie zu dem Ordner, in dem Sie die Benutzerwörterbuchdatei gespeichert haben.

  3. Kopieren Sie die Benutzerwörterbuchdatei in den Ordner mit den Wörtertrennungen auf dem ersten Abfrageserver. Standardmäßig ist dies Laufwerk:\Programme\Microsoft Office Servers\12\bin, wobei Laufwerk den Buchstaben des Laufwerks bezeichnet, auf dem Microsoft Office SharePoint Server 2007 installiert ist.

  4. Führen Sie einen vollständigen Crawl für den betreffenden Inhalt aus. Informationen zum Ausführen eines vollständigen Crawls finden Sie unter Crawlen von Inhalten (Office SharePoint Server 2007).

  5. Wiederholen Sie die Schritte 1 bis 3 auf jedem Abfrageserver in der Serverfarm.

Beenden und erneutes Starten des Office SharePoint Server-Suchdiensts

Sie müssen den Suchdienst auf allen Index- und Abfrageservern neu starten.

Wichtig

Verwenden Sie nicht die Seite Dienste auf dem Server in der Zentraladministration, um diese Dienste zu beenden und zu starten. Dadurch wird der Dienst entfernt, und der Index und die zugehörige Konfiguration werden gelöscht. Führen Sie stattdessen die folgenden Schritte aus.

So beenden Sie den Office SharePoint Server-Suchdienst und starten ihn erneut

  1. Melden Sie sich am Indexserver als Mitglied der Administratorgruppe an.

  2. Zeigen Sie im Startmenü auf Alle Programme, zeigen Sie auf Verwaltung, und klicken Sie dann auf Dienste.

  3. Führen Sie in der Liste einen Bildlauf nach unten aus, klicken Sie mit der rechten Maustaste auf den Dienst Office SharePoint Server-Suche, und klicken Sie dann auf Eigenschaften. Die Eigenschaftenseite wird angezeigt.

  4. Klicken Sie auf Anhalten. Nachdem der Dienst angehalten wurde, klicken Sie auf Starten.

  5. Stellen Sie sicher, dass Starttyp nicht auf Deaktiviert festgelegt ist.

  6. Wenn die Serverfarm über Abfrageserver verfügt, die vom Indexserver getrennt sind, wiederholen Sie die Schritte 1 bis 5 auf jedem Abfrageserver.

Ausführen eines vollständigen Crawls

Zum Anwenden des Benutzerwörterbuchs auf den Inhaltsindex müssen Sie einen vollständigen Crawl für alle Inhaltsquellen ausführen, die die Wörter enthalten, die Sie dem Benutzerwörterbuch hinzugefügt haben. Informationen zum Ausführen eines vollständigen Crawls finden Sie unter Crawlen von Inhalten (Office SharePoint Server 2007).