Erstellen eines Benutzerwörterbuchs (Search Server 2010)
Gilt für: Search Server 2010
Letztes Änderungsdatum des Themas: 2015-03-09
Hinweis
Die Informationen in diesem Artikel beziehen sich sowohl auf Microsoft Search Server 2010 als auch auf Microsoft Search Server 2010 Express.
Ein Benutzerwörterbuch ist eine vom Administrator erstellte Datei, in der Token angegeben werden können, die von der Wörtertrennung einer Sprache bei der Indizierung und bei der Suche als untrennbar betrachtet werden sollen. Benutzerwörterbücher werden nicht mit dem Produkt bereitgestellt. Sie müssen ein separates Benutzerwörterbuch für jede Sprache erstellen, für die Sie das Verhalten der Wörtertrennung ändern möchten.
Hinweis
Ein Benutzerwörterbuch für eine bestimmte Sprache gilt für alle Suchdienstanwendungen in der Serverfarm.
Inhalt dieses Artikels:
Gründe für die Verwendung eines Benutzerwörterbuchs
Regeln zum Erstellen eines Benutzerwörterbuchs
Erstellen eines Benutzerwörterbuchs
Kopieren des Benutzerwörterbuchs auf alle Anwendungsserver
Beenden und erneutes Starten des SharePoint Server Search 14-Diensts auf jedem Anwendungsserver
Ausführen einer vollständigen Durchforstung
Unterstützte Sprachen
Gründe für die Verwendung eines Benutzerwörterbuchs
Um zu entscheiden, ob Sie ein Benutzerwörterbuch benötigen und welche Einträge es enthalten muss, sollten Sie das Verhalten der Wörtertrennung verstehen. Vom Indizierungssystem werden Token mithilfe der Wörtertrennung getrennt, wenn der durchforstete Inhalt indiziert wird. Vom Abfrageprozessor wird die Wörtertrennung in Abfragen verwendet. In beiden Fällen wird bei Vorhandsein eines Benutzerwörterbuchs, das die Sprache und den Dialekt der verwendeten Wörtertrennung unterstützt, das Wort vom Suchsystem zunächst im Benutzerwörterbuch gesucht. Erst dann wird festgelegt, ob die Wörtertrennung für das Wort verwendet wird. Wenn das Wort nicht im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung die üblichen Aktionen aus, durch die das Token möglicherweise in mehrere Token unterteilt wird. Wenn das Token im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung keine Aktionen für dieses Token aus. In den folgenden beiden Beispielen werden das typische Verhalten der Wörtertrennung und die Auswirkungen eines Eintrags im Benutzerwörterbuch auf dieses Verhalten beschrieben.
Die Wörtertrennung trennt das Token "IT&T" möglicherweise vor und nach dem kaufmännischen Und-Zeichen (&). Dies führt zu den drei Token "IT", "&" und "T". Ist jedoch das Token "IT&T" im Benutzerwörterbuch für die Sprache der verwendeten Wörtertrennung vorhanden, wird das Token nicht (weder bei der Durchforstung noch bei der Abfrage) getrennt. Ist "IT&T" im Benutzerwörterbuch vorhanden und enthält ein Dokument nicht "IT" oder "T", aber "IT&T", gibt eine Abfrage mit "IT" oder "T", aber nicht mit "IT&T" das Dokument nicht im Ergebnis zurück.
Begriffe wie CAS-Registrierungsnummern (Chemical Abstracts Service) können von der Wörtertrennung betroffen sein. Beispielsweise werden Zahlen, die vor oder nach einem Bindestrich oder einem anderen Sonderzeichen stehen, von der Wörtertrennung in der Regel von der restlichen Zahl getrennt. Zum Beispiel lautet die CAS-Nummer für Sauerstoff 7782-44-7. Nach der Verarbeitung durch die Wörtertrennung wird diese CAS-Registrierungsnummer in drei Komponenten unterteilt, nämlich in die Zahlen 7782, 44 und 7. Durch Hinzufügen der CAS-Registrierungsnummern aus einem Korpus zu einem Benutzerwörterbuch wird das Suchsystem angewiesen, jede Nummer ohne Aufteilung zu indizieren.
Normalisierungen und Thesaurusdateien
Normalisierungen von benannten Entitäten wie etwa die Datumsnormalisierung, die gewöhnlich von der Wörtertrennung angewendet werden, werden nicht auf Ausdrücke in Benutzerwörterbüchern angewendet. Stattdessen werden alle in Benutzerwörterbüchern aufgeführten Ausdrücke als Übereinstimmung behandelt. Dies ist besonders wichtig, wenn Wörter oder Zahlen in einer Thesaurusdatei enthalten sind. Wenn beispielsweise die CAS-Registrierungsnummer 7782-44-7 Teil einer Erweiterungsgruppe im Thesaurus ist und diese Nummer von der Wörtertrennung an den Bindestrichen in drei separate Zahlen getrennt wird, verhält sich die Erweiterungsgruppe, zu der die Nummer gehört, möglicherweise nicht erwartungsgemäß. In diesem Fall wird das Problem durch Hinzufügen der CAS-Registrierungsnummer 7782-44-7 zum Benutzerwörterbuch der entsprechenden Sprache behoben. Weitere Informationen zur Verwendung von Thesaurusdateien finden Sie unter Verwalten von Thesaurusdateien (Search Server 2010).
Regeln zum Erstellen eines Benutzerwörterbuchs
Bei einem Benutzerwörterbuch handelt es sich um eine Datei im Unicode-Format. Jeder Eintrag muss in einer separaten Zeile stehen, getrennt durch einen Wagenrücklauf (CR) und einen Zeilenvorschub (LF). Beachten Sie beim Hinzufügen von Einträgen zu einem Benutzerwörterbuch die folgenden Regeln, um unerwartete Ergebnisse zu vermeiden:
Bei Einträgen wird die Groß-/Kleinschreibung nicht beachtet.
Der senkrechte Strich (|) kann nicht verwendet werden.
Leerzeichen können nicht verwendet werden.
Das Nummernzeichen (#) kann nicht am Anfang eines Eintrags verwendet werden, aber innerhalb oder am Ende eines Eintrags.
Mit Ausnahme der zuvor erwähnten senkrechten Striche, Nummernzeichen und Leerzeichen sind alle alphanumerischen Zeichen, Interpunktionszeichen und Umbruchzeichen zulässig.
Die maximale Länge eines Eintrags beträgt 128 (Unicode-) Zeichen.
Die folgende Tabelle enthält Beispiele für unterstützte und nicht unterstützte Einträge.
Tabelle 1 – Beispiele für unterstützte und nicht unterstützte Einträge in Benutzerwörterbüchern
Unterstützt | Nicht unterstützt |
---|---|
Hausboot |
Haus Boot |
3# |
#3 |
Zu#verkaufen |
Zu|verkaufen |
ASP.NET |
|
IT&T |
|
(2-Methoxymethylethoxy)Propanol |
|
34590-97-8 |
|
C7H1603 |
Es gibt keine feste Begrenzung für die Anzahl von Einträgen in einem Benutzerwörterbuch. Es wird jedoch empfohlen, dass eine Benutzerwörterbuch-Datei 2 Gigabyte (GB) nicht überschreitet. In der Praxis sollten Sie die Anzahl von Einträgen auf ein paar Tausend Einträge begrenzen.
Erstellen eines Benutzerwörterbuchs
Gehen Sie wie im Folgenden beschrieben vor, um ein Benutzerwörterbuch zu erstellen.
So erstellen Sie ein Benutzerwörterbuch
Stellen Sie sicher, dass das Benutzerkonto, mit dem dieser Vorgang ausgeführt wird, ein Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.
Melden Sie sich an einem Durchforstungsserver an.
Öffnen Sie in einem Text-Editor eine neue Datei.
Geben Sie die Wörter, die Sie in das Benutzerwörterbuch aufnehmen möchten, nach den Richtlinien unter Regeln zum Erstellen eines Benutzerwörterbuchs weiter oben in diesem Artikel ein.
Klicken Sie im Menü Datei auf Speichern unter .
Wählen Sie in der Liste Dateityp die Option Alle Dateien aus.
Wählen Sie in der Liste Codierung die Option Unicode aus.
Geben Sie im Feld Dateiname den Dateinamen im folgenden Format ein: CustomNNNN.lex. Dabei ist Custom eine Literalzeichenfolge, NNNN der vierstellige Hexadezimalsprachcode der Sprache, für die Sie das Benutzerwörterbuch erstellen, und lex die Dateinamenerweiterung. Eine Liste gültiger Dateinamen für unterstützte Sprachen und Dialekte finden Sie unter Unterstützte Sprachen weiter unten in diesem Artikel.
Suchen Sie in der Liste Speichern unter nach dem Ordner mit den Wörtertrennungen. Standardmäßig lautet der Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin.
Hinweis
Benutzerwörterbuch-Dateien können nur verwendet werden, wenn sie in diesem Ordner im lokalen Dateisystem gespeichert sind. Sie können nicht verwendet werden, wenn sie beispielsweise nur auf einer SharePoint-Website gespeichert sind.
Klicken Sie auf Speichern.
Wenn die Farm keine weiteren Durchforstungsserver oder Abfrageserver aufweist, wechseln Sie zu Beenden und erneutes Starten des SharePoint Server Search 14-Diensts auf jedem Anwendungsserver. Andernfalls wechseln Sie zum Verfahren "Kopieren des Benutzerwörterbuchs auf alle Anwendungsserver".
Kopieren des Benutzerwörterbuchs auf alle Anwendungsserver
Auf jedem Anwendungsserver in der Farm muss eine Kopie des Benutzerwörterbuchs vorhanden sein.
So kopieren Sie das Benutzerwörterbuch auf alle Anwendungsserver
Stellen Sie sicher, dass das Benutzerkonto, mit dem dieses Verfahren ausgeführt wird, Mitglied der Administratorengruppe auf jedem Anwendungsserver (d. h. jedem Durchforstungs- oder Abfrageserver) in der Farm ist.
Kopieren Sie das Benutzerwörterbuch auf jedem Anwendungsserver in den Ordner mit den Wörtertrennungen. Standardmäßig lautet der Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin.
Hinweis
Benutzerwörterbuch-Dateien können nur verwendet werden, wenn sie in diesem Ordner im lokalen Dateisystem gespeichert sind. Sie können nicht verwendet werden, wenn sie beispielsweise nur auf einer SharePoint-Website gespeichert sind.
Beenden und erneutes Starten des SharePoint Server Search 14-Diensts auf jedem Anwendungsserver
Sie müssen den SharePoint Server Search 14-Dienst auf jedem Anwendungsserver in der Farm neu starten.
Wichtig
Verwenden Sie nicht die Seite Dienste auf dem Server in der Zentraladministration, um den Dienst zu beenden und zu starten. Dadurch wird der Dienst entfernt, und der Index und die zugehörige Konfiguration werden gelöscht. Führen Sie stattdessen die folgenden Schritte aus.
So beenden Sie den SharePoint Server Search 14-Dienst auf jedem Anwendungsserver und starten ihn erneut
Stellen Sie sicher, dass das Benutzerkonto, mit dem dieser Vorgang ausgeführt wird, ein Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.
Zeigen Sie im Startmenü auf Alle Programme, zeigen Sie auf Verwaltung, und klicken Sie dann auf Dienste.
Klicken Sie mit der rechten Maustaste auf den Dienst SharePoint Server Search 14, und klicken Sie dann auf Eigenschaften. Das Dialogfeld Eigenschaften wird angezeigt.
Klicken Sie auf Anhalten. Nachdem der Dienst angehalten wurde, klicken Sie auf Starten.
Stellen Sie sicher, dass Starttyp nicht auf Deaktiviert festgelegt ist.
Wiederholen Sie das Verfahren für jeden Anwendungsserver (d. h. jeden Durchforstungsserver und jeden Abfrageserver) in der Farm.
Ausführen eines vollständigen Crawls
Zum Anwenden des Benutzerwörterbuchs auf den Inhaltsindex müssen Sie eine vollständige Durchforstung für den Inhalt ausführen, der die Token enthält, die Sie dem Benutzerwörterbuch hinzugefügt haben. Informationen zum Ausführen einer vollständigen Durchforstung finden Sie unter Verwalten der Durchforstung (Search Server 2010).
Unterstützte Sprachen
In der folgenden Tabelle sind die Sprachen und Dialekte aufgeführt, für die in Search Server 2010 Benutzerwörterbücher unterstützt werden. Für die sprachneutrale Wörtertrennung können Sie kein Benutzerwörterbuch erstellen. Die Tabelle enthält die Sprachecode-ID (Language Code Identifier, LCID) und den Hexadezimalsprachcode für alle unterstützten Sprachen und Dialekte. Die ersten beiden Ziffern im Hexadezimalcode stellen den Sprachcode dar und die letzten beiden die Sprache. Für Sprachen, die nicht über separate Wörtertrennungen für separate Dialekte verfügen, sind die ersten beiden Ziffern des Hexadezimalsprachcodes immer Nullen.
Tabelle 2 – Unterstützte Sprachen
Sprache/Dialekt | LCID | Hexadezimalsprachcode |
---|---|---|
Arabisch |
1025 |
0001 |
Bengali |
1093 |
0045 |
Bulgarisch |
1026 |
0002 |
Katalanisch |
1027 |
0003 |
Kroatisch |
1050 |
001a |
Dänisch |
1030 |
0006 |
Niederländisch |
1043 |
0013 |
Englisch |
1033 |
0009 |
Französisch |
1036 |
000c |
Deutsch |
1031 |
0007 |
Gudscharati |
1095 |
0047 |
Hebräisch |
1037 |
000d |
Hindi |
1081 |
0039 |
Isländisch |
1039 |
000f |
Indonesisch |
1057 |
0021 |
Italienisch |
1040 |
0010 |
Japanisch |
1041 |
0011 |
Kannada |
1099 |
004b |
Lettisch |
1062 |
0026 |
Litauisch |
1063 |
0027 |
Malaiisch |
1086 |
003e |
Malajalim |
1100 |
004c |
Marathi |
1102 |
004e |
Norwegisch (Bokmaal) |
1044 |
0414 |
Portugiesisch |
2070 |
0816 |
Portugiesisch (Brasilien) |
1046 |
0416 |
Punjabi |
1094 |
0046 |
Rumänisch |
1048 |
0018 |
Russisch |
1049 |
0019 |
Serbisch (Kyrillisch) |
3098 |
0c1a |
Serbisch (Lateinisch) |
2074 |
081a |
Slowakisch |
1051 |
001b |
Slowenisch |
1060 |
0024 |
Spanisch |
3082 |
000a |
Schwedisch |
1053 |
001d |
Tamilisch |
1097 |
0049 |
Telugu |
1098 |
004a |
Ukrainisch |
1058 |
0022 |
Urdu |
1056 |
0020 |
Vietnamesisch |
1066 |
002a |