Verwalten von Thesaurusdateien (Search Server 2010)

 

Gilt für: Search Server 2010

Letztes Änderungsdatum des Themas: 2015-03-09

Hinweis

Die Informationen in diesem Artikel beziehen sich sowohl auf Microsoft Search Server 2010 als auch auf Microsoft Search Server 2010 Express.

Mithilfe von Thesaurusdateien kann ein Suchadministrator Ersetzungen oder Synonyme für Wörter oder Ausdrücke angeben, die in Suchabfragen vorkommen.

  • Angeben von Ersetzungen für Wörter oder Ausdrücke in Abfragen   Ein Suchadministrator kann Wörter oder Ausdrücke als Ersetzungen für bestimmte Wörter oder Ausdrücke angeben, die ein Benutzer möglicherweise in ein Suchfeld eingibt. Ein Administrator könnte beispielsweise festlegen, dass der Begriff "Longhorn" bei Auftreten in einer Abfrage vom Suchsystem durch "Windows Vista" oder "Vista" ersetzt wird. Entsprechend könnte ein Administrator angeben, dass der Ausdruck "NT5" oder "W2K" in einer Abfrage vom Suchsystem durch "Windows 2000" ersetzt wird.

    Zum Angeben von Ersetzungen für Abfragewörter oder -ausdrücke fügt der Suchadministrator eine Ersetzungsgruppe in eine Thesaurusdatei ein. Weitere Informationen finden Sie unter Verwenden von Ersetzungsgruppen weiter unten in diesem Artikel.

  • Angeben von Synonymen für Wörter oder Ausdrücke in Abfragen   Ein Suchadministrator kann Wörter oder Ausdrücke als Synonyme für ein bestimmtes Wort oder einen Ausdruck angeben, den ein Benutzer möglicherweise in ein Suchfeld eingibt. Ein Administrator könnte beispielsweise "IE", "IE8" und "Internet Explorer" als Synonyme angeben. Tritt einer dieser Ausdrücke in einer Abfrage auf, wird auch nach den anderen Ausdrücken gesucht. Somit könnte eine Abfrage für jeden dieser drei Ausdrücke Ergebnisse liefern, die "IE", "IE8" oder "Internet Explorer" enthalten.

    Zum Angeben von Synonymen für Abfragewörter oder -ausdrücke fügt der Suchadministrator eine Erweiterungsgruppe in eine Thesaurusdatei ein. Weitere Informationen finden Sie unter Verwenden von Erweiterungsgruppen weiter unten in diesem Artikel.

Inhalt dieses Artikels:

  • Grundlegendes zu Thesaurusdateien

  • Verwenden von Ersetzungsgruppen

  • Verwenden von Erweiterungsgruppen

  • Verwenden eines Benutzerwörterbuchs mit Thesaurusdateien

  • Bearbeiten einer Thesaurusdatei

  • Thesaurusdateien nach Sprache

Grundlegendes zu Thesaurusdateien

Vom Installationsprogramm für Microsoft Search Server 2010 wird für jede vom Produkt unterstützte Sprache eine Thesaurusdatei installiert. Darüber hinaus wird bei der Installation die sprachneutrale Thesaurusdatei tsneu.xml bereitgestellt. Diese Datei wird bei der Abfrageverarbeitung auf alle Abfragen angewendet, unabhängig davon, ob eine Thesaurusdatei für die Abfragesprache vorhanden ist. Weitere Informationen finden Sie unter Thesaurusdateien nach Sprache weiter unten in diesem Artikel.

Standardmäßig werden von Search Server 2010 die Thesaurusdateien für alle unterstützten Sprachen unter %ProgramFiles%\Microsoft Office Servers\14.0\Data\Office Server\Config installiert. Wenn ein Suchadministrator eine Suchdienstanwendung erstellt, werden die Thesaurusdateien automatisch aus dem Installationsverzeichnis (einschließlich dort vorhandener, von einem Administrator bearbeiteter Thesaurusdateien) nach %ProgramFiles%\Microsoft Office Servers\14.0\Data\Applications\GUID\Config kopiert. Dabei bezeichnet GUID die GUID der neuen Suchdienstanwendung. Dieser Vorgang wird vom Suchsystem auf jedem Abfrageserver wiederholt, auf dem die neue Suchdienstanwendung ausgeführt wird. Somit befindet sich auf jedem Abfrageserver mit der Suchdienstanwendung eine Kopie der Thesaurusdatei.

Nach der Installation enthält jede Thesaurusdatei nur inaktiven Beispielinhalt, der in Kommentare eingeschlossen ist. Daher müssen Sie eine Thesaurusdatei bearbeiten, bevor sie vom Suchsystem verwendet werden kann. Neben Ersetzungsgruppen und Erweiterungsgruppen enthalten Thesaurusdateien ein diacritics_sensitive-Tag, das angibt, ob diakritische Zeichen, wie z. B. Akzente, vom Suchsystem ignoriert oder berücksichtigt werden sollen. Standardmäßig ist diacritics_sensitive auf 0 festgelegt, sodass diakritische Zeichen ignoriert werden. Ändern Sie den Wert von diacritics_sensitive in 1, wenn diakritische Zeichen vom Suchsystem berücksichtigt werden sollen.

Das folgende Beispiel zeigt den standardmäßigen XML-Code in einer Thesaurusdatei:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
        <diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE8</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

Verwenden von Ersetzungsgruppen

Ein Suchadministrator fügt eine Ersetzungsgruppe in eine Thesaurusdatei ein, um Wörter oder Ausdrücke als Ersetzungen für bestimmte Wörter oder Ausdrücke anzugeben, die ein Benutzer in einem Suchfeld eingeben könnte. Jede Ersetzungsgruppe in einer Thesaurusdatei ist in <replacement>-Tags eingeschlossen. Innerhalb der Ersetzungsgruppe wird jedes zu ersetzende Abfragewort bzw. jeder zu ersetzende Abfrageausdruck in <pat>-Tags ("pattern") eingeschlossen. Jede Ersetzung wird in <sub>-Tags ("substitution") eingeschlossen. Die folgende Ersetzungsgruppe ersetzt beispielsweise den Abfrageausdruck "Longhorn" durch "Windows Vista" oder "Vista":

<replacement>
    <pat>Longhorn</pat>
    <sub>Windows Vista</sub>
    <sub>Vista</sub>
</replacement>

Entsprechend gibt die Ersetzungsgruppe im folgenden Beispiel an, dass die Abfrageausdrücke "NT5" und "W2K" durch "Windows 2000" ersetzt werden:

<replacement>
    <pat>W2K</pat>
    <pat>NT5</pat>  
    <sub>Windows 2000</sub>
</replacement>

Durch die Angabe eines Musters mit einer leeren Ersetzung kann der Suchadministrator angeben, dass eine Abfrage für einen bestimmten Ausdruck kein Ergebnis liefert. Im folgenden Beispiel liefern Abfragen für den Ausdruck "bugs" kein Ergebnis:

<replacement>
    <pat>bugs</pat>    
    <sub></sub>
</replacement>

Verwenden von Erweiterungsgruppen

Mit einer Erweiterungsgruppe in einer Thesaurusdatei kann ein Suchadministrator Wörter oder Ausdrücke als Synonyme angeben. Eine Suchabfrage, die ein Wort oder einen Ausdruck aus der Erweiterungsgruppe enthält, wird auf alle Synonyme in der Erweiterungsgruppe erweitert. Somit gibt eine Suchabfrage, die eines der Wörter oder einen der Ausdrücke aus der Erweiterungsgruppe enthält, auch Suchergebnisse mit den Synonymen der Gruppe zurück.

Jede Erweiterungsgruppe ist in <expansion>-Tags eingeschlossen. In der Erweiterungsgruppe gibt der Administrator Synonyme an, indem er jedes Synonym in <sub>-Tags einschließt. So könnte ein Suchadministrator beispielsweise eine Erweiterungsgruppe angeben, die die Ausdrücke "writer", "author" und "blogger" zu Synonymen erklärt. Zur Angabe dieser Erweiterungsgruppe fügt der Suchadministrator der Thesaurusdatei die folgenden Zeilen hinzu:

<expansion>
    <sub>writer</sub>
    <sub>author</sub>
    <sub>blogger</sub>
</expansion>

Diese Erweiterungsgruppe gibt an, dass eine Abfrage für einen der drei Ausdrücke auch Suchergebnisse zurückgibt, die einen oder beide der anderen Ausdrücke enthalten.

Verwenden eines Benutzerwörterbuchs mit einer Thesaurusdatei

Die Wörtertrennung für eine Sprache erkennt einzelne Wörter in einer Suchabfrage, indem Wortgrenzen entsprechend den lexikalischen Regeln der Sprache bestimmt werden. Wenn Sie einer Thesaurusdatei ein Wort hinzufügen, das von der Wörtertrennung nicht als einzelnes Wort erkannt wird, sollten Sie das Wort zusätzlich einem Benutzerwörterbuch hinzufügen, damit es von der Wörtertrennung nicht in kleinere Token aufgeteilt wird. Wenn Sie beispielsweise den Ausdruck "IT&T" in einer Erweiterungsgruppe verwenden, ohne ihn einem Benutzerwörterbuch hinzuzufügen, wird er von der Wörtertrennung u. U. in die drei Wörter "IT", "&" und "T" aufgeteilt. Dies kann dazu führen, dass die Erweiterungsgruppe in der Thesaurusdatei nicht die gewünschte Wirkung hat, wenn ein Benutzer eine Suchabfrage nach "IT&T" ausführt. Weitere Informationen zum Erstellen und Verwenden von Benutzerwörterbüchern finden Sie unter Erstellen eines Benutzerwörterbuchs (Search Server 2010).

Bearbeiten einer Thesaurusdatei

Wenn Sie eine Thesaurusdatei im Installationsverzeichnis bearbeiten, wird die bearbeitete Datei vom Suchsystem automatisch an Suchdienstanwendungen verteilt, die später erstellt werden. Die bearbeitete Thesaurusdatei wird jedoch nicht automatisch an vorhandene Suchdienstanwendungen verteilt. Für jede vorhandene Suchdienstanwendung, für die die Änderungen gelten sollen, müssen Sie die bearbeitete Datei manuell in den Ordner der Suchdienstanwendung auf jedem Abfrageserver kopieren, auf dem die Suchdienstanwendung ausgeführt wird.

Hinweis

  • Im Verzeichnis mit den Thesaurusdateien wird eine Datei tsschema.xml installiert. Diese Datei sollten Sie nicht ändern. Sie wird von allen anderen Thesaurusdateien verwendet. Das Ändern der Datei kann zu unvorhersehbaren Ergebnissen führen.

  • Jedes <pat>- oder <sub>-Tag zählt als ein Element in einer Thesaurusdatei. Eine typische Thesaurusdatei enthält ca. 1.000 Elemente. Aus Leistungsgründen ist es wichtig, dass 10.000 Elemente in einer Thesaurusdatei nicht überschritten werden.

  • Wenn Sie in einer Thesaurusdatei Wörter verwenden, die in einer Stoppwortdatei aufgeführt sind, werden diese Wörter vom Suchsystem aus der Thesaurusdatei herausgefiltert. Weitere Informationen finden Sie unter Verwalten von Stoppwortdateien (Search Server 2010).

  • Einträge in einer Thesaurusdatei dürfen nicht nur aus Sonderzeichen bestehen.

Gehen Sie folgendermaßen vor, um eine Thesaurusdatei zu bearbeiten.

Hinweis

Beim Bearbeiten einer Datei müssen Sie jeden Eintrag in der Datei zwischen paarweise öffnende und schließende Tags setzen. Wenn die XML-Tags in der Thesaurusdatei nicht übereinstimmen, wird im Anwendungsereignisprotokoll ein Fehler protokolliert.

So bearbeiten Sie eine Thesaurusdatei

  1. Stellen Sie sicher, dass das Benutzerkonto, mit dem dieser Vorgang ausgeführt wird, ein Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.

  2. Öffnen Sie eine Thesaurusdatei in einem Text-Editor. Weitere Informationen zum Suchen und Identifizieren der richtigen Thesaurusdatei finden Sie unter Grundlegendes zu Thesaurusdateien weiter oben in diesem Artikel.

  3. Wenn Sie die Thesaurusdatei zum ersten Mal ändern, müssen Sie die <!-- Commented out-Kommentarzeile am Anfang und die -->-Kommentarzeile am Ende der Datei entfernen.

  4. Bearbeiten Sie die Thesaurusdatei nach Bedarf.

  5. Speichern Sie die Thesaurusdatei.

    Hinweis

    Verwenden Sie beim Speichern einer Thesaurusdatei für Codierung immer den Standardwert Unicode.

Neustarten des SharePoint Server Search 14-Diensts

Nach dem Bearbeiten einer Thesaurusdatei müssen Sie den SharePoint Server Search 14-Dienst neu starten, damit die Änderungen wirksam werden. Änderungen der Thesaurusdatei treten nach dem Neustart des SharePoint Server Search 14-Diensts in Kraft. Sie müssen keine Durchforstung ausführen, um die Änderungen in Kraft zu setzen.

So starten Sie den SharePoint Server Search 14-Dienst neu

  1. Stellen Sie sicher, dass das Benutzerkonto, mit dem dieser Vorgang ausgeführt wird, ein Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.

  2. Klicken Sie auf Start, zeigen Sie auf Verwaltung, und klicken Sie dann auf Dienste.

  3. Klicken Sie mit der rechten Maustaste auf SharePoint Server Search 14, und klicken Sie dann auf Neu starten.

    Änderungen der Thesaurusdatei treten nach dem Neustart des SharePoint Server Search 14-Diensts in Kraft.

Thesaurusdateien nach Sprache

Die folgenden Thesaurusdateien werden automatisch installiert und zur Verfügung gestellt.

Sprache Dateiname

Sprachneutral

tsneu.xml

Arabisch

tsara.xml

Bengali

tsben.xml

Bulgarisch

tsbul.xml

Katalanisch

tscat.xml

Chinesisch (vereinfacht)

tschs.xml

Chinesisch (traditionell)

tscht.xml

Kroatisch

tscro.xml

Tschechisch

tsces.xml

Dänisch

tsdan.xml

Niederländisch (Niederlande)

tsnld.xml

Englisch (Großbritannien)

tseng.xml

Englisch (USA)

tsenu.xml

Finnisch

tsfin.xml

Französisch (Standard)

tsfra.xml

Deutsch (Standard)

tsdeu.xml

Gujarati

tsguj.xml

Ungarisch

tshun.xml

Isländisch

tsice.xml

Indonesisch

tsind.xml

Italienisch

tsita.xml

Japanisch

tsjpn.xml

Kannada

tskan.xml

Koreanisch

tskor.xml

Litauisch

tslit.xml

Malaiisch (Malaysia)

tsmal.xml

Malayalam

tsmly.xml

Marathi

tsmar.xml

Norwegisch (Bokmal)

tsnor.xml

Polnisch

tsplk.xml

Portugiesisch (Brasilien)

tsptb.xml

Portugiesisch (Portugal)

tspor.xml

Pandschabisch

tspun.xml

Rumänisch

tsrom.xml

Russisch

tsrus.xml

Serbisch (Kyrillisch)

tssbc.xml

Serbisch (Lateinisch)

tssbl.xml

Slowakisch

tssvk.xml

Slowenisch

tsslo.xml

Spanisch

tsesn.xml

Schwedisch

tssve.xml

Tamil

tstam.xml

Telugu

tstel.xml

Thailändisch

tstha.xml

Türkisch

tstur.xml

Ukrainisch

tsukr.xml

Urdu (Pakistan)

tsurd.xml

Vietnamesisch

tsvie.xml