Bearbeiten einer Thesaurusdatei (Office SharePoint Server)

Bei einer Thesaurusdatei handelt es sich um ein abfrageerweiterndes Suchfeature in Microsoft Office SharePoint Server 2007, das Benutzern die Eingabe eines Ausdrucks in ein Suchfeld ermöglicht und Ergebnisse für sinnverwandte Wörter zurückgibt. Beispielsweise könnte die Suche nach dem Wort "laufen" Ergebnisse zurückgeben, die die Wörter "laufen" oder "joggen" enthalten, sofern die beiden Termini in der Thesaurusdatei als Synonyme aufgeführt sind. Innerhalb einer Thesaurusdatei können Sie mithilfe von Ersetzungsgruppen Muster angeben, die durch alternative Werte ersetzt werden. Außerdem können Sie mithilfe von Erweiterungsgruppen zusätzliche Werte mit Synonymen zum angegebenen Muster zurückgeben.

Inhalt dieses Artikels:

  • Grundlegendes zu Thesaurusdateien

  • Verwenden von Ersetzungsgruppen

  • Verwenden von Erweiterungsgruppen

  • Bearbeiten einer Thesaurusdatei

  • Liste der Thesaurusdateien nach Sprache

Grundlegendes zu Thesaurusdateien

Bei der Installation von Microsoft Office SharePoint Server 2007 wird automatisch eine Thesaurusdatei für jede der von Microsoft Office SharePoint Server 2007 unterstützten Sprachen sowie die neutrale Thesaurusdatei tsneu.xml installiert. Die neutrale Thesaurusdatei tsneu.xml gilt für Abfragen, deren Abfragesprache keine Thesaurusdatei zugeordnet ist. Die neutrale Thesaurusdatei wird immer auf Abfragen angewendet, selbst wenn eine mit der Abfragesprache verknüpfte Thesaurusdatei vorhanden ist. Weitere Informationen finden Sie im Abschnitt "Liste der Thesaurusdateien nach Sprache".

Thesaurusdateien werden standardmäßig im folgenden Ordner auf dem Abfrageserver erstellt und gespeichert: Laufwerk:\Programme\Microsoft Office Servers\12.0\Data\Config. Die Thesaurusdateien von diesem Standardspeicherort werden für jede Instanz des Microsoft-Suchdiensts auf dem Abfrageserver in folgenden Ordner kopiert: Laufwerk:\Programme\Microsoft Office Servers\12.0\Data\Office Server\Applications\<Anwendungs-UID>\Config. Dabei ist <Anwendungs-UID> die GUID eines bestimmten Anbieters für gemeinsame Dienste.

Hinweis

Wenn Sie die Thesaurusdateien am Standardspeicherort ändern, wird jedes Mal, wenn ein neuer Anbieter für gemeinsame Dienste (Shared Service Provider, SSP) erstellt wird, automatisch die geänderte Dateiversion kopiert. Wenn Sie die Thesaurusdateien am Standardspeicherort ändern, nachdem ein SSP erstellt wurde, müssen Sie die Dateien vom Standardspeicherort für jeden bereits vorhandenen SSP in das angegebene Verzeichnis kopieren.

Wichtig

Im selben Verzeichnis wie die Thesaurusdateien wird eine Datei mit dem Namen tsschema.xml installiert. Ändern Sie die Datei tsschema.xml nicht. Auf diese Datei wird von allen anderen Thesaurusdateien verwiesen, und wenn Sie diese Datei ändern, könnte dies zur Folge haben, dass die Suche nicht mehr ordnungsgemäß funktionsfähig ist.

Standardmäßig enthält jede Thesaurusdatei inaktive Beispieldaten. Sie müssen eine Thesaurusdatei bearbeiten, bevor sie von der Suche verwendet werden kann. Thesaurusdateien enthalten zwei primäre Eintragstypen: Ersetzungsgruppen und Erweiterungsgruppen. Diese Einträge werden in späteren Abschnitten dieses Themas noch ausführlich beschrieben. Ein dritter Eintragstyp, diacritics_sensitive, gibt an, ob diakritische Zeichen wie Akzente ignoriert oder bei der Suche berücksichtigt werden sollen. Standardmäßig werden diakritische Zeichen ignoriert, der Wert ist auf 0 gesetzt. Ändern Sie den Wert in 1, damit diakritische Zeichen bei der Suche berücksichtigt werden.

Im Folgenden ist ein Beispiel für den standardmäßigen XML-Code in einer Thesaurusdatei angegeben:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
        <diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

Wichtig

Im Hinblick auf die Leistung ist es wichtig, zu wissen, wie viele Elemente in der Thesaurusdatei definiert werden. Dabei sollten 1.000/10.000 Elemente (typisch/maximal) nicht überschritten werden. Beachten Sie, dass jedes <pat>- oder <sub>-Tag als definiertes Element zählt, das auf die empfohlenen Werte angerechnet wird.

Die Einträge, die Sie der Thesaurusdatei hinzufügen, dürfen nicht ausschließlich Sonderzeichen enthalten. Allerdings können Sie leere Einträge verwenden. Wenn Sie beispielsweise sicherstellen möchten, dass Abfragen nach einem bestimmten Begriff keine Ergebnisse zurückgeben, ändern Sie den Eintrag. Im folgenden Beispiel geben Abfragen nach dem Begriff "windows" keine Ergebnisse zurück:

<replacement>
    <pat>windows</pat>
    <sub></sub>
</replacement>

Füllwörter können ebenfalls in einer Thesaurusdatei enthalten sein. Allerdings werden sie zu einem späteren Zeitpunkt herausgefiltert, wenn Sie auch eine Füllwortdatei verwenden. Weitere Informationen finden Sie unter Bearbeiten einer Füllwortdatei (Office SharePoint Server).

Verwenden von Ersetzungsgruppen

Eine Ersetzungsgruppe gibt ein Muster an, für das in einer Suchabfrage eine oder mehrere Ersetzungen vorgenommen werden. Beispielsweise können Sie eine Ersetzungsgruppe hinzufügen, in der "W2K" das Muster ist und "Windows 2000" die Ersetzung. Bei einer Abfrage nach dem Begriff "W2K" werden von Microsoft Office SharePoint Server 2007 nur Suchergebnisse zurückgegeben, die den Begriff "Windows 2000" enthalten. Die Suchergebnisse enthalten keine Elemente, die den Begriff "W2K" enthalten.

Jede Ersetzungsgruppe wird in ein <replacement>-Tag eingeschlossen. Innerhalb des replacement-Tags können Sie ein oder mehrere Muster angeben, indem Sie die Muster in ein <pat>-Tag einschließen. Die entsprechenden Ersetzungen schließen Sie in ein <sub>-Tag ein. Muster und Ersetzungen dürfen ein Wort oder eine Folge von Wörtern enthalten. Verwenden Sie beispielsweise den folgenden Eintrag, um eine Ersetzungsgruppe hinzuzufügen, in der "W2K" das Muster ist und "Windows 2000" die Ersetzung:

<replacement>
    <pat>W2K</pat>
    <sub>Windows 2000</sub>
</replacement>

Für jedes angegebene Muster kann es mehr als eine Ersetzung geben.

Hinweis

Idealerweise sollten Ersetzungsgruppen für Begriffe verwendet werden, die allgemein als Synonyme erkannt werden. Stellen Sie sich beispielsweise vor, dass ein veralteter Begriff, z. B. ein interner Produktname, in einer Abfrage durch einen anderen Ausdruck, z. B. den veröffentlichten Produktnamen, ersetzt werden soll.

Verwenden von Erweiterungsgruppen

Eine Erweiterungsgruppe ist eine Gruppe von Ersetzungen, die Synonyme voneinander sind. Abfragen, die Übereinstimmungen mit einer Ersetzung enthalten, werden um alle weiteren Ersetzungen in der Erweiterungsgruppe erweitert. Beispielsweise können Sie eine Erweiterungsgruppe hinzufügen, in der die folgenden Ersetzungen Synonyme sind:

  • Schriftsteller

  • Autor

  • Journalist

Wenn Sie den Begriff "Autor" in einer Abfrage verwenden, werden von Microsoft Office SharePoint Server 2007 auch Suchergebnisse zurückgegeben, die die Begriffe "Schriftsteller" und "Journalist" enthalten.

Jede Erweiterungsgruppe wird in ein <expansion> -Tag eingeschlossen. Geben Sie im<expansion>-Tag eine oder mehrere Ersetzungen an, indem Sie diese in ein <sub>-Tag einschließen. Fügen Sie für das vorherige Beispiel die folgenden Zeilen hinzu:

<expansion>
                    <sub>Schriftsteller</sub>
                    <sub>Autor</sub>
                    <sub>Journalist</sub>
                </expansion>

Sie können einzelne Wörter oder Ausdrücke in eine Thesaurusdatei einschließen. Die Wörtertrennung für eine Sprache erkennt einzelne Wörter anhand der Wortgrenzen, die in den lexikalischen Regeln der Sprache definiert sind. Wenn Sie einer Thesaurusdatei ein Wort hinzufügen, das von der Wörtertrennung nicht als einzelnes Wort erkannt wird, sollten Sie das Wort zusätzlich zu einem benutzerdefinierten Wörterbuch hinzufügen, damit es von der Wörtertrennung nicht in kleinere Token aufgeteilt wird. Wenn Sie beispielsweise das Wort “IT&T” in einer Erweiterungsgruppe verwenden, ohne es zu einem benutzerdefinierten Wörterbuch hinzuzufügen, wird es von der Wörtertrennung u. U. in die zwei Wörter “IT” und “T” aufgeteilt. Dies kann ein unerwartetes Verhalten der Erweiterungsgruppe beim Ausführen einer Suchabfrage verursachen. Informationen zum Erstellen und Verwenden von benutzerdefinierten Wörterbüchern finden Sie unter Erstellen eines Benutzerwörterbuchs (Office SharePoint Server 2007).

Bearbeiten einer Thesaurusdatei

Gehen Sie folgendermaßen vor, um eine Thesaurusdatei zu bearbeiten.

Wichtig

Beim Bearbeiten einer Datei müssen Sie jeden Eintrag in der Datei zwischen paarweise öffnende und schließende Tags setzen. Wenn die XML-Tags in der Thesaurusdatei nicht übereinstimmen, wird im Anwendungsereignisprotokoll ein Fehler protokolliert.

Bearbeiten einer Thesaurusdatei

  1. Starten Sie den Editor, und öffnen Sie die Thesaurusdatei. Informationen zum Suchen und Identifizieren der richtigen Thesaurusdatei finden Sie im Abschnitt "Grundlegendes zu Thesaurusdateien".

  2. Wenn Sie die Thesaurusdatei zum ersten Mal ändern, entfernen Sie die <!-- Commented out-Kommentarzeile am Anfang und die -->-Kommentarzeile am Ende der Datei.

  3. Nehmen Sie die gewünschten Änderungen an der Thesaurusdatei vor. Sie können Ersetzungs- oder Erweiterungsgruppen hinzufügen, ändern oder löschen.

  4. Speichern Sie die Thesaurusdatei, und schließen Sie den Editor.

Liste der Thesaurusdateien nach Sprache

Sprache Dateiname

Arabisch

tsara.xml

Bengali

tsben.xml

Bulgarisch

tsbul.xml

Katalanisch

tscat.xml

Chinesisch (vereinfacht)

tschs.xml

Chinesisch (traditionell)

tscht.xml

Kroatisch

tscro.xml

Niederländisch (Niederlande)

tsnld.xml

Englisch (Großbritannien)

tseng.xml

Englisch (USA)

tsenu.xml

Finnisch

tsfin.xml

Französisch

tsfra.xml

Deutsch

tsdeu.xml

Gujarati

tsguj.xml

Hebräisch

tsheb.xml

Hindi

tshin.xml

Isländisch

tsice.xml

Indonesisch

tsind.xml

Italienisch

tsita.xml

Japanisch

tsjpn.xml

Kannada

tskan.xml

Koreanisch

tskor.xml

Lettisch

tslat.xml

Litauisch

tslit.xml

Malaiisch

tsmal.xml

Malayalam

tsmly.xml

Marathi

tsma.xml

Sprachneutral

tsneu.xml

Norwegisch (Bokmal)

tsnor.xml

Polnisch

tsplk.xml

Polnisch

tspol.xml

Portugiesisch (Brasilien)

tsptb.xml

Portugiesisch (Portugal)

tspor.xml

Pandschabisch

tspun.xml

Rumänisch

tsrom.xml

Russisch

tsrus.xml

Serbisch (Kyrillisch)

tssbc.xml

Serbisch (Lateinisch)

tssbl.xml

Slowakisch

tssvk.xml

Slowenisch

tsslo.xml

Spanisch

tsesn.xml

Schwedisch

tssve.xml

Tamilisch

tstam.xml

Telugu

tstel.xml

Thailändisch

tstha.xml

Türkisch

tstur.xml

Ukrainisch

tsukr.xml

Urdu (Pakistan)

tsurd.xml