Bearbeiten einer Thesaurusdatei (Office SharePoint Server)
Bei einer Thesaurusdatei handelt es sich um ein abfrageerweiterndes Suchfeature in Microsoft Office SharePoint Server 2007, das Benutzern die Eingabe eines Ausdrucks in ein Suchfeld ermöglicht und Ergebnisse für sinnverwandte Wörter zurückgibt. Beispielsweise könnte die Suche nach dem Wort "laufen" Ergebnisse zurückgeben, die die Wörter "laufen" oder "joggen" enthalten, sofern die beiden Termini in der Thesaurusdatei als Synonyme aufgeführt sind. Innerhalb einer Thesaurusdatei können Sie mithilfe von Ersetzungsgruppen Muster angeben, die durch alternative Werte ersetzt werden. Außerdem können Sie mithilfe von Erweiterungsgruppen zusätzliche Werte mit Synonymen zum angegebenen Muster zurückgeben.
Inhalt dieses Artikels:
Grundlegendes zu Thesaurusdateien
Verwenden von Ersetzungsgruppen
Verwenden von Erweiterungsgruppen
Bearbeiten einer Thesaurusdatei
Liste der Thesaurusdateien nach Sprache
Grundlegendes zu Thesaurusdateien
Bei der Installation von Microsoft Office SharePoint Server 2007 wird automatisch eine Thesaurusdatei für jede der von Microsoft Office SharePoint Server 2007 unterstützten Sprachen sowie die neutrale Thesaurusdatei tsneu.xml installiert. Die neutrale Thesaurusdatei tsneu.xml gilt für Abfragen, deren Abfragesprache keine Thesaurusdatei zugeordnet ist. Die neutrale Thesaurusdatei wird immer auf Abfragen angewendet, selbst wenn eine mit der Abfragesprache verknüpfte Thesaurusdatei vorhanden ist. Weitere Informationen finden Sie im Abschnitt "Liste der Thesaurusdateien nach Sprache".
Thesaurusdateien werden standardmäßig im folgenden Ordner auf dem Abfrageserver erstellt und gespeichert: Laufwerk:\Programme\Microsoft Office Servers\12.0\Data\Config. Die Thesaurusdateien von diesem Standardspeicherort werden für jede Instanz des Microsoft-Suchdiensts auf dem Abfrageserver in folgenden Ordner kopiert: Laufwerk:\Programme\Microsoft Office Servers\12.0\Data\Office Server\Applications\<Anwendungs-UID>\Config. Dabei ist <Anwendungs-UID> die GUID eines bestimmten Anbieters für gemeinsame Dienste.
Hinweis
Wenn Sie die Thesaurusdateien am Standardspeicherort ändern, wird jedes Mal, wenn ein neuer Anbieter für gemeinsame Dienste (Shared Service Provider, SSP) erstellt wird, automatisch die geänderte Dateiversion kopiert. Wenn Sie die Thesaurusdateien am Standardspeicherort ändern, nachdem ein SSP erstellt wurde, müssen Sie die Dateien vom Standardspeicherort für jeden bereits vorhandenen SSP in das angegebene Verzeichnis kopieren.
Wichtig
Im selben Verzeichnis wie die Thesaurusdateien wird eine Datei mit dem Namen tsschema.xml installiert. Ändern Sie die Datei tsschema.xml nicht. Auf diese Datei wird von allen anderen Thesaurusdateien verwiesen, und wenn Sie diese Datei ändern, könnte dies zur Folge haben, dass die Suche nicht mehr ordnungsgemäß funktionsfähig ist.
Standardmäßig enthält jede Thesaurusdatei inaktive Beispieldaten. Sie müssen eine Thesaurusdatei bearbeiten, bevor sie von der Suche verwendet werden kann. Thesaurusdateien enthalten zwei primäre Eintragstypen: Ersetzungsgruppen und Erweiterungsgruppen. Diese Einträge werden in späteren Abschnitten dieses Themas noch ausführlich beschrieben. Ein dritter Eintragstyp, diacritics_sensitive, gibt an, ob diakritische Zeichen wie Akzente ignoriert oder bei der Suche berücksichtigt werden sollen. Standardmäßig werden diakritische Zeichen ignoriert, der Wert ist auf 0 gesetzt. Ändern Sie den Wert in 1, damit diakritische Zeichen bei der Suche berücksichtigt werden.
Im Folgenden ist ein Beispiel für den standardmäßigen XML-Code in einer Thesaurusdatei angegeben:
<XML ID="Microsoft Search Thesaurus">
<!-- Commented out
<thesaurus xmlns="x-schema:tsSchema.xml">
<diacritics_sensitive>0</diacritics_sensitive>
<expansion>
<sub>Internet Explorer</sub>
<sub>IE</sub>
<sub>IE5</sub>
</expansion>
<replacement>
<pat>NT5</pat>
<pat>W2K</pat>
<sub>Windows 2000</sub>
</replacement>
<expansion>
<sub>run</sub>
<sub>jog</sub>
</expansion>
</thesaurus>
-->
</XML>
Wichtig
Im Hinblick auf die Leistung ist es wichtig, zu wissen, wie viele Elemente in der Thesaurusdatei definiert werden. Dabei sollten 1.000/10.000 Elemente (typisch/maximal) nicht überschritten werden. Beachten Sie, dass jedes <pat>
- oder <sub>
-Tag als definiertes Element zählt, das auf die empfohlenen Werte angerechnet wird.
Die Einträge, die Sie der Thesaurusdatei hinzufügen, dürfen nicht ausschließlich Sonderzeichen enthalten. Allerdings können Sie leere Einträge verwenden. Wenn Sie beispielsweise sicherstellen möchten, dass Abfragen nach einem bestimmten Begriff keine Ergebnisse zurückgeben, ändern Sie den Eintrag. Im folgenden Beispiel geben Abfragen nach dem Begriff "windows" keine Ergebnisse zurück:
<replacement>
<pat>windows</pat>
<sub></sub>
</replacement>
Füllwörter können ebenfalls in einer Thesaurusdatei enthalten sein. Allerdings werden sie zu einem späteren Zeitpunkt herausgefiltert, wenn Sie auch eine Füllwortdatei verwenden. Weitere Informationen finden Sie unter Bearbeiten einer Füllwortdatei (Office SharePoint Server).
Verwenden von Ersetzungsgruppen
Eine Ersetzungsgruppe gibt ein Muster an, für das in einer Suchabfrage eine oder mehrere Ersetzungen vorgenommen werden. Beispielsweise können Sie eine Ersetzungsgruppe hinzufügen, in der "W2K" das Muster ist und "Windows 2000" die Ersetzung. Bei einer Abfrage nach dem Begriff "W2K" werden von Microsoft Office SharePoint Server 2007 nur Suchergebnisse zurückgegeben, die den Begriff "Windows 2000" enthalten. Die Suchergebnisse enthalten keine Elemente, die den Begriff "W2K" enthalten.
Jede Ersetzungsgruppe wird in ein <replacement>
-Tag eingeschlossen. Innerhalb des replacement-Tags können Sie ein oder mehrere Muster angeben, indem Sie die Muster in ein <pat>
-Tag einschließen. Die entsprechenden Ersetzungen schließen Sie in ein <sub>
-Tag ein. Muster und Ersetzungen dürfen ein Wort oder eine Folge von Wörtern enthalten. Verwenden Sie beispielsweise den folgenden Eintrag, um eine Ersetzungsgruppe hinzuzufügen, in der "W2K" das Muster ist und "Windows 2000" die Ersetzung:
<replacement>
<pat>W2K</pat>
<sub>Windows 2000</sub>
</replacement>
Für jedes angegebene Muster kann es mehr als eine Ersetzung geben.
Hinweis
Idealerweise sollten Ersetzungsgruppen für Begriffe verwendet werden, die allgemein als Synonyme erkannt werden. Stellen Sie sich beispielsweise vor, dass ein veralteter Begriff, z. B. ein interner Produktname, in einer Abfrage durch einen anderen Ausdruck, z. B. den veröffentlichten Produktnamen, ersetzt werden soll.
Verwenden von Erweiterungsgruppen
Eine Erweiterungsgruppe ist eine Gruppe von Ersetzungen, die Synonyme voneinander sind. Abfragen, die Übereinstimmungen mit einer Ersetzung enthalten, werden um alle weiteren Ersetzungen in der Erweiterungsgruppe erweitert. Beispielsweise können Sie eine Erweiterungsgruppe hinzufügen, in der die folgenden Ersetzungen Synonyme sind:
Schriftsteller
Autor
Journalist
Wenn Sie den Begriff "Autor" in einer Abfrage verwenden, werden von Microsoft Office SharePoint Server 2007 auch Suchergebnisse zurückgegeben, die die Begriffe "Schriftsteller" und "Journalist" enthalten.
Jede Erweiterungsgruppe wird in ein <expansion>
-Tag eingeschlossen. Geben Sie im<expansion>
-Tag eine oder mehrere Ersetzungen an, indem Sie diese in ein <sub>
-Tag einschließen. Fügen Sie für das vorherige Beispiel die folgenden Zeilen hinzu:
<expansion>
<sub>Schriftsteller</sub>
<sub>Autor</sub>
<sub>Journalist</sub>
</expansion>
Sie können einzelne Wörter oder Ausdrücke in eine Thesaurusdatei einschließen. Die Wörtertrennung für eine Sprache erkennt einzelne Wörter anhand der Wortgrenzen, die in den lexikalischen Regeln der Sprache definiert sind. Wenn Sie einer Thesaurusdatei ein Wort hinzufügen, das von der Wörtertrennung nicht als einzelnes Wort erkannt wird, sollten Sie das Wort zusätzlich zu einem benutzerdefinierten Wörterbuch hinzufügen, damit es von der Wörtertrennung nicht in kleinere Token aufgeteilt wird. Wenn Sie beispielsweise das Wort “IT&T” in einer Erweiterungsgruppe verwenden, ohne es zu einem benutzerdefinierten Wörterbuch hinzuzufügen, wird es von der Wörtertrennung u. U. in die zwei Wörter “IT” und “T” aufgeteilt. Dies kann ein unerwartetes Verhalten der Erweiterungsgruppe beim Ausführen einer Suchabfrage verursachen. Informationen zum Erstellen und Verwenden von benutzerdefinierten Wörterbüchern finden Sie unter Erstellen eines Benutzerwörterbuchs (Office SharePoint Server 2007).
Bearbeiten einer Thesaurusdatei
Gehen Sie folgendermaßen vor, um eine Thesaurusdatei zu bearbeiten.
Wichtig
Beim Bearbeiten einer Datei müssen Sie jeden Eintrag in der Datei zwischen paarweise öffnende und schließende Tags setzen. Wenn die XML-Tags in der Thesaurusdatei nicht übereinstimmen, wird im Anwendungsereignisprotokoll ein Fehler protokolliert.
Bearbeiten einer Thesaurusdatei
Starten Sie den Editor, und öffnen Sie die Thesaurusdatei. Informationen zum Suchen und Identifizieren der richtigen Thesaurusdatei finden Sie im Abschnitt "Grundlegendes zu Thesaurusdateien".
Wenn Sie die Thesaurusdatei zum ersten Mal ändern, entfernen Sie die
<!-- Commented out
-Kommentarzeile am Anfang und die-->
-Kommentarzeile am Ende der Datei.Nehmen Sie die gewünschten Änderungen an der Thesaurusdatei vor. Sie können Ersetzungs- oder Erweiterungsgruppen hinzufügen, ändern oder löschen.
Speichern Sie die Thesaurusdatei, und schließen Sie den Editor.
Liste der Thesaurusdateien nach Sprache
Sprache | Dateiname |
---|---|
Arabisch |
tsara.xml |
Bengali |
tsben.xml |
Bulgarisch |
tsbul.xml |
Katalanisch |
tscat.xml |
Chinesisch (vereinfacht) |
tschs.xml |
Chinesisch (traditionell) |
tscht.xml |
Kroatisch |
tscro.xml |
Niederländisch (Niederlande) |
tsnld.xml |
Englisch (Großbritannien) |
tseng.xml |
Englisch (USA) |
tsenu.xml |
Finnisch |
tsfin.xml |
Französisch |
tsfra.xml |
Deutsch |
tsdeu.xml |
Gujarati |
tsguj.xml |
Hebräisch |
tsheb.xml |
Hindi |
tshin.xml |
Isländisch |
tsice.xml |
Indonesisch |
tsind.xml |
Italienisch |
tsita.xml |
Japanisch |
tsjpn.xml |
Kannada |
tskan.xml |
Koreanisch |
tskor.xml |
Lettisch |
tslat.xml |
Litauisch |
tslit.xml |
Malaiisch |
tsmal.xml |
Malayalam |
tsmly.xml |
Marathi |
tsma.xml |
Sprachneutral |
tsneu.xml |
Norwegisch (Bokmal) |
tsnor.xml |
Polnisch |
tsplk.xml |
Polnisch |
tspol.xml |
Portugiesisch (Brasilien) |
tsptb.xml |
Portugiesisch (Portugal) |
tspor.xml |
Pandschabisch |
tspun.xml |
Rumänisch |
tsrom.xml |
Russisch |
tsrus.xml |
Serbisch (Kyrillisch) |
tssbc.xml |
Serbisch (Lateinisch) |
tssbl.xml |
Slowakisch |
tssvk.xml |
Slowenisch |
tsslo.xml |
Spanisch |
tsesn.xml |
Schwedisch |
tssve.xml |
Tamilisch |
tstam.xml |
Telugu |
tstel.xml |
Thailändisch |
tstha.xml |
Türkisch |
tstur.xml |
Ukrainisch |
tsukr.xml |
Urdu (Pakistan) |
tsurd.xml |