Auswirkungen von Wörtertrennung, Wortstammerkennung und Füllwortdateien auf Suchergebnisse (Office SharePoint Server 2007)

Wörtertrennungen, Wortstammerkennungen und Füllwortdateien, die auch als Stoppwortdateien bezeichnet werden, sind Komponenten, die Bestandteil der Indizierungs- und Abfrageprozesse sind.

Inhalt dieses Artikels:

  • Wörtertrennungen

  • Wortstammerkennungen

  • Füllwortdateien

Wörtertrennungen

Bei der Wörtertrennung handelt es sich um eine Komponente, mit der während der Indizierungs- und Abfrageprozesse Textzeichenfolgen in einzelne Wörter unterteilt werden. Während des Indizierungsprozesses wird Text aus Inhaltselementen als ununterbrochene Zeichenfolge extrahiert. Die Wörtertrennung bestimmt, wo die einzelnen Wörter beginnen und enden. Darüber hinaus werden mit der Wörtertrennung zusammengesetzte Begriffe getrennt, damit die Benutzer ein Abfrageergebnis für einen Teil des ursprünglichen zusammengesetzten Begriffs sowie für die einzelnen Begriffe, aus denen der zusammengesetzte Begriff besteht, erhält. Mit der Wörtertrennung werden außerdem Zahlen und Daten in Inhaltselementen in ein Standardformat konvertiert.

Für jede Sprache gibt es eine eigene Wörtertrennung. Das Indizierungsmodul bestimmt die zu verwendende Wörtertrennung. Falls mehrere Sprachen erkannt werden, können mehrere Wörtertrennungen für Text in einem einzigen Dokument verwendet werden. Die neutrale Wörtertrennung wird verwendet, falls für eine bestimmte Sprache keine Wörtertrennung vorhanden ist.

Die Wörtertrennung wird auch vom Abfragemodul verwendet. Wenn ein Benutzer eine Abfrage sendet, werden mithilfe der Wörtertrennung zusammengesetzte Begriffe und Sätze unterteilt. Dadurch erhöht sich die Wahrscheinlichkeit, dass für die Abfrage des Benutzers Übereinstimmungen mit Begriffen im Inhaltsindex gefunden werden. Bei einer Abfrage wird die Sprache der Wörtertrennung anhand der Sprache des vom Benutzer verwendeten Webbrowsers bestimmt.

Von Microsoft Office SharePoint Server 2007 werden standardmäßig die in der folgenden Tabelle aufgelisteten Wörtertrennungen auf jedem Server in einer SharePoint-Serverfarm installiert.

Arabisch

Ungarisch

Pandschabisch

Bengali 

Isländisch

Rumänisch

Bulgarisch

Indonesisch

Russisch

Katalanisch

Italienisch

Serbisch (Kyrillisch)

Kroatisch

Japanisch

Serbisch (Lateinisch)

Tschechisch

Kannada

Slowakisch

Dänisch

Koreanisch

Slowenisch

Niederländisch

Lettisch

Spanisch

Englisch

Litauisch

Schwedisch

Finnisch

Malaiisch

Tamilisch

Französisch

Malayalam

Telugu

Deutsch

Marathi

Thailändisch

Griechisch

Norwegisch (Bokmaal)

Türkisch

Gudscharati

Polnisch

Ukrainisch

Hebräisch

Portugiesisch

Urdu

Hindi

Portugiesisch (Brasilien)

Vietnamesisch

Wortstammerkennungen

Bei der Wortstammerkennung handelt es sich um eine Komponente, mit der der Wortstamm eines Begriffs gesucht wird und auch Variationen dieses Begriffs generiert werden können. Wenn beispielsweise im Englischen eine Abfrage das Wort "bought" enthält, kann die Wortstammerkennung der Abfrage den Wortstamm "buy" hinzufügen sowie andere Formen dieses Begriffs wie beispielsweise "buys" oder "buying" generieren, die der Abfrage hinzugefügt werden.

Wortstammerkennungen sind sprachspezifisch und können in Abhängigkeit von der unterstützten Sprache unterschiedliche Funktionalität aufweisen. Einige Wortstammerkennungen suchen den Wortstamm, generieren aber keine zusätzlichen Wortformen. Die Wortstammerkennung ist während Abfragen für viele Sprachen standardmäßig deaktiviert. Sie können die Wortstammerkennung für Suchabfragen im Webpart Kernergebnisse der Suche aktivieren.

Hinweis

Für jede Sprache mit einer Wörtertrennung gibt es auch eine Wortsammerkennung, falls die Wortstammerkennung von der betreffenden Sprache unterstützt wird. Für einige Sprachen werden Wortsammerkennungen installiert, aber nicht aktiviert. Zum Aktivieren dieser Wortstammerkennungen müssen Sie die Registrierung bearbeiten. Anweisungen zum Aktivieren von Wortstammerkennungen für diese Sprachen finden Sie unter Aktivieren von Wörtertrennungen und Wortstammerkennungen in SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x407).

Füllwortdateien

Manche Wörter in einer Sprache sind bei Suchvorgängen nicht hilfreich. Beispielsweise sind im Englischen Wörter wie "the" und "an" wenig für die Suche geeignet, da diese Wörter in fast jedem englischen Dokument vorkommen. Solche Wörter werden als Füllwörter oder auch Stoppwörter bezeichnet. Während des Indizierungsprozesses werden Füllwörter entfernt, um zu verhindern, dass die Indizes unnötig an Größe zunehmen. Dadurch kann die Leistung optimiert werden. Füllwörter sind in sprachspezifischen Textdateien enthalten, die Sie bearbeiten können. Ein vollständiger Crawl des Inhalts ist erforderlich, um Wörter in einer Füllwortdatei zu entfernen oder hinzuzufügen. Weitere Informationen finden Sie unter Bearbeiten einer Füllwortdatei (Office SharePoint Server).

Füllwortdateien wurden im Vergleich zu früheren Versionen von SharePoint-Produkten erheblich geändert. Viele Füllwörter, die früher in Füllwortdateien vorhanden waren, wurden aus den Füllwortdateien in Microsoft Office SharePoint Server 2007 entfernt und sind nun in Inhaltsindizes vorhanden. Standardmäßig können Benutzer Abfragen für Wörter ausführen, die früher als Füllwörter ausgeschlossen waren. Diese Abfragen werden als Füllwortabfragen bezeichnet. Diese Suchvorgänge können im Webpart Kernergebnisse der Suche unterbunden werden. Wenn darüber hinaus eine in Anführungszeichen stehende Zeichenfolge in einer Abfrage ein Füllwort enthält, kann das Füllwort in den Abfrageergebnissen durch ein beliebiges Wort ersetzt werden. Angenommen, eine Abfrage enthält "configure a server". In diesem Fall werden Inhaltselemente, die "configure the server" und "configure every server" enthalten, in die Abfrageergebnisse eingeschlossen.

Wichtig

Entfernen Sie nicht alle Wörter in einer Füllwortdatei. Eine Füllwortdatei erfordert mindestens einen Eintrag, selbst wenn es sich dabei nur um einen Punkt (.) handelt.

Siehe auch

Konzepte

Verwalten von Einstellungen zum Verbessern der Suchergebnisse (Office SharePoint Server)
Konfigurieren von autorisierenden Seiten (Office SharePoint Server)
Hinzufügen von Stichwörtern mit besten Suchergebnissen (Office SharePoint Server)
Bearbeiten einer Füllwortdatei (Office SharePoint Server)
Bearbeiten einer Thesaurusdatei (Office SharePoint Server)
Erstellen eines Benutzerwörterbuchs (Office SharePoint Server 2007)