Planen des Indexschemas (FAST Search Server 2010 for SharePoint)

Artikel
06.09.2011

Wichtig

Dieser Artikel wurde maschinell übersetzt. Bitte beachten Sie den Haftungsausschluss. Die englische Version des Artikels ist als Referenz hier verfügbar: here.

In diesem Artikel werden Planungsüberlegungen für das Indexschema in Microsoft FAST Search Server 2010 for SharePoint beschrieben. Im Indexschema wird angegeben, nach welchen verwalteten Eigenschaften im Suchindex gesucht werden kann und welche index- bzw. abfragebezogenen Features diesen Eigenschaften zugeordnet sind.

In diesem Artikel:

Übersicht über die Index-Schema
Eigenschaften von gecrawlten und verwalteten
Relevanz features
Verfeinerung Abfragefunktionen

Übersicht über die Index-Schema

Sie verwenden das Indexschema so konfigurieren Sie die folgenden Features:

Die Eigenschaften, die in den Index aufgenommen. Definieren Sie die Zuordnung von gecrawlte Eigenschaften verwalteten Eigenschaften und die zugehörige Index-Funktionen.
Volltextindizes. Anwenden von Volltextabfragen gegen eine bestimmte Anzahl von verwalteten Eigenschaften definiert.
Ordnen Sie die Profile. Dadurch wird definiert, wie ein Resultset zu erreichen, die nach Rang sortiert wird.
Verfeinerung der Abfrage. Dies wird beschrieben, wie statistische Informationen zu verwaltete Eigenschaften in den Abfrageergebnissen zurückgegeben und zur Verfeinerung der Abfrage verwendet werden können.

Sie sollten die Schema-Strategie Index vor dem zur Bereitstellung einer umfassenden FAST Search Server 2010 for SharePoint Farm. Stellen Sie sicher, dass die Gesamtstrategie für Index Schema, Planen bevor Sie große Mengen von Inhalten Indizierung. Wenn dies nicht der Fall ist, müssen Sie möglicherweise den Inhalt für die Änderungen vollständig wirksam zu erzeugen. Es ist möglich, die Zuordnung ohne Dienstunterbrechung des oder Suche Ausfallzeiten inkrementelle Änderungen vornehmen, ist es sehr umständlich ist, umfangreiche Änderungen anwenden, nach müssen große Menge an Inhalt indiziert.

Wenn Ihre Bereitstellung viele Millionen Dokumente indiziert wird, empfiehlt es sich, optimieren das Indexschema und die zugehörigen Endbenutzer Suchfeatures in einer kleineren Test-Installation mit einem entsprechenden Teilbereich des Inhalts, den Sie indizieren möchten.

Der Plan Index-Schema muss berücksichtigt zwei wichtigsten Aspekte berücksichtigen:

Das Hauptziel für den Index Schema Plan ist die gewünschte Features für Ihre Anwendung definieren.
Bestimmte Features für Index Schema haben erhebliche Auswirkungen auf die Farm Fastsearch Bemaßung. Wenn Sie bestimmte Features Aktivieren dieser eventuell erhebliche Auswirkungen auf die Ressourcenverwendung in der Farm und kann daher die Größe Ihrer Farm auswirken.

Dieser Artikel beschreibt die wichtigsten Aspekte des Index-Schemas, die in der Planungsphase berücksichtigt werden sollte. Die folgenden Artikel enthalten weitere Details zu verschiedenen Aspekten der Index-Schema:

Optimieren der Suchrelevanz (FAST Search Server 2010 for SharePoint). Dieses Thema enthält ausführliche Empfehlungen zur Suche Relevanz tuning, einschließlich der Relevanz Aspekte des Schemas index
Verwalten des Indexschemas (FAST Search Server 2010 for SharePoint). Dieses Thema enthält Beispiele zum Verwalten der Indexschema Windows PowerShell Cmdlets verwenden
Planen im Hinblick auf Leistung und Kapazität (FAST Search Server 2010 for SharePoint). Dieses Thema enthält weitere Informationen zu den Auswirkungen auf die Leistung eines bestimmten Indexes verwandte Funktionen Profil, die die Größe des Systems Suche auswirken können

Eigenschaften von gecrawlten und verwalteten

Indizierte Elemente bestehen aus mehreren Eigenschaften, reflektieren den tatsächlichen Inhalt und die Metadaten für die Elemente.

Gecrawlte Eigenschaften

Gecrawlte Eigenschaften sind Metadaten extrahiert aus Inhaltsquellen, um die Daten für die Suche verfügbar zu machen. Gecrawlte Eigenschaften werden in der Regel durch die Indizierung Connectors gemeldet, aber auch während der Verarbeitung durch ein IFilter oder eine Eigenschaft Extraktionsprogramm Element erstellt werden.

Eine gecrawlte Eigenschaft wird eindeutig durch Name, Eigenschaftensatz und VariantType definiert.

Jede gecrawlte Eigenschaft gehört zu einer gecrawlten Eigenschaft-Kategorie, die ist eine allgemeine Gruppe von gecrawlten Eigenschaften auf Grundlage der iFilter und Protokollhandler (angegeben durch die Indizierung Connector verwendet und eine Datenquelle) verwendet wird, um die Metadaten aus dem Inhalt zu extrahieren.

Beispiele für Kategorien:

Geschäftsdaten-Metadaten, die Inhalte in dem Geschäftsdatenkatalog zugeordnet ist.
Mail – ist diese Metadaten mit Microsoft Exchange Server verbunden.
Office-Metadaten, die in Microsoft Office-Dokumente, wie z. B. Word, Excel, PowerPoint, usw. enthalten.
Mitarbeiter – Metadaten, die die Personen Profile in SharePoint zugeordnet ist. Der Großteil werden auch verschiedene verwalteten Eigenschaften zugeordnet, aus Active Directory und SharePoint-Informationen.
Web – HTML-Metadaten, die Webseiten zugeordnet.

Standard-Volltextindex wird automatisch eine Teilmenge von allen gecrawlten Eigenschaften zugeordnet. Dies bedeutet, dass eine einfache Schlüsselwort Abfrage des Inhalts dieser Eigenschaften entsprechen. Eine Reihe von gecrawlten Eigenschaften enthalten Metadaten, die spielt oder fehlerhafte Auswirkungen auf die Suche Relevanz haben. Finden Sie die Bedingungen, die festlegen, ob eine gecrawlte Eigenschaft automatisch zugeordnet werden:

Nur gecrawlte Eigenschaften mit variant-Typen, die eine Zeichenfolge oder eine Liste von Zeichenfolgen zugeordnet.
Gecrawlte Eigenschaften, die zum Bereitstellen von unerwünschtem Inhalt in den Suchindex sind ausgeschlossen, indem deren Eigenschaft IsMappedToContents “ false ” bekannt sind.
Da einer Kategorie (bestimmt durch die-Eigenschaftensatz) für jede gecrawlte Eigenschaft angehört, besitzt die Kategorie eine boolesche Eigenschaft (MapToContents), die den Standardwert der Eigenschaft IsMappedToContents des neuen gecrawlte Eigenschaften festlegt.

Weitere Informationen zur Zuordnung der gecrawlten Eigenschaft finden Sie unter Zuordnen von durchforsteten Eigenschaften (FAST Search Server 2010 for SharePoint).

Verwaltete Eigenschaften

Verwaltete Eigenschaften sind die Metadaten, die durchsucht oder auf andere Weise, z. B. in den Suchergebnissen angezeigten verwendet werden kann.

Gecrawlten Eigenschaften werden eine große Menge an verschiedenen Metadaten-Eigenschaften enthalten. Eine wichtige Phase der Planung Ihrer Bereitstellung ist zu ermitteln, die Zuordnung dieser Eigenschaften verwalteten Eigenschaften gecrawlt. In der einfachsten Form kann ein Suchindex die durchsuchbaren Darstellung des Nachrichtentexts und der Titel eines Dokuments enthalten. Jedoch wird die Leistungsfähigkeit von Zuordnung und Indizierung verschiedene Metadaten von der Inhaltsquellen schnell auftreten. Mithilfe von FAST Search Server 2010 for SharePoint Schema-Verwaltungsdienste können erkunden die tatsächliche gecrawlten Inhaltsquellen und eine Zuordnung zu verwalteten Eigenschaften festlegen. Sie werden dann in der Lage, die verwaltete Funktionen zuweisen Eigenschaften, Bereitstellen-Mehrwert für den Endbenutzer beim seine/Ihre Abfrage zu erstellen.

Das Standardschema für den Index stellt die Standardzuordnungen, die an gemeinsame Inhaltsformate angepasst werden. Das System nach der Relevanz zu optimieren, betrachten Sie die Qualität des Inhalts im verwalteten Eigenschaften, überprüfen Sie, ob anderen gecrawlten Eigenschaften, die eine bessere Qualität für den Inhalt und die Zuordnungen aktualisieren.

Führen Sie eine anfängliche optimieren die gecrawlte Eigenschaftenzuordnung in einer Test-Installation mit einer begrenzten Menge an Inhalt. Dadurch viel einfacher, Ihre Änderungen zu testen.

Sie können die Abfrage Verfeinerung für eine verwaltete Eigenschaft mit einer Refiner Konfiguration aktivieren.

Sie können eine oder mehrere Volltextindizes eine verwaltete Eigenschaft zuordnen.

Relevanz features

Aktivieren, und ändern eine Reihe von Features, die die Abfrage Ergebnis Relevanz sortieren auswirkt. Dieser Artikel konzentriert sich hauptsächlich auf die Leistung Auswirkungen dieser Features, wie dies möglicherweise wichtig, vor dem Festlegen der Größe der Farm FAST Search Server 2010 for SharePoint herauszufinden. Weitere Informationen, wie Sie die Relevanz der Installation Farm FAST Search Server 2010 for SharePoint optimieren können finden Sie unter Optimieren der Relevanz (FAST Search Server 2010 for SharePoint).

Volltextindizes

Mehrere verwaltete Eigenschaften können in einem Volltextindex gruppiert werden. Dadurch können eine Abfrage über mehrere verwaltete Eigenschaften, die zur gleichen Zeit ausgeführt werden soll. Volltextindizes können Sie dynamische Einstufung von Abfragen (Ergebnisse nach Relevanz sortiert) haben. Wenn Sie mehrere Wörter in das Suchfeld der Front-End-Abfrage eingeben, führt dies i. d. r. eine Abfrage für die Standard-Volltextindex namens content. Es ist auch möglich, einzelne verwaltete Eigenschaften separat Abfragen, aber solche Übereinstimmungen Abfrage trägt nicht zur Einstufung Abfrage-Ergebnis.

Ein Volltextindex enthalten normalerweise eine Reihe von verwalteten Eigenschaften, die den Inhalt des Elements darstellt, das Sie Abfragen. Dies umfasst den Hauptteil des Elements, den Titel, die URL und usw..

In bestimmten Fällen kann es gewünscht werden mehrere Volltextindizes für verschiedene Arten von Abfragen oder andere Anwendungen zu definieren. Obwohl dies eine große Menge an Flexibilität bietet, müssen Sie bestimmte Leistungseinbußen Speicherplatz und die Nutzung der Systemressourcen, wie z. B. Dateideskriptoren. Daher wird nicht empfohlen, mehr als 10 Volltextindizes in einem Indexschema zu definieren.

Rang Profile

Der Rang Profile anpassen und Erstellen von Profilen für neue Rang haben geringe Auswirkungen auf die statische Systemressourcen, wie z. B. Datenträger und Speicher. Rang Profilfeatures sind im Allgemeinen Abfragezeit-Parameter, die die Indizierung der Elemente und der Verwendung des zugeordneten Speicherplatzes nicht beeinflussen. Die Auswirkungen der Rang Profiländerungen hat hauptsächlich Abfrage Leistung Auswirkungen, wie in der folgenden Liste beschrieben.

Stop-Wort Schwellenwert. Dies ist ein wichtiger Parameter, um zu vermeiden, dass Abfragen für sehr häufig verwendete Wörter zu viele Ressourcen zur Auswertung dauert. Um eine gerechte Relevanz der Rangfolge nach Artikel Übereinstimmungen mit diesem Begriff weiterhin zu gewährleisten, sollten Sie die Wichtigkeit Level Funktion innerhalb des Index-Schemas verwenden.
Verwaltete Eigenschaft erhöhen. Dies ist eine effiziente Möglichkeit dar, um gezielte Relevanz Boost für Dokumente zu erreichen, die Eigenschaften verwaltet haben, die bestimmte Werte enthalten. Jede verwaltete Eigenschaft Boost festlegen, wird der Evaluierungszeitraum für alle Abfragen hinzugefügt. Achten Sie daher definieren nicht zu viele solcher Prozessen vorangestellt, innerhalb des gleichen Rang Profils. Es ist besser, mehrere Profile der Rang zu definieren, die verwaltete Zieleigenschaft Boost festlegen.

Weitere Informationen zu den Rang Profilfeatures finden Sie unter Informationen zum Rangprofil (FAST Search Server 2010 for SharePoint).

Volltext-Sortierung

Volltext-Ergebnis Sortierung basierend auf verwalteten Eigenschaften können Sie eine alphabetische Sortierung des Resultsets anstelle der Standardsortierung basierend auf der Relevanz (Ranking) zu erhalten. Bieten effiziente Sortierung über das Ergebnis Satz erfordert zusätzliche Datenstrukturen im Index und dieses Feature ist daher konfigurierbare pro verwaltete Eigenschaft.

Definieren von vielen verwaltete Eigenschaften, die Sortierung aktiviert haben erhebliche Auswirkungen auf die Speicherauslastung in der Abfrage übereinstimmenden Komponente.

Sie können diese Funktion über die verwaltete Eigenschaft SortableType Parameter im Indexschema steuern.

Sollten Sie die Konfiguration Wert LatentSortable verwenden, wenn Sie die Index-Datenstrukturen zum Sortieren von Ergebnis vorbereiten möchten, aber möchte nicht das Feature noch für Abfrageauswertung aktivieren. Bei Verwendung dieser Option wird nicht die erforderlichen Datenstrukturen zum Ergebnis Sortieren in den Hauptspeicher geladen wird, und es daher keine Auswirkungen Leistung. Die Einstellung kann später von losen auf aktiv geändert werden, um die Funktion zu aktivieren. In diesem Fall müssen die Änderung sofort in Kraft (keine Elemente für die erneute Indizierung erforderlich).

Zusammenfassung mit Treffermarkierung

FAST Search Server 2010 for SharePoint umfasst eine konfigurierbare automatische Zusammenfassung Generators, der Treffer hervorgehobene Zusammenfassungen für ausgewählte Eigenschaften in den Abfrageergebnissen auf Grundlage der eingegebenen Abfrage generiert werden kann. Sie können diese Funktion über die verwaltete Eigenschaft SummaryType Parameter im Indexschema steuern. Standardmäßig ist die hervorgehobene hit-Zusammenfassung für die body und title-Eigenschaften konfiguriert.

Konfigurieren von Treffern hervorgehobenen Zusammenfassung erstellen für anderen verwalteten Eigenschaften hat einige Leistung auf das Abfrage-Ergebnis erstellen, insbesondere Auswirkungen die verwaltete Eigenschaft im Durchschnitt viel Text enthält.

Ein Key Performance-Parameter, wirkt sich auf markierte Zusammenfassung erstellen erreicht ist der verwalteten Eigenschaft MaxResultSize Parameter im Indexschema. Dies wirkt sich wie viel Textinhalt aus der verwalteten Eigenschaft, die mit dem Index gespeichert wird. Für verwaltete Eigenschaften, die für Websitezugriffe hervorgehobenen Zusammenfassung nicht konfiguriert sind wirkt sich dieser Parameter auf wie viel Inhalt, der in der Abfrage zurückgegeben wird, führt mit direkten Einfluss auf die Leistung von Abfragen. Dies gilt insbesondere für Zugriffe Datenträger und Netzwerk-e/A. Verwaltete Eigenschaften, die für Websitezugriffe hervorgehobenen Zusammenfassung konfiguriert ist wirkt sich auf diesen Parameter die Verarbeitungslast hit hervorgehobene Zusammenfassung für jeden Seitenaufruf in der Abfrage Hit-Liste zu erstellen.

Asiatischer Sprachen Relevanz Optimierung

Chinesisch, Japanisch und Koreanisch Sprachen verschiedene Zeichen/Wort Normalisierung als die meisten anderen Sprachen erfordern. Diese Sprachen verwenden Sie keine Leerzeichen konsistent token Grenzen zu markieren; Text in diesen Sprachen müssen durch eine sprachspezifische Tokenisierung Komponente schwierig sein. Wir bezeichnen diese Sprachen, als CJK-Sprachen.

FAST Search Server 2010 for SharePoint führt die Sprache bestimmte Tokenisierung anhand der automatische Spracherkennung für die indizierte Elemente und Gebietsschemaeinstellung für den Endbenutzer, aber auch einen alternativen Normalisierung Ansatz mit dem Namen Suchen Teilzeichenfolge enthält.

Substring-Suche, die häufig als N-Gramm-Suche bezeichnet wird i. d. r. zu verwalteten Eigenschaften angewendet, die schwierig zu automatisch zum Aufteilen Token betrachtet werden. Dieser Texte enthalten häufig viele seltenen Wörter oder neue Wörter, wie z. B. Produktnamen oder Wörter, die nur selten aus der Tokenizer System Wörterbuch.

Das Feature kann beim Rückruf (die Gesamtzahl der Dokumente abgerufen) viel wichtiger als die Genauigkeit (hohe Relevanz der Ergebnisse) gilt ebenfalls berücksichtigt werden. Ohne die Teilzeichenfolge Suche aktiviert CJK-Abfrage kann in bestimmten Fällen werden schwierig falsch und daher eine meager oder leere Ergebnisliste zurück. Dies wird nie auftreten, wenn Substring Suche verwendet wird, wie alle N Gramm Teilzeichenfolgen jedes Token indiziert werden, und auch N-Gramm-token hinweg umfasst. Mit diesem Feature zu verbessern der Rückruf (Weitere übereinstimmenden Elemente gefunden), aber auch die Genauigkeit verringern und mehr Elemente als gewünscht zurückgeben kann.

Sie können diese Funktion über die verwaltete Eigenschaft SubstringEnabled Parameter im Indexschema steuern.

Beachten Sie, dass die Teilzeichenfolge Suche haben erhebliche Auswirkungen auf die Größe des Indexes für diese verwalteten Eigenschaften. Aus diesem Grund wird nicht empfohlen, verwenden Sie das Feature Freitextsuche, sondern für die Metadaten, die domänenspezifische Produktnamen, Codes und So weiter angesehen werden kann.

Verfeinerung Abfragefunktionen

Abfrage Verfeinerung-Features bieten den Endbenutzer mithilfe der entsprechenden Verfeinerung Optionen für Ihre Abfragen. Es ermöglicht Drilldown in ein Abfrageergebnis mit zusammengesetzte statistische Daten für das Abfrageergebnis berechnet. Dies wird normalerweise für Metadaten zugeordnet indizierte Elemente, wie z. B. das Erstellungsdatum, Autor und Benutzer-Namen angezeigt wird, in dem Element verwendet. Verwenden Sie die Optionen Verfeinerung, können Verfeinern Ihrer Abfrage vorhanden nur Elemente innerhalb eines bestimmten Zeitraums erstellt oder nur Elemente verweisen auf eine bestimmte Person anzeigen.

FAST Search Server 2010 for SharePoint unterstützt zwei Arten von Abfrage Refiners, Refiners tiefen und flachen Refiners.

Tief refiners

Die Verfeinerung Abfrage basiert auf der Aggregation der verwalteten Eigenschaft Statistiken für alle Ergebnisse einer Abfrage suchen. Der Indexer erstellt Aggregationsdaten, mit denen Abfrage übereinstimmenden Prozess. Der Vorteil der Verwendung dieses Typs ist, dass die Verfeinerung Optionen alle Elemente, die eine Abfrage widerspiegeln. Dies ist normalerweise der empfohlenen Modus, aber viele tief Refiners definieren eventuell erhebliche Auswirkungen auf die Speicherauslastung in der Abfrage übereinstimmenden Komponente.

Sollten Sie die Konfiguration Parameter LatentRefinement verwenden, wenn Sie die Index-Datenstrukturen für tief Verfeinerung vorbereiten möchten, aber möchte nicht das Feature noch für Abfrageauswertung aktivieren. Bei Verwendung dieser Option ist nicht für tief Verfeinerung die erforderlichen Datenstrukturen in den Hauptspeicher geladen wird, und es daher keine Auswirkungen Leistung. Die Einstellung kann später von losen auf aktiv geändert werden, um die Funktion zu aktivieren. In diesem Fall müssen die Änderung sofort in Kraft (keine Elemente für die erneute Indizierung erforderlich).

Wichtig

Tief Zeichenfolge Navigatoren müssen viele eindeutige Werte haben erhebliche Leistungseinbußen auf interne e/a-Kommunikation zwischen den übereinstimmenden Abfrageknoten und die Abfrageverarbeitung Knoten (Wenn auf verschiedenen Servern). Wenn Ihre Installation viele Indexspalten verfügt, kann diese Schnittstelle zu einem Engpass werden. In diesem Fall in Erwägung ziehen, die Konfiguration Parameter CutoffMaxBuckets begrenzen Sie die Anzahl der Verfeinerung der Lagerplätze auf jede Indexspalte ausgewertet werden.

Flache refiners

Die Verfeinerung Abfrage basiert auf der Aggregation der verwalteten Eigenschaft Statistiken für die obersten 100 Ergebnisse für eine Suchabfrage. Die Ergebnisdaten Verfeinerung ist während der Ergebnisverarbeitung erstellt. Da die Verfeinerung auf übereinstimmende Ergebnisse oben begrenzt ist, möglicherweise Sie Ergebnisse ausgeblendet tiefer in die Ergebnisse der Abfrage wurde nicht gefunden. Auf der anderen Seite dieser Option Verfeinerung wirkt sich nicht auf den Indizierungsprozess und kann daher nach dem Aktivieren anwenden.

Flache Refiners erhebliche Leistungseinbußen Auswirkung auf den Knoten für die Abfrageverarbeitung und reduziert die Abfrageleistung. Erwägen Sie tief Refiners.

Hinweis

Haftungsausschluss für maschinelle Übersetzungen: Dieser Artikel wurde mithilfe eines Computersystems und ohne jegliche Bearbeitung durch Personen übersetzt. Microsoft bietet solche maschinellen Übersetzungen als Hilfestellung für Benutzer ohne Englischkenntnisse an, damit Sie von den Informationen zu Produkten, Diensten und Technologien von Microsoft profitieren können. Da es sich bei diesem Artikel um eine maschinelle Übersetzung handelt, enthält er möglicherweise Fehler in Bezug auf (Fach-)Terminologie, Syntax und/oder Grammatik.

Änderungsverlauf

Datum	Beschreibung	Grund
10. Februar 2011	2011/02/07	Inhaltliches Update
12. Mai 2010	Erstveröffentlichung

Freigeben über

Planen des Indexschemas (FAST Search Server 2010 for SharePoint)

Übersicht über die Index-Schema

Eigenschaften von gecrawlten und verwalteten

Gecrawlte Eigenschaften

Verwaltete Eigenschaften

Relevanz features

Volltextindizes

Rang Profile

Volltext-Sortierung

Zusammenfassung mit Treffermarkierung

Asiatischer Sprachen Relevanz Optimierung

Verfeinerung Abfragefunktionen

Tief refiners

Flache refiners

Änderungsverlauf

Zusätzliche Ressourcen