Planen von Inhaltscrawls (Search Server 2008)

Inhalt dieses Artikels:

  • Informationen zum Crawlen und Indizieren von Inhalten

  • Identifizieren der Quellen von Inhalten, die Sie crawlen möchten

  • Planen von Inhaltsquellen

  • Planen der Authentifizierung

  • Planen von Protokollhandlern

  • Planen der Verwaltung von Auswirkungen des Crawlens

  • Planen von Crawlregeln

  • Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

  • Indizieren von Inhalten in verschiedenen Sprachen

Tipp

Falls nicht anders angegeben, beziehen sich die Informationen in diesem Artikel sowohl auf Microsoft Search Server 2008 als auch auf Microsoft Search Server 2008 Express.

Dieser Artikel soll Suchdienstadministratoren dabei helfen, das Crawlen von Inhalten zu planen, indem das Crawlen und Indizieren von Inhalten in Microsoft Search Server 2008 erläutert wird. Weitere Informationen finden Sie unter Hinzufügen oder Entfernen eines Suchdienstadministrators (Search Server 2008).

Bevor Endbenutzer die Funktion zur unternehmensweiten Suche von Search Server 2008 nutzen können, müssen die Inhalte, für die sie Abfragen ausführen werden, gecrawlt werden.

Für diesen Artikel ist Inhalt ein Element, das gecrawlt werden kann, beispielsweise eine Webseite, ein Microsoft Office Word-Dokument oder eine E-Mail-Nachrichtendatei.

Bei der Planung des Crawlens von Inhalten sollten Sie die folgenden Fragen berücksichtigen:

  • Wo befindet sich der Inhalt physisch?

  • Ist der Inhalt, den Sie crawlen möchten, in unterschiedlichen Quellen gespeichert, wie Dateifreigaben, SharePoint-Websites, Websites oder anderen Orten?

  • Möchten Sie den gesamten in der Quelle gespeicherten Inhalt crawlen oder nur einen Teil davon?

  • Welche Typen von Dateien möchten Sie crawlen?

  • Wann und wie oft werden Sie Inhalte crawlen?

  • Wie wird der Inhalt geschützt?

Anhand der Informationen in diesem Artikel können Sie diese Fragen beantworten und die erforderlichen Planungsentscheidungen zu dem Inhalt treffen, den Sie crawlen möchten, sowie festlegen, wie und wann der Inhalt gecrawlt werden soll.

Informationen zum Crawlen und Indizieren von Inhalten

Das Crawlen und Indizieren von Inhalt ist der Prozess, durch den das System zum Erstellen eines Inhaltsindex, mit dem Suchabfragen (als Metadaten bezeichnet) bedient werden können, auf Inhalt und dessen Eigenschaften zugreift und diesen analysiert.

Das Ergebnis des erfolgreichen Crawlens von Inhalt besteht darin, dass auf einzelne Dateien oder Teile von Inhalt vom Crawler zugegriffen wird und diese gelesen werden. Die Schlüsselwörter und Metadaten für diese Dateien werden im Inhaltsindex, auch als Index bezeichnet, gespeichert. Der Index besteht aus den Schlüsselwörtern, die im Dateisystem des Indexservers gespeichert sind, und den in der Suchdatenbank gespeicherten Metadaten. Das System verwaltet eine Zuordnung zwischen den Schlüsselwörtern, den Metadaten und der URL der Quelle, von der aus der Inhalt gecrawlt wurde.

Der Suchdienst ist dem Anbieter für gemeinsame Dienste (Shared Services Provider, SSP) und einem bestimmten Server zur Indizierung von Inhalten zugewiesen. Im Gegensatz zu die Serverprodukte in der Office 2007-Version, die mehrere SSPs und daher mehrere Inhaltsindizes aufweisen können, ist Search Server 2008 auf einen SSP beschränkt und verfügt daher nur über einen Inhaltsindex.

Tipp

Der Crawler ändert die Dateien auf den Hostservern in keiner Weise. Stattdessen greift der Crawler auf die Dateien zu, liest sie und sendet dann den Text und die Metadaten an den Indexserver. Einige Hostserver ändern das Datum für die Dateien nach dem Zugriff durch den Crawler. Der Crawler tut dies nicht.

Identifizieren der Quellen von Inhalten, die Sie crawlen möchten

In vielen Fällen erfordert der Bedarf der Organisation möglicherweise nur, dass Sie sämtlichen Inhalt crawlen, der in den SharePoint-Websites der Serverfarm enthalten ist. In diesem Fall müssen Sie die Quellen des Inhalts, den Sie crawlen möchten, nicht identifizieren, da alle Websitesammlungen einer Serverfarm mithilfe der Standardinhaltsquelle gecrawlt werden können. Weitere Informationen zur Standardinhaltsquelle finden Sie unter Planen von Inhaltsquellen weiter unten in diesem Artikel.

In vielen Organisationen muss auch Inhalt gecrawlt werden, der sich nicht in der Serverfarm befindet, sondern z. B. in Dateifreigaben oder auf Websites im Internet. Mit Search Server 2008 kann Inhalt gecrawlt und indiziert werden, der auf anderen Windows SharePoint Services-Farmen, auf Websites, in Dateifreigaben, in öffentlichen Microsoft Exchange-Ordnern und auf IBM Lotus Notes-Servern gehostet wird. Dadurch wird der Umfang des Inhalts, der für Suchabfragen verfügbar ist, erheblich vergrößert.

In vielen Fällen empfiehlt es sich jedoch, nicht alle Websitesammlungen auf der Serverfarm zu crawlen, da der in einigen Websitesammlungen gespeicherte Inhalt für die Suchergebnisse möglicherweise nicht relevant ist. In diesem Fall müssen Sie eine oder beide der folgenden Aktionen ausführen:

  • Vermerken Sie die URLs der Websitesammlungen, die nicht gecrawlt werden sollen. Wenn Sie die Standardinhaltsquelle verwenden möchten, müssen Sie sicherstellen, dass die Startadressen für die Websitesammlungen, die nicht gecrawlt werden sollen, in der Standardinhaltsquelle nicht aufgeführt sind.

  • Vermerken Sie die Startadressen der Websitesammlungen, die Sie crawlen möchten. Wenn Sie zusätzliche Inhaltsquellen zum Crawlen dieses Inhalts erstellen möchten, müssen Sie diese Startadressen kennen. Informationen dazu, wann eine oder mehrere Inhaltsquellen verwendet werden, finden Sie im Abschnitt Planen von Inhaltsquellen dieses Artikels.

Tipp

Mit Search Server gibt es zwei Möglichkeiten zum Verarbeiten von Suchabfragen, um Suchergebnisse an Benutzer zurückgeben. Sie können den Inhaltsindex von Search Server abfragen, oder Sie können die Verbundsuche verwenden. Jeder Ansatz bietet Vorteile. Einen Vergleich dieser beiden Ansätze für die Verarbeitung von Suchabfragen finden Sie unter Federated Search Overview (Übersicht über die Verbundsuche) (in englischer Sprache). Eine Liste und kurze Beschreibung von Artikeln zu Search Server über Grundlegendes zur Verbundsuche und deren Verwendung finden Sie unter Arbeiten mit Verbunden.

Planen von Inhaltsquellen

Bevor Sie Inhalte crawlen können, müssen Sie ermitteln, wo und auf welchen Typen von Servern sich der Inhalt befindet. Nachdem diese Informationen gesammelt wurden, kann ein Suchdienstadministrator eine oder mehrere Inhaltsquellen erstellen. Diese Inhaltsquellen stellen für den Crawler die folgenden Informationen bereit:

  • Den Typ des Inhalts, der gecrawlt werden soll, beispielsweise eine SharePoint-Website oder eine Dateifreigabe

  • Die Startadresse, von der aus mit dem Crawlen begonnen werden soll

  • Das beim Crawlen zu verwendende Verhalten, beispielsweise wie tief von der Startadresse aus gecrawlt werden soll oder wie viele Serverwechsel erlaubt sein sollen

  • Die Häufigkeit von Crawls

Tipp

Das Crawlen von Inhalt mithilfe einer bestimmten Inhaltsquelle wird manchmal als "Crawlen der Inhaltsquelle" bezeichnet.

In diesem Abschnitt finden Sie Unterstützung für die Planung der Inhaltsquellen, die Ihre Organisation benötigt.

Die Standardinhaltsquelle heißt Lokale Office SharePoint Server-Websites. Suchdienstadministratoren können diese Inhaltsquelle verwenden, um den gesamten Inhalt der Serverfarm zu crawlen und zu indizieren. Standardmäßig wird in Search Server 2008 die Startadresse (in diesem Fall eine URL) der Website auf höchster Ebene jeder Websitesammlung in der Farm zur Standardinhaltsquelle hinzugefügt.

Einige Organisationen erfüllt die Verwendung der standardmäßigen Inhaltsquelle zum Crawlen aller Websites der Websitesammlungen die Suchanforderungen. Viele Organisationen benötigen jedoch zusätzliche Inhaltsquellen.

Es folgt eine Aufzählung der Gründe für die Notwendigkeit, zusätzliche Inhaltsquellen zu erstellen:

  • Crawlen unterschiedlicher Inhaltsarten

  • Crawlen bestimmter Inhalte mit Zeitplänen, die sich von denen anderer Inhalte unterscheiden

  • Einschränken oder Erhöhen der Menge der gecrawlten Inhalte

Suchdienstadministratoren können bis zu 500 Inhaltsquellen erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Um die Verwaltung möglichst einfach zu gestalten, sollten Sie nur so viele Inhaltsquellen erstellen, wie Sie benötigen.

Crawlen unterschiedlicher Arten von Inhalt

Sie können nur eine Art von Inhalt pro Inhaltsquelle crawlen. Das heißt, dass Sie eine Inhaltsquelle erstellen können, die URLs für SharePoint-Websites enthält, und eine weitere Quelle, die URLs für Dateifreigaben enthält. Sie können jedoch keine einzelne Inhaltsquelle erstellen, die URLs sowohl für SharePoint-Websites und Dateifreigaben enthält. In der folgenden Tabelle werden die Typen von Inhaltsquellen angeführt, die konfiguriert werden können.

Art von Inhaltsquelle Enthaltene Art von Inhalt

SharePoint-Websites

SharePoint-Websites von derselben Farm oder verschiedenen Microsoft Office SharePoint Server 2007-, Windows SharePoint Services 3.0- oder Search Server 2008-Farmen

  • SharePoint-Websites in Microsoft Office SharePoint Portal Server 2003 oder Windows SharePoint Services 2.0

    NoteHinweis:
    Im Gegensatz zum Crawlen von SharePoint-Websites auf Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3.0 oder Search Server 2008 kann der Crawler nicht automatisch alle Unterwebsites in einer Websitesammlung aus früheren Versionen von SharePoint-Produkten und -Technologien crawlen. Daher müssen Sie beim Crawlen von SharePoint-Websites aus früheren Versionen die URL jeder Website höchster Ebene und jeder Unterwebsite angeben, die gecrawlt werden soll. Websites, die im Websiteverzeichnis von Microsoft Office SharePoint Portal Server 2003-Farmen aufgeführt sind, werden gecrawlt, wenn die Portalwebsite gecrawlt wird. Weitere Informationen zum Websiteverzeichnis finden Sie unter About the Site Directory in englischer Sprache (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x407) ("Informationen zum Websiteverzeichnis").

Websites

  • Andere Webinhalte in Ihrer Organisation, die in SharePoint-Websites nicht gefunden werden

  • Inhalt auf Websites im Internet

Dateifreigaben

Inhalt in Dateifreigaben innerhalb Ihrer Organisation

Lotus Notes

In Lotus Notes-Datenbanken gespeicherte E-Mails

NoteHinweis:
Anders als alle anderen Typen von Inhaltsquellen wird die Inhaltsquellenoption Lotus Notes erst auf der Benutzeroberfläche angezeigt, wenn Sie die entsprechende erforderliche Software installiert und konfiguriert haben. Weitere Informationen finden Sie unter Configure Search Server to crawl Lotus Notes (Search Server 2008).

Öffentliche Exchange-Ordner

Exchange Server-Inhalt

Crawlen von Inhalt auf Grundlage unterschiedlicher Zeitpläne

Suchdienstadministratoren müssen häufig entscheiden, ob bestimmter Inhalt häufiger als anderer Inhalt gecrawlt wird. Je größer das Volumen an Inhalt, den Sie crawlen, desto wahrscheinlicher ist es, dass Sie Inhalt aus unterschiedlichen Quellen crawlen. Diese unterschiedlichen Quellen können vom selben Typ sein und auf Servern unterschiedlicher Geschwindigkeiten gehostet werden.

Diese Faktoren machen es wahrscheinlicher, dass Sie zusätzliche Inhaltsquellen benötigen, um diese unterschiedlichen Inhaltsquellen zu unterschiedlichen Zeiten zu crawlen.

Folgende sind die Hauptgründe, weshalb Inhalt mit unterschiedlichen Zeitplänen gecrawlt wird:

  • Ausgleich von Downtimes und Zeiten mit Spitzenauslastung

  • Häufigeres Crawlen von Inhalt, der häufiger aktualisiert wird

  • Getrenntes Crawlen von Inhalt, der auf langsameren beziehungsweise schnelleren Hostservern gehostet wird

In vielen Fällen sind nicht alle Informationen bekannt, bevor Search Server 2008 bereitgestellt und bereits eine Weile ausgeführt wurde. Stattdessen werden einige dieser Entscheidungen während der Betriebsphase getroffen. Sie sollten diese Faktoren jedoch während der Planung berücksichtigen, damit Sie Crawlzeitpläne basierend auf vorliegenden Informationen planen können.

Die folgenden zwei Abschnitte enthalten weitere Informationen zum Crawlen von Inhalt mit unterschiedlichen Zeitplänen.

Downtimes und Spitzenauslastungszeiten

Berücksichtigen Sie Downtimes und Spitzenauslastungszeiten der Server, auf denen der zu crawlende Inhalt gehostet wird. Wenn Sie beispielsweise Inhalt crawlen, der auf vielen verschiedenen Servern außerhalb der Serverfarm gehostet wird, ist es wahrscheinlich, dass diese Server mit unterschiedlichen Zeitplänen gesichert werden und unterschiedliche Spitzenauslastungszeiten haben. Die Verwaltung von Servern außerhalb der Serverfarm unterliegt normalerweise nicht Ihrer Kontrolle. Daher empfiehlt es sich, dass Sie die Crawlvorgänge mit den Administratoren der Server koordinieren, auf denen der Inhalt, den Sie crawlen möchten, gehostet wird. Damit stellen Sie sicher, dass Sie nicht versuchen, Inhalt auf den Servern zu Downtimes oder Spitzenauslastungszeiten zu crawlen.

Ein häufiges Szenario umfasst Inhalt außerhalb der Kontrolle Ihrer Organisation, der sich auf Inhalt Ihrer SharePoint-Websites bezieht. Sie können die Startadressen für diesen Inhalt einer vorhandenen Inhaltsquelle hinzufügen oder eine neue Inhaltsquelle für externen Inhalt erstellen. Da die Verfügbarkeit von externen Websites stark variiert, ist es hilfreich, separate Inhaltsquellen für unterschiedlichen externen Inhalt hinzuzufügen. Auf diese Weise können die Inhaltsquellen für externen Inhalt zu anderen Zeitpunkten als die übrigen Inhaltsquellen gecrawlt werden. Sie können externen Inhalt dann mit einem Crawlzeitplan aktualisieren, der die Verfügbarkeit jeder Website berücksichtigt.

Häufig aktualisierter Inhalt

Berücksichtigen Sie bei der Planung von Crawlzeitplänen, dass einige Inhaltsquellen normalerweise häufiger als andere aktualisiert werden. Angenommen, Sie wissen, dass der Inhalt einiger Websitesammlungen oder externer Quellen nur freitags aktualisiert wird, wäre es Ressourcenverschwendung, diesen Inhalt häufiger als einmal wöchentlich zu crawlen. Allerdings kann Ihre Serverfarm möglicherweise andere Websitesammlungen enthalten, die montags bis freitags ständig aktualisiert werden, normalerweise aber nicht an Samstagen und Sonntagen. In diesem Fall möchten Sie an Wochentagen möglicherweise täglich mehrmals crawlen, aber nur ein- oder zweimal an Wochenenden.

Die Art, auf die Inhalt in den Websitesammlungen gespeichert wird, kann Sie zur Erstellung zusätzlicher Inhaltsquellen für jede Ihrer Websitesammlungen in allen Ihren Webanwendungen führen. Wenn beispielsweise in einer Websitesammlung nur archivierte Informationen gespeichert sind, müssen Sie diesen Inhalt möglicherweise nicht so häufig crawlen wie eine Websitesammlung, in der häufig aktualisierter Inhalt gespeichert ist. In diesem Fall empfiehlt es sich möglicherweise, diese zwei Websitesammlungen mit verschiedene Inhaltsquellen zu crawlen, sodass diese mit unterschiedlichen Zeitplänen gecrawlt werden, ohne die Archivwebsites so häufig wie den anderen Inhalt zu crawlen.

Vollständige und inkrementelle Crawlzeitpläne

Suchdienstadministratoren können die Crawlzeitpläne für jede Inhaltsquelle unabhängig konfigurieren. Für jede Inhaltsquelle können Zeiten für vollständige Crawls und separate Zeiten für inkrementelle Crawls angegeben werden. Beachten Sie, dass Sie einen vollständigen Crawlvorgang für eine bestimmte Inhaltsquelle ausführen müssen, bevor Sie einen inkrementellen Crawl ausführen können. Wenn Sie einen inkrementellen Crawl für Inhalt auswählen, der noch nicht gecrawlt wurde, wird ein vollständiger Crawlvorgang ausgeführt.

Es wird empfohlen, Crawlzeitpläne auf Grundlage von Verfügbarkeit, Leistung und Bandbreite der Server, auf denen der Suchdienst ausgeführt wird, sowie der Server zu planen, auf denen der zu crawlende Inhalt gehostet wird.

Berücksichtigen Sie bei der Planung von Crawlzeitplänen die folgenden bewährten Methoden:

  • Gruppieren Sie Startadressen in Inhaltsquellen basierend auf ähnlicher Verfügbarkeit und mit akzeptabler Gesamtverwendung der Ressourcen für die Server, auf denen der Inhalt gehostet wird.

  • Planen Sie inkrementelle Crawls für die einzelnen Inhaltsquellen zu Zeiten, in denen die Server, die die Inhalte hosten, verfügbar sind und die Serverressourcen nur wenig beansprucht werden.

  • Staffeln Sie Crawlzeitpläne, sodass die Belastung der Server in der Serverfarm über einen Zeitraum verteilt wird.

  • Planen Sie vollständige Crawls nur, wenn Gründe vorliegen, die im nächsten Abschnitt aufgeführt sind. Es wird empfohlen, dass Sie vollständige Crawlvorgänge seltener als inkrementelle Crawls vornehmen.

  • Planen Sie die Ausführung von Verwaltungsänderungen, die einen vollständigen Crawlvorgang erfordern, kurz vor dem geplanten Zeitpunkt für vollständigen Crawls. Es empfiehlt sich beispielsweise, die Erstellung der Crawlregel vor dem nächsten geplanten vollständigen Crawlvorgang vorzunehmen, sodass kein zusätzlicher vollständiger Crawl erforderlich ist.

  • Machen Sie für gleichzeitige Crawls die Kapazität des Indexservers, diese zu crawlen, zur Grundlage. Es wird empfohlen, dass Sie Ihre Crawlzeitpläne unter Normalbedingungen staffeln, sodass der Indexserver nicht auf einmal mit mehreren Inhaltsquellen crawlt. Für eine optimale Leistung wird empfohlen, dass Sie die Crawlzeitpläne der Inhaltsquellen staffeln. Die Leistung des Indexservers sowie der Server, die den Inhalt hosten, bestimmt das Ausmaß, in dem überlappende Crawlvorgänge möglich sind. Eine Strategie für die Zeitplanung von Crawls kann mit der Zeit entwickelt werden, während Sie sich mit der typischen Crawldauer für jede Inhaltsquelle vertraut machen.

Gründe für einen vollständigen Crawlvorgang

Suchdienstadministratoren können aus den folgenden Gründen einen vollständigen Crawlvorgang ausführen:

  • Auf Servern in der Farm wurde mindestens ein Hotfix oder Service Pack installiert. Weitere Informationen finden Sie in den Anweisungen für den Hotfix oder das Service Pack.

  • Ein Suchdienstadministrator fügte eine neue verwaltete Eigenschaft hinzu.

  • Zur erneuten Indizierung von ASPX-Seiten auf Windows SharePoint Services 3.0-Websites

    Tipp

    Der Crawler kann nicht ermitteln, wann ASPX-Seiten auf Windows SharePoint Services 3.0-Websites geändert wurden. Daher wird bei inkrementellen Crawls keine erneute Indizierung von Ansichten oder Homepages vorgenommen, wenn einzelne Listenelemente gelöscht werden. Es wird empfohlen, dass Sie regelmäßig vollständige Crawlvorgänge von Websites vornehmen, die ASPX-Dateien enthalten, um sicherzustellen, dass diese Seiten erneut indiziert werden.

  • Zur Ermittlung von Änderungen der Sicherheit, die auf einer Dateifreigabe nach dem letzten vollständigen Crawl der Dateifreigabe vorgenommen wurden

  • Zur Behebung von Fehlern bei aufeinander folgenden inkrementellen Crawls. Tritt bei einem inkrementellen Crawl einhundert Mal in Folge auf einer beliebigen Ebene eines Repositories ein Fehler auf, entfernt der Indexserver in seltenen Fällen den betroffenen Inhalt aus den Index.

  • Es wurden Crawlregeln hinzugefügt, gelöscht oder geändert.

  • Zum Reparieren eines beschädigten Index.

  • Der Suchdienstadministrator hat eine oder mehrere Servernamenszuordnungen erstellt.

  • Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.

Das System führt einen vollständigen Crawlvorgang selbst dann aus, wenn ein inkrementeller Crawl unter folgenden Umständen angefordert wird:

  • Ein Suchdienstadministrator hat den vorherigen Crawl beendet.

  • Eine Inhaltsdatenbank wurde wiederhergestellt.

    Tipp

    Wenn Sie das Infrastrukturaktualisierung für Microsoft Office Server ausführen, können Sie den restore-Vorgang des Befehlszeilentools Stsadm verwenden, um zu ändern, ob durch die Wiederherstellung einer Inhaltsdatenbank ein vollständiger Crawl verursacht wird.

  • Ein Farmadministrator hat eine Inhaltsdatenbank getrennt und erneut angefügt.

  • Ein vollständiger Crawlvorgang der Website wurde niemals vorgenommen.

  • Das Änderungsprotokoll enthält keine Einträge für die gecrawlten Adressen. Ohne Einträge im Änderungsprotokoll für die gecrawlten Elemente können keine inkrementellen Crawls auftreten.

  • Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.

  • Zum Reparieren eines beschädigten Indexes

    Je nach Schweregrad der Beschädigung versucht das System möglicherweise, einen vollständigen Crawlvorgang auszuführen, wenn eine Beschädigung im Index erkannt wird.

Sie können Zeitpläne nach der anfänglichen Bereitstellung auf Grundlage von Leistung und Kapazität der Server in der Farm und den Servern, die den Inhalt hosten, anpassen.

Einschränken oder Erhöhen der Menge des gecrawlten Inhalts

Für jede Inhaltsquelle können Sie auswählen, wie umfassend die Startadressen in dieser Inhaltsquelle gecrawlt werden sollen. Sie geben auch das Crawlverhalten an, das auch als Crawleinstellungen bezeichnet wird. Die Optionen, die Sie für eine bestimmte Inhaltsquelle auswählen können, variieren basierend auf dem ausgewählten Inhaltsquellentyp. Die meisten Optionen bestimmen jedoch, wie viele Ebenen der Hierarchie von jeder in der Inhaltsquelle aufgeführten Startadresse aus gecrawlt werden. Beachten Sie, dass dieses Verhalten auf alle Startadressen in einer bestimmten Inhaltsquelle angewendet wird. Wenn Sie einige Websites auf tieferen Ebenen crawlen möchten, können Sie zusätzliche Inhaltsquellen erstellen, die diese Websites umfassen.

Die in den Eigenschaften für jede Inhaltsquelle verfügbaren Optionen variieren abhängig vom ausgewählten Inhaltsquellentyp. In der folgenden Tabelle werden die Optionen der Crawleinstellungen für jeden Inhaltsquellentyp beschrieben.

Inhaltsquellentyp Optionen für Crawleinstellungen

SharePoint-Websites

  • Alle Websites unter dem Hostnamen für jede Startadresse

  • Nur die SharePoint-Website für jede Startadresse

Websites

  • Nur innerhalb des Servers jeder Startadresse

  • Nur die erste Seite jeder Startadresse

  • Benutzerdefiniert – Geben Sie die Seitentiefe und die Anzahl der Serverwechsel an

    NoteHinweis:
    Die Standardeinstellung für diese Option sind unbegrenzte Seitentiefen und Serverwechsel.

Dateifreigaben

  • Der Ordner und alle Unterordner jeder Startadresse

  • Nur der Ordner jeder Startadresse

Öffentliche Exchange-Ordner

  • Der Ordner und alle Unterordner jeder Startadresse

  • Nur der Ordner jeder Startadresse

Wie in der obigen Tabelle gezeigt wird, können Suchdienstadministratoren die Optionen für die Crawleinstellungen verwenden, um die Menge des gecrawlten Inhalts einzuschränken oder zu erhöhen.

In der folgenden Tabelle werden Empfehlungen zum Konfigurieren der Optionen für Crawleinstellungen beschrieben.

Inhaltsquellentyp Bedingung Zu verwendende Option der Crawleinstellung

SharePoint-Websites

Sie möchten den Inhalt auf der Website selbst einschließen

- oder -

Sie möchten den auf Unterwebsites verfügbaren Inhalt nicht einschließen, oder Sie möchten diesen mit einem anderen Zeitplan crawlen.

Nur die SharePoint-Website für jede Startadresse crawlen

SharePoint-Websites

Sie möchten den Inhalt auf der Website selbst einschließen

- oder -

Sie möchten sämtlichen Inhalt unter der Startadresse mit demselben Zeitplan crawlen.

Alle Websites unter dem Hostnamen für jede Startadresse crawlen

Websites

Der Inhalt auf der Website selbst ist relevant

- oder -

Der auf verknüpften Websites verfügbare Inhalt ist wahrscheinlich nicht relevant.

Nur innerhalb des Servers jeder Startadresse crawlen

Websites

Relevanter Inhalt befindet sich nur auf der ersten Seite.

Nur die erste Seite jeder Startadresse crawlen

Websites

Sie möchten die Tiefe beschränken, mit der die Links auf den Startadressen gecrawlt werden.

Benutzerdefiniert – Geben Sie die Seitentiefe und die Anzahl der Serverwechsel des Crawls an

NoteHinweis:
Es wird empfohlen, mit einer kleinen Anzahl auf einer stark vernetzten Website zu beginnen, da möglicherweise das gesamte Internet gecrawlt wird, wenn eine Tiefe von mehr als drei Seiten angegeben wird oder mehr als drei Serverwechsel angegeben werden.

Dateifreigaben

Öffentliche Exchange-Ordner

Der in den Unterordnern verfügbare Inhalt ist wahrscheinlich nicht relevant.

Nur den Ordner jeder Startadresse crawlen

Dateifreigaben

Öffentliche Exchange-Ordner

Der Inhalt in den Unterordnern ist wahrscheinlich relevant.

Den Ordner und alle Unterordner jeder Startadresse crawlen

Planen von Dateitypeinschlüssen und IFilters

Inhalt wird nur gecrawlt, wenn die entsprechende Dateinamenerweiterung in der Liste der Dateitypeinschlüsse enthalten und ein IFilter auf dem Indexserver installiert ist, der diese Dateitypen unterstützt. Verschiedene Dateitypen sind automatisch bei der Erstinstallation enthalten. Bei der Planung von Inhaltsquellen für die anfängliche Bereitstellung ermitteln Sie, ob zu crawlender Inhalt nicht enthaltene Dateitypen verwendet. Wenn Dateitypen nicht enthalten sind, müssen Sie diese Dateitypen während der Bereitstellung auf der Seite Dateitypen verwalten hinzufügen. Außerdem müssen Sie sicherstellen, dass ein IFilter installiert und registriert ist, der diesen Dateityp unterstützt.

Search Server 2008 bietet mehrere IFilters, und weitere Filter sind über Microsoft und Drittanbieter verfügbar. Informationen zum Installieren und Registrieren weiterer IFilters, die von Microsoft verfügbar sind, finden Sie unter Registrieren von Microsoft Filter Pack bei SharePoint Server 2007 und Search Server 2008 (möglicherweise maschinelle Übersetzung). Gegebenenfalls können Softwareentwickler IFilters für neue Dateitypen erstellen.

Wenn andererseits bestimmte Dateitypen nicht gecrawlt werden sollen, können Sie die Dateinamenerweiterung für diesen Dateityp aus der Liste der Dateitypeinschlüsse löschen. Damit werden Dateinamen mit dieser Erweiterung vom Crawlen ausgeschlossen.

Die folgende Tabelle enthält eine Liste von Dateitypen, die von den standardmäßig installierten IFilters unterstützt werden, sowie derjenigen Dateitypen, die standardmäßig auf der Seite Dateitypen verwalten aktiviert sind.

Dateinamenerweiterung Standardmäßige IFilter-Unterstützung Standardmäßige Dateitypeinschlüsse

ASCX

Ja

Ja

ASM

Ja

Nein

ASP

Ja

Ja

ASPX

Ja

Ja

BAT

Ja

Nein

C

Ja

Nein

CMD

Ja

Nein

CPP

Ja

Nein

CSS

Ja

Nein

CXX

Ja

Nein

DEF

Ja

Nein

DIC

Ja

Nein

DOC

Ja

Ja

DOCM

Ja

Ja

DOCX

Ja

Ja

DOT

Ja

Ja

EML

Ja

Ja

EXCH

Nein

Ja

H

Ja

Nein

HHC

Ja

Nein

HHT

Ja

Nein

HPP

Ja

Nein

HTA

Ja

Nein

HTM

Ja

Ja

HTML

Ja

Ja

HTW

Ja

Nein

HTX

Ja

Nein

JHTML

Nein

Ja

JSP

Nein

Ja

LNK

Ja

Nein

MHT

Ja

Ja

MHTML

Ja

Ja

MPX

Ja

Nein

MSG

Ja

Ja

MSPX

Nein

Ja

NSF

Nein

Ja

ODC

Ja

Ja

ONE

Nein

Nein

PHP

Nein

Ja

POT

Ja

Nein

PPS

Ja

Nein

PPT

Ja

Ja

PPTM

Ja

Ja

PPTX

Ja

Ja

PUB

Ja

Ja

STM

Ja

Nein

TIF

Ja

Ja

TIFF

Nein

Ja

TRF

Ja

Nein

TXT

Ja

Ja

URL

Nein

Ja

VDX

Nein

Ja

VSD

Nein

Ja

VSS

Nein

Ja

VST

Nein

Ja

VSX

Nein

Ja

VTX

Nein

Ja

XLB

Ja

Nein

XLC

Ja

Nein

XLS

Ja

Ja

XLSM

Ja

Ja

XLSX

Ja

Ja

XLT

Ja

Nein

XML

Ja

Ja

IFilters und Microsoft Office OneNote

Für die von Microsoft Office OneNote 2007 verwendete Dateinamenerweiterung ONE wird kein IFilter bereitgestellt. Wenn Sie möchten, dass Benutzer in der Lage sind, Inhalt in Office OneNote-Dateien zu durchsuchen, müssen Sie einen IFilter für OneNote installieren. Dazu müssen Sie eine der folgenden Aktionen ausführen:

  • Installieren der Microsoft Office OneNote 2007-Clientanwendung auf dem Indexserver.

    Der von Office OneNote 2007 bereitgestellte IFilter kann zum Crawlen von Office OneNote 2003- und Office OneNote 2007-Dateien verwendet werden. Mit dem von Office OneNote 2003 installierten IFilter können nur Office OneNote 2003-Dateien gecrawlt werden.

  • Installieren und Registrieren von Microsoft Filter Pack.

    Der von diesem Filter Pack bereitgestellte OneNote IFilter kann nur zum Crawlen von Office OneNote 2007-Dateien verwendet werden. Weitere Informationen finden Sie unter Registrieren von Microsoft Filter Pack bei SharePoint Server 2007 und Search Server 2008 (möglicherweise maschinelle Übersetzung).

Begrenzen oder Ausschließen von Inhalt mithilfe von Crawlregeln

Beim Hinzufügen einer Startadresse zu einer Inhaltsquelle und dem Akzeptieren des Standardverhaltens werden alle Unterwebsites oder Ordner unterhalb dieser Startadresse gecrawlt, sofern Sie diese nicht mithilfe einer oder mehrerer Crawlregeln ausschließen.

Weitere Informationen zu Crawlregeln finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Weitere Überlegungen beim Planen von Inhaltsquellen

Sie können nicht dieselben Adressen unter Verwendung mehrerer Inhaltsquellen crawlen. Wenn Sie beispielsweise eine bestimmte Inhaltsquelle verwenden, um eine Websitesammlung und alle dazugehörigen Unterwebsites zu crawlen, können Sie keine andere Inhaltsquelle verwenden, um eine dieser Unterwebsites separat mit einem anderen Zeitplan zu crawlen. Zur Berücksichtigung dieser Einschränkung müssen Sie möglicherweise einige dieser Websites separat crawlen. Beachten Sie folgendes Szenario:

Ein Administrator bei Contoso möchte die Website http://contoso crawlen, die die Unterwebsites http://contoso/websites/website1 und http://contoso/websites/website2 enthält. Der Administrator möchte http://contoso/websites/website2 mit einem anderen Zeitplan als die anderen Websites crawlen. Zu diesem Zweck fügt er einer Inhaltsquelle die Adressen http://contoso und http://contoso/websites/website1 hinzu und wählt die Einstellung Nur die SharePoint-Website für jede Startadresse crawlen aus. Die Unterwebsite http://contoso/websites/website2 wird dann einer separaten Inhaltsquelle mit einem anderen Crawlzeitplan hinzugefügt.

Zusätzlich zu Crawlzeitplänen müssen bei der Planung von Inhaltsquellen noch andere Punkte berücksichtigt werden. Ob Sie beispielsweise Startadressen in einer einzigen Inhaltsquelle gruppieren oder zusätzliche Inhaltsquellen erstellen, um diese Startadressen zu crawlen, hängt weitgehend von Verwaltungsüberlegungen ab. Administratoren nehmen häufig Änderungen vor, die ein vollständiges Update einer bestimmten Inhaltsquelle erfordern. Änderungen einer Inhaltsquelle erfordern einen vollständigen Crawlvorgang für diese Inhaltsquelle. Organisieren Sie zum Vereinfachen der Verwaltung die Inhaltsquellen so, dass Updates von Inhaltsquellen, Crawlregeln und Inhaltscrawls für die Administratoren bequem sind.

Inhaltsquellen – Zusammenfassung

Berücksichtigen Sie bei der Planung der Inhaltsquellen die folgenden Punkte:

  • Eine bestimmte Inhaltsquelle kann nur zum Crawlen eines der folgenden Inhaltstypen verwendet werden: SharePoint-Websites, Websites, die keine SharePoint-Websites sind, Dateifreigaben, öffentliche Exchange-Ordner und Lotus Notes-Datenbanken.

  • Suchdienstadministratoren können bis zu 500 Inhaltsquellen erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Um die Verwaltung möglichst einfach zu gestalten, sollten Sie nur so viele Inhaltsquellen erstellen, wie Sie unbedingt benötigen.

  • Alle URLs in einer bestimmten Inhaltsquelle müssen vom selben Inhaltsquellentyp sein.

  • Für eine bestimmte Inhaltsquelle können Sie auswählen, wie tief von den Startadressen aus gecrawlt werden soll. Diese Konfigurationseinstellungen gelten für alle Startadressen in der Inhaltsquelle. Die verfügbaren Auswahlmöglichkeiten für die Crawltiefe der Startadressen weichen in Abhängigkeit vom ausgewählten Inhaltsquellentyp ab.

  • Sie können die Ausführung eines vollständigen oder inkrementellen Crawls für die gesamte Inhaltsquelle planen. Weitere Informationen zum Planen von Crawlvorgängen finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

  • Suchdienstadministratoren können die Standardinhaltsquelle ändern, zusätzliche Inhaltsquellen zum Crawlen anderen Inhalts erstellen oder beides. Die Standardinhaltsquelle kann beispielsweise so konfiguriert werden, dass Inhalt auch auf einer anderen Serverfarm gecrawlt werden kann, oder es können neue Inhaltsquellen zum Crawlen anderen Inhalts erstellt werden.

  • Verwenden Sie so viele Inhaltsquellen, wie für die Arten von zu crawlenden Quellen und die Häufigkeit, mit der Sie Crawlen möchten, sinnvoll ist, damit sämtlicher von Ihrer Organisation benötigter Inhalt effektiv gecrawlt wird.

Planen der Authentifizierung

Wenn der Crawler auf die in den Inhaltsquellen aufgelisteten Startadressen zugreift, muss der Crawler von den Servern authentifiziert werden und von den Servern Zugriff erhalten, auf dem der Inhalt gehostet wird. Dies bedeutet, dass das vom Crawler verwendete Domänenkonto mindestens über Leseberechtigung für den Inhalt verfügen muss.

Das Standardkonto für den Inhaltszugriff ist das Konto, das standardmäßig beim Crawlen von Inhaltsquellen verwendet wird. Dieses Konto wird durch den Suchdienstadministrator angegeben. Sie können alternativ Crawlregeln verwenden, um ein anderes Inhaltszugriffskonto anzugeben, das beim Crawlen eines bestimmten Inhalts verwendet wird. Unabhängig davon, ob Sie das Standardkonto für den Inhaltszugriff oder ein anderes durch eine Crawlregel angegebenes Konto verwenden, muss das für den Inhaltszugriff verwendete Konto über Lesezugriff für sämtlichen Inhalt verfügen, der gecrawlt wird. Andernfalls wird der Inhalt nicht gecrawlt und ist für Abfragen nicht verfügbar.

Es wird empfohlen, dass Sie ein Standardkonto für den Inhaltszugriff wählen, das mit dem umfangreichsten Zugriff auf den Großteil des gecrawlten Inhalts verfügt, und andere Inhaltszugriffskonten nur verwenden, wenn Sicherheitsüberlegungen separate Inhaltszugriffskonten erforderlich machen. Weitere Informationen zum Erstellen eines separaten Inhaltszugriffskontos zum Crawlen von Inhalt, der nicht mit dem Standardkonto für den Inhaltszugriff gelesen werden kann, finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Identifizieren Sie für jede geplante Inhaltsquelle die Startadressen, auf die nicht mit dem Standardkonto für den Inhaltszugriff zugegriffen werden kann, und planen Sie das Hinzufügen von Crawlregeln für URL-Muster, die diese Startadressen umfassen.

Tipp

Stellen Sie sicher, dass das Domänenkonto, das für das Standardkonto für den Inhaltszugriff oder ein beliebiges anderes Konto Inhaltszugriff verwendet wird, nicht dasselbe Domänenkonto ist, das von einem Anwendungspool verwendet wird, der einer von Ihnen gecrawlten Anwendung zugeordnet ist. Dadurch wird möglicherweise unveröffentlichter Inhalt auf SharePoint-Websites und kleinere Versionen von Dateien (Verlauf) in SharePoint-Websites gecrawlt und indiziert.

Weitere Informationen zu den Planungsüberlegungen von Inhaltszugriffskonten finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Ein weiterer wichtiger Aspekt ist, dass der Crawler dieselbe Authentifizierungsmethode wie der Hostserver verwenden muss. Standardmäßig versucht der Crawler, mit NTLM-Authentifizierung zu authentifizieren. Sie können den Crawler bei Bedarf für die Verwendung einer anderen Authentifizierungsmethode konfigurieren. Weitere Informationen finden Sie im Abschnitt zu den Authentifizierungsanforderungen für das Crawlen von Inhalt unter Planen von Authentifizierungsmethoden (Office SharePoint Server). Dieser Artikel bezieht sich auch auf Search Server 2008.

Planen von Protokollhandlern

Für alle Inhalte, die gecrawlt werden, ist die Verwendung eines Protokollhandlers erforderlich, um Zugriff auf die Inhalte zu erhalten. Search Server 2008 stellt Protokollhandler für alle allgemeinen Internetprotokolle bereit. Wenn Sie jedoch Inhalte crawlen möchten, für die ein Protokollhandler erforderlich ist, der nicht mit Search Server 2008 installiert wird, müssen Sie vor dem Crawlen der Inhalte Protokollhandler von Drittanbietern oder benutzerdefinierte Protokollhandler installieren.

Die folgende Tabelle zeigt die Protokollhandler, die standardmäßig installiert sind.

Protokollhandler Verwendet zum Crawlen von

File

Dateifreigaben

http

Websites

https

Websites über Secure Sockets Layer (SSL)

Notes

Lotus Notes-Datenbanken

Rb

Öffentliche Exchange-Ordner

Rbs

Öffentliche Exchange-Ordner über SSL

Sps

Personenprofile von Windows SharePoint Services 2.0-Serverfarmen

Sps3

Nur Personenprofile aus Windows SharePoint Services 3.0-Serverfarmen

Sps3s

Nur Personenprofile aus Windows SharePoint Services 3.0-Serverfarmen über SSL

Spsimport

Personenprofilimport

Spss

Personenprofilimport aus Windows SharePoint Services 2.0-Serverfarmen über SSL

Sts

Windows SharePoint Services 3.0-Stamm-URLs (internes Protokoll)

Sts2

Windows SharePoint Services 2.0-Websites

Sts2s

Windows SharePoint Services 2.0-Websites über SSL

Sts3

Windows SharePoint Services 3.0-Websites

Sts3s

Windows SharePoint Services 3.0-Websites über SSL

Planen der Verwaltung von Auswirkungen des Crawlens

Das Crawlen von Inhalt kann die Leistung der Server, die den Inhalt hosten, erheblich reduzieren. Die Auswirkungen auf einen bestimmten Server hängen von der Last ab, die auf dem Hostserver vorliegt, sowie davon, ob der Server über ausreichende Ressourcen (insbesondere CPU und RAM) verfügt, um die Vereinbarungen zum Servicelevel unter normalen Bedingungen oder bei Spitzenauslastung aufrechtzuerhalten.

Regeln für Crawlerauswirkungen erlauben es Farmadministratoren, die Auswirkungen zu verwalten, wie sich Ihr Crawler auf die gecrawlten Server auswirkt. Für jede Regel für Crawlerauswirkungen können Sie eine einzelne URL angeben oder im URL-Pfad Platzhalterzeichen verwenden, um einen Block von URLs einzuschließen, auf den die Regel angewendet wird. Sie können dann festlegen, wie viele gleichzeitige Anforderungen für Seiten an die angegebene URL ausgeführt werden, oder entscheiden, dass nur ein Dokument zu einem Zeitpunkt angefordert wird und eine Reihe von Sekunden festzulegen, die Sie zwischen Anforderungen gewartet wird.

Regeln für Crawlerauswirkungen verringern oder erhöhen die Rate, mit der der Crawler Inhalt von einer bestimmten Startadresse oder einem Bereich von Startadressen (auch als Websitename bezeichnet) anfordert, unabhängig von der Inhaltsquelle, die zum Crawlen dieser Adressen verwendet wird. Die folgende Tabelle enthält die Platzhalterzeichen, die Sie im Websitenamen verwenden können, wenn Sie eine Regel hinzufügen.

Zu verwendender Platzhalter Ergebnis

* als Websitename

Wendet die Regel auf alle Websites an

*.* als Websitename

Wendet die Regel auf Websites mit Punkten im Namen an.

*.websitename.com als Websitename

Wendet die Regel auf alle Websites in der Domäne websitename.com an (z. B. *.adventure-works.com).

*.Domänenname_der_obersten_Ebene als Websitename

Wendet die Regel auf alle Websites an, die mit einem bestimmten übergeordneten Domänennamen enden, beispielsweise *.com oder *.net.

?

Beispielsweise gilt *.adventure-works?.com für alle Websites in den Domänen adventure-works1.com, adventure-works2.com usw.

Sie können eine Regel für Crawlerauswirkungen für alle Websites innerhalb einer bestimmten übergeordneten Domäne erstellen. Beispielsweise gilt *.com für alle Internetwebsites mit Adressen, die auf .com enden. Beispielsweise könnte der Administrator einer Portalwebsite eine Inhaltsquelle für beispiel.microsoft.com hinzufügen. Die Regel für *.com gilt für diese Website, sofern Sie keine Regel für Crawlerauswirkungen speziell für beispiel.microsoft.com hinzufügen.

Für Inhalt innerhalb der Organisation, der von anderen Administratoren gecrawlt wird, können Sie mit diesen Administratoren die Festlegung von Regeln für Crawlerauswirkungen basierend auf Leistung und Kapazität der Server koordinieren. Für die meisten externen Websites ist diese Koordination nicht möglich. Die Anforderung von zu viel Inhalt auf externen Servern oder die Ausführung zu häufiger Anforderungen kann dazu führen, dass Administratoren dieser Websites Ihren zukünftigen Zugriff beschränken, wenn Ihre Crawlvorgänge zu viele Ressourcen oder zu viel Bandbreite verwenden. Auf diese Weise können Sie das Risiko verringern, den Zugriff zum Crawlen des entsprechenden Inhalts zu verlieren.

Legen Sie bei der ersten Bereitstellung die Regeln für Crawlerauswirkungen so fest, dass die Auswirkungen auf andere Server möglichst gering sind, während weiterhin genug Inhalt häufig genug gecrawlt wird, um die Aktualität des gecrawlten Inhalts sicherzustellen.

Während der Betriebsphase können Sie die Regeln für Crawlerauswirkungen basierend auf Ihren Erfahrungen und Daten aus Crawlprotokollen anpassen.

Planen von Crawlregeln

Crawlregeln gelten für eine bestimmte URL oder eine Gruppe von URLs, die durch Platzhalter dargestellt werden (auch als der von der Regel betroffene Pfad bezeichnet). Sie verwenden Crawlregeln für die folgenden Aktionen:

  • Vermeiden Sie das Crawlen irrelevanten Inhalts, indem eine oder mehrere URLs ausgeschlossen werden. Dadurch werden auch die Verwendung von Serverressourcen und der Netzwerkverkehr reduziert und die Relevanz von Suchergebnissen erhöht.

  • Crawlen Sie Hyperlinks auf die URL ohne die URL selbst zu Crawlen. Diese Option ist nützlich für Websites mit Verknüpfungen relevanten Inhalts, wenn die Seite mit den Links keine relevanten Informationen enthält.

  • Aktivieren Sie das Crawlen komplexer URLs. Mit dieser Option werden URLs gecrawlt, die einen Abfrageparameter mit einem Fragezeichen enthalten. Je nach Website schließen diese URLs möglicherweise relevanten Inhalt ein. Da komplexe URLs häufig auf irrelevante Websites umleiten können, empfiehlt es sich, diese Option nur für Websites zu aktivieren, für die der Inhalt von komplexen URLs als relevant bekannt ist.

  • Aktivieren Sie Inhalt auf SharePoint-Websites so, dass diese als HTTP-Seiten gecrawlt werden. Diese Option ermöglicht es, dass der Indexserver SharePoint-Websites hinter einer Firewall oder in Szenarien crawlt, bei denen die gecrawlte Website den Zugriff auf den von dem Crawler verwendeten Webdienst beschränkt.

  • Geben Sie an, ob das Standardkonto für den Inhaltszugriff, ein anderes Inhaltszugriffskonto oder ein Clientzertifikat zum Crawlen der angegebenen URL verwendet werden soll.

Tipp

Crawlregeln werden gleichzeitig auf alle Inhaltsquellen angewendet.

Häufig ist der größte Teil der Informationen für eine bestimmte Websiteadresse relevant, nicht aber eine bestimmte Unterwebsite oder eine Reihe von Websites unterhalb dieser Websiteadresse. Durch Auswählen einer fokussierten Kombination von URLs, für die Crawlregeln erstellt werden sollen, die nicht benötigte Elemente ausschließen, können Suchdienstadministratoren die Relevanz des Inhalts im Index maximieren, während die Auswirkungen auf die Crawlleistung und die Größe der Suchdatenbanken minimiert werden. Das Erstellen von Crawlregeln zum Ausschließen von URLs ist besonders bei der Planung von Startadressen für externen Inhalt nützlich, für den die Auswirkungen auf die Ressourcenverwendung nicht von Personen in Ihrer Organisation gesteuert wird

Beim Erstellen einer Crawlregel können Sie im Pfad standardmäßige Platzhalterzeichen verwenden. Beispiel:

  • http://server1/ordner* schließt alle Webressourcen mit einer URL ein, die mit http://server1/ordner beginnt.

  • *://*.txt umfasst alle Dokumente mit der Dateinamenerweiterung TXT.

Da das Crawlen von Inhalt Ressourcen und Bandbreite verbraucht, empfiehlt es sich, eine kleinere Menge an Inhalt einzuschließen, dessen Relevanz Ihnen bekannt ist, als eine größere Menge an Inhalt, der möglicherweise irrelevant ist. Nach der anfänglichen Bereitstellung können Sie die Abfrage und die Crawlprotokolle überprüfen sowie Inhaltsquellen und Crawlregeln so anpassen, dass deren Relevanz erhöht wird und weiterer Inhalt eingeschlossen wird.

Angeben eines anderen Inhaltszugriffskontos

Für Crawlregeln, die Inhalt einschließen, haben Administratoren die Möglichkeit, das Konto für den Inhaltszugriff der Regel zu ändern. Das Standardkonto für den Inhaltszugriff wird verwendet, sofern kein anderes Konto in einer Crawlregel angegeben ist. Der Hauptgrund für die Verwendung eines anderen Kontos für den Inhaltszugriff einer Crawlregel besteht darin, dass das Standardkonto für den Inhaltszugriff nicht auf alle Startadressen zugreifen kann. Für diese Startadressen können Sie eine Crawlregel erstellen und ein Konto mit Zugriff angeben.

Tipp

Stellen Sie sicher, dass das Domänenkonto, das für das Standardkonto für den Inhaltszugriff oder ein beliebiges anderes Konto Inhaltszugriff verwendet wird, nicht dasselbe Domänenkonto ist, das von einem Anwendungspool verwendet wird, der einer von Ihnen gecrawlten Anwendung zugeordnet ist. Dadurch wird möglicherweise unveröffentlichter Inhalt auf SharePoint-Websites und kleinere Versionen von Dateien (Verlauf) in SharePoint-Websites gecrawlt und indiziert.

Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

Neben den Einstellungen, die auf der Ebene der Suchverwaltung konfiguriert sind, beeinflussen verschiedene Einstellungen, die auf Farmebene verwaltet werden, wie Inhalt gecrawlt wird. Berücksichtigen Sie beim Planen des Crawlens die folgenden Sucheinstellungen auf Farmebene:

Kontakt-E-Mail-Adresse   Inhaltscrawls haben Auswirkungen auf die Ressourcen der Server, die gecrawlt werden. Bevor Sie Inhalt crawlen können, müssen Sie in den Konfigurationseinstellungen die E-Mail-Adresse der Person Ihrer Organisation bereitstellen, an die sich Administratoren wenden können, wenn der Crawl deren Server nachteilig beeinflusst. Diese E-Mail-Adresse wird in den Protokollen für die Administratoren der gecrawlten Server angezeigt, sodass diese Administratoren jemanden erreichen, wenn die Auswirkungen auf Leistung und Bandbreite zu groß sind oder andere Probleme auftreten.

Die Kontakt-E-Mail-Adresse sollte einer Person gehören, die die erforderlichen Kenntnisse und die Verfügbarkeit besitzt, um auf Anforderungen schnell zu antworten. Alternativ können Sie einen streng überwachten Verteilerlistenalias als Kontakt-E-Mail-Adresse verwenden. Unabhängig davon, ob der Inhalt intern für die Organisation gecrawlt wird oder nicht, ist eine schnelle Antwortzeit wichtig.

Proxyservereinstellungen   Sie können auswählen, ob beim Crawlen von Inhalt ein Proxyserver verwendet werden soll. Der zu verwendende Proxyserver hängt von der Topologie der Search Server 2008-Bereitstellung und der Architektur anderer Server in Ihrer Organisation ab.

  • Timeouteinstellungen   Die Timeouteinstellungen werden zur Begrenzung der Zeit verwendet, die der Suchserver beim Herstellen einer Verbindung zu anderen Diensten wartet.

  • SSL-Einstellung    Die SSL-Einstellung (Secure Sockets Layer) bestimmt, ob das SSL-Zertifikat genau übereinstimmen muss, um Inhalt crawlen zu können.

Indizieren von Inhalten in verschiedenen Sprachen

Beim Crawlen von Inhalt bestimmt der Crawler jedes einzelne Wort im Inhalt, das er findet. Sprachen, in denen Wörter durch Leerzeichen getrennt sind, machen es dem Crawler relativ leicht, die einzelnen Wörter zu unterscheiden. Für andere Sprachen ist die Bestimmung der Wortgrenzen komplexer.

Search Server 2008 bietet standardmäßig Module zur Wörtertrennung und zur Wortstammerkennung, die beim Crawlen und Indizieren von Inhalten in vielen Sprachen hilfreich sind. Worttrennmodule finden Wortgrenzen in indizierten Volltextdaten, Module zur Wortstammerkennung dienen zur Konjugation von Verben.

Wenn Sie eine der Sprachen in der folgenden Tabelle crawlen, werden in Search Server 2008 automatisch die entsprechenden Module zur Wörtertrennung und Wortstammerkennung für diese Sprache verwendet. Ein Sternchen (*) gibt an, dass das Feature zur Wortstammerkennung standardmäßig aktiviert ist.

Standardmäßig unterstützte Sprache Standardmäßig unterstützte Sprache

Arabisch

Litauisch*

Bengali

Malaiisch

Bulgarisch*

Malayalam*

Katalanisch

Marathi

Kroatisch

Norwegisch (Bokmaal)

Tschechisch*

Polnisch*

Dänisch

Portugiesisch

Niederländisch

Portugiesisch (Brasilien)

Englisch

Pandschabisch

Finnisch*

Rumänisch*

Französisch*

Russisch*

Deutsch*

Serbisch (Kyrillisch)*

Griechisch*

Serbisch (Lateinisch)*

Gudscharati

Slowakisch*

Hebräisch

Slowenisch*

Hindi

Spanisch*

Ungarisch*

Schwedisch

Isländisch*

Tamilisch*

Indonesisch

Telugu*

Italienisch

Thailändisch

Japanisch

Türkisch*

Kannada*

Ukrainisch*

Koreanisch

Urdu*

Lettisch*

Vietnamesisch

Wenn der Crawler Inhalte für eine Sprache indiziert, die nicht unterstützt wird, wird die neutrale Wörtertrennung verwendet. Wenn die neutrale Wörtertrennung nicht die erwarteten Ergebnisse liefert, können Sie Lösungen von Drittanbietern versuchen, die mit Search Server 2008 funktionsfähig sind.

Siehe auch

Konzepte

Arbeiten mit Verbunden