Share via


Crawlen von Inhalten (Office SharePoint Server 2007)

Das Crawlen von Inhalt ist der Prozess, durch den ein System zum Erstellen eines Inhaltsindex, mit dem Suchabfragen (als Metadaten bezeichnet) bedient werden können, auf Inhalt und dessen Eigenschaften zugreift und diesen analysiert.

Das Ergebnis des erfolgreichen Crawlens von Inhalt besteht darin, dass einzelne Dateien oder Teile von Inhalt, die Sie für Suchabfragen verfügbar machen möchten, vom Crawler aufgerufen und gelesen werden. Die Schlüsselwörter und Metadaten für diese Dateien werden in den Inhaltsindex, auch als Index bezeichnet, gespeichert. Der Index besteht aus den Schlüsselwörtern, die im Dateisystem des Indexservers gespeichert sind, und den in der Suchdatenbank gespeicherten Metadaten. Das System verwaltet eine Zuordnung zwischen den Schlüsselwörtern, den Metadaten, die den einzelnen Inhaltsbestandteilen zugeordnet sind, und der URL der Quelle, von der aus der Inhalt gecrawlt wurde.

Hinweis

Der Crawler ändert die Dateien auf den Hostservern in keiner Weise. Stattdessen wird auf die Dateien auf dem Hostserver zugegriffen, die Dateien werden gelesen, und Text und Metadaten für diese Dateien werden zum Indizieren an den Indexserver gesendet. Da der Crawler den Inhalt jedoch auf dem Hostserver liest, aktualisieren einige Server, die bestimmte Inhaltsquellen hosten, möglicherweise das Datum des letzten Zugriffs auf Dateien, die gecrawlt wurden.

Bestimmen des Zeitpunkts für das Crawlen der Inhalte

Nachdem eine Serverfarm bereitgestellt und für einige Zeit ausgeführt wurde, muss ein Suchdienstadministrator normalerweise den Crawlzeitplan ändern. Dies muss aus folgenden Gründen geschehen:

  • Ausgleich von Änderungen bei Downtimes und Spitzenauslastungszeiten

  • Ausgleich von Änderungen bei der Häufigkeit, mit der Inhalte auf den Hostservern aktualisiert werden.

  • Planen von Crawls, um Folgendes zu erreichen:

    • Inhalte auf langsameren Hostservern werden separat von Inhalten auf schnelleren Hostservern gecrawlt.

    • Neue Inhaltsquellen werden gecrawlt.

    • Crawls treten so oft auf, wie die betreffenden Inhalte aktualisiert werden. Beispielsweise sollten Sie auf täglich aktualisierten Repositorys täglich Crawlvorgänge ausführen und Repositorys, die selten aktualisiert werden, seltener crawlen.

Ausführen von Crawls

Normalerweise werden Sie die meisten Crawlvorgänge automatisieren, indem Sie sie planen. Allerdings müssen Sie manchmal einen Crawl manuell starten. Beispielsweise könnten Sie einen Crawl starten, um administrative Änderungen wie Crawlregeln auf die gecrawlten und indizierten Inhalte anzuwenden oder um zu bestimmen, ob ein Fehler im Crawlprotokoll aufgelöst wurde.

Darüber hinaus kann es unabhängig davon, ob ein Crawl manuell oder nach einem Zeitplan gestartet wurde, notwendig sein, Crawls zu beenden oder anzuhalten. Beispielsweise könnte ein Administrator, auf dessen Server der gecrawlte Inhalt gehostet wird, Ihnen mitteilen, dass der Crawl den Server überlastet, oder Sie könnten eine Benachrichtigung erhalten, dass der gecrawlte Server derzeit offline ist. In all diesen Fällen müssen Sie den Crawl beenden oder anhalten.

Denken Sie daran, dass für die Ausführung eines vollständigen Crawls mehr Zeit und mehr Serverressourcen beansprucht werden als für einen inkrementellen Crawl. Vollständige Crawls wirken sich wie folgt aus:

  • Sie beanspruchen mehr Arbeitsspeicher und mehr CPU-Zyklen auf dem Indexserver als inkrementelle Crawls.

  • Sie beanspruchen mehr Arbeitsspeicher und mehr CPU-Zyklen auf den Front-End-Webservern, wenn Inhalt in Ihrer Serverfarm gecrawlt wird. Dies trifft nicht zu, wenn Inhalt gecrawlt wird, der außerhalb Ihrer Serverfarm vorhanden ist.

  • Sie beanspruchen mehr Netzwerkbandbreite als inkrementelle Crawls.

Wichtig

Wenn Sie den Crawl einer Inhaltsquelle beenden, führt Microsoft Office SharePoint Server 2007 beim nächsten Crawlen dieser Inhaltsquelle automatisch einen vollständigen Crawl aus. Dies geschieht auch dann, wenn Sie versuchen, einen inkrementellen Crawl auszuführen. Überlegen Sie deshalb gründlich, ob es nicht vorteilhafter ist, einen Crawl zu unterbrechen, anstatt ihn zu beenden.

Auf der anderen Seite müssen Sie auch vermeiden, Crawls für zu viele Inhaltsquellen gleichzeitig zu unterbrechen, da jede Inhaltsquelle, deren Crawl unterbrochen wird, Arbeitsspeicher und CPU-Ressourcen auf dem Indexserver beansprucht.

Führen Sie eines der folgenden Verfahren durch, um einen vollständigen oder inkrementellen Crawl zu starten oder einen Crawl anzuhalten, zu unterbrechen oder fortzusetzen:

Planen von Crawls

Die folgenden Abschnitte enthalten weitere Informationen zu Überlegungen für das Crawlen von Inhalten nach einem Zeitplan.

Downtimes und Spitzenauslastungszeiten

Berücksichtigen Sie Downtimes und Spitzenauslastungszeiten der Server, auf denen der zu crawlende Inhalt gehostet wird. Wenn Sie beispielsweise Inhalt crawlen, der auf vielen verschiedenen Servern außerhalb der Serverfarm gehostet wird, ist es wahrscheinlich, dass diese Server mit unterschiedlichen Zeitplänen gesichert werden und unterschiedliche Spitzenauslastungszeiten haben. Die Verwaltung von Servern außerhalb der Serverfarm unterliegt normalerweise nicht Ihrer Kontrolle. Daher empfiehlt es sich, dass Sie die Crawlvorgänge mit den Administratoren der Server koordinieren, auf denen der Inhalt, den Sie crawlen möchten, gehostet wird. Damit stellen Sie sicher, dass Sie nicht versuchen, Inhalt auf den Servern zu Downtimes oder Spitzenauslastungszeiten zu crawlen.

Hinweis

Da sich die Spitzenauslastungszeiten und Downtimes für Hostserver ändern können, sollten Sie regelmäßig die Crawlzeitpläne für alle Inhaltsquellen erneut auswerten, nicht nur für die neu erstellten.

Ein häufiges Szenario umfasst Inhalt außerhalb der Kontrolle Ihrer Organisation, der sich auf Inhalt Ihrer SharePoint-Websites bezieht. Sie können die Startadressen für diesen Inhalt einer vorhandenen Inhaltsquelle hinzufügen oder eine neue Inhaltsquelle für externen Inhalt erstellen. Da die Verfügbarkeit von externen Websites stark variiert, ist es hilfreich, separate Inhaltsquellen für unterschiedlichen externen Inhalt hinzuzufügen. Auf diese Weise können die Inhaltsquellen für externen Inhalt zu anderen Zeitpunkten als die übrigen Inhaltsquellen gecrawlt werden. Sie können externen Inhalt mit einem Crawlzeitplan aktualisieren, der die Verfügbarkeit jeder Website berücksichtigt.

Häufig aktualisierter Inhalt

Berücksichtigen Sie bei der Planung von Crawlzeitplänen, dass einige Inhaltsquellen häufiger als andere aktualisiert werden. Angenommen, Sie wissen, dass der Inhalt einiger Websitesammlungen oder externer Quellen nur freitags aktualisiert wird, so ist es Ressourcenverschwendung, diesen Inhalt häufiger als einmal wöchentlich zu crawlen. Allerdings kann die Serverfarm möglicherweise andere Websitesammlungen enthalten, die montags bis freitags ständig aktualisiert werden, normalerweise aber nicht an Samstagen und Sonntagen. In diesem Fall möchten Sie diese Websites während der Woche möglicherweise täglich mehrmals crawlen, aber an Wochenenden gar nicht.

Die Art, auf die Inhalt in den Websitesammlungen gespeichert wird, kann Sie zur Erstellung zusätzlicher Inhaltsquellen für jede Ihrer Websitesammlungen in allen Ihren Webanwendungen führen. Wenn in einer Websitesammlung beispielsweise nur archivierte Informationen gespeichert sind, müssen Sie diesen Inhalt möglicherweise nicht so häufig crawlen wie eine Websitesammlung, in der häufig aktualisierter Inhalt gespeichert ist. In diesem Fall empfiehlt es sich möglicherweise, diese zwei Websitesammlungen mit verschiedenen Inhaltsquellen zu crawlen, sodass diese mit unterschiedlichen Zeitplänen gecrawlt werden.

Vollständige und inkrementelle Crawlzeitpläne

Als Suchdienstadministrator können Sie für jede Inhaltsquelle unabhängig Crawlzeitpläne konfigurieren. Für jede Inhaltsquelle können Sie einen Zeitpunkt für vollständige Crawls und einen anderen Zeitpunkt für inkrementelle Crawls angeben.

Hinweis

Sie müssen einen vollständigen Crawl für eine bestimmte Inhaltsquelle ausführen, bevor Sie einen inkrementellen Crawl ausführen können.

Es wird empfohlen, Crawlzeitpläne auf Grundlage von Verfügbarkeit, Leistung und Bandbreite der Server, auf denen der Suchdienst ausgeführt wird, sowie der Server zu planen, auf denen der zu crawlende Inhalt gehostet wird.

Berücksichtigen Sie bei der Planung von Crawlzeitplänen die folgenden bewährten Methoden:

  • Gruppieren Sie Startadressen in Inhaltsquellen basierend auf ähnlicher Verfügbarkeit und mit akzeptabler Gesamtverwendung der Ressourcen für die Server, auf denen der Inhalt gehostet wird.

  • Planen Sie inkrementelle Crawls für die einzelnen Inhaltsquellen zu Zeiten, in denen die Server, die die Inhalte hosten, verfügbar sind und die Serverressourcen nur wenig beansprucht werden. Sie können auch Crawlerauswirkungsregeln hinzufügen oder bearbeiten, um die Last auf den gecrawlten Servern zu reduzieren. Weitere Informationen zu Crawlerauswirkungsregeln finden Sie unter Verwalten von Crawlerauswirkungen (Office SharePoint Server 2007).

  • Staffeln Sie Crawlzeitpläne, sodass die Belastung der Server in der Serverfarm über einen Zeitraum verteilt wird.

  • Planen Sie vollständige Crawls nur, wenn Gründe vorliegen, die im nächsten Abschnitt aufgeführt sind. Es wird empfohlen, dass Sie vollständige Crawlvorgänge seltener als inkrementelle Crawls vornehmen.

  • Planen Sie die Ausführung von Verwaltungsänderungen, die einen vollständigen Crawlvorgang erfordern, kurz vor dem geplanten Zeitpunkt für vollständigen Crawls. Es empfiehlt sich beispielsweise, die Erstellung der Crawlregel vor dem nächsten geplanten vollständigen Crawlvorgang vorzunehmen, sodass kein zusätzlicher vollständiger Crawl erforderlich ist.

  • Berücksichtigen Sie bei der Planung gleichzeitiger Crawlvorgänge die Kapazität des betreffenden Indexservers. Es wird empfohlen, dass Sie Ihre Crawlzeitpläne so staffeln, dass der Indexserver nicht auf einmal mit mehreren Inhaltsquellen crawlt. Die Leistung des Indexservers und der Server, die die Inhalte hosten, bestimmt, in welchem Umfang Crawlvorgänge zeitlich überlappen dürfen. Sie können nach und nach eine Strategie für Crawlzeitpläne entwickeln, wenn Sie mit dem typischen Zeitaufwand für das Crawlen der einzelnen Inhaltsquellen vertraut sind. Es ist empfehlenswert, Trenddaten über die Dauer von Crawls in Ihrer Umgebung aufzuzeichnen.

Gründe für einen vollständigen Crawl

Suchdienstadministratoren können aus den folgenden Gründen einen vollständigen Crawl ausführen:

  • Auf Servern in der Farm wurde mindestens ein Hotfix oder Service Pack installiert. Weitere Informationen finden Sie in den Anweisungen für den Hotfix oder das Service Pack.

  • Ein SSP-Administrator hat eine neue verwaltete Eigenschaft hinzugefügt.

  • Erneute Indizierung von ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites

    Hinweis

    Der Crawler kann nicht ermitteln, wann ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites geändert wurden. Daher wird bei inkrementellen Crawls keine erneute Indizierung von Ansichten oder Homepages vorgenommen wenn einzelne Listenelemente gelöscht werden. Es wird empfohlen, dass Sie regelmäßig vollständige Crawlvorgänge von Websites vornehmen, die ASPX-Dateien enthalten, um sicherzustellen, dass diese Seiten erneut indiziert werden.

  • Zur Ermittlung von Änderungen der Sicherheit, die auf Dateifreigaben nach dem letzten vollständigen Crawl der Dateifreigabe vorgenommen wurden

  • Zur Behebung von Fehlern bei aufeinander folgenden inkrementellen Crawls. Tritt bei einem inkrementellen Crawl einhundert Mal in Folge auf einer beliebigen Ebene eines Repositorys ein Fehler auf, entfernt der Indexserver in seltenen Fällen den betroffenen Inhalt aus dem Index.

  • Es wurden Crawlregeln hinzugefügt, gelöscht oder geändert.

  • Zum Reparieren eines beschädigten Index

  • Der Suchdienstadministrator hat mindestens eine Servernamenszuordnung erstellt.

  • Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.

Unter folgenden Bedingungen wird vom System ein vollständiger Crawlvorgang ausgeführt, auch wenn ein inkrementeller Crawl angefordert wird:

  • Ein SSP-Administrator hat den vorherigen Crawl angehalten.

  • Eine Inhaltsdatenbank wurde aus einer Sicherung wiederhergestellt.

    Hinweis

    Wenn Sie das Infrastrukturaktualisierung für Microsoft Office Server ausführen, können Sie den restore-Vorgang des Befehlszeilentools stsadm verwenden, um zu ändern, ob durch die Wiederherstellung einer Inhaltsdatenbank ein vollständiger Crawl verursacht wird.

  • Ein Farmadministrator hat eine Inhaltsdatenbank getrennt und erneut angefügt.

  • Ein vollständiger Crawlvorgang der Website wurde niemals vorgenommen.

  • Das Änderungsprotokoll enthält keine Einträge für die Adressen, die gecrawlt werden. Ohne Einträge im Änderungsprotokoll für die gecrawlten Elemente können keine inkrementellen Crawls erfolgen.

  • Das Konto, das dem Standardkonto für den Inhaltszugriff oder der Crawlregel zugewiesen ist, wurde geändert.

  • Zum Reparieren eines beschädigten Index

    Je nach Schweregrad der Beschädigung versucht das System möglicherweise, einen vollständigen Crawlvorgang auszuführen, wenn eine Beschädigung im Index erkannt wird.

Sie können Zeitpläne nach der anfänglichen Bereitstellung auf Grundlage von Leistung und Kapazität der Server in der Farm und den Servern, die den Inhalt hosten, anpassen.

Siehe auch

Konzepte

Crawlen von Inhalten (Office SharePoint Server 2007)
Planen eines vollständigen Crawls (Office SharePoint Server 2007)
Planen eines inkrementellen Crawls (Office SharePoint Server 2007)