Planen der Durchforstung und der Sammelsuche (Search Server 2010)

 

Gilt für: Search Server 2010

Letztes Änderungsdatum des Themas: 2016-11-30

Bevor Endbenutzer die Funktion für Unternehmenssuche in Microsoft Search Server 2010 verwenden können, müssen Sie die Inhalte, die Sie Benutzern zum Durchsuchen zur Verfügung stellen möchten, durchforsten oder für die Sammelsuche einbinden. Die Planung der Durchforstung oder der Einbindung für die Sammelsuche umfasst die folgenden Aufgaben:

  • Planen von Inhaltsquellen

  • Planen von eingeschlossenen Dateitypen und IFilters

  • Planen der Authentifizierung

  • Planen von Konnektoren

  • Planen der Steuerung der Auswirkungen der Durchforstung

  • Planen von Durchforstungsregeln

  • Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

  • Planen der Sammelsuche

Planen von Inhaltsquellen

Eine Inhaltsquelle ist ein Satz von Optionen, mit denen Sie festlegen können, welche Typen von Inhalten und welche URLs wie tief und zu welchen Zeitpunkten durchforstet werden sollen. Die Standardinhaltsquelle ist Lokale SharePoint-Websites. Sie können mithilfe dieser Inhaltsquelle angeben, wie alle Inhalte in allen Webanwendungen, die einer bestimmten Suchdienstanwendung zugeordnet sind, durchforstet werden sollen. Standardmäßig fügt Search Server 2010 für jede Webanwendung, die eine bestimmte Suchdienstanwendung verwendet, die Startadresse der Website auf oberster Ebene jeder Websitesammlung zur Standardinhaltsquelle hinzu.

Die Standardinhaltsquelle ist für die Suchanforderungen mancher Organisationen ausreichend. Viele Organisationen müssen jedoch weitere Inhaltsquellen hinzufügen. Planen Sie zusätzliche Inhaltsquellen, wenn in Ihrer Organisation Folgendes erforderlich ist:

  • Durchforsten von unterschiedlichen Inhaltstypen, z. B. SharePoint-Websites, Dateifreigaben und Geschäftsdaten

  • Durchforsten bestimmter Inhalte nach anderen Zeitplänen als andere Inhalte

  • Einschränken oder Ausweiten der zu durchforstenden Menge von Inhalten

  • Festlegen unterschiedlicher Prioritäten für die Durchforstung unterschiedlicher Websites

Sie können bis zu 500 Inhaltsquellen in jeder Suchdienstanwendung erstellen, und jede Inhaltsquelle kann 500 Startadressen enthalten. Im Sinne einer möglichst einfachen Verwaltung empfiehlt es sich, die Anzahl der Inhaltsquellen, die Sie erstellen, zu beschränken.

Planen der Durchforstung unterschiedlicher Arten von Inhalten

Sie können pro Inhaltsquelle nur einen Typ von Inhalten durchforsten. Das heißt, Sie können eine Inhaltsquelle erstellen, die Startadressen für SharePoint-Websites enthält, und eine andere Inhaltsquelle, die Startadressen für Dateifreigaben enthält. Dagegen ist es nicht möglich, eine einzige Inhaltsquelle zu erstellen, die Startadressen sowohl für SharePoint-Websites als auch für Dateifreigaben enthält. Im Folgenden eine Tabelle der Typen von Inhaltsquellen, die Sie konfigurieren können.

Verwenden Sie diesen Typ Inhaltsquelle ... ... für diesen Inhalt

SharePoint-Websites

SharePoint-Websites aus der gleichen Farm oder aus verschiedenen Microsoft SharePoint Server 2010-, Microsoft SharePoint Foundation 2010- oder Microsoft Search Server 2010-Farmen

SharePoint-Websites aus der gleichen Farm oder aus verschiedenen Microsoft Office SharePoint Server 2007-, Windows SharePoint Services 3,0- oder Microsoft Search Server 2010-Farmen

SharePoint-Websites aus Microsoft Office SharePoint Portal Server 2003- oder Windows SharePoint Services 2.0-Farmen

Hinweis

Anders als beim Durchforsten von SharePoint-Websites in SharePoint Server 2010, SharePoint Foundation 2010 oder Search Server 2010 kann der Crawler nicht automatisch alle Unterwebsites in einer Websitesammlung aus früheren Versionen der SharePoint-Produkte und -Technologien durchforsten. Daher müssen Sie beim Durchforsten von SharePoint-Websites aus früheren Versionen die Startadresse jeder Website auf oberster Ebene und die URL jeder zu durchforstenden Unterwebsite angeben.

Websites

Andere Webinhalte in Ihrer Organisation, die sich nicht auf SharePoint-Websites befinden

Inhalte auf Websites im Internet

Dateifreigaben

Inhalte in Dateifreigaben in Ihrer Organisation

Öffentliche Exchange-Ordner

Microsoft Exchange Server-Inhalte

Lotus Notes

In Lotus Notes-Datenbanken gespeicherte E-Mail-Nachrichten

Hinweis

Im Gegensatz zu allen anderen Typen von Inhaltsquellen wird die Option für Lotus Notes-Inhaltsquellen erst auf der Benutzeroberfläche angezeigt, nachdem Sie die erforderliche Software installiert und konfiguriert haben. Weitere Informationen finden Sie unter Konfigurieren und Verwenden des Lotus Notes-Connectors (Search Server 2010).

Geschäftsdaten

Geschäftsdaten, die in Branchenanwendungen gespeichert sind

Planen von Inhaltsquellen für Geschäftsdaten

Für Inhaltsquellen für Geschäftsdaten ist es erforderlich, dass die Anwendungen, von denen die Daten gehostet werden, in einem Anwendungsmodell in einer Business Data Connectivity-Dienstanwendung angegeben sind. Sie können eine einzige Inhaltsquelle erstellen, um alle im Business Data Connectivity-Dienst registrierten Anwendungen zu durchforsten, oder Sie erstellen separate Inhaltsquellen zum Durchforsten einzelner Anwendungen.

Oft sind die Mitarbeiter, die die Integration von Geschäftsdaten in Websitesammlungen planen, nicht in den übergeordneten Prozess der Planung von Inhalten eingebunden. Binden Sie deshalb unbedingt Administratoren von Geschäftsanwendungen in die Inhaltsplanungsteams ein, damit diese Sie dahin gehend beraten können, wie die Geschäftsanwendungsdaten in Inhalte integriert und wirkungsvoll in Websitesammlungen präsentiert werden können.

Durchforsten von Inhalten nach unterschiedlichen Zeitplänen

Sie müssen entscheiden, ob bestimmte Inhalte häufiger durchforstet werden sollen als andere. Je größer das Volumen der durchforsteten Inhalte, desto wahrscheinlicher ist es, dass Sie Inhalte aus unterschiedlichen Inhaltsrepositorys durchforsten. Die Inhalte sind möglicherweise nicht vom selben Typ und u. U. auf Servern mit unterschiedlichen Kapazitäten gespeichert. Diese Faktoren machen es wahrscheinlicher, dass Sie Inhaltsquellen hinzufügen müssen, um die verschiedenen Inhaltsrepositorys nach unterschiedlichen Zeitplänen durchforsten zu können.

Die Hauptgründe dafür, dass Inhalte nach unterschiedlichen Zeitplänen durchforstet werden, sind folgende:

  • Downtime und Spitzenauslastungszeiten sollen berücksichtigt werden.

  • Inhalte, die häufiger aktualisiert werden, sollen öfter durchforstet werden.

  • Inhalte, die auf langsameren Servern gespeichert sind, sollen getrennt von Inhalten auf schnelleren Servern durchforstet werden.

Oft ist die Gesamtheit dieser Informationen erst bekannt, nachdem Search Server 2010 bereitgestellt und eine gewisse Zeit lang betrieben worden ist. In diesen Fällen müssen Sie Durchforstungszeitpläne festlegen, nachdem die Farm in Produktion gegangen ist. Dennoch empfiehlt es sich, diese Faktoren bereits im Vorfeld zu berücksichtigen, damit Sie Durchforstungszeitpläne auf der Grundlage der vorhandenen Informationen planen können.

In den folgenden beiden Abschnitten erhalten Sie ausführlichere Informationen zum Durchforsten von Inhalten nach unterschiedlichen Zeitplänen.

Überlegungen zur Planung von Durchforstungszeitplänen

Sie können Durchforstungszeitpläne für jede Inhaltsquelle einzeln konfigurieren. Dabei können Sie für jede Inhaltsquelle eine Zeit zur Ausführung von vollständigen Durchforstungen und eine andere Zeit zur Ausführung von inkrementellen Durchforstungen angeben. Beachten Sie, dass Sie für eine bestimmte Inhaltsquelle eine vollständige Durchforstung ausführen müssen, bevor Sie eine inkrementelle Durchforstung ausführen können. Selbst wenn Sie für Inhalte, die noch nicht durchforstet wurden, eine inkrementelle Durchforstung festlegen, wird vom System eine vollständige Durchforstung ausgeführt.

Hinweis

Da bei einer vollständigen Durchforstung alle Inhalte durchforstet werden, die der Crawler findet und auf die er mindestens Lesezugriff hat, und zwar unabhängig davon, ob diese Inhalte zuvor bereits durchforstet wurden, können vollständige Durchforstungen deutlich mehr Zeit beanspruchen als inkrementelle Durchforstungen.

Es ist ratsam, Durchforstungszeitpläne basierend auf der Verfügbarkeit, Leistung und Bandbreite der Durchforstungs- und Abfrageserver zu planen.

Berücksichtigen Sie beim Planen von Durchforstungszeitplänen die folgenden bewährten Methoden:

  • Gruppieren Sie Startadressen in Inhaltsquellen nach vergleichbarer Verfügbarkeit und unter dem Gesichtspunkt einer annehmbaren allgemeinen Ressourcenauslastung für die Server, auf denen die Inhalte gehostet werden.

  • Terminieren Sie inkrementelle Durchforstungen für jede Inhaltsquelle auf Zeiten, in denen die Server, von denen die Inhalte gehostet werden, verfügbar sind und die Ressourcen des Servers nur wenig beansprucht werden.

  • Staffeln Sie Durchforstungszeitpläne, sodass die Last auf den Servern in der Farm zeitlich verteilt ist.

  • Terminieren Sie vollständige Durchforstungen nur, wenn dies aus den Gründen erforderlich ist, die im nächsten Abschnitt beschrieben werden. Es wird empfohlen, vollständige Durchforstungen weniger häufig als inkrementelle Durchforstungen auszuführen.

  • Terminieren Sie administrative Änderungen, die einer vollständigen Durchforstung bedürfen, auf einen Zeitpunkt kurz vor dem geplanten Termin für vollständige Durchforstungen. So empfiehlt es sich beispielsweise, die Erstellung der Durchforstungsregel auf einen Zeitpunkt vor der nächsten geplanten vollständigen Durchforstung zu terminieren, sodass keine zusätzliche vollständige Durchforstung erforderlich ist.

  • Planen Sie gleichzeitige Durchforstungen auf der Grundlage der verfügbaren Kapazität. Im Sinne der Leistungsoptimierung ist es ratsam, die Durchforstungszeitpläne von Inhaltsquellen zu staffeln. Im Laufe der Zeit werden Sie die typische Durchforstungsdauer für die einzelnen Inhaltsquellen herausfinden und können die Durchforstungszeitpläne nach und nach entsprechend optimieren.

Gründe für eine vollständige Durchforstung

Aus folgenden Gründen kann ein Administrator einer Suchdienstanwendung festlegen, dass eine vollständige Durchforstung ausgeführt wird:

  • Ein Softwareupdate oder Service Pack wurde auf Servern in der Farm installiert. Weitere Informationen finden Sie in den Anleitungen zu dem betreffenden Softwareupdate oder Service Pack.

  • Ein Administrator von gemeinsamen Diensten in Microsoft Office SharePoint Server 2007 oder ein Administrator einer Search Server 2010-Suchdienstanwendung hat eine neue verwaltete Eigenschaft hinzugefügt. Eine vollständige Durchforstung ist erforderlich, damit die neue verwaltete Eigenschaft sofort wirksam wird. Soll die neue verwaltete Eigenschaft nicht sofort wirksam werden, ist keine vollständige Durchforstung notwendig.

  • Sie möchten die ASPX-Seiten auf Windows SharePoint Services 3,0- oder Microsoft Office SharePoint Server 2007-Websites neu indizieren.

    Hinweis

    Der Crawler kann nicht erkennen, wann ASPX-Seiten auf Windows SharePoint Services 3,0- oder Office SharePoint Server 2007-Websites sich geändert haben. Daher werden durch eine inkrementelle Durchforstung Ansichten oder Homepages nicht neu indiziert, wenn einzelne Listenelemente gelöscht wurden. Es wird empfohlen, in regelmäßigen Abständen eine vollständige Durchforstung von Websites auszuführen, die ASPX-Dateien enthalten, um sicherzustellen, dass diese Seiten neu indiziert werden.

  • Sie möchten Änderungen der Sicherheit herausfinden, die nach der letzten vollständigen Durchforstung einer Dateifreigabe auf dieser Dateifreigabe vorgenommen wurden.

  • Sie möchten aufeinander folgende Fehler bei inkrementellen Durchforstungen beheben. Wenn bei einer inkrementellen Durchforstung einhundert Mal in Folge ein Fehler auf beliebiger Ebene in einem Repository auftritt, entfernt das System die betroffenen Inhalte aus dem Index.

  • Durchforstungsregeln wurden hinzugefügt, gelöscht oder geändert.

  • Sie möchten einen beschädigten Index reparieren.

  • Der Administrator der Suchdienstanwendung hat eine oder mehrere Servernamenzuordnungen erstellt.

  • Die Anmeldeinformationen für das Benutzerkonto, das dem Standardkonto für den Inhaltszugriff oder einer Durchforstungsregel zugeordnet ist, haben sich geändert.

Vom System wird unter folgenden Umständen eine vollständige Durchforstung ausgeführt, auch wenn eine inkrementelle Durchforstung angefordert wird:

  • Ein Suchadministrator hat die vorherige Durchforstung angehalten.

  • Eine Inhaltsdatenbank wurde wiederhergestellt, oder ein Farmadministrator hat eine Inhaltsdatenbank getrennt und dann erneut angefügt.

    Hinweis

    Wenn Sie Office SharePoint Server 2007 mit dem Infrastrukturupdate für Microsoft Office Server oder mit Search Server 2010 ausführen, können Sie mithilfe des restore-Vorgangs des Befehlszeilentools Stsadm festlegen, ob die Wiederherstellung einer Inhaltsdatenbank eine vollständige Durchforstung auslöst.

  • Von dieser Suchdienstanwendung aus wurde noch nie eine vollständige Durchforstung der Website ausgeführt.

  • Das Änderungsprotokoll enthält keine Einträge für die zu durchforstenden Adressen. Ohne Einträge im Änderungsprotokoll für die zu durchforstenden Elemente können keine inkrementellen Durchforstungen ausgeführt werden.

Nach der ersten Bereitstellung können Sie die Zeitpläne entsprechend der Leistung und Kapazität der Server in der Farm und der Server, von denen die Inhalte gehostet werden, anpassen.

Einschränken oder Ausweiten der zu durchforstenden Menge von Inhalten

Sie können für jede Inhaltsquelle angeben, wie tief gehend die Startadressen durchforstet werden. Durch Ändern der Durchforstungseinstellungen können Sie zudem das Verhalten der Durchforstung festlegen. Welche Optionen für eine bestimmte Inhaltsquelle verfügbar sind, hängt vom ausgewählten Inhaltsquellentyp ab. Allerdings wird mit den meisten Durchforstungsoptionen angegeben, wie viele Ebenen tief von jeder Startadresse aus die Inhalte durchforstet werden sollen. Beachten Sie, dass das festgelegte Verhalten für alle Startadressen in einer bestimmten Inhaltsquelle gilt. Sollen manche Websites noch tiefer durchforstet werden, können Sie zusätzliche Inhaltsquellen erstellen, die diese Websites enthalten.

Sie können mithilfe der Optionen für die Durchforstungseinstellungen die Menge der zu durchforstenden Inhalte beschränken oder vergrößern. Welche Optionen in den Eigenschaften für die einzelnen Inhaltsquellen verfügbar sind, hängt vom ausgewählten Inhaltsquellentyp ab. In der folgenden Tabelle werden bewährte Methoden beim Konfigurieren der Optionen für die Durchforstungseinstellungen erklärt.

Vorgesehene Inhaltsquelle Situation Geeignete Option für die Durchforstungseinstellungen

SharePoint-Websites

Sie möchten die Inhalte einbeziehen, die sich auf der Website selbst befinden, Inhalte auf Unterwebsites sollen jedoch ausgeschlossen werden oder nach einem anderen Zeitplan durchforstet werden.

Nur die SharePoint-Website für jede Startadresse durchforsten

SharePoint-Websites

Sie möchten die Inhalte auf der Website selbst einbeziehen.

– oder –

Sie möchten alle Inhalte unter der Startadresse nach dem gleichen Zeitplan durchforsten.

Alle Websites unter dem Hostnamen für jede Startadresse durchforsten

Websites

Inhalte, die auf verknüpften Websites verfügbar sind, sind wahrscheinlich nicht relevant.

Nur innerhalb des Servers jeder Startadresse durchforsten

Websites

Relevante Inhalte befinden sich nur auf der ersten Seite.

Nur die erste Seite jeder Startadresse durchforsten

Websites

Sie möchten die Tiefe der Durchforstung der Links unter den Startadressen beschränken.

Benutzerdefiniert – Geben Sie die Seitentiefe und die Serverwechsel an

Hinweis

Für eine Website mit vielfachen Verbindungen empfiehlt es sich, mit einer kleinen Anzahl zu beginnen; wenn Sie mehr als drei Seiten Tiefe oder mehr als drei Serverwechsel angeben, kann es sein, dass das gesamte Internet durchforstet wird.

Dateifreigaben

Öffentliche Exchange-Ordner

Inhalte, die in den Unterordnern verfügbar sind, sind wahrscheinlich nicht relevant.

Nur den Ordner jeder Startadresse durchforsten

Dateifreigaben

Öffentliche Exchange-Ordner

Inhalte, die in den Unterordnern verfügbar sind, sind wahrscheinlich relevant.

Den Ordner und alle Unterordner jeder Startadresse durchforsten

Geschäftsdaten

Alle Anwendungen, die im BDC-Metadatenspeicher registriert sind, enthalten relevante Inhalte.

Den gesamten BDC-Metadatenspeicher durchforsten

Geschäftsdaten

Nicht alle Anwendungen, die im BDC-Metadatenspeicher registriert sind, enthalten relevante Inhalte.

– oder –

Bestimmte Anwendungen sollen nach einem anderen Zeitplan durchforstet werden.

Ausgewählte Anwendungen durchforsten

Weitere Überlegungen zur Planung von Inhaltsquellen

Es ist nicht möglich, die gleichen Startadressen zu durchforsten, indem Sie mehrere Inhaltsquellen in der gleichen Suchdienstanwendung verwenden. Wenn Sie beispielsweise eine bestimmte Inhaltsquelle verwenden, um eine Websitesammlung und alle ihre Unterwebsites zu durchforsten, können Sie nicht eine andere Inhaltsquelle verwenden, um eine dieser Unterwebsites gesondert nach einem anderen Zeitplan zu durchforsten.

Neben Durchforstungsregeln sollten Sie bei Ihrer Entscheidung, ob Startadressen in einer einzigen Inhaltsquelle gruppiert oder zusätzliche Inhaltsquellen erstellt werden sollen, vor allem administrative Aspekte berücksichtigen. Administratoren führen häufig Änderungen durch, mit denen eine bestimmte Inhaltsquelle aktualisiert wird. Wird eine Inhaltsquelle geändert, so macht dies eine vollständige Durchforstung des Inhaltsrepositorys erforderlich, das in dieser Inhaltsquelle angegeben ist. Zur Vereinfachung der Administration organisieren Sie daher Inhaltsquellen am besten so, dass es den Administratoren das Aktualisieren von Inhaltsquellen, Durchforstungsregeln und Durchforstungszeitplänen möglichst einfach macht.

Planen von eingeschlossenen Dateitypen und IFilters

Inhalte werden nur durchforstet, wenn die betreffende Dateinamenerweiterung in der Liste der eingeschlossenen Dateitypen enthalten ist und ein IFilter auf dem Durchforstungsserver installiert ist, der diese Dateitypen unterstützt. Während der Erstinstallation werden eine Reihe von Dateitypen und IFilters automatisch eingeschlossen. Finden Sie bei der Planung der Inhaltsquellen für die erste Bereitstellung heraus, ob Inhalte, die durchforstet werden sollen, Dateitypen verwenden, die nicht eingeschlossen sind. Dateitypen, die nicht eingeschlossen sind, müssen Sie während der Bereitstellung auf der Seite Dateitypen verwalten hinzufügen. Außerdem müssen Sie sicherstellen, dass ein IFilter, der diesen Dateityp unterstützt, installiert und registriert ist.

Wenn Sie bestimmte Dateitypen von der Durchforstung ausschließen möchten, löschen Sie die zugehörigen Dateinamenerweiterungen aus der Liste der eingeschlossenen Dateitypen. Dadurch werden Dateinamen mit diesen Erweiterungen von der Durchforstung ausgenommen. Eine Liste der standardmäßig installierten Dateitypen und IFilters finden Sie unter Dateitypen und IFilters (Referenz) (Search Server 2010).

Planen der Authentifizierung

Wenn der Crawler auf die in den Inhaltsquellen aufgelisteten Startadressen zugreift, muss er von den Servern, auf denen diese Inhalte gehostet werden, authentifiziert werden Zugriff auf diese Server erhalten. Das bedeutet, dass das Domänenkonto, das vom Crawler verwendet wird, mindestens Leseberechtigungen für die Inhalte benötigt.

Standardmäßig wird vom System das Standardkonto für den Inhaltszugriff verwendet. Alternativ dazu können Sie anhand von Durchforstungsregeln ein anderes Konto für den Inhaltszugriff angeben, das zum Durchforsten bestimmter Inhalte verwendet werden soll. Ob Sie das Standardkonto für den Inhaltszugriff oder ein anderes, durch eine Durchforstungsregel angegebenes Konto für den Inhaltszugriff nutzen, das verwendete Konto für den Inhaltszugriff benötigt immer Leseberechtigungen für alle Inhalte, die durchforstet werden sollen. Ist dies nicht der Fall, werden die Inhalte nicht durchforstet und nicht indiziert und stehen daher nicht für Abfragen zur Verfügung.

Es ist ratsam, dass das Konto, das Sie als Standardkonto für den Inhaltszugriff angeben, Zugriff auf die meisten der zu durchforstenden Inhalte hat. Verwenden Sie andere Konten für den Inhaltszugriff nur, wenn aus Gründen der Sicherheit separate Konten für den Inhaltszugriff benötigt werden.

Legen Sie für jede Inhaltsquelle, die Sie planen, die Startadressen fest, auf die das Standardkonto für den Inhaltszugriff nicht zugreifen kann, und planen Sie dann die Hinzufügung von Durchforstungsregeln für diese Startadressen.

Wichtig

Achten Sie darauf, dass das Domänenkonto, das für das Standardkonto für den Inhaltszugriff oder ein anderes Konto für den Inhaltszugriff verwendet wird, nicht das gleiche Domänenkonto ist, das auch von einem Anwendungspool verwendet wird, der einer zu durchforstenden Webanwendung zugeordnet ist. Wird das gleiche Domänenkonto verwendet, kann dies zur Folge haben, dass unveröffentlichte Inhalte auf SharePoint-Websites und Nebenversionen von Dateien (d. h. veraltete Versionen) auf SharePoint-Websites durchforstet und indiziert werden.

Ein weiterer wichtiger Punkt ist, dass der Crawler das gleiche Authentifizierungsprotokoll verwenden muss wie der Hostserver. Standardmäßig verwendet der Crawler NTLM-Authentifizierung. Sie können den Crawler jedoch bei Bedarf so konfigurieren, dass er ein anderes Authentifizierungsprotokoll verwendet.

Wenn Sie anspruchsbasierte Authentifizierung verwenden, stellen Sie sicher, dass für alle zu durchforstenden Webanwendungen Windows-Authentifizierung aktiviert ist.

Planen von Konnektoren

Für alle zu durchforstenden Inhalte benötigen Sie einen Konnektor (in früheren Versionen: Protokollhandler), um Zugriff auf diese Inhalte zu erlangen. Search Server 2010 bietet Konnektoren für alle gängigen Internetprotokolle. Wenn Sie jedoch Inhalte durchforsten möchten, für ein Konnektor erforderlich ist, der nicht mit Search Server 2010 installiert wurde, müssen Sie den Konnektor eines Drittanbieters oder den benutzerdefinierten Konnektor installieren, damit Sie diese Inhalte durchforsten können. Eine Liste der standardmäßig installierten Konnektoren finden Sie unter Standardkonnektoren (Search Server 2010). Informationen zum Installieren von Konnektoren finden Sie unter Installieren von Konnektoren (Search Server 2010).

Planen der Steuerung der Auswirkungen der Durchforstung

Die Durchforstung von Inhalten kann die Leistung der Server, auf denen die Inhalte gehostet werden, erheblich beeinträchtigen. Welche Auswirkungen dies auf einen einzelnen Server hat, hängt davon ab, wie stark der Hostserver beansprucht wird und ob der Server über genügend Ressourcen verfügt (insbesondere CPU und RAM), um bei normaler Auslastung oder bei Spitzenauslastung Service-Level-Vereinbarungen einhalten zu können.

Suchadministratoren können mithilfe von Crawlerauswirkungsregeln die Auswirkungen des Crawlers auf die durchforsteten Server steuern. Sie können für jede Crawlerauswirkungsregel eine einzelne URL angeben oder mithilfe von Platzhalterzeichen im URL-Pfad einen Block von URLs angeben, für den die Regel gilt. Anschließend können Sie festlegen, wie viele gleichzeitige Seitenanforderungen an die angegebene URL gesendet werden. Oder Sie legen fest, dass immer nur ein Dokument zu einer Zeit angefordert und zwischen den einzelnen Seitenanforderungen eine von Ihnen gewählte Anzahl von Sekunden gewartet wird.

Crawlerauswirkungsregeln geben die Geschwindigkeit an, mit der der Crawler Inhalte von einer bestimmten Startadresse oder von einem Bereich von Startadressen (auch Websitename genannt) anfordert. Eine Crawlerauswirkungsregel gilt für alle Inhaltsquellen in der Suchdienstanwendung, und Anforderungshäufigkeiten gelten pro Durchforstungskomponente. Die folgende Tabelle zeigt die Platzhalterzeichen, die Sie im Websitenamen verwenden können, wenn Sie eine Crawlerauswirkungsregel hinzufügen oder bearbeiten.

Platzhalterzeichen Ergebnis

* als Websitename

Die Regel wird auf alle Websites angewendet.

*.* als Websitename

Die Regel wird auf Websites angewendet, deren Name einen Punkt enthält.

*.Websitename.com als Websitename

Die Regel wird auf alle Websites in der Domäne Websitename.com angewendet (z. B. *.adventure-works.com).

*.Name_der_Domäne_auf_oberster_Ebene als Websitename

Die Regel wird auf alle Websites angewendet, die mit einem bestimmten Namen für die Domäne auf oberster Ebene enden, z. B. *.com oder *.net.

?

Steht für ein einzelnes Zeichen in einer Regel. Beispiel: *.adventure-works?.com gilt für alle Websites in den Domänen adventure-works1.com, adventure-works2.com usw.

Sie können eine Crawlerauswirkungsregel erstellen, die für alle Websites in einer bestimmten Domäne auf oberster Ebene gilt. Beispielsweise gilt *.com für alle Internetwebsites, deren Adressen auf .com enden. Ein Administrator einer Portalwebsite kann z. B. eine Inhaltsquelle für samples.microsoft.com hinzufügen. Die Regel für *.com gilt auch für diese Website, es sei denn, Sie fügen eine Crawlerauswirkungsregel speziell für samples.microsoft.com hinzu.

Bei der Festlegung von Crawlerauswirkungsregeln auf der Grundlage der Leistung und Kapazität der Server können Sie sich mit den Administratoren der Suchsysteme abstimmen, mit denen in Ihrer Organisation Inhalte durchforstet werden. Für die meisten externen Websites ist eine solche Abstimmung nicht möglich. Wenn auf externen Servern zu viele Inhalte angefordert oder zu häufig Anforderungen gesendet werden, kann dies zur Folge haben, dass die Administratoren dieser Websites den Zugriff einschränken, sollten die Durchforstungen zu viele Ressourcen beanspruchen. Legen Sie bei der Erstbereitstellung die Crawlerauswirkungsregeln so fest, dass die Auswirkungen auf andere Server möglichst gering sind und gleichzeitig dennoch ausreichende Mengen an Inhalten so häufig durchforstet werden, dass die Aktualität des Index die Service-Level-Vereinbarung erfüllt. Sobald die Farm in Produktion gegangen ist, können Sie die Crawlerauswirkungsregeln basierend auf den Daten in den Durchforstungsprotokollen anpassen.

Planen von Durchforstungsregeln

Durchforstungsregeln gelten für alle Inhaltsquellen in der Suchdienstanwendung. Sie können Durchforstungsregeln zu folgenden Zwecken auf eine einzelne URL oder eine Gruppe von URLs anwenden:

  • Das Durchforsten von irrelevanten Inhalten vermeiden, indem eine oder mehrere URLs ausgeschlossen werden. Dadurch wird außerdem die Beanspruchung der Serverressourcen verringert, der Netzwerkverkehr eingedämmt und die Relevanz der Suchergebnisse erhöht.

  • Hyperlinks unter der URL durchforsten, ohne die URL selbst zu durchforsten. Diese Option ist für Websites nützlich, auf denen sich Links mit relevanten Inhalten befinden, wenn die Seite mit den Links selbst keine relevanten Informationen enthält.

  • Die Durchforstung komplexer URLs ermöglichen. Dabei wird das System angewiesen, URLs zu durchforsten, die einen mit einem Fragezeichen angegebenen Abfrageparameter enthalten. Je nach Website enthalten diese URLs möglicherweise keine relevanten Inhalte. Da bei komplexen URLs häufig auf irrelevante Websites umgeleitet wird, empfiehlt es sich, diese Option nur auf Websites zu verwenden, bei denen Sie sicher sind, dass die über komplexe URLs verfügbaren Inhalte relevant sind.

  • Die Durchforstung von Inhalten auf SharePoint-Websites als HTTP-Seiten ermöglichen. Hierbei kann das System SharePoint-Websites durchforsten, die sich hinter einer Firewall befinden. Außerdem können damit SharePoint-Websites in Situationen durchforstet werden, in denen die zu durchforstende Website den Zugriff auf den Webdienst beschränkt, der vom Crawler verwendet wird.

  • Angeben, ob das Standardkonto für den Inhaltszugriff, ein anderes Konto für den Inhaltszugriff oder ein Clientzertifikat zum Durchforsten der angegebenen URL verwendet werden soll.

Da bei der Durchforstung von Inhalten Ressourcen und Bandbreite beansprucht werden, ist es ratsam, eine kleinere Menge von Inhalten einzubeziehen, von denen Sie wissen, dass sie relevant sind, als eine größere Menge von Inhalten, die möglicherweise irrelevant sind. Nach der Erstbereitstellung können Sie die Abfrage- und Durchforstungsprotokolle untersuchen und davon ausgehend die Inhaltsquellen so anpassen, dass sie mehr Relevanz haben, und die Durchforstungsregeln so modifizieren, dass mehr Inhalte einbezogen werden.

Planen von Sucheinstellungen, die auf Farmebene verwaltet werden

Eine Reihe von Einstellungen, die auf Farmebene verwaltet werden, haben einen Einfluss auf die Art und Weise, wie Inhalte durchforstet werden. Berücksichtigen Sie bei der Planung der Durchforstung die folgenden Sucheinstellungen auf Farmebene:

  • E-Mail-Adresse des Kontakts: Bei der Durchforstung von Inhalten werden die Ressourcen der Server beansprucht, die durchforstet werden. Deshalb müssen Sie vor einer Durchforstung in den Konfigurationseinstellungen die E-Mail-Adresse der Person in Ihrer Organisation angeben, an die sich die Administratoren wenden können, wenn die Durchforstung die Leistung ihrer Server beeinträchtigt. Diese E-Mail-Adresse wird in Protokollen für die Administratoren der durchforsteten Server angezeigt, sodass diese Administratoren einen Ansprechpartner haben, falls die Leistungs- und Bandbreiteneinbußen aufgrund der Durchforstung zu groß sind oder andere Probleme auftreten.

    Die E-Mail-Kontaktadresse sollte einer Person gehören, die das nötige Fachwissen hat, um rasch auf Anfragen reagieren zu können, und die entsprechend verfügbar ist. Alternativ dazu können Sie einen streng überwachten Verteiler-Alias als E-Mail-Adresse verwenden. Unabhängig davon, ob die zu durchforstenden Inhalte intern in der Organisation gespeichert sind oder nicht, ist grundsätzlich eine schnelle Reaktion wichtig.

  • Proxyservereinstellungen: Sie können festlegen, ob beim Durchforsten von Inhalten eine Proxyserver verwendet wird. Welcher Proxyserver verwendet werden sollte, hängt von der Topologie der Search Server 2010-Bereitstellung und der Architektur anderer Server in der Organisation ab. Die Verwendung eines Proxyservers ist wahrscheinlich notwendig, wenn Internetinhalte durchforstet werden. Weitere Informationen zum Konfigurieren von Proxyservereinstellungen für die Suche finden Sie unter Konfigurieren von Proxyservereinstellungen auf Farmebene (Search Server 2010 Express) und Konfigurieren von Proxyservereinstellungen für die Suche (Search Server 2010).

  • Timeouteinstellungen: Timeouteinstellungen dienen zum Begrenzen der Zeitdauer, die das Suchsystem wartet, während eine Verbindung mit anderen Diensten hergestellt wird.

  • SSL-Einstellung: Die Einstellung für Secure Sockets Layer (SSL) bestimmt, ob das SSL-Zertifikat exakt übereinstimmen muss, damit Inhalte durchforstet werden.

Planen der Sammelsuche

Die Sammelsuche ist das gleichzeitige Abfragen vieler Webressourcen oder Datenbanken, um eine einzige Suchergebnisseite für Endbenutzer zu generieren. Wenn Sie einen Speicherort für die Sammelsuche hinzufügen, können Endbenutzer Inhalte suchen und abrufen, die von Servern im lokalen System nicht durchforstet wurden. Durch Speicherorte für die Sammelsuche können Abfragen an Remotesuchmodule und -feeds gesendet werden. Dementsprechend zeigt das System die Ergebnisse den Endbenutzern so an, als seien die in die Sammelsuche einbezogenen Inhalte Teil der durchforsteten Inhalte.

Search Server 2010 unterstützt folgende Arten von Speicherorten für die Sammelsuche:

  • Suchindex dieses Servers. Sie können eine beliebige lokale Website oder Remotewebsite in Ihrer Organisation, auf deren Server Search Server 2010 ausgeführt wird, als Speicherort für die Sammelsuche verwenden. Nehmen wir beispielsweise an, eine SharePoint-Website auf einem Server der Personalabteilung in Ihrem Unternehmen ist die einzige verfügbare Quelle für Kontaktdaten von Mitarbeitern. Auch wenn diese Website nicht Teil des Durchforstungsbereichs ist, können Sie einen Speicherort für die Sammelsuche für sie konfigurieren, sodass Benutzer, die von Ihrer Suchcenterwebsite eine Suche starten, Ergebnisse für Mitarbeiterkontaktdaten abrufen können, zu deren Anzeige sie berechtigt sind. Dabei gilt Folgendes:

    1. Für den Speicherort ist Suchindex dieses Servers festgelegt.

    2. Es wird keine Abfragevorlage benötigt. Search Server 2010 verwendet zum Abfragen eines Speicherorts das Objektmodell.

    3. Die standardmäßige Serverauthentifizierung wird verwendet.

    4. Erweiterte Suchabfragen werden nicht unterstützt.

  • OpenSearch 1.0/1.1. Sie können eine beliebige öffentliche Website, die den OpenSearch-Standard unterstützt, als Speicherort für die Sammelsuche verwenden. Ein Beispiel für einen solchen Speicherort ist ein Internetsuchmodul wie etwa Bing oder eine Suchergebnisseite, die RSS- oder Atom-Protokolle unterstützt. Angenommen, Sie möchten, dass Benutzer, die auf Ihren internen Websites geschützte technische Informationen recherchieren, auch damit zusammenhängende Informationen aus öffentlichen Websites angezeigt bekommen. Wenn Sie einen Speicherort für die Sammelsuche für eine Bing-Suchabfrage konfigurieren, werden den Benutzern Suchergebnisse aus dem Web automatisch mit angezeigt. Dabei gilt Folgendes:

    1. Abfragen können als URL an ein Suchmodul gesendet werden, z. B. http://www.example.com/search.aspx?q=TEST.

    2. Suchergebnisse werden im RSS-, Atom- oder in einem anderen strukturierten XML-Format zurückgegeben.

    3. Speicherortfunktionen, Abfragevorlagen und Antwortelemente sind Teil einer OpenSearch-Beschreibungsdatei (OSDX-Datei), die dem Speicherort zugeordnet ist.

    4. OpenSearch-Erweiterungen speziell für Search Server 2010 unterstützen die Möglichkeit, Trigger einzufügen und XSL-Code mit Suchergebnissen zu verknüpfen.

    5. Welche Metadaten in den Suchergebnissen angezeigt werden, hängt vom OpenSearch-Speicherort ab.

    Weitere Informationen zu OpenSearch finden Sie unter https://www.opensearch.org/.

Eine an einen Speicherort für die Sammelsuche übermittelte Suchabfrage wird als URL-Parameter in einem Format gesendet, das als Abfragevorlage bezeichnet wird. Die Ergebnisse werden dann für die Benutzer der Suchcenterwebsite als XML formatiert und wiedergegeben. Der XML-Code wird in einem Webpart auf der Suchergebnisseite als lesbarer Text angezeigt. Sie können Webparts auf der Suchergebnisseite als Webpart "Ergebnisse der Sammelsuche", "Top-Ergebnisse der Sammelsuche" oder "Kernergebnisse der Suche" hinzufügen und konfigurieren. Standardmäßig enthält die Suchergebnisseite drei Webparts für Ergebnisse der Sammelsuche.

Die folgenden Fragen sollten Sie beantworten, bevor Sie entscheiden, ob den Benutzern Suchergebnisse der Sammelsuche angezeigt werden sollen:

  1. Sollen benutzerdefinierte Ergebnisse für bestimmte Suchvorgänge angezeigt werden? Damit sichergestellt ist, dass vom Speicherort für die Sammelsuche Ergebnisse zurückgegeben werden, die bestimmten Abfragen entsprechen, können Sie Triggerregeln verwenden. Wenn Sie für einen Speicherort für die Sammelsuche eine Triggerregel erstellen, zeigt das Webpart, das diesem Speicherort zugeordnet ist, Ergebnisse nur für die Benutzerabfragen an, die dam von Ihnen angegebenen Muster oder Präfix entsprechen.

  2. Können Sie eine URL verwenden, um anzugeben, welche Ergebnisse für eine Abfrage abgerufen werden sollen? Zum Erstellen eines Speicherorts für die Sammelsuche müssen Sie eine Abfragevorlage angeben. Dies ist die Kombination aus URL und Parametern, die benötigt werden, um eine Suchabfrage zu senden und die Ergebnisse als XML zurückzugeben. Wenn Sie diese Informationen auf der Seite Partnerspeicherort hinzufügen im Feld Abfragevorlage einfügen, müssen Sie die Zeichenfolge im korrekten Format angeben (wie im Beispiel auf der Seite Partnerspeicherort hinzufügen gezeigt), sonst gibt der Suchergebnisanbieter keine Ergebnisse zurück.

  3. Können Benutzer auf die Links zugreifen, die von dem Speicherort für die Sammelsuche bereitgestellt werden? Wenn Ihre Organisation Benutzern nur eingeschränkten Zugriff auf Internetressourcen gewährt, kann die Verwendung eines Internetsuchmoduls als Speicherort für die Sammelsuche bei den Benutzern zu Frustration führen, weil sie dann bestimmte Suchergebnisse nicht ansehen können.

  4. Ist Authentifizierung erforderlich? Wenn der Speicherort für die Sammelsuche Authentifizierung erfordert, müssen Sie die richtigen Anmeldeinformationen angeben. Für viele Speicherorte für die Sammelsuche, beispielsweise Internetsuchmodule, sind keine Anmeldeinformationen erforderlich.

Planen der Authentifizierungstypen für die Sammelsuche

Für die Sammelsuche stehen mehrere Arten der Benutzerauthentifizierung, sei es mit benutzerbezogenen oder mit gemeinsamen Anmeldeinformationen, zur Verfügung. Bedenken Sie jedoch, dass für die Erfassung von Anmeldeinformationen eine Webparterweiterung für Nicht-Kerberos-Authentifizierungstypen in der benutzerbezogenen Authentifizierung benötigt wird. Im Abschnitt der Speicherortdefinition mit den Angaben zur Authentifizierung und zu den Anmeldeinformationen geben Sie den Authentifizierungstyp für den Speicherort für die Sammelsuche an. Folgende Authentifizierungstypen sind möglich:

  • Anonym

    Zum Herstellen der Verbindung mit dem Speicherort für die Sammelsuche werden keine Anmeldeinformationen benötigt.

  • Gemeinsam

    Für alle Verbindungen mit dem Speicherort für die Sammelsuche werden die gleichen Anmeldeinformationen verwendet.

  • Benutzerbezogen

    Die Anmeldeinformationen des Benutzers, der die Suchabfrage gesendet hat, werden zum Herstellen der Verbindung mit dem Speicherort für die Sammelsuche verwendet.

Für die gemeinsame und die benutzerbezogene Authentifizierung müssen Sie außerdem eines der folgenden Authentifizierungsprotokolle angeben:

  • Standard

    Standardauthentifizierung ist Teil der HTTP-Spezifikation und wird von den meisten Browsern unterstützt.

    SicherheitshinweisSecurity Note
    Webbrowser, die Standardauthentifizierung verwenden, übertragen Kennwörter, die nicht verschlüsselt sind. Durch Überwachen der Kommunikation im Netzwerk kann ein böswilliger Benutzer mithilfe von öffentlich verfügbaren Tools diese Kennwörter abfangen und decodieren. Daher ist die Standardauthentifizierung nur zu empfehlen, wenn Sie die Gewissheit haben, dass die Verbindung sicher ist, wie es beispielsweise bei einer Standleitung oder einer SSL-Verbindung (Secure Sockets Layer) der Fall ist.
  • Digest

    Bei der Digestauthentifizierung wird das HTTP 1.1-Protokoll gemäß Definition in der Spezifikation RFC 2617 auf der W3C-Website (World Wide Web Consortium) verwendet. Da die Digestauthentifizierung HTTP 1.1-Konformität voraussetzt, wird sie von einigen Browsern nicht unterstützt. Fordert ein Browser, der nicht mit HTTP 1.1 kompatibel ist, eine Datei an, und Digestauthentifizierung ist aktiviert, wird die Anforderung zurückgewiesen, weil die Digestauthentifizierung vom Client nicht unterstützt wird. Digestauthentifizierung kann nur in Windows-Domänen verwendet werden. Sie funktioniert nur mit Windows Server 2008-, Windows Server 2003- und Microsoft Windows 2000 Server-Domänenkonten und kann es erforderlich machen, dass die Konten Kennwörter als verschlüsselten reinen Text speichern.

  • NTLM

    Benutzerdatensätze werden in der SAM-Datenbank (Security Accounts Manager) oder in der Active Directory-Datenbank gespeichert. Jedem Konto werden zwei Kennwörter zugeordnet: das LAN-Manager-kompatible Kennwort und das Windows-Kennwort. Jedes Kennwort wird verschlüsselt und in der SAM-Datenbank oder in der Active Directory-Datenbank gespeichert.

  • Kerberos (nur benutzerbezogene Authentifizierung)

    Wird das Kerberos-Protokoll verwendet, kann eine Partei auf einer Seite einer Netzwerkverbindung überprüfen, ob die Partei auf der anderen Seite die Entität ist, die sie vorgibt zu sein. NTLM-Authentifizierung ermöglicht zwar Servern, die Identität ihrer Clients zu überprüfen. Sie ermöglicht jedoch weder Clients, die Identität eines Servers zu überprüfen, noch dem einen Server, die Identität eines anderen Servers zu überprüfen. NTLM-Authentifizierung ist für eine Netzwerkumgebung vorgesehen, in denen davon ausgegangen wird, dass die Server vertrauenswürdig sind.

  • Formularbasiert

    Ein Cookie für formularbasierte Authentifizierung ist einfach nur der Container für ein Authentifizierungsticket. Jede Anforderung übergibt das Ticket als den Wert des Cookies, und anhand des Tickets wird auf dem Server ein authentifizierter Benutzer identifiziert. Bei der formularbasierten Authentifizierung ohne Cookies wird das Ticket dagegen in der URL in einem verschlüsselten Format übergeben. Formularbasierte Authentifizierung ohne Cookies wird verwendet, weil Cookies von Clientbrowsern blockiert werden könnten. Dieses Feature wurde im Microsoft .NET Framework 2.0 eingeführt.

Wenn Sie in Ihrer Umgebung anspruchsbasierte Authentifizierung verwenden, stellen Sie sicher, dass für alle zu durchforstenden Inhaltsquellen auch Windows-Authentifizierung aktiviert ist. Weitere Informationen zu den Authentifizierungsmethoden in SharePoint Server 2010 finden Sie unter Planen von Authentifizierungsmethoden (SharePoint Server 2010).