Planifier l’analyse et la fédération (SharePoint Server 2010)

Article
03/04/2017

S’applique à : SharePoint Server 2010

Dernière rubrique modifiée : 2016-11-30

Pour que les utilisateurs finals puissent utiliser la fonctionnalité de recherche d’entreprise dans Microsoft SharePoint Server 2010, vous devez analyser ou fédérer le contenu que vous souhaitez rendre disponible pour la recherche. La planification de l’analyse ou de la fédération comprend les tâches suivantes :

Planifier les sources de contenu
Planifier les inclusions de types de fichiers et les IFilters
Planifier l’authentification
Planifier les connecteurs
Planifier l’impact de l’analyse
Planifier les règles d'analyse
Planifier les paramètre de recherche qui sont gérés au niveau de la batterie de serveurs
Planifier la fédération

Planifier les sources de contenu

Une source de contenu est un ensemble d’options que vous pouvez utiliser pour spécifier le type de contenu analysé, les URL à analyser et à quelle profondeur et à quel moment analyser. La source de contenu par défaut est Sites SharePoint locaux. Vous pouvez utiliser cette source de contenu pour spécifier comment analyser tout le contenu de toutes les applications Web qui sont associées à une application de service de recherche particulière. Par défaut, pour chaque application Web qui utilise une application de service de recherche particulière, SharePoint Server 2010 ajoute l’adresse de démarrage du site supérieur de chaque collection de sites à la source de contenu par défaut.

Certaines organisations peuvent utiliser la source de contenu par défaut pour répondre à leurs exigences en matière de recherche. Toutefois, beaucoup d’organisations nécessitent des sources de contenu supplémentaires. Planifiez des sources de contenu supplémentaires lorsque vous devez effectuer les opérations suivantes :

Analyser différents types de contenu, par exemple, des sites SharePoint, des partages de fichiers et des données métiers.
Analyser du contenu à différents horaires que tout autre contenu.
Limiter ou augmenter la quantité de contenu analysé.
Définir des priorités différentes pour l’analyse de différents sites.

Vous pouvez créer jusqu’à 500 sources de contenu dans chaque application de service de recherche, et chaque source de contenu peut contenir jusqu’à 500 adresses de démarrage. Pour que l’administration reste aussi simple que possible, nous vous recommandons de limiter le nombre de sources de contenu que vous créez.

Planifier l’analyse de différents types de contenus

Vous pouvez analyser seulement un type de contenu par source de contenu. Autrement dit, vous pouvez créer une source de contenu qui contient les adresses de démarrage pour les sites SharePoint et une autre source de contenu qui contient les adresses de démarrage pour les partages de fichiers. Toutefois, vous ne pouvez pas créer une source de contenu unique qui contient les adresses de démarrage des sites SharePoint et des partages de fichiers. Le tableau suivant répertorie les types de sources de contenu que vous pouvez configurer.

Utiliser ce type de source de contenu	Pour ce contenu
Sites SharePoint	Sites SharePoint de la même batterie de serveurs ou de batteries de serveurs Microsoft SharePoint Server 2010, Microsoft SharePoint Foundation 2010 ou Microsoft Search Server 2010 différentes Sites SharePoint de la même batterie de serveurs ou de batteries de serveurs Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3,0 ou Microsoft Search Server 2008 différentes Sites SharePoint de batteries de serveurs Microsoft Office SharePoint Portal Server 2003 ou Windows SharePoint Services 2.0 Notes Contrairement à l’analyse des sites SharePoint sur SharePoint Server 2010, SharePoint Foundation 2010 ou Search Server 2010, le robot ne peut pas analyser automatiquement tous les sous-sites dans une collection de sites de versions précédentes de produits et technologies SharePoint. Par conséquent, lors de l’analyse de sites SharePoint de versions précédentes, vous devez spécifier l’adresse de démarrage de chaque site de niveau supérieur et l’URL de chaque sous-site que vous souhaitez analyser.
Sites Web	Autre contenu Web dans votre organisation qui ne se trouve pas dans des sites SharePoint Contenu de sites Web sur Internet
Partages de fichiers	Contenu dans les partages de fichiers de votre organisation
Dossiers publics Exchange	Contenu Microsoft Exchange Server
Lotus Notes	Messages électroniques stockés dans des bases de données Lotus Notes Notes Contrairement à tous les autres types de sources de contenu, l’option Source de contenu Lotus Notes n’apparaît pas dans l’interface utilisateur tant que vous n’avez pas installé et configuré le logiciel prérequis approprié. Pour plus d’informations, voir Configurer et utiliser le connecteur Lotus Notes (SharePoint Server 2010).
Données métiers	Les données métiers sont stockées dans des applications métiers

Planifier des sources de contenu pour les données métiers

Les sources de contenu de données métiers requièrent que les applications qui hébergent les données soient spécifiées dans un modèle d’application dans une application du service Business Data Connectivity. Vous pouvez créer une source de contenu pour analyser toutes les applications qui sont enregistrées dans le service Business Data Connectivity, ou créer des sources de contenu distinctes pour analyser des applications individuelles.

Souvent, les personnes qui envisagent d’intégrer des données métiers dans des collections de sites ne sont pas les personnes impliquées dans le processus global de planification de contenu. Par conséquent, incluez des administrateurs d’applications métiers dans les équipes de planification de contenu afin qu’ils puissent conseiller sur la manière d’intégrer les données d’application métier dans le contenu et le présenter effectivement dans les collections de sites.

Analyser le contenu à différents horaires

Vous devez décider si certain contenu est analysé plus fréquemment que d’autre contenu. Plus le volume de contenu analysé est important, plus la probabilité que le contenu appartienne à différents référentiels est grande. Le contenu n’est peut-être pas du même type et peut se trouver sur des serveurs de capacités différentes. Ces facteurs rendent plus probable la nécessité d’ajouter des sources de contenu pour analyser les différents référentiels de contenu à différents horaires.

Les principales raisons d’analyser le contenu à différents horaires sont les suivantes :

Pour s’adapter aux heures creuses et aux périodes de pics d’utilisation.
Pour analyser plus fréquemment le contenu qui est plus souvent mis à jour.
Pour analyser le contenu se trouvant sur des serveurs plus lents séparément du contenu se trouvant sur des serveurs plus rapides.

Dans de nombreux cas, ces informations ne sont pas toutes connues avant que SharePoint Server 2010 ne soit déployé et exécuté pendant un certain temps. Dans ce cas, vous devez spécifier les planifications d’analyse une fois la batterie de serveurs en production. Néanmoins, il est judicieux de prendre en compte ces facteurs lors de la planification afin de pouvoir planifier les horaires d’analyse en fonction des informations que vous avez.

Les deux sections suivantes fournissent davantage d’informations sur l’analyse de contenu selon des planifications différentes.

Considérations sur les planifications de l’analyse

Vous pouvez configurer les planifications d’analyse indépendamment pour chaque source de contenu. Pour chaque source de contenu, vous pouvez spécifier une heure pour les analyses complètes et une heure distincte pour les analyses incrémentielles. Notez que vous devez exécuter une analyse complète d’une source de contenu particulière avant d’exécuter une analyse incrémentielle. Même si vous spécifiez une analyse incrémentielle pour un contenu n’ayant pas encore été analysé, le système effectue une analyse complète.

Notes

Dans la mesure où une analyse complète analyse tout le contenu rencontré par le robot pour lequel il possède au moins l’accès en lecture, que ce contenu ait été analysé précédemment ou non, les analyses complètes prennent beaucoup plus de temps que les analyses incrémentielles.

Il est recommandé de planifier l’analyse en fonction de la bande passante, des performances et de la disponibilité des serveurs d’analyse et d’interrogation.

Lorsque vous planifiez l’analyse, tenez compte des méthodes conseillées suivantes :

Regroupez les adresses de démarrage des sources de contenu en fonction d’une disponibilité semblable et d’une utilisation des ressources globales acceptable pour les serveurs qui hébergent le contenu.
Planifiez les analyses incrémentielles de chaque source de contenu pendant les heures où les serveurs qui hébergent le contenu sont disponibles et où la demande sur les ressources du serveur est faible.
Échelonnez les planifications d’analyse pour que la charge sur les serveurs de la batterie de serveurs soit distribuée dans le temps.
Planifiez des analyses complètes uniquement lorsque vous le devez, pour des raisons répertoriées dans la section suivante. Nous vous recommandons d’exécuter les analyses complètes moins fréquemment que les analyses incrémentielles.
Planifiez les modifications d’administration qui nécessitent une analyse complète peu de temps avant l’horaire prévue pour les analyses complètes. Par exemple, il est recommandé de planifier la création de la règle d’analyse avant la prochaine analyse complète prévue afin d’éviter une analyse complète supplémentaire.
Basez les analyses simultanées sur la capacité disponible. Pour optimiser les performances, nous vous recommandons d’échelonner les horaires d’analyse des sources de contenu. Vous pouvez optimiser les planifications d’analyse au fur et à mesure de votre expérience des durées d’analyse standard de chaque source de contenu.

Raisons d’effectuer une analyse complète

Les raisons pour un administrateur d’application de service de recherche de faire une analyse complète sont les suivantes :

Une mise à jour de logiciel ou un service pack a été installé sur les serveurs de la batterie de serveurs. Consultez les instructions de la mise à jour du logiciel ou du service pack pour plus d’informations.
Un administrateur de services partagés Microsoft Office SharePoint Server 2007 ou un administrateur de l’application de service de recherche SharePoint Server 2010 a ajouté une nouvelle propriété gérée. Une analyse complète est requise pour que la nouvelle propriété gérée entre en vigueur immédiatement. Si vous ne souhaitez pas sa mise en vigueur immédiate, l’analyse complète n’est pas nécessaire.
Vous voulez réindexer les pages ASPX sur des sites Windows SharePoint Services 3,0 ou Microsoft Office SharePoint Server 2007.

Notes

Le robot ne peut pas détecter si des pages ASPX sur des sites Windows SharePoint Services 3,0 ou Office SharePoint Server 2007 ont été modifiées. De ce fait, les analyses incrémentielles ne réindexent pas les affichages ou les pages d’accueil lorsque des éléments de liste sont supprimés. Il est recommandé d’effectuer régulièrement des analyses complètes des sites qui contiennent des fichiers ASPX pour vous assurer que ces pages sont réindexées.
Vous souhaitez résoudre des échecs consécutifs d’analyse incrémentielle. Si une analyse incrémentielle échoue consécutivement une centaine de fois sur un référentiel à n’importe quel niveau, le système supprime le contenu affecté de l’index.
Des règles d’analyse ont été ajoutées, supprimées ou modifiées.
Vous souhaitez réparer un index endommagé.
L’administrateur de l’application de service de recherche a créé un ou plusieurs mappages de noms de serveur.
Les informations d’identification du compte d’utilisateur qui est affecté au compte d’accès au contenu par défaut ou une règle d’analyse ont été modifiées.

Le système effectue une analyse complète même si une analyse incrémentielle est demandée, dans les circonstances suivantes :

Un administrateur de recherche a arrêté l’analyse précédente.
Une base de données de contenu a été restaurée, ou un administrateur de batterie de serveurs a détaché et rattaché une base de données de contenu.

Notes

Si vous exécutez Office SharePoint Server 2007 avec la Mise à jour d’infrastructure pour les produits serveur de Microsoft Office ou SharePoint Server 2010, vous pouvez utiliser l’opération de restauration de l’outil de ligne de commande Stsadm pour spécifier si la restauration d’une base de données de contenu provoque ou non une analyse complète.
Une analyse complète du site n’a jamais été effectuée à partir de cette application de service de recherche.
Le journal des modifications ne contient pas d’entrées pour les adresses analysées. Sans les entrées dans le journal des modifications pour les éléments analysés, les analyses incrémentielles sont impossibles.

Vous pouvez ajuster les planifications après le déploiement initial, en fonction des performances et de la capacité des serveurs de la batterie de serveurs et des serveurs qui hébergent des contenus.

Limiter ou augmenter la quantité de contenu analysé

Pour chaque source de contenu, vous pouvez spécifier avec quelle ampleur analyser les adresses de démarrage. Vous spécifiez également le comportement de l’analyse en modifiant les paramètres d’analyse. Les options disponibles pour une source de contenu particulière varient en fonction du type de source de contenu que vous sélectionnez. Toutefois, la plupart des options d’analyse spécifient la profondeur en niveaux dans la hiérarchie à analyser à partir de chaque adresse de démarrage. Notez que ce comportement s’applique à toutes les adresses de démarrage sur une source de contenu particulière. Si vous devez analyser des sites à des niveaux plus approfondis, vous pouvez créer des sources de contenu supplémentaires qui incluent ces sites.

Vous pouvez utiliser les options de paramétrage de l’analyse pour limiter ou augmenter la quantité de contenu analysé. Les options disponibles dans les propriétés de chaque source de contenu varient selon le type de source de contenu qui est sélectionné. Le tableau suivant décrit les méthodes conseillées lors de la configuration de ces options.

Pour ce type de source de contenu	Si cela s’applique	Utiliser cette option de paramétrage de l’analyse
Sites SharePoint	Vous souhaitez inclure le contenu qui se trouve sur le site lui-même et ne pas inclure le contenu qui se trouve sur les sous-sites, ou analyser le contenu des sous-sites selon une autre planification.	Analyser seulement le site SharePoint de chaque adresse de démarrage
Sites SharePoint	Vous souhaitez inclure le contenu du site lui-même. - ou - Vous souhaitez analyser tout le contenu sous l’adresse de démarrage selon la même planification.	Analyser tout sous le nom d’hôte de chaque adresse de démarrage
Sites Web	Le contenu disponible sur les sites liés n’est probablement pas pertinent.	Analyser seulement sur le serveur de chaque adresse de démarrage
Sites Web	Le contenu pertinent se trouve sur la première page uniquement.	Analyser seulement la première page de chaque adresse de démarrage
Sites Web	Vous souhaitez limiter la profondeur d’analyse des liens sur les adresses de démarrage.	Personnalisé : Indiquer le niveau de profondeur de pages et le nombre de tronçons de serveur à analyser Notes Pour un site hautement connecté, il est recommandé de commencer avec un petit nombre dans la mesure où spécifier une profondeur de plus de trois pages ou plus de trois tronçons de serveur peut analyser tout Internet.
Partages de fichiers Dossiers publics Exchange	Le contenu disponible dans les sous-dossiers n’est probablement pas pertinent.	Analyser uniquement le dossier de chaque adresse de démarrage
Partages de fichiers Dossiers publics Exchange	Le contenu des sous-dossiers est probablement pertinent.	Analyser le dossier et les sous-dossiers de chaque adresse de démarrage
Données métiers	Toutes les applications qui sont enregistrées dans le magasin de métadonnées BDC contiennent du contenu pertinent.	Analyser le magasin de métadonnées BDC entier
Données métiers	Les applications qui sont enregistrées dans le magasin de métadonnées BDC ne contiennent pas toutes du contenu pertinent. - ou - Vous souhaitez analyser certaines applications selon une planification différente.	Analyser les applications sélectionnées

Autres considérations pour la planification des sources de contenu

Vous ne pouvez pas analyser les mêmes adresses de démarrage en utilisant plusieurs sources de contenu dans la même application de service de recherche. Par exemple, si vous utilisez une source de contenu particulière pour analyser une collection de sites et tous ses sous-sites, vous ne pouvez pas utiliser une autre source de contenu pour analyser un de ces sous-sites séparément selon une autre planification.

En plus de prendre en compte les planifications d’analyse, votre décision quant à regrouper des adresses de démarrage dans une seule source de contenu ou bien créer des sources de contenu supplémentaires dépend en grande partie des considérations d’administration. Les administrateurs apportent souvent des modifications qui mettent à jour une source de contenu particulière. La modification d’une source de contenu requiert une analyse complète du référentiel de contenu spécifié dans cette source de contenu. Pour faciliter l’administration, organisez les sources de contenu de manière à simplifier la mise à jour des sources de contenu, des règles d’analyse et des planifications d’analyse pour les administrateurs.

Planifier les inclusions de types de fichiers et les IFilters

Le contenu est analysé seulement si l’extension de nom de fichier appropriée est incluse dans la liste d’inclusion des types de fichiers et qu’un IFilter est installé sur le serveur d’analyse qui prend en charge ces types de fichiers. Plusieurs types de fichiers et IFilters sont inclus automatiquement pendant l’installation initiale. Lorsque vous planifiez des sources de contenu dans votre déploiement initial, déterminez si le contenu à analyser utilise ou non des types de fichiers qui ne sont pas inclus. Si des types de fichiers ne sont pas inclus, vous devez ajouter ces types de fichiers dans la page Gérer les types de fichiers pendant le déploiement et vous assurer qu’un IFilter est installé et inscrit pour prendre en charge ce type de fichier.

Si vous souhaitez exclure certains types de fichiers de l’analyse, vous pouvez supprimer l’extension de nom de fichier correspondante de la liste d’inclusion des types de fichiers. Cela exclut de l’analyse les fichiers ayant cette extension. Pour obtenir la liste des types de fichiers et des IFilters installés par défaut, voir Référence de types de fichiers et d’IFilters (SharePoint Server 2010).

Planifier l’authentification

Lorsque le robot accède aux adresses de démarrage qui sont répertoriées dans les sources de contenu, il doit être authentifié par les serveurs qui hébergent ce contenu et autorisé à accéder au contenu. Cela signifie que le compte de domaine qui est utilisé par le robot doit avoir au moins des autorisations de lecture du contenu.

Par défaut, le système utilise le compte d’accès au contenu par défaut. Sinon, vous pouvez utiliser des règles d’analyse pour spécifier un compte d’accès au contenu différent pour l’analyse de contenu particulier. Que vous utilisiez le compte d’accès au contenu par défaut ou un compte différent spécifié par une règle d’analyse, ce compte doit disposer des autorisations de lecture sur tout le contenu analysé. Si le compte d’accès au contenu n’a pas les autorisations de lecture, le contenu n’est pas analysé ni indexé et n’est donc pas disponible pour les requêtes.

Il est recommandé que le compte que vous spécifiez comme compte d’accès au contenu par défaut puisse accéder à la plupart du contenu analysé. N’utilisez d’autres comptes d’accès au contenu que si les considérations de sécurité nécessitent des comptes distincts.

Pour chaque source de contenu planifiée, déterminez les adresses de démarrage qui ne sont pas accessibles par le compte d’accès au contenu par défaut, puis planifiez l’ajout de règles d’analyse pour ces adresses-là.

Important

Assurez-vous que le compte de domaine utilisé comme compte d’accès au contenu par défaut ou tout autre compte d’accès au contenu n’est pas celui utilisé par un pool d’applications associé à une application Web que vous analysez. En effet, cela pourrait provoquer l’analyse et l’indexation du contenu non publié sur des sites SharePoint ou de versions secondaires de fichiers (c’est-à-dire, l’historique) sur des sites SharePoint.

Autre considération importante, le robot doit utiliser le même protocole d’authentification que le serveur hôte. Par défaut, le robot s’authentifie à l’aide de NTLM, mais vous pouvez le configurer afin qu’il utilise un protocole d’authentification différent, si nécessaire.

Si vous utilisez l’authentification basée sur les revendications, assurez-vous que l’authentification Windows est activée sur toutes les applications Web à analyser.

Planifier les connecteurs

Tout le contenu analysé nécessite l’utilisation d’un connecteur (appelé gestionnaire de protocoles dans les versions antérieures) pour accéder à ce contenu. SharePoint Server 2010 fournit des connecteurs pour tous les protocoles Internet courants. Toutefois, si vous souhaitez analyser du contenu nécessitant un connecteur non installé avec SharePoint Server 2010, vous devez installer ce connecteur tiers ou personnalisé pour pouvoir analyser ce contenu. Pour obtenir la liste des connecteurs installés par défaut, voir Connecteurs par défaut (SharePoint Server 2010). Pour savoir comment installer des connecteurs, voir Installer des connecteurs (SharePoint Server 2010).

Planifier l’impact de l’analyse

L’analyse de contenu peut considérablement réduire les performances des serveurs qui hébergent le contenu. L’impact sur un serveur particulier varie en fonction de la charge que le serveur hôte subit et des ressources suffisantes ou non (notamment processeur et RAM) dont il dispose pour gérer les accords de niveau de service dans des conditions d’utilisation ordinaires ou de pics.

Les administrateurs de recherche peuvent utiliser des règles d’impact du robot pour gérer l’impact sur les serveurs analysés. Pour chaque règle d’impact du robot, vous pouvez spécifier une seule URL ou utiliser des caractères génériques dans le chemin d’accès à l’URL pour inclure un bloc d’URL auxquelles la règle s’applique. Vous pouvez ensuite spécifier le nombre de demandes simultanées de pages effectuées auprès de l’URL spécifiée ou choisir de demander un seul document à la fois et d’attendre un nombre spécifié de secondes entre les demandes.

Les règles d’impact du robot spécifient la fréquence d’interrogation de contenu du robot à partir d’une adresse de démarrage particulière ou d’une plage d’adresses de démarrage (également appelée nom de site). Une règle d’impact du robot s’applique à toutes les sources de contenu dans l’application de service de recherche et les fréquences de requêtes s’appliquent par composant d’analyse. Le tableau suivant présente les caractères génériques utilisables dans le nom du site lorsque vous ajoutez ou modifiez une règle d’impact du robot.

Ce caractère générique	Produit ce résultat
* en tant que nom du site	Applique la règle à tous les sites.
. en tant que nom du site	Applique la règle aux sites dont le nom contient des points.
*.nom_site.com en tant que nom du site	Applique la règle à tous les sites du domaine nom_site.com (par exemple, *.adventure-works.com).
*.nom_domaine_supérieur en tant que nom du site	Applique la règle à tous les sites dont le nom se termine par un nom de domaine supérieur spécifique, par exemple, .com ou .net.
?	Remplace un caractère unique dans une règle. Par exemple, *.adventure-works?.com s’applique à tous les sites dans les domaines adventure-works1.com, adventure-works2.com, etc.

Vous pouvez créer une règle d’impact du robot qui s’applique à tous les sites dans un domaine supérieur spécifique. Par exemple, *.com s’applique à tous les sites Internet dont les adresses se terminent par .com. Par exemple, un administrateur d’un site portail peut ajouter une source de contenu pour exemples.microsoft.com. La règle pour *.com s’applique à ce site sauf si vous ajoutez une règle d’impact du robot spécifique pour exemples.microsoft.com.

Vous pouvez vous coordonner avec les administrateurs des systèmes de recherche de votre organisation qui analysent du contenu pour définir les règles d’impact du robot en fonction des performances et de la capacité des serveurs. Pour la plupart des sites externes, cette coordination n’est pas possible. L’interrogation d’une trop grande quantité de contenu sur des serveurs externes ou des requêtes trop fréquentes peuvent conduire les administrateurs de ces sites à limiter l’accès si les analyses utilisent trop de ressources. Lors du déploiement initial, définissez les règles d’impact du robot pour minimiser l’impact sur d’autres serveurs autant que possible tout en analysant toujours suffisamment de contenu assez souvent pour que l’actualisation de l’index corresponde à votre contrat de niveau de service. Une fois la batterie de serveurs en production, vous pouvez ajuster les règles d’impact du robot en fonction des données des journaux d’analyse.

Planifier les règles d’analyse

Les règles d’analyse s’appliquent à toutes les sources de contenu de l’application de service de recherche. Vous pouvez appliquer des règles d’analyse à une URL particulière ou à un ensemble d’URL pour effectuer les opérations suivantes :

Éviter l’analyse de contenu non pertinent, en excluant une ou plusieurs URL. Cela permet également de réduire l’utilisation des ressources du serveur et le trafic réseau et d’augmenter la pertinence des résultats de la recherche.
Analyser les liens sur l’URL sans analyser l’URL elle-même. Cette option est utile pour les sites comportant des liens de contenu pertinent lorsque la page contenant les liens ne contient pas d’informations pertinentes.
Activer l’analyse des URL complexes. Cette option indique au système d’analyser les URL qui contiennent un paramètre de requête spécifié avec un point d’interrogation. En fonction du site, ces URL peuvent ne pas inclure du contenu pertinent. Dans la mesure où les URL complexes peuvent souvent rediriger vers des sites non pertinents, il est conseillé d’activer cette option uniquement sur les sites où vous savez que le contenu disponible à partir des adresses URL complexes est pertinent.
Activer l’analyse du contenu sur des sites SharePoint comme des pages HTTP. Cette option permet au système d’analyser les sites SharePoint qui se trouvent derrière un pare-feu ou dans des scénarios où le site analysé restreint l’accès au service Web utilisé par le robot.
Spécifier s’il faut utiliser le compte d’accès au contenu par défaut, un compte d’accès au contenu différent ou un certificat client pour analyser l’URL spécifiée.

Comme l’analyse du contenu consomme des ressources et de la bande passante, il est préférable d’inclure une plus petite quantité de contenu que vous savez pertinent plutôt qu’une plus grande quantité de contenu éventuellement non pertinent. Après le déploiement initial, vous pouvez passer en revue les journaux d’analyse et de requêtes et ajuster les sources de contenu et les règles d’analyse pour plus de pertinence et inclure plus de contenu.

Planifier les paramètre de recherche qui sont gérés au niveau de la batterie de serveurs

Plusieurs paramètres qui sont gérés au niveau de la batterie de serveurs affectent la façon dont le contenu est analysé. Prenez en compte les paramètres de recherche au niveau de la batterie suivants pour planifier l’analyse :

Adresse de messagerie du contact : L’analyse de contenu a une incidence sur les ressources des serveurs analysés. Pour pouvoir analyser du contenu, vous devez fournir dans les paramètres de configuration l’adresse de messagerie de la personne de votre organisation que les administrateurs peuvent contacter si l’analyse nuit à leurs serveurs. Cette adresse de messagerie apparaît dans les journaux des serveurs analysés afin que les administrateurs puissent contacter quelqu’un si l’impact de l’analyse sur les performances et la bande passante est trop important, ou si d’autres problèmes se produisent.

L’adresse de messagerie du contact doit appartenir à une personne qui possède l’expertise et la disponibilité nécessaires pour répondre rapidement aux demandes. Vous pouvez également utiliser un alias de liste de distribution étroitement contrôlée comme adresse de messagerie du contact. Indépendamment du fait que le contenu analysé soit stocké en interne dans l’organisation ou non, la rapidité de réponse est importante.
Paramètres du serveur proxy : Vous pouvez choisir d’utiliser ou non un serveur proxy lors de l’analyse de contenu. Le serveur proxy à utiliser dépend de la topologie de votre déploiement SharePoint Server 2010 et de l’architecture des autres serveurs de votre organisation. Vous devrez probablement utiliser un serveur proxy pour l’analyse de contenu Internet. Pour savoir comment configurer les paramètres de serveur proxy pour la recherche, voir Configurer les paramètres du serveur proxy au niveau de la batterie (SharePoint Server 2010) et Configurer les paramètres de serveur proxy pour la recherche (SharePoint Server 2010).
Paramètres de délai d’expiration : Les paramètres de délai d’expiration permettent de limiter le temps d’attente du système de recherche lors de la connexion à d’autres services.
Paramètre SSL : Le paramétrage SSL (Secure Sockets Layer) détermine si le certificat SSL doit correspondre exactement pour analyser le contenu.

Planifier la fédération

La recherche fédérée est l’interrogation simultanée de plusieurs ressources Web ou bases de données pour générer une page de résultats de recherche unique pour les utilisateurs finals. Lorsque vous ajoutez un emplacement fédéré, les utilisateurs finals peuvent rechercher et récupérer le contenu qui n’a pas été analysé par les serveurs dans le système local. Les emplacements fédérés permettent l’envoi de requêtes à des moteurs de recherche ou des flux distants. En conséquence, le système affiche les résultats aux utilisateurs finals comme si le contenu fédéré faisait partie du contenu analysé.

SharePoint Server 2010 prend en charge les types d’emplacement fédéré suivants :

Index de recherche sur ce serveur. Vous pouvez utiliser n’importe quel site local ou distant de votre organisation qui dispose d’un serveur exécutant SharePoint Server 2010 en tant qu’emplacement fédéré. Par exemple, imaginez qu’un site SharePoint sur un serveur de ressources humaines de votre société est la seule source d’informations disponible sur les coordonnées des employés. Même si le site ne fait pas partie de votre étendue d’analyse, vous pouvez configurer un emplacement fédéré pour celui-ci de sorte que les utilisateurs qui lancent une recherche à partir de votre site de centre de recherche puissent récupérer dans les résultats les informations de contact des employés qu’ils sont autorisés à voir. Les conditions suivantes s’appliquent :
1. L’emplacement est défini sur Index de recherche sur ce serveur.
2. Aucun modèle de requête n’est requis. SharePoint Server 2010 utilise le modèle objet pour interroger un emplacement.
3. L’authentification du serveur par défaut est utilisée.
4. Les requêtes de recherche avancées ne sont pas prises en charge.
OpenSearch 1.0 ou 1.1. Vous pouvez utiliser n’importe quel site Web public qui prend en charge la norme OpenSearch comme emplacement fédéré. Un exemple d’un tel emplacement est un moteur de recherche Internet tel que Bing, ou une page de résultats de recherche qui prend en charge les protocoles RSS ou Atom. Par exemple, vous souhaiteriez que les utilisateurs qui recherchent sur vos sites internes la recherche technique propriétaire voient également des informations de recherche associées de sites Web publics. En configurant un emplacement fédéré pour une requête de recherche Bing, les résultats de la recherche Web seront automatiquement proposés aux utilisateurs. Les conditions suivantes s’appliquent :
1. Les requêtes peuvent être envoyées à un moteur de recherche en tant qu’URL, par exemple http://www.example.com/search.aspx?q=TEST.
2. Les résultats de la recherche sont renvoyés dans RSS ou Atom, ou un autre format XML structuré.
3. Les fonctionnalités d’emplacement, les modèles de requête et les éléments de réponse font partie d’un fichier de description OpenSearch (.osdx) qui est associé à l’emplacement.
4. Les extensions OpenSearch spécifiques à SharePoint Server 2010 prennent en charge l’inclusion de déclencheurs et l’association de code XSL avec les résultats de recherche.
5. Le choix des métadonnées à afficher dans les résultats de recherche est déterminé par l’emplacement OpenSearch.
Pour plus d’informations sur OpenSearch, consultez le site https://www.opensearch.org (éventuellement en anglais).

Lorsqu’une requête de recherche est envoyée à un emplacement fédéré, elle est envoyée sous forme de paramètres d’URL dans un format appelé modèle de requête. Le système met ensuite en forme et affiche les résultats au format XML pour les utilisateurs du site Centre de recherche. Le code XML est affiché dans un composant WebPart sur la page des résultats de recherche sous forme de texte lisible. Vous pouvez ajouter et configurer des composants WebPart sur la page des résultats de recherche, par exemple le composant WebPart Résultats de recherche fédérés, le composant WebPart Meilleurs résultats fédérés ou le composant WebPart Résultats de base. Par défaut, la page des résultats de recherche contient trois composants WebPart Résultats de recherche fédérés.

Pour déterminer si vous devez afficher les résultats de recherche fédérés pour les utilisateurs, posez-vous les questions suivantes :

Souhaitez-vous afficher des résultats personnalisés pour des recherches particulières ? Pour vous assurer que l’emplacement fédéré retourne des résultats qui correspondent à des requêtes spécifiques, vous pouvez utiliser les règles de déclencheur. Lorsque vous créez une règle de déclencheur pour un emplacement fédéré, le composant WebPart qui est associé à cet emplacement affiche les résultats uniquement pour les requêtes utilisateur correspondant au modèle ou au préfixe que vous spécifiez.
Pouvez-vous utiliser une URL pour spécifier quels résultats récupérer pour une requête ? Pour créer un emplacement fédéré, vous devez spécifier un modèle de requête, qui est la combinaison de l’URL et des paramètres nécessaires pour envoyer une requête de recherche et retourner les résultats au format XML. Lorsque vous ajoutez ces informations au champ Modèle de requête sur la page Ajouter un emplacement fédéré, vous devez mettre en forme la chaîne correctement (comme illustré dans l’exemple de la page Ajouter un emplacement fédéré), sinon le fournisseur de résultats de recherche ne renverra aucun résultat.
Les utilisateurs peuvent-ils accéder aux liens fournis par l’emplacement fédéré ? Si votre entreprise accorde seulement un accès limité aux ressources Internet, l’utilisation d’un moteur de recherche Internet comme un emplacement fédéré peut frustrer les utilisateurs, car ils ne seront pas en mesure d’afficher certains résultats de recherche.
L’authentification est-elle requise ? Si l’emplacement fédéré requiert l’authentification, vous devez fournir les informations d’identification correctes. Beaucoup d’emplacements fédérés, comme les moteurs de recherche Internet, ne requièrent pas d’informations d’identification.

Planifier les types d’authentification pour la fédération

Plusieurs sortes d’authentification des utilisateurs, les informations d’identification communes et par utilisateur, sont disponibles pour la recherche fédérée. Cependant, la collecte des informations d’identification requiert une extension de composant WebPart pour les types d’authentification non-Kerberos dans l’authentification par utilisateur. Dans la section de l’authentification et des informations d’identification de la définition d’emplacement, vous spécifiez le type d’authentification pour l’emplacement fédéré. Le type d’authentification peut être l’un des suivants :

Anonyme

Aucune information d’identification n’est requise pour se connecter à l’emplacement fédéré.
Commun

Chaque connexion utilise le même jeu d’informations d’identification pour se connecter à l’emplacement fédéré.
Par utilisateur

Les informations d’identification de l’utilisateur qui a soumis la requête de recherche sont utilisées pour se connecter à l’emplacement fédéré.

Pour les types d’authentification commune et par utilisateur, vous devez également spécifier l’un des protocoles d’authentification suivants :

De base

L’authentification de base fait partie des spécifications HTTP ; elle est prise en charge sur la plupart des navigateurs.

Security Note
Les navigateurs Web qui utilisent l’authentification de base transmettent les mots de passe sans les chiffrer. En surveillant les communications sur le réseau, un utilisateur malveillant peut utiliser des outils disponibles publiquement pour intercepter et décoder ces mots de passe. Par conséquent, l’authentification de base n’est pas recommandée sauf si vous êtes sûr que la connexion est sécurisée, comme avec une ligne dédiée ou une connexion SSL (Secure Sockets Layer).

Les navigateurs Web qui utilisent l’authentification de base transmettent les mots de passe sans les chiffrer. En surveillant les communications sur le réseau, un utilisateur malveillant peut utiliser des outils disponibles publiquement pour intercepter et décoder ces mots de passe. Par conséquent, l’authentification de base n’est pas recommandée sauf si vous êtes sûr que la connexion est sécurisée, comme avec une ligne dédiée ou une connexion SSL (Secure Sockets Layer).

Digest

L’authentification Digest repose sur le protocole HTTP 1.1, tel que défini dans les spécifications RFC 2617 du site Web W3C (World Wide Web Consortium). Du fait que l’authentification Digest requiert la conformité HTTP 1.1, certains navigateurs ne la prennent pas en charge. Si un navigateur non conforme avec HTTP 1.1 demande un fichier alors que l’authentification Digest est activée, la demande est refusée puisque l’authentification Digest n’est pas prise en charge par le client. L’authentification Digest peut être utilisée uniquement sur des domaines Windows. Elle fonctionne uniquement avec les comptes de domaine Windows Server 2008, Windows Server 2003 et Windows Server 2000 et peut requérir que les comptes stockent les mots de passe sous forme de texte brut chiffré.
NTLM

Les enregistrements d’utilisateur sont stockés dans la base de données gestionnaire des comptes de sécurité (SAM) ou dans la base de données Active Directory. Chaque compte d’utilisateur est associé à deux mots de passe : le mot de passe compatible avec le gestionnaire du réseau local et le mot de passe Windows. Chaque mot de passe est chiffré et stocké dans la base de données SAM ou la base de données Active Directory.
Kerberos (type d’authentification par utilisateur uniquement)

À l’aide du protocole Kerberos, une partie à l’une des deux extrémités d’une connexion réseau peut vérifier si la partie à l’autre extrémité est l’entité prétendue. Bien que NTLM permet aux serveurs de vérifier l’identité de leurs clients, NTLM ne permet pas aux clients de vérifier l’identité d’un serveur, ni à un serveur de vérifier l’identité d’un autre serveur. L’authentification NTLM est conçue pour un environnement de réseau dans lequel les serveurs sont supposés approuvés.
Basée sur les formulaires

Un cookie d’authentification par formulaires n’est qu’un conteneur d’un ticket d’authentification. Chaque requête transmet le ticket en tant que valeur du cookie et le ticket est utilisé sur le serveur pour identifier un utilisateur authentifié. Toutefois, l’authentification par formulaires sans cookies transmet le ticket dans l’URL dans un format crypté. L’authentification par formulaires sans cookies est utilisée parce que les navigateurs clients peuvent bloquer les cookies. Cette fonctionnalité est introduite dans Microsoft .NET Framework 2.0.

Si vous utilisez l’authentification basée sur les revendications dans votre environnement, assurez-vous que l’authentification Windows est également activée sur toutes les sources de contenu à analyser. Pour plus d’informations sur les méthodes d’authentification dans SharePoint Server 2010, voir Planifier des méthodes d’authentification (SharePoint Server 2010).