Planification de l'analyse de contenu (Search Server 2008)

Mise à jour : 2008-09-19

Dans cet article :

  • À propos de l'analyse et de l'indexation du contenu

  • Identification des sources de contenu à analyser

  • Planification des sources de contenu

  • Planification de l'authentification

  • Planification des gestionnaires de protocole

  • Planification de l'impact de l'analyse

  • Planification des règles d'analyse

  • Planification des paramètres de recherche gérés au niveau de la batterie de serveurs

  • Indexation de contenu dans différentes langues

NoteRemarque :

Sauf indication contraire, les informations de cet article s'appliquent à Microsoft Search Server 2008 et à Microsoft Search Server 2008 Express.

L'objectif de cet article est d'aider les administrateurs de services de recherche à planifier l'analyse de contenu en leur permettant de comprendre comment Microsoft Search Server 2008 analyse et indexe le contenu. Pour plus d'informations, reportez-vous à la section Ajout ou suppression d'un administrateur de services de recherche (Search Server 2008).

Avant que les utilisateurs finaux puissent tirer parti des fonctionnalités de recherche de contenu d'entreprise dans Search Server 2008, le contenu sur lequel ils vont exécuter des requêtes doit d'abord être analysé.

Dans cet article, un contenu peut être défini comme un élément qui peut être analysé, tel qu'une page Web, un document Microsoft Office Word ou un fichier de message électronique.

Lors de la planification de l'analyse de contenu, posez-vous les questions suivantes :

  • Où se trouve le contenu physique ?

  • Le contenu est-il stocké dans différentes sources, comme des partages de fichiers, des sites SharePoint, des sites Web ou d'autres endroits ?

  • Souhaitez-vous analyser tout le contenu stocké dans une source ou une partie du contenu ?

  • Quels types de fichiers souhaitez-vous analyser ?

  • À quel moment et à quelle fréquence allez-vous analyser le contenu ?

  • Comment le contenu est-il sécurisé ?

Utilisez les informations de cet article pour trouver plus facilement les réponses à ces questions et pour prendre les décisions de planification nécessaires quant au contenu que vous souhaitez analyser, et comment et quand vous voulez l'analyser.

À propos de l'analyse et de l'indexation du contenu

L'analyse et l'indexation du contenu sont le processus par lequel le système accède au contenu et analyse ce contenu ainsi que ses propriétés, parfois appelées métadonnées, pour créer un index du contenu qui servira à fournir des réponses aux requêtes de recherche.

Le résultat d'un contenu bien analysé est que les fichiers individuels ou les parties de contenu sont accessibles et lus par le robot. Les mots clés et les métadonnées pour ces fichiers sont stockés dans l'index de contenu, parfois appelé simplement « index ». L'index est constitué des mots clés, qui sont stockés dans le système de fichiers du serveur d'index, et des métadonnées, qui sont stockées dans la base de données de recherche. Le système conserve un mappage entre les mots clés, les métadonnées et l'URL de la source à partir de laquelle le contenu a été analysé.

Le service de recherche est associé au fournisseur de services partagés (SSP) et un serveur spécifique lui est attribué pour indexer le contenu. Contrairement à les produits serveur de la version Office 2007, qui peut comporter plusieurs fournisseurs de services partagés (SSP), et par conséquent plusieurs index de contenu, Search Server 2008 est limité à un seul fournisseur de services partagés et donc à un seul index de contenu.

NoteRemarque :

Le robot ne modifie pas les fichiers sur les serveurs hôtes. Au lieu de cela, il accède aux fichiers et les lit, puis il envoie le texte et les métadonnées au serveur d'index. Certains serveurs hôtes modifient la date des fichiers une fois que le robot y a accédé. Le robot ne modifie pas la date.

Identification des sources de contenu à analyser

Le plus souvent, les besoins de votre organisation peuvent nécessiter seulement une analyse de tout le contenu des sites SharePoint de la batterie de serveurs. Dans ce cas, il peut être inutile d'identifier les sources de contenu que vous voulez analyser, car toutes les collections de sites d'une batterie de serveurs peuvent être analysées avec la source de contenu par défaut. Pour plus d'informations sur la source de contenu par défaut, reportez-vous à la section Planification des sources de contenu dans la suite de cet article.

De nombreuses organisations doivent également analyser du contenu qui est externe à la batterie de serveurs, tel que des partages de fichiers ou des sites Web sur Internet. Search Server 2008 peut analyser et indexer du contenu qui est hébergé sur d'autres batteries de serveurs Windows SharePoint Services, sur des sites Web, sur des partages de fichiers, sur des dossiers publics Microsoft Exchange et sur des serveurs IBM Lotus Notes. Ceci augmente considérablement la quantité de contenu disponible pour les requêtes de recherche.

Cependant, dans de nombreux cas, vous ne souhaiterez pas analyser chaque collection de sites de votre batterie de serveurs car le contenu stocké dans certaines collections de sites peut ne pas être pertinent dans les résultats de la recherche. Dans ce cas, vous devez effectuer l'une des opérations suivantes, ou les deux :

  • Notez les URL des collections de sites que vous ne voulez pas analyser. Si vous décidez d'utiliser la source de contenu par défaut, vous devez vous assurer que les adresses de démarrage pour les collections de sites que vous ne souhaitez pas analyser ne figurent pas dans la source de contenu par défaut.

  • Notez les adresses de démarrage des collections de sites que vous voulez analyser. Si vous décidez de créer des sources de contenu supplémentaires à utiliser pour analyser ce contenu, vous devez connaître ces adresses de démarrage. Des informations sur les cas d'utilisation d'une ou de plusieurs sources de contenu sont fournies dans la section Planification des sources de contenu de cet article.

TipConseil :

Avec Search Server, il y a deux manières de traiter les requêtes de recherche pour renvoyer des résultats de recherche aux utilisateurs. Vous pouvez effectuer une requête dans l'index de contenu Search Server ou utiliser la recherche fédérée. Chaque approche a ses avantages. Pour obtenir une comparaison de ces deux approches du traitement des requêtes de recherche, reportez-vous à la section Présentation de la recherche fédérée (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x40C) . Pour obtenir une liste et une description rapide des articles Serveur de recherche sur la présentation et l'utilisation de la fédération, reportez-vous à la section Utilisation de la fédération (Search Server 2008).

Planification des sources de contenu

Avant de pouvoir analyser le contenu, vous devez déterminer l'emplacement où se trouve le contenu et les types de serveur hébergeant le contenu. Une fois que ces informations sont recueillies, un administrateur de services de recherche peut créer une ou plusieurs sources de contenu. Ces sources de contenu fournissent au robot les informations ci-dessous :

  • Type de contenu à analyser : par exemple, un site SharePoint ou un partage de fichiers

  • Adresse de démarrage à laquelle l’analyse doit commencer

  • Type de comportement à utiliser lors de l’analyse : par exemple, profondeur de l’analyse à partir de l’adresse de démarrage ou nombre de tronçons de serveur autorisés

  • Fréquence de l'analyse

NoteRemarque :

L’analyse de contenu à l’aide d’une source de contenu particulière est parfois appelée « analyse de la source de contenu ».

Cette section vous aide à planifier les sources de contenu nécessaires à votre organisation.

La source de contenu par défaut est appelée Sites Office SharePoint Server locaux. Les administrateurs de services de recherche peuvent utiliser cette source de contenu pour analyser et indexer tous les contenus de la batterie de serveurs. Par défaut, Search Server 2008 ajoute l'adresse de démarrage (dans ce cas, une URL) du site de plus haut niveau de chaque collection de sites de la batterie à la source de contenu par défaut.

Pour certaines organisations, la simple utilisation de la source de contenu par défaut pour analyser tous les sites dans leurs collections de sites satisfait leurs besoins en matière de recherche. Toutefois, de nombreuses organisations ont besoin de sources de contenu supplémentaires.

Les raisons pour créer des sources de contenu supplémentaires peuvent correspondre aux nécessités suivantes :

  • Analyse de différents types de contenu

  • Analyse de certains contenus selon des planifications différentes de celles appliquées à d'autres contenus

  • Limitation ou augmentation de la quantité de contenu analysé

Les administrateurs de services de recherche peuvent créer jusqu'à 500 sources de contenu et chaque source de contenu peut contenir jusqu'à 500 adresses de démarrage. Pour conserver l'administration aussi simple que possible, vous devez créer seulement les sources de contenu dont vous avez réellement besoin.

Analyse de différents types de contenu

Vous pouvez analyser un seul type de contenu par source de contenu. Autrement dit, vous pouvez créer une source de contenu qui contient des URL pour des sites SharePoint et une autre source qui contient des URL pour des partages de fichiers, mais vous ne pouvez pas créer une source de contenu contenant des URL à la fois vers des sites SharePoint et vers des partages de fichiers. Le tableau suivant répertorie les types de sources de contenu qui peuvent être configurés.

Ce type de source de contenu Inclut ce type de contenu

Sites SharePoint

Sites SharePoint de la même batterie de serveurs ou de différentes batteries Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou Search Server 2008

  • Sites SharePoint de Microsoft Office SharePoint Portal Server 2003 ou de Windows SharePoint Services 2.0

    NoteRemarque :
    Contrairement à l’analyse de sites SharePoint sur Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou Search Server 2008, le robot ne peut pas analyser automatiquement tous les sous-sites d’une collection de sites à partir des versions antérieures des produits et des technologies SharePoint. Par conséquent, lors de l’analyse de sites SharePoint de versions antérieures, vous devez spécifier l’URL de chaque site du plus niveau et de chaque sous-site que vous souhaitez analyser. Les sites répertoriés dans l’annuaire de sites des batteries de serveurs Microsoft Office SharePoint Portal Server 2003 sont analysés lorsque le site portail est analysé. Pour plus d'informations sur le répertoire de sites, reportez-vous à la section À propos du répertoire de sites https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x40C .

Sites Web

  • Autre contenu Web de votre organisation non trouvé dans des sites SharePoint

  • Contenu sur des sites Web sur Internet

Partages de fichiers

Contenu sur des partages de fichiers au sein de votre organisation

Lotus Notes

Messages électroniques stockés dans des bases de données Lotus Notes

NoteRemarque :
Contrairement à tous les autres types de sources de contenu, l'option de sources de contenu Lotus Notes n'apparaît pas dans l'interface utilisateur tant que vous n'avez pas installé et configuré les logiciels prérequis appropriés. Pour plus d'informations, reportez-vous à la section Configurer Search Server pour analyser Lotus Notes (Search Server 2008).

Dossiers publics Exchange

Contenu Exchange Server

Analyse de contenu selon différentes planifications

Les administrateurs de services de recherche doivent souvent décider si certains contenus sont analysés plus fréquemment que d'autres. Plus le volume de contenu que vous analysez est grand, plus il est probable que vous analysez des contenus provenant de différentes sources. Ces différentes sources peuvent ou non être du même type et être hébergées sur des serveurs plus ou moins rapides.

Ces facteurs rendent plus probable la nécessité de sources de contenu supplémentaires pour analyser ces différentes sources de contenu à des moments différents.

Les principales raisons pour lesquelles des contenus sont analysés selon différentes planifications sont les suivantes :

  • Pour tenir compte des périodes d'indisponibilité et des périodes d'utilisation maximale.

  • Pour analyser plus fréquemment le contenu qui est mis à jour le plus souvent.

  • Pour analyser séparément le contenu hébergé sur des serveurs plus lents et sur des serveurs plus rapides.

Dans de nombreux cas, il n'est pas possible de connaître toutes ces informations tant que Search Server 2008 n'est pas déployé et qu'il n'a pas fonctionné pendant quelque temps. Certaines de ces décisions seront donc prises pendant la phase de fonctionnement. Il est cependant judicieux de prendre en compte ces facteurs lors de la planification, afin de déterminer les planifications des analyses sur la base des informations disponibles.

Les deux sections ci-dessous fournissent davantage d'informations sur l'analyse de contenu selon différentes planifications.

Périodes d’indisponibilité et périodes d’utilisation maximale

Tenez compte des périodes d'indisponibilité et des périodes d'utilisation maximale des serveurs qui hébergent le contenu que vous voulez analyser. Par exemple, si vous analysez du contenu hébergé par plusieurs serveurs différents en dehors de votre batterie de serveurs, il est probable que ces serveurs seraient sauvegardés à des moments différents et que leurs périodes d'utilisation maximale soient différentes. L'administration des serveurs situés en dehors de votre batterie de serveurs échappe généralement à de votre contrôle. Par conséquent, il est recommandé de coordonner vos analyses avec les administrateurs des serveurs qui hébergent le contenu à analyser, de façon à ne pas essayer d'analyser le contenu sur leurs serveurs au cours d'une période d'indisponibilité ou d'une période d'utilisation maximale.

Un scénario courant implique qu’il y ait du contenu échappant au contrôle de votre organisation et qui est lié au contenu de vos sites SharePoint. Vous pouvez ajouter les adresses de démarrage pour ce contenu à une source de contenu existante ou bien créer une nouvelle source de contenu pour le contenu externe. Étant donné que la disponibilité des sites externes peut varier considérablement, il est utile d’ajouter des sources de contenu distinctes pour les différents contenus externes. De cette manière, les sources de contenu pour le contenu externe peuvent être analysées à des moments différents de ceux des autres sources de contenu. Vous pouvez ensuite mettre à jour le contenu externe selon une planification d’analyse qui prend en compte la disponibilité de chaque site.

Contenu fréquemment mis à jour

Lors de la planification des analyses, prenez en compte le fait que, généralement, certaines sources de contenu sont mises à jour plus fréquemment que d'autres. Par exemple, si vous savez que du contenu sur certaines collections de sites ou certaines sources externes est mis à jour seulement le vendredi, ce serait un gaspillage de ressources que d'analyser ce contenu plus fréquemment qu'une fois par semaine. Votre batterie de serveurs peut cependant contenir d'autres collections de sites qui sont mises à jour du lundi au vendredi, mais pas les samedis et les dimanches. Dans ce cas, vous pouvez analyser plusieurs fois ces sites chaque jour de la semaine, mais seulement une ou deux fois pendant les week-ends.

La façon dont le contenu est stocké dans les collections de sites peut vous guider dans la création de sources de contenu supplémentaires pour chacune de vos collections de sites dans chacune de vos applications Web. Par exemple, si une collection de sites stocke uniquement des informations archivées, il peut être inutile d'analyser ce contenu aussi fréquemment qu'une collection de sites qui stocke du contenu fréquemment mis à jour. Dans ce cas, analysez ces deux collections de sites à l'aide de sources de contenu différentes, afin qu'elles puissent être analysées selon des planifications différentes, sans analyser les sites d'archive aussi souvent que les autres contenus.

Planifications d’analyse complète et incrémentielle

Les administrateurs de services de recherche peuvent configurer les planifications d'analyse de manière indépendante pour chaque source de contenu. Pour chaque source de contenu, ils peuvent spécifier un horaire pour effectuer des analyses complètes et un horaire distinct pour effectuer des analyses incrémentielles. Notez que vous devez exécuter une analyse complète pour une source de contenu particulière avant de pouvoir exécuter une analyse incrémentielle. Si vous choisissez une analyse incrémentielle pour du contenu qui n'a pas encore été analysé, le système effectue une analyse complète.

Il est recommandé de prévoir des planifications d’analyse en considérant la disponibilité, les performances et la bande passante des serveurs qui exécutent le service de recherche et des serveurs hébergeant le contenu analysé.

Lorsque vous planifiez des analyses, tenez compte des recommandations suivantes :

  • Regroupez les adresses de démarrage des sources de contenu sur la base d’une disponibilité similaire, avec une utilisation globale des ressources acceptable sur les serveurs hébergeant le contenu.

  • Planifiez des analyses incrémentielles pour chaque source de contenu à des moments où les serveurs qui hébergent le contenu sont disponibles et lorsque la demande de ressources sur le serveur est faible.

  • Étalez les analyses dans le temps afin que la charge des serveurs soit utilement répartie.

  • Planifiez des analyses complètes seulement lorsque c’est nécessaire pour les raisons indiquées dans la section suivante. Il est recommandé de planifier des analyses complètes moins fréquemment que des analyses incrémentielles.

  • Planifiez les modifications liées à l’administration et requérant une analyse complète un peu avant les moments prévus pour les analyses complètes. Par exemple, il est recommandé de planifier la création de la règle d’analyse avant l’analyse complète planifiée suivante, de sorte qu’une analyse complète supplémentaire ne soit pas nécessaire.

  • Basez les analyses simultanées sur la capacité du serveur d'index. Il est recommandé d'échelonner les planifications d'analyse de façon à ce que le serveur d'index n'effectue pas d'analyses avec plusieurs sources de contenu en même temps. Pour de meilleures performances, il est préférable d'échelonner les planifications d'analyse des sources de contenu. Les performances du serveur d'index et des serveurs hébergeant le contenu déterminent dans quelle mesure des analyses peuvent être effectuées simultanément. Une stratégie de planification des analyses peut être développée dans le temps, dans la mesure où vous connaîtrez de mieux en mieux les durées d'analyse habituelles de chaque source de contenu.

Raisons pour effectuer une analyse complète

Les raisons pour qu'un administrateur de fournisseurs de services de recherche effectue une analyse complète sont les suivantes :

  • Un ou plusieurs correctifs logiciels ou Service Packs ont été installés sur des serveurs de la batterie. Pour plus d’informations, consultez les instructions pour le correctif logiciel ou pour le Service Pack.

  • Un administrateur de fournisseurs de services de recherche a ajouté une nouvelle propriété gérée.

  • Pour réindexer des pages ASPX sur des sites Windows SharePoint Services 3.0.

    NoteRemarque :

    Le robot ne peut pas détecter si des pages ASPX sur des sites Windows SharePoint Services 3.0 ont été modifiées. De ce fait, les analyses incrémentielles ne réindexent pas les vues ou les pages d'accueil lorsque des éléments de liste individuels sont supprimés. Il est recommandé d'effectuer régulièrement des analyses complètes des sites contenant des fichiers ASPX pour que ces pages soient réindexées.

  • Pour détecter des modifications de sécurité qui ont été apportées à un partage de fichiers après la dernière analyse complète du partage de fichiers.

  • Pour résoudre les échecs consécutifs des analyses incrémentielles. Dans de rares cas, si une analyse incrémentielle échoue cent fois de suite à n’importe quel niveau d’un référentiel, le serveur d’index supprime le contenu affecté de l’index.

  • Des règles d'analyse ont été ajoutées, supprimées ou modifiées.

  • Pour réparer un index endommagé.

  • L'administrateur des services de recherche a créé un ou plusieurs mappages de noms de serveurs.

  • Le compte affecté au compte d'accès au contenu par défaut ou à la règle d'analyse a changé.

Le système effectue une analyse complète même si une analyse incrémentielle est demandée dans les circonstances suivantes :

  • Un administrateur de services de recherche a arrêté l'analyse précédente.

  • Une base de données de contenu a été restaurée.

    NoteRemarque :

    Si vous exécutez la Mise à jour d’infrastructure pour les produits serveur de Microsoft Office, vous pouvez utiliser l’opération de restauration de l’outil de ligne de commande Stsadm pour déterminer si une restauration de la base de données de contenu provoque une analyse complète.

  • Un administrateur de batterie de serveurs a détaché et rattaché une base de données de contenu.

  • Une analyse complète du site n’a jamais été effectuée.

  • Le journal des modifications ne contient pas des entrées pour les adresses qui sont en cours d'analyse. Sans les entrées dans le journal des modifications pour les éléments en cours d'analyse, les analyses incrémentielles ne peuvent pas avoir lieu.

  • Le compte affecté au compte d'accès au contenu par défaut ou à la règle d'analyse a changé.

  • Pour réparer un index endommagé.

    Selon la gravité du dommage, le système peut tenter d’effectuer une analyse complète si le dommage est détecté dans l’index.

Vous pouvez adapter les planifications après le déploiement initial au vu des performances et de la capacité des serveurs de la batterie et des serveurs hébergeant le contenu.

Limitation ou augmentation de la quantité de contenu analysé

Pour chaque source de contenu, vous pouvez sélectionner l'étendue de l'analyse des adresses de démarrage de cette source de contenu. Vous spécifiez aussi le comportement de l'analyse, parfois appelé « paramètres d'analyse ». Les options disponibles pour une source de contenu particulière varient selon le type de source de contenu que vous sélectionnez. Cependant, la plupart des options déterminent le nombre de niveaux de profondeur de la hiérarchie qui sont analysés pour chaque adresse de démarrage figurant dans la source de contenu. Notez que ce comportement est appliqué à toutes les adresses de démarrage d'une source de contenu spécifique. Si vous devez analyser certains sites à des niveaux plus profonds, vous pouvez créer d'autres sources de contenu incluant ces sites.

Les options disponibles dans les propriétés de chaque source de contenu varient selon le type de source de contenu sélectionné. Le tableau suivant décrit les options des paramètres d’analyse pour chaque type de source de contenu.

Type de source de contenu Options des paramètres d’analyse

Sites SharePoint

  • Tous les éléments sous le nom d’hôte pour chaque adresse de démarrage

  • Seulement le site SharePoint de chaque adresse de démarrage

Sites Web

  • Seulement dans le serveur de chaque adresse de démarrage

  • Seulement la première page de chaque adresse de démarrage

  • Personnalisé : spécifie la profondeur de page et le nombre de tronçons de serveur.

    NoteRemarque :
    Le paramètre par défaut pour cette option est une profondeur de page et des tronçons de serveur illimités.

Partages de fichiers

  • Le dossier et tous les sous-dossiers de chaque adresse de démarrage

  • Seulement le dossier de chaque adresse de démarrage

Dossiers publics Exchange

  • Le dossier et tous les sous-dossiers de chaque adresse de démarrage

  • Seulement le dossier de chaque adresse de démarrage

Comme le tableau précédent le montre, les administrateurs de services de recherche peuvent utiliser les options des paramètres d’analyse pour limiter ou augmenter la quantité de contenu qui est analysé.

Le tableau ci-dessous décrit les pratiques recommandées lors de la configuration des options des paramètres d’analyse.

Pour ce type de source de contenu Si ceci s’applique Utilisez cette option de paramètre d’analyse

Sites SharePoint

Vous souhaitez inclure le contenu sur le site proprement dit

-ou-

Vous ne souhaitez pas inclure le contenu disponible sur les sous-sites, ou vous souhaitez les analyser selon une planification différente

Analyser seulement le site SharePoint de chaque adresse de démarrage

Sites SharePoint

Vous souhaitez inclure le contenu sur le site proprement dit

-ou-

Vous souhaitez analyser tout le contenu sous l'adresse de démarrage selon la même planification

Analyser tout sous le nom d’hôte pour chaque adresse de démarrage

Sites Web

Le contenu du site lui-même est pertinent

-ou-

Le contenu disponible sur les sites liés n’est pas susceptible d’être pertinent

Analyser seulement sur le serveur de chaque adresse de démarrage

Sites Web

Le contenu pertinent se trouve sur la première page seulement

Analyser seulement la première page de chaque adresse de démarrage

Sites Web

Vous souhaitez limiter la profondeur d’analyse des liens sur les adresses de démarrage

Personnalisé. Spécifie le nombre de pages en profondeur et le nombre de tronçons de serveur à analyser

NoteRemarque :
Il est recommandé de démarrer avec un petit nombre sur un site où les liens sont nombreux car la spécification de plus de trois pages de profondeur ou de plus de trois tronçons de serveur peut aboutir à analyser tout le réseau Internet.

Partages de fichiers

Dossiers publics Exchange

Le contenu disponible dans les sous-dossiers n’est pas susceptible d’être pertinent.

Analyser le dossier de chaque adresse de démarrage uniquement

Partages de fichiers

Dossiers publics Exchange

Le contenu des sous-dossiers est susceptible d’être pertinent.

Le dossier et tous les sous-dossiers de chaque adresse de démarrage

Planification des inclusions de types de fichiers et des composants IFilter

Le contenu est analysé uniquement si l’extension de nom de fichier appropriée est incluse dans la liste des inclusions de types de fichiers et si un composant IFilter est installé sur le serveur d’index et prend en charge ces types de fichiers. Plusieurs types de fichiers sont inclus automatiquement lors de l’installation initiale. Lorsque vous planifiez des sources de contenu dans votre déploiement initial, déterminez si le contenu que vous souhaitez analyser utilise des types de fichiers qui ne sont pas inclus. Si c’est le cas, vous devez ajouter ces types de fichiers sur la page Gérer les types de fichiers lors du déploiement et vous assurer que vous disposez d'un IFilter installé et enregistré pour prendre en charge ce type de fichier.

Search Server 2008 fournit plusieurs composants IFilter, et d'autres sont disponibles auprès de Microsoft et de fournisseurs tiers. Pour plus d'informations sur la façon d'installer et d'enregistrer des composants IFilters supplémentaires disponibles auprès de Microsoft, consultez Comment enregistrer Microsoft Filter Pack avec SharePoint Server 2007 et Search Server 2008. Si nécessaire, les développeurs peuvent créer des composants IFilter pour de nouveaux types de fichiers.

En revanche, si vous souhaitez exclure certains types de fichiers de l'analyse, vous pouvez supprimer l'extension de nom de fichier pour ce type de fichier dans la liste des inclusions de types de fichiers. Ceci exclut de l'analyse les noms des fichiers qui ont cette extension.

Le tableau ci-dessous répertorie les types de fichiers pris en charge par les composants IFilter qui sont installés par défaut, ainsi que les types de fichiers qui sont activés par défaut sur la page Gérer les types de fichiers.

Extension de nom de fichier Prise en charge du composant IFilter par défaut Inclusions de types de fichiers par défaut

ascx

Oui

Oui

asm

Oui

Non

asp

Oui

Oui

aspx

Oui

Oui

bat

Oui

Non

c

Oui

Non

cmd

Oui

Non

cpp

Oui

Non

css

Oui

Non

cxx

Oui

Non

def

Oui

Non

dic

Oui

Non

doc

Oui

Oui

docm

Oui

Oui

docx

Oui

Oui

dot

Oui

Oui

eml

Oui

Oui

exch

Non

Oui

h

Oui

Non

hhc

Oui

Non

hht

Oui

Non

hpp

Oui

Non

hta

Oui

Non

htm

Oui

Oui

html

Oui

Oui

htw

Oui

Non

htx

Oui

Non

jhtml

Non

Oui

jsp

Non

Oui

lnk

Oui

Non

mht

Oui

Oui

mhtml

Oui

Oui

mpx

Oui

Non

msg

Oui

Oui

mspx

Non

Oui

nsf

Non

Oui

odc

Oui

Oui

one

Non

Non

php

Non

Oui

pot

Oui

Non

pps

Oui

Non

ppt

Oui

Oui

pptm

Oui

Oui

pptx

Oui

Oui

pub

Oui

Oui

stm

Oui

Non

tif

Oui

Oui

tiff

Non

Oui

trf

Oui

Non

txt

Oui

Oui

url

Non

Oui

vdx

Non

Oui

vsd

Non

Oui

vss

Non

Oui

vst

Non

Oui

vsx

Non

Oui

vtx

Non

Oui

xlb

Oui

Non

xlc

Oui

Non

xls

Oui

Oui

xlsm

Oui

Oui

xlsx

Oui

Oui

xlt

Oui

Non

xml

Oui

Oui

Composants IFilter et Microsoft Office OneNote

Il n'est pas fourni de composant IFilter pour l'extension de nom de fichier .one utilisée par Microsoft Office OneNote. Si vous souhaitez que les utilisateurs puissent rechercher du contenu dans des fichiers Office OneNote, vous devez installer le composant IFilter pour OneNote. Pour ce faire, vous devez effectuer l'une des opérations suivantes :

  • Installez l'application cliente Microsoft Office OneNote 2007 sur le serveur d'index.

    Le composant IFilter pour Office OneNote 2007 permet d'analyser les fichiers Office OneNote 2003 et Office OneNote 2007. Le composant IFilter pour Office OneNote 2003 peut analyser seulement des fichiers Office OneNote 2003.

  • Installez et inscrivez le pack de filtres Microsoft.

    Le composant IFilter OneNote fourni par ce pack de filtres permet d'analyser uniquement les fichiersOneNote 2007. Pour plus d'informations, consultez Enregistrement du pack de filtres Microsoft avec SharePoint Server 2007 et Search Server 2008.

Limitation ou exclusion de contenu à l’aide de règles d’analyse

Lorsque vous ajoutez une adresse de démarrage à une source de contenu et que vous acceptez le comportement par défaut, tous les sous-sites ou les dossiers qui se trouvent sous cette adresse de démarrage sont analysés, sauf si vous les excluez à l’aide d’une ou de plusieurs règles d’analyse.

Pour plus d'informations sur les règles d'analyse, reportez-vous à la section Planification des règles d'analyse dans la suite de cet article.

Autres observations sur la planification de sources de contenu

Vous ne pouvez pas analyser les mêmes adresses à l'aide de plusieurs sources de contenu. Par exemple, si vous utilisez une source de contenu particulière pour analyser une collection de sites et tous ses sous-sites, vous ne pouvez pas utiliser une autre source de contenu pour analyser un de ces sous-sites séparément selon un calendrier différent. Pour tenir compte de cette restriction, il peut être nécessaire d'analyser certains de ces sites séparément. Imaginons le scénario suivant :

Un administrateur de Contoso souhaite analyser http://contoso/, qui contient les sous-sites http://contoso//sites/site1 et http://contoso//sites/site2. Il souhaite analyser http://contoso//sites/site2 selon une planification différente de celle des autres sites. À cet effet, il ajoute les adresses http://contoso/ et http://contoso//sites/site1 à une source de contenu et sélectionne le paramètre Analyser seulement le site SharePoint de chaque adresse de démarrage. Le sous-site http://contoso//sites/site2 est alors à une source de contenu distincte avec une planification d'analyse différente.

En plus des planifications d'analyse, vous devez prendre en compte d'autres éléments lors de la planification des sources de contenu. Par exemple, la décision de regrouper des adresses de démarrage dans une même source de contenu ou de créer des sources de contenu supplémentaires pour analyser ces adresses de démarrage dépend en grande partie de considérations relatives à l'administration. Les administrateurs apportent régulièrement des modifications qui nécessitent la mise à jour complète d'une source de contenu particulière. Les modifications apportées à une source de contenu nécessitent une analyse complète de cette source de contenu. Pour faciliter l'administration, organisez les sources de contenu de sorte que la mise à jour des sources de contenu, des règles d'analyse et de l'analyse de contenu soit pratique pour les administrateurs.

Récapitulatif des sources de contenu

Tenez compte des éléments ci-dessous lors de la planification des sources de contenu :

  • Une source de contenu particulière peut être utilisée pour analyser seulement l'un des types de contenu suivants : sites SharePoint, sites Web qui ne sont pas des sites SharePoint, partages de fichiers, Dossiers publics Exchange et bases de données Lotus Notes.

  • Les administrateurs de services de recherche peuvent créer jusqu'à 500 sources de contenu et chaque source de contenu peut contenir jusqu'à 500 adresses de démarrage. Pour conserver l'administration aussi simple que possible, créez seulement les sources de contenu dont vous avez absolument besoin.

  • Chaque URL d'une source de contenu particulière doit être du même type de source de contenu.

  • Pour une source de contenu particulière, vous pouvez choisir la profondeur de l'analyse à partir des adresses de démarrage. Ces paramètres de configuration s'appliquent à toutes les adresses de démarrage dans la source de contenu. Les choix disponibles portent sur les différences de profondeur d'analyse à partir des adresses de démarrage selon le type de source de contenu qui est sélectionné.

  • Vous pouvez planifier quand exécuter une analyse complète ou une analyse incrémentielle pour toute la source de contenu. Pour plus d’informations sur la planification des analyses, consultez Planification des règles d’analyse plus loin dans cet article.

  • Les administrateurs de services de recherche peuvent modifier la source de contenu par défaut, créer des sources de contenu supplémentaires pour analyser d'autres contenus, ou les deux. Par exemple, ils peuvent configurer la source de contenu par défaut pour analyser également du contenu sur une autre ferme de serveurs ou ils peuvent créer une nouvelle source de contenu pour analyser d'autres contenus.

  • Pour analyser efficacement tout le contenu requis par votre organisation, utilisez autant de sources de contenu que nécessaire pour les types de sources que vous souhaitez analyser et pour la fréquence à laquelle vous prévoyez de les analyser.

Planification de l'authentification

Lorsque le robot accède aux adresses de démarrage qui sont répertoriées dans les sources de contenu, il doit être authentifié par les serveurs qui hébergent ce contenu et être autorisé à y accéder. Cela signifie que le compte de domaine utilisé par le robot doit disposer au moins de l'autorisation de lecture du contenu.

Le compte d'accès au contenu par défaut est le compte qui est utilisé par défaut lors de l'analyse des sources de contenu. Ce compte est spécifié par l'administrateur de services de recherche. Vous pouvez aussi utiliser des règles d'analyse pour spécifier un compte d'accès de contenu différent à utiliser lors de l'analyse d'un contenu particulier. Que vous utilisiez le compte d'accès au contenu par défaut ou un autre compte d'accès au contenu spécifié par une règle d'analyse, le compte d'accès au contenu utilisé doit avoir l'accès en lecture à tout le contenu analysé, sans quoi le contenu n'est pas analysé et n'est pas disponible pour les requêtes.

Il est recommandé de sélectionner un compte d'accès au contenu par défaut qui a l'accès le plus large à la plupart de votre contenu analysé ; utilisez d'autres comptes d'accès au contenu seulement lorsque des considérations relatives à la sécurité nécessitent des comptes d'accès au contenu distincts. Pour plus d'informations sur la création de comptes d'accès au contenu distincts pour analyser du contenu qui ne peut pas être lu à l'aide du compte d'accès au contenu par défaut, reportez-vous à la section Planification des règles d'analyse dans la suite de cet article.

Pour chaque source de contenu que vous prévoyez, identifiez les adresses de démarrage qui ne sont pas accessibles par le compte d'accès au contenu par défaut et prévoyez d'ajouter des règles d'analyse pour les modèles d'URL qui couvrent ces adresses de démarrage.

NoteRemarque :

Assurez-vous que le compte de domaine utilisé pour le compte d'accès au contenu par défaut ou pour tout autre compte d'accès au contenu n'est pas le même compte de domaine que celui qui est utilisé par un pool d'applications associé à n'importe quelle application Web analysée. Cela peut en effet aboutir à l'analyse et à l'indexation de contenu non publié dans des sites SharePoint et dans des versions mineures de fichiers (des versions de l'historique) de sites SharePoint.

Pour plus d'informations sur les considérations de planification pour les comptes d'accès au contenu, reportez-vous à la section Planification des règles d'analyse dans la suite de cet article.

Une autre considération importante est que le robot doit utiliser la même méthode d'authentification que le serveur hôte. Par défaut, le robot tente de s'authentifier à l'aide de l'authentification NTLM. Vous pouvez configurer le robot pour qu'il utilise si nécessaire une autre méthode d'authentification. Pour plus d'informations, reportez-vous à la section relative aux conditions d'authentification nécessaires pour l'analyse du contenu dans Planifier des méthodes d’authentification (Office SharePoint Server). Cet article concerne également à Search Server 2008.

Planification des gestionnaires de protocole

Tout le contenu qui est analysé requiert l'utilisation d'un gestionnaire de protocole pour accéder à ce contenu. Search Server 2008 fournit des gestionnaires de protocole pour tous les protocoles Internet courants. Toutefois, si vous souhaitez analyser du contenu qui requiert un gestionnaire de protocole qui n'est pas installé avec Search Server 2008, vous devez installer le gestionnaire de protocole tiers ou personnalisé avant de pouvoir analyser ce contenu.

Le tableau ci-dessous répertorie les gestionnaires de protocole installés par défaut.

Gestionnaire de protocole Permet d'analyser

Fichier

Partages de fichiers

http

Sites Web

https

Sites Web sur SSL

Notes

Bases de données Lotus Notes

Rb

Dossiers publics Exchange

Rbs

Dossiers publics Exchange sur SSL

Sps

Profils de personne à partir de batteries de serveurs Windows SharePoint Services 2.0

Sps3

Analyses de profil de personne de batteries de serveurs Windows SharePoint Services 3.0 uniquement

Sps3s

Analyses de profil de personne à partir de batteries de serveurs Windows SharePoint Services 3.0 uniquement

Spsimport

Importation de profil de personne

Spss

Importation de profil de personne à partir de batteries de serveurs Windows SharePoint Services 2.0 sur SSL

Sts

URL racines Windows SharePoint Services 3.0 (protocole interne)

Sts2

Sites Windows SharePoint Services 2.0

Sts2s

Sites Windows SharePoint Services 2.0 sur SSL

Sts3

Sites Windows SharePoint Services 3.0

Sts3s

Sites Windows SharePoint Services 3.0 sur SSL

Planification de l'impact de l'analyse

L'analyse du contenu peut considérablement réduire les performances des serveurs qui hébergent le contenu. L'impact que cela a sur un serveur particulier varie selon la charge que le serveur hôte supporte et du niveau suffisant ou non des ressources du serveur (en particulier du processeur et de la mémoire vive) pour respecter les contrats de niveau de service en utilisation normale ou maximale.

Les règles d'impact du robot permettent aux administrateurs de batteries de serveurs de gérer l'impact du robot sur les serveurs à analyser. Pour chaque règle d'impact du robot, vous pouvez spécifier une URL unique ou utiliser des caractères génériques dans le chemin d'accès de l'URL pour inclure un bloc d'URL auxquelles la règle s'applique. Vous pouvez ensuite spécifier le nombre de demandes de pages simultanément adressées à l'URL spécifiée ou choisir de demander un seul document à la fois et attendre un certain nombre de secondes entre les demandes.

Les règles d'impact du robot réduisent ou augmentent la vitesse à laquelle le robot demande le contenu à une adresse de démarrage spécifique ou à une plage d'adresses de démarrage (parfois appelée « nom de site »), indépendamment de la source de contenu utilisée pour analyser ces adresses. Le tableau suivant répertorie les caractères génériques que vous pouvez utiliser dans le nom de site lors de l'ajout d'une règle.

Caractère générique à utiliser Résultat

* comme nom de site

Applique la règle à tous les sites.

*.* comme nom de site

Applique la règle aux sites dont le nom comporte des points.

*.nom_du_site.com comme nom de site

Applique la règle à tous les sites du domaine nom_du_site.com (par exemple *.adventure-works.com).

*.nom_de_domaine_du_plus_haut_niveau comme nom de site

Applique la règle à tous les sites se terminant par un nom de domaine du plus haut niveau spécifique (par exemple *.com ou *.net).

?

Remplace un seul caractère dans une règle. Par exemple, *.adventure-works?.com s'applique à tous les sites des domaines adventure-works1.com, adventure-works2.com, etc.

Vous pouvez créer une règle d'impact du robot qui s'applique à tous les sites dans un domaine de plus haut niveau particulier. Ainsi, *.com s'applique à tous les sites Internet avec des adresses qui se terminent par .com. Par exemple, un administrateur d'un site portail peut ajouter une source de contenu pour exemples.microsoft.com. La règle pour *.com s'applique à ce site, sauf si vous ajoutez une règle d'impact du robot spécifiquement pour exemples.microsoft.com.

Pour le contenu existant au sein de votre organisation et qui serait analysé par d'autres administrateurs, vous pouvez vous coordonner avec ces administrateurs pour définir des règles d'impact du robot basées sur les performances et la capacité des serveurs. Pour les sites plus extérieurs, cette coordination n'est pas possible. Le fait de demander trop de contenu sur des serveurs externes ou d'effectuer des demandes trop fréquemment peut entraîner la limitation de vos accès ultérieurs par les administrateurs de ces sites si vos analyses utilisent trop de ressources ou trop de bande passante. Par conséquent, la pratique recommandée consiste à effectuer les analyses selon un rythme plus lent. De cette manière, vous pouvez réduire le risque de perdre vos accès pour analyser le contenu pertinent.

Lors du déploiement initial, définissez les règles d’impact du robot pour alléger la charge sur les autres serveurs tout en analysant le contenu selon une fréquence suffisante pour garantir l’actualité du contenu analysé.

Au cours de la phase de fonctionnement, vous pouvez adapter au fur et à mesure les règles d'impact sur la base de votre expérience et des journaux d'analyse.

Planification des règles d'analyse

Les règles d'analyse s'appliquent à une URL particulière ou à un ensemble spécifique d'URL représenté(e) par des caractères génériques (également appelé(e) « chemin d'accès affecté par la règle »). Vous utilisez des règles d'analyse pour atteindre les objectifs suivants :

  • Éviter l'analyse de contenu non pertinent en excluant une ou plusieurs URL. Cela permet également de réduire l'utilisation des ressources serveur et du trafic réseau, et d'accroître la pertinence des résultats de la recherche.

  • Analyser des liens sur l'URL sans analyser l'URL elle-même. Cette option est utile pour les sites avec des liens vers du contenu pertinent lorsque la page contenant les liens ne contient pas d'informations pertinentes.

  • Permettre l'analyse d'URL complexes. Cette option analyse les URL qui contiennent un paramètre de requête spécifié avec un point d'interrogation. En fonction du site, ces URL peuvent ou non inclure du contenu pertinent. Étant donné que les URL complexes peuvent souvent rediriger vers des sites non pertinents, il est judicieux d'activer cette option seulement sur des sites où le contenu disponible à partir d'URL complexes est réputé non pertinent.

  • Permettre à du contenu sur des sites SharePoint d'être analysé en tant que pages HTTP. Cette option permet au serveur d'index d'analyser des sites SharePoint qui sont derrière un pare-feu ou dans des scénarios où le site en cours d'analyse limite l'accès au service Web utilisé par le robot.

  • Spécifier s'il faut utiliser le compte d'accès au contenu par défaut, un autre compte d'accès au contenu ou un certificat client pour l'analyse de l'URL spécifiée.

NoteRemarque :

Les règles d'analyse s'appliquent simultanément à toutes les sources de contenu.

Souvent, la plupart du contenu d'une adresse d'un site particulier est pertinent, mais ce n'est éventuellement pas le cas d'un sous-site spécifique ou d'une plage de sites situés sous l'adresse de ce site. En sélectionnant une combinaison ciblée d'URL pour lesquelles ils créent des règles d'analyse qui excluent les éléments non nécessaires, les administrateurs de services de recherche peuvent optimiser la pertinence du contenu de l'index tout en minimisant l'impact sur les performances de l'analyse et la taille des bases de données de la recherche. La création de règles d'analyse pour exclure des URL est particulièrement utile lors de la planification des adresses de démarrage pour du contenu externe, pour lequel l'impact sur l'utilisation des ressources échappe au contrôle des personnes de votre organisation.

Lorsque vous créez une règle d’analyse, vous pouvez utiliser des caractères génériques standard dans le chemin d’accès. Par exemple :

  • http://serveur1/dossier* contient toutes les ressources Web dotées d’une URL commençant par http://serveur1/dossier.

  • *://*.txt inclut chaque document avec l’extension de fichier .txt.

Étant donné que l'analyse de contenu consomme des ressources et de la bande passante, il est préférable d'inclure un volume de contenu moins important mais pertinent, plutôt qu'un volume plus important de contenu mais qui risque d'être non pertinent. Après le déploiement initial, vous pouvez examiner les fichiers journaux des requêtes et des analyses, et adapter en conséquence les sources de contenu et les règles d'analyse pour les rendre plus pertinentes et inclure davantage de contenu.

Spécification d'un autre compte d'accès au contenu

Pour les règles d'analyse qui incluent du contenu, les administrateurs ont la possibilité de modifier le compte d'accès au contenu pour la règle. Le compte d'accès au contenu par défaut est utilisé à moins qu'un autre compte soit spécifié dans une règle d'analyse. La raison principale pour utiliser un autre compte d'accès au contenu pour une règle d'analyse est que le compte d'accès au contenu par défaut n'a pas accès à toutes les adresses de démarrage. Pour ces adresses, vous pouvez créer une règle d'analyse et spécifier un compte qui y a accès.

NoteRemarque :

Assurez-vous que le compte de domaine utilisé pour le compte d'accès au contenu par défaut ou pour tout autre compte d'accès au contenu n'est pas le même compte de domaine que celui qui est utilisé par un pool d'applications associé à n'importe quelle application Web analysée. Cela peut en effet aboutir à l'analyse et à l'indexation de contenu non publié dans des sites SharePoint et dans des versions mineures de fichiers (des versions de l'historique) de sites SharePoint.

Planification des paramètres de recherche gérés au niveau de la batterie de serveurs

Outre les paramètres qui sont configurés au niveau de l'administration de la recherche, plusieurs paramètres qui sont gérés au niveau de la batterie de serveurs affectent la façon dont le contenu est analysé. Prenez en compte les paramètres de recherche suivants (gérés au niveau de la batterie de serveurs) lors de la planification de l'analyse :

Adresse de messagerie du contact : l'analyse de contenu affecte les ressources des serveurs qui sont analysés. Avant de pouvoir analyser du contenu, vous devez fournir dans les paramètres de configuration l'adresse de messagerie de la personne de votre organisation que les administrateurs peuvent contacter dans le cas où l'analyse dégrade de façon trop importante les performances de leurs serveurs. Cette adresse de messagerie apparaît dans les journaux destinés aux administrateurs des serveurs analysés, pour leur permettre de contacter quelqu'un si l'impact de l'analyse sur les performances et sur la bande passante est trop grand, ou si d'autres problèmes se produisent.

L'adresse de messagerie du contact doit être celle d'une personne qui a les connaissances et la disponibilité nécessaires pour répondre rapidement aux demandes. Vous pouvez aussi utiliser un alias de liste de distribution spécialement surveillée en tant qu'adresse de messagerie du contact. Que le contenu analysé soit stocké ou non au sein de l'organisation, un temps de réponse rapide est important.

Paramètres du serveur proxy   Vous pouvez choisir d'utiliser un serveur proxy lors de l'analyse de contenu. Le serveur proxy à utiliser dépend de la topologie de votre déploiement de Search Server 2008 et de l'architecture des autres serveurs de votre organisation.

  • Paramètres de délai d'attente : les paramètres de délai d'attente sont utilisés pour limiter le temps d'attente du serveur de recherche lors de la connexion à d'autres services.

  • Paramètre SSL : le paramètre SSL (Secure Sockets Layer) détermine si le certificat SSL doit correspondre exactement au contenu analysé.

Indexation de contenu dans différentes langues

Lors de l'analyse de contenu, le robot détermine chaque mot individuel dans le contenu détecté. Les langues dont les mots sont séparés par des espaces facilitent la distinction des mots par le robot. Dans les autres langues, la détection des frontières entre les mots peut s'avérer plus complexe.

Search Server 2008 fournit des séparateurs de mots et des analyseurs morphologiques par défaut pour aider à analyser et à indexer le contenu dans un grand nombre de langues. Les séparateurs de mots recherchent les frontières entre les mots dans des données indexées en texte intégral, tandis que les analyseurs morphologiques conjuguent les verbes.

Si vous analysez l'une des langues figurant dans le tableau ci-dessous, Search Server 2008 utilise automatiquement le séparateur de mots et l'analyseur morphologique appropriés pour cette langue. Un astérisque (*) indique que la fonctionnalité d'analyse morphologique est activée par défaut.

Langue prise en charge par défaut Langue prise en charge par défaut

Arabe

Lituanien*

Bengali

Malais

Bulgare*

Malayalam*

Catalan

Marathi

Croate

Norvégien (Bokmaal)

Tchèque*

Polonais*

Danois

Portugais

Néerlandais

Portugais (Brésil)

Anglais

Pendjabi

Finnois*

Roumain*

Français*

Russe*

Allemand*

Serbe (Cyrillique)*

Grec*

Serbe (Latin)*

Gujarati

Slovaque*

Hébreu

Slovène*

Hindi

Espagnol*

Hongrois*

Suédois

Islandais*

Tamoul*

Indonésien

Telugu*

Italien

Thaï

Japonais

Turc*

Kannada*

Ukrainien*

Coréen

Ourdou*

Letton*

Vietnamien

Lorsque le robot indexe le contenu d'une langue qui n'est pas prise en charge, le séparateur neutre est utilisé. S'il ne permet pas d'obtenir le résultat escompté, vous pouvez essayer des solutions tierces, qui utilisent Search Server 2008.

Voir aussi

Utilisation de la fédération (Search Server 2008)