Limiter ou augmenter la quantité de contenu analysé (Search Server 2008)

Mise à jour : 2008-10-23

Note Remarque :

Sauf indication contraire, les informations de cet article s'appliquent à Microsoft Search Server 2008 et à Microsoft Search Server 2008 Express.

Au cours des opérations, vous devrez généralement modifier la quantité de contenu que vous analysez actuellement. Par exemple, vous souhaiterez éventuellement :

  • Interrompre l’analyse de certains sites dans un espace de noms particulier défini par une source de contenu existante.

  • Analyser des sites à une autre profondeur.

  • Changer le nombre de types de fichiers à analyser, autrement dit commencer à analyser les types de fichiers que vous n’avez pas encore analysés, interrompre l’analyse de certains types de fichiers que vous analysez actuellement, ou les deux.

En fonction de l’évolution des besoins de votre organisation, vous pourriez également analyser de toutes nouvelles sources de contenu. Pour plus d’informations sur l’analyse de nouvelles sources de contenu, consultez À propos des sources de contenu (Search Server 2008).

Vous pouvez augmenter ou limiter la quantité de contenu analysé à l’aide de :

  • Paramètres d’analyse dans les sources de contenu   Par exemple, vous pouvez spécifier d’analyser uniquement les adresses de démarrage spécifiées dans une source de contenu particulière, ou spécifier combien de niveaux de profondeur dans l’espace de noms (à partir de ces adresses de démarrage) il convient d’analyser et combien de tronçons de serveur il faut autoriser. Notez que les options qui sont disponibles dans une source de contenu pour spécifier la quantité de contenu à analyser varient selon le type de source de contenu.

  • Inclusions de types de fichiers   Vous pouvez choisir les types de fichiers à analyser.

  • Règles d’analyse    Vous pouvez utiliser des règles d’analyse pour exclure tous les éléments dans un chemin d’accès donné en cours d’analyse. C’est un bon moyen de vous assurer que les sous-sites Web que vous ne souhaitez pas indexer ne sont pas analysés avec un site parent qui vous analysez. Vous pouvez également utiliser des règles d’analyse pour augmenter la quantité de contenu analysé, par exemple l’analyse d’URL complexes pour un chemin d’accès donné.

Paramètres d’analyse

Pour chaque source de contenu, vous pouvez sélectionner l’étendue de l’analyse des adresses de démarrage de cette source de contenu. Vous spécifiez aussi le comportement de l’analyse, parfois qualifié de paramètres d’analyse. Les options disponibles pour une source de contenu particulière varient selon le type de source de contenu sélectionné. Cependant, la plupart des options déterminent le nombre de niveaux de profondeur dans la hiérarchie sont analysés depuis chaque adresse de démarrage figurant dans la source de contenu. Notez que cela s’applique à toutes les adresses de démarrage d’une source de contenu spécifique.

Les options disponibles dans les propriétés de chaque source de contenu varient en fonction du type de source de contenu sélectionné. Le tableau suivant décrit les options des paramètres d’analyse pour chaque type de source de contenu.

Type de source de contenu Options des paramètres d’analyse

Sites SharePoint

  • Tous les éléments sous le nom d’hôte pour chaque adresse de démarrage

  • Seulement le site SharePoint de chaque adresse de démarrage

Sites Web

  • Seulement dans le serveur de chaque adresse de démarrage

  • Seulement la première page de chaque adresse de démarrage

  • Personnalisé. Spécifiez la profondeur de page et le nombre de tronçons de serveur.

    NoteRemarque :
    Le paramètre par défaut pour cette option est une profondeur de page et de tronçons de serveur illimités.

Partages de fichiers

  • Le dossier et tous les sous-dossiers de chaque adresse de démarrage

  • Seulement le dossier de chaque adresse de démarrage

Dossiers publics Exchange

  • Le dossier et tous les sous-dossiers de chaque adresse de démarrage

  • Seulement le dossier de chaque adresse de démarrage

Comme le tableau précédent le montre, les administrateurs de services de recherche peuvent utiliser les options des paramètres d’analyse pour limiter ou augmenter la quantité de contenu qui est analysé.

Le tableau suivant décrit les meilleures pratiques à utiliser lors de la configuration des options des paramètres d’analyse.

Pour ce type de source de contenu Si ceci s’applique Utilisez cette option de paramètre d’analyse

Sites SharePoint

Vous souhaitez analyser le contenu d’une collection de sites particulière selon une planification différente de celle des autres collections de sites.

Analyser seulement le site SharePoint de chaque adresse de démarrage

NoteRemarque :
Cette option accepte toute URL, mais démarre l’analyse à partir du site de niveau supérieur de la collection de sites spécifiée dans l’URL que vous entrez. Par exemple, si vous entrez http://contoso/sites/sales/car alors que http://contoso/sites/sales est le site de niveau supérieur de la collection, la collection de sites http://contoso/sites/sales et tous ses sous-sites sont analysés.

Sites SharePoint

Vous souhaitez analyser tout le contenu de toutes les collections de sites dans une application Web spécifique selon la même planification.

Analyser tout sous le nom d’hôte pour chaque adresse de démarrage

NoteRemarque :
Cette option accepte uniquement des noms d’hôte comme adresses de démarrage, tels que http://contoso./ Vous ne pouvez pas entrer l’URL d’un sous-site, telle que http://contoso/sites/sales lors de l’utilisation de cette option.

Sites Web

Le contenu du site lui-même est pertinent.

- ou -

Le contenu disponible sur les sites liés n’est pas susceptible d’être pertinent.

Analyser seulement sur le serveur de chaque adresse de démarrage

Sites Web

Le contenu pertinent se trouve sur la première page seulement.

Analyser seulement la première page de chaque adresse de démarrage

Sites Web

Vous souhaitez limiter la profondeur d’analyse des liens sur les adresses de démarrage.

Personnalisé. Spécifiez le nombre de pages à explorer et le nombre de tronçons de serveur à analyser.

NoteRemarque :
Il est recommandé de démarrer avec un nombre peu élevé sur un site où les liens sont nombreux car la spécification de plus de trois pages de profondeur ou de plus de trois tronçons de serveur peut aboutir à analyser tout le réseau Internet.
NoteRemarque :
Vous pouvez également utiliser une ou plusieurs règles d’analyse pour spécifier le contenu à analyser. Pour plus d’informations, voir Utiliser des règles d’analyse pour déterminer le contenu à analyser (Search Server 2008).

Partages de fichiers

Dossiers publics Exchange

Le contenu disponible dans les sous-dossiers n’est pas susceptible d’être pertinent.

Analyser le dossier de chaque adresse de démarrage uniquement

Partages de fichiers

Dossiers publics Exchange

Le contenu des sous-dossiers est susceptible d’être pertinent.

Analyser le dossier et tous les sous-dossiers de chaque adresse de démarrage uniquement

Inclusions de types de fichiers et filtres IFilter

Le contenu est analysé uniquement si l’extension de nom de fichier appropriée est incluse dans la liste des inclusions de types de fichiers et si un IFilter est installé sur le serveur d’index qui prend en charge ces types de fichiers. Plusieurs types de fichiers sont inclus automatiquement lors de l’installation initiale. En analysant les journaux de requêtes, vous pouvez découvrir quels types de fichiers contiennent le contenu que vos utilisateurs finaux souhaitent interroger. Vous pourriez découvrir la nécessité d’analyser un type de fichier que vous n’analysez pas actuellement ou exclure certains types de fichiers de l’analyse.

Lorsque vous ajoutez des types de fichiers à la liste d’inclusions de types de fichiers, vous devez également vous assurer que vous avez un filtre IFilter permettant l’analyse du type de fichier. Si un tel IFilter n’est pas installé, le contenu des fichiers de ce type de fichier ne sera pas indexé et ne pourra pas faire l’objet d’une recherche. Toutefois, les métadonnées des fichiers de ce type de fichier particulier seront analysés et pourront faire l’objet d’une recherche. Par exemple, si vous ajoutez PDF à la liste d’inclusions de types de fichiers PDF mais n’installez pas un filtre IFilter pour le type de fichier PDF, le contenu des fichiers PDF ne sera pas indexé, mais les métadonnées des fichiers PDF le seront.

Microsoft Search Server 2008 fournit plusieurs filtres IFilter, et d’autres sont disponibles auprès de Microsoft et de fournisseurs tiers. Si nécessaire, les développeurs peuvent créer des filtres IFilter pour de nouveaux types de fichiers. Pour installer et enregistrer des filtres IFilter supplémentaires validés par Microsoft avec Search Server 2008, voir Comment enregistrer Microsoft Filter Pack avec SharePoint Server 2007 et Search Server 2008 (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x40C). Pour plus d’informations sur les filtres IFilter, y compris sur ceux émanant de fournisseurs tiers, voir Filter Central (en anglais) (https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x40C) (en anglais).

Pour obtenir la liste des types de fichiers qui sont pris en charge par les filtres IFilter installés par défaut et des types de fichiers activés par défaut pour l’analyse, voir Analyser d'autres types de fichiers grâce à l'installation de composants IFilter (Search Server 2008).

Limitation ou exclusion de contenu à l’aide de règles d’analyse

Vous pouvez modifier les règles d’analyse existantes ou en créer de nouvelles pour exclure tous les éléments ou inclure des éléments spécifiques pour un chemin d’accès particulier.

Note Remarque :

Lorsque vous ajoutez une adresse de démarrage à une source de contenu et que vous acceptez le comportement par défaut, tous les sous-sites ou les dossiers qui se trouvent sous cette adresse de démarrage sont analysés, sauf si vous les excluez à l’aide d’une ou de plusieurs règles d’analyse.

Les règles d’analyse s’appliquent à une URL particulière, ou à un ensemble d’URL représentées par des caractères génériques. Cette URL est également qualifiée de chemin affecté par la règle. Vous utilisez des règles d’analyse pour obtenir les résultats suivants :

  • Éviter d’analyser le contenu moins pertinent en excluant une ou plusieurs URL. Cela permet également de réduire l’utilisation des ressources serveur et le trafic réseau, et d’accroître la pertinence des résultats de la recherche.

  • Analyser les liens sur l’URL sans analyser l’URL elle-même. Cette option est pratique pour les sites comportant des liens de contenu pertinent lorsque la page contenant les liens ne contient pas d’informations pertinentes ou ne doit pas être exposée aux utilisateurs finaux dans les pages de résultats de recherche.

  • Activer l’analyse d’URL complexes. Cette option analyse les URL qui contiennent un paramètre de requête spécifié avec un point d’interrogation. En fonction du site, ces URL peuvent ou non inclure du contenu pertinent. Comme les URL complexes peuvent souvent conduire à des sites moins pertinents, il convient de n’activer cette option que sur les sites dont le contenu disponible à partir d’URL complexes est reconnu pertinent.

    Note Remarque :

    Cette option n’a aucun effet sur l’analyse des sites SharePoint, car Search Server 2008 énumère tout le contenu lors de l’analyse de ces sites.

Note Remarque :

Les règles d’analyse s’appliquent simultanément à toutes les sources de contenu.

Souvent, la majeure partie du contenu pour une adresse de site particulière est pertinente, mais ce n’est pas forcément le cas d’un sous-site spécifique ou d’une plage de sites situés sous l’adresse de ce site. En sélectionnant une combinaison ciblée d’URL pour lesquelles ils créent des règles d’analyse qui excluent les éléments non nécessaires, les administrateurs des services de recherche peuvent optimiser la pertinence du contenu dans l’index tout en minimisant l’impact sur les performances de l’analyse et la taille des bases de données de recherche. La création de règles d’analyse pour exclure des URL est particulièrement utile lors de la planification des adresses de départ pour du contenu externe, car l’impact sur l’utilisation des ressources échappe au contrôle des personnes de votre organisation.

Lorsque vous créez une règle d’analyse, vous pouvez utiliser des caractères génériques standard dans le chemin d’accès. Par exemple :

  • http://serveur1/dossier* contient toutes les ressources Web ayant une URL qui commence par http://serveur1/dossier.

  • *://*.txt inclut tous les documents avec l’extension de fichier .txt.

Étant donné que l’analyse du contenu consomme des ressources et de la bande passante, il est préférable d’inclure une plus petite quantité de contenu que vous savez pertinente. Après le déploiement initial, vous pouvez examiner les fichiers journaux des requêtes et des analyses, et adapter en conséquence les sources de contenu et les règles d’analyse pour les rendre plus pertinentes et inclure davantage de contenu.

Pour limiter ou augmenter la quantité de contenu qui est analysé, vous pouvez effectuer les procédures suivantes :