Share via


Analyse de contenu Web avec le robot d’indexation FAST Search

 

S’applique à : FAST Search Server 2010

Dernière rubrique modifiée : 2015-03-09

Important

Cet article a été traduit automatiquement, voir l’avertissement. Vous pouvez consulter la version en anglais de cet article ici.

Le Robot d’indexation FAST Search rassemble des éléments Web (ou des pages Web) à partir de serveurs Web connectés à un réseau. Il s’agit généralement d’un réseau institutionnel ou d’entreprise à périmètre délimité, mais, dans l’absolu, l’analyse peut englober la totalité d’Internet.

La Robot d’indexation FAST Search fonctionne de différentes façons, comme un contenu Web de téléchargement du navigateur à partir de serveurs Web. Mais contrairement à un site Web navigateur qui ne répond qu'à l'entrée d'utilisateur via des clics de souris ou clavier, les travaux à partir d'un ensemble de règles configurables Robot d’indexation FAST Search il doit respecter lorsqu'il demande des éléments Web. Ceci inclut, par exemple, combien de temps à attendre entre les demandes d'articles et combien de temps à attendre avant de vérifier les éléments nouveaux ou mis à jour.

Comment fonctionne le robot d'indexation rapide recherche Web

La Robot d’indexation FAST Search démarre en comparant le début URL répertorier par rapport à inclure et exclure des règles spécifiées dans les paramètres dans le fichier XML qui contient la configuration d'analyse. La liste d'URL de démarrage est spécifiée avec le paramètre start_uris ou de start_uri_files, ainsi que les règles via le paramètre exclude_domains de inclure_domaines et. URL valides est ensuite demandé à partir de leurs serveurs Web à une vitesse déterminé par le taux de requêtes est configuré dans le paramètre de délai.

Si extrait avec succès, l'élément Web est analysé pour les liens hypertexte et d'autres informations de métadonnées en généralement par un analyseur HTML intégré à la Robot d’indexation FAST Search. Méta-informations de l'élément Web sont stockée dans la Robot d’indexation FAST Search méta base de données et le contenu d'élément Web (le corps HTML) est stocké dans le magasin Robot d’indexation FAST Search. Les liens hypertexte sont filtrées sur les règles d'analyse et utilisés en tant que le jeu suivant d'URL à télécharger. Ce processus se poursuit jusqu'à ce que tout le contenu accessible ont été rassemblé, jusqu'à ce que l'intervalle d'actualisation (paramètre d'actualisation) est terminé ou jusqu'à ce qu'un autre paramètre de configuration de limiter la portée de l'analyse est atteint.

Il existe différentes façons d'ajuster la configuration pour l'adapter à un scénario d'analyse Web spécifique. Le tableau répertorie certains des concepts fondamentaux utilisés pour définir et contrôler la Robot d’indexation FAST Search.

Concept Explication

Collection de l'analyse

Un ensemble de sites analysés avec la même configuration de site Web est appelé une collection de l'analyse. Un robot d'indexation Web peut analyser plusieurs collections d'analyse en même temps et soumettre ces soit à une collections contenu simple ou distinct.

Magasin de l'analyse

Les banques Robot d’indexation FAST Search contenu analysé localement sur le disque lors de l'analyse. Le contenu est divisé en deux types de contenu Web de l'élément et de métadonnées.

Inclure des règles

Inclure les règles de spécifient quel contenu Web doit être inclus. Toutefois, ils ne définissent pas où la Robot d’indexation FAST Search doit commencer l'analyse.

Exclure des règles

Règles d'exclusion spécifient les noms d'hôte, URL ou l'URL motifs ne doivent pas être inclus lors de l'analyse.

Liste des URL de démarrage

Liste d'URL à analyser et collecté première, à partir de laquelle des liens hypertexte supplémentaires peuvent être extraits, testés sur les règles et ajoutés aux files d'attente pour l'analyse d'autres.

Intervalle d'actualisation

La durée en minutes le Robot d’indexation FAST Search s'exécutera avant re-crawling les sites Web pour vérifier pour le contenu nouveau ou modifié. L'intervalle d'actualisation doit être défini suffisamment élevé pour garantir que le robot d'indexation possède suffisamment de temps pour analyser le contenu de toutes les. Consultez la section déterminer analyser des planifications pour les informations sur le calcul de l'intervalle d'actualisation.

Taux de demandes

Durée en secondes entre les demandes individuelles à un site Web unique, configuré avec le paramètre de délai. Cette option peut être définie à 0 pour analyser aussi vite que possible, mais nécessite l'autorisation du propriétaire de serveur Web. Pour une flexibilité, taux autre demande peut être spécifié avec le paramètre de délai variable de différentes heures de l'ou les jours de la semaine.

Sites Web simultanées

Le nombre maximal de sites Web Planificateur de chaque nœud doit analyser en même temps. S'il n'y a plus de sites Web à analyser que ce numéro de l'intervalle d'actualisation doit être augmenté en conséquence.

Vitesse d'analyse

Le taux sur le Web, les éléments sont regroupés à partir des sites Web d'une collection donnée. Le taux maximal est le nombre de simultanées des sites Web divisé par le taux de requêtes.

Documents en double

Un élément Web peut-être, dans certains cas, plusieurs URL référençant. Afin d'éviter l'indexation de l'élément Web même plusieurs fois un mécanisme appelé détection des doublons permet de s'assurer qu'une seule copie de chaque élément Web unique est indexée.

Comment faire pour utiliser l'outil d'analyse rapide recherche Web

Pour démarrer ou arrêter le Robot d’indexation FAST Search, utilisez le contrôleur de nœud. Le contrôleur de nœud est accessible par l' outil de ligne de commande nctrl.exe. En interne le robot d'indexation Web est organisé sous forme de collection de processus et les composants logiques qui sont souvent exécutent sur un seul serveur. Il est possible de distribuer le robot d'indexation Web entre plusieurs serveurs, ce qui permet la Robot d’indexation FAST Search collecter et traiter un plus grand nombre d'éléments Web à partir d'un grand nombre de sites Web. Le tableau suivant répertorie les composants et le processus associé :

Composant Processus Fonction

Nœud Planificateur

Crawler.exe

Calendriers Web de l'analyse sur un serveur de la même batterie de serveurs.

Planificateur à nœuds multiples

Crawler.exe

Calendriers Web de l'analyse sur batterie de serveurs.

Gestionnaire de site

Crawler.exe

Effectue le Web, l'analyse, géré par le Planificateur de nœud.

Processus de publication

postprocess.exe

Effectue la détection des doublons et envoie le contenu. Géré par le Planificateur de nœud, mais peut également être utilisées séparément à soumettre à nouveau tout le contenu à l'indexeur.

Serveur de fichiers

crawlerfs.exe

Autorise le traitement de document récupérer des pages Web à partir de la Robot d’indexation FAST Search. Géré par le nœud Planificateur et le processus de comptabilisation.

Serveur en double

ppdup.exe

Effectue la détection des doublons entre les serveurs de la batterie de serveurs.

Moteur de navigateur

browserengine.exe

Gère l'extraction de contenu et des liens hypertexte à partir d'éléments Web. Utilisé uniquement lorsque la prise en charge JavaScript est activée.

Lorsque le Robot d’indexation FAST Search est déployé sur un serveur unique, le processus principal est appelé le Planificateur de nœud. Elle possède plusieurs tâches, notamment la résolution des noms d'hôtes en adresses IP, en conservant les configurations d'analyse et les autres travaux globaux. Il est également responsable de routage sites Web à l'un des processus du Gestionnaire de site. Le Planificateur de noeud est démarré (ou arrêté) par le contrôleur de nœud et est à son tour chargée de démarrer et arrêter les autres processus du robot d'indexation Web.

Le Gestionnaire de site gère les files d'attente de travail pour un site Web et est responsable de l'extraction de pages, calculer la somme de contrôle du contenu d'élément Web, stocker les éléments Web sur disque et les activités associées telles que l'authentification de site Web si nécessaire.

Le processus de publication maintient une base de données de checksum d'élément Web afin de déterminer les doublons et est responsable de la soumission d'éléments Web pour l'indexation. Petits éléments Web sont envoyés directement vers les pipelines de traitement de documents, mais les éléments Web plus importants sont envoyées avec une référence d'URL. Le processus de serveur de fichiers est responsable de la fourniture du contenu d'élément Web à n'importe quel stade de pipeline qui le demande.

Si le nombre de sites Web ou le nombre total d'éléments Web à analyser est important, le Robot d’indexation FAST Search peut évoluer en répartissant sur plusieurs serveurs. Dans ce scénario de déploiement, des processus supplémentaires sont démarrés. Le Planificateur Multi-node est ajouté, qui effectue le nom d'hôte pour la résolution IP, contient l'enregistrement et de la configuration centralisée et route les URL pour le Planificateur de nœud approprié. Le Planificateur de chaque nœud continue à ont un processus de comptabilisation au niveau local. Mais chacune d'elles doit à présent envoyer les totaux de contrôle élément Web pour les serveurs de dupliquer, gérer une base de données global des URL et des totaux de contrôle de contenu.

Dans cette section :

Notes

Avertissement traduction automatique : cet article a été traduit par un ordinateur, sans intervention humaine. Microsoft propose cette traduction automatique pour offrir aux personnes ne maîtrisant pas l’anglais l’accès au contenu relatif aux produits, services et technologies Microsoft. Comme cet article a été traduit automatiquement, il risque de contenir des erreurs de grammaire, de syntaxe ou de terminologie.