Referencia de configuración XML del agente de búsqueda

 

Se aplica a: FAST Search Server 2010

Última modificación del tema: 2016-11-29

Importante

Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.

El agente de búsqueda de FAST Search automáticamente recupera información de sitios web y la pasa al índice de Microsoft FAST Search Server 2010 for SharePoint. El agente de búsqueda de FAST Search se configura mediante la creación de un archivo de configuración XML con el formato especificado en este artículo. A continuación, se debe enviar el archivo al agente de búsqueda mediante la crawleradmin.exeherramienta de línea de comandos.

El formato especificado en este documento también se utiliza elcrawlercollectiondefaults.Xmlarchivo que contiene todas los opciones/valores predeterminados para nuevas colecciones de rastreo. Cuando se modifica, cambia los valores predeterminados para todas las nuevas colecciones. Los valores predeterminados se utilizan para cualquier opción que no se especifica en la configuración de XML que se creó para una colección específica de rastreo.

Estos archivos de configuración deben tener el formato de acuerdo con el Esquema XML. Este documento incluye un Configuración sencilla y un ejemplo típico de un archivo de configuración. Información general de los elementos y secciones del archivo de configuración, consulte la tabla de referencia rápida de crawlercollectiondefaults.xml.

Terminología básica

Sitio Web hace referencia no a un sitio de SharePoint, pero el contenido en un sitio Web como, por ejemplo, www.contoso.com.

Nombre de host hace referencia a cualquier "contoso" en http://contoso/ o "download.contoso.com" en http://download.contoso.com/. Se puede ser bien completo o no. En este documento, la diferencia entre un sitio Web y un nombre de host es que un sitio Web se describe el sitio actual y su contenido, mientras que el nombre de host es el nombre de red que se utiliza para tener acceso a un servidor Web determinado. Un único sitio puede tener varios nombres de host.

Crear una nueva configuración de rastreo

Nota

Para modificar un archivo de configuración, compruebe que cumple los requisitos mínimos siguientes: es un miembro del grupo local de FASTSearchAdministrators en el equipo donde está instalado FAST Search Server 2010 for SharePoint.

Siga estos pasos para crear una nueva configuración de rastreo con el formato de la configuración de XML:

  1. Copiar una de las tres plantillas de configuración de rastreo proporcionado que se encuentra en%FASTSEARCH%\Etcen un nuevo archivo comoMyCollection.xml, o crear un nuevo archivo. Edite el archivo en un editor de texto para incluir los elementos y valores de configuración que necesite.

    Nota

    Utilice un editor de texto (por ejemplo, el Bloc de notas) para cambiarcrawlercollectiondefaults.Xml. No utilice un editor XML de propósito general.

  2. Ejecute crawleradmin.exe –f MyCollection.xml para agregar la configuración de rastreo para el Rastreador de datos. ReemplazarMyCollection.xmlcon el nombre que le asignó el archivo en el paso 1.

Consulte Referencia de crawleradmin.exe para obtener más información.

Personalizar crawlercollectiondefaults.xml

Advertencia

Se sobrescribe y se ha perdido si todos los cambios realizados en este archivo es:

  • Ejecute el cmdlet Windows PowerShell FASTSearchConfiguration del conjunto.

  • Instalar un paquete de actualización o el servicio de FAST Search Server 2010 for SharePoint.

Para evitar perder los cambios, asegúrese de que copia este archivo una vez que haya modificado.
No olvide volver a aplicar los cambios después de ejecutar el cmdlet de Set-FASTSearchConfiguration Windows PowerShell o instalar una actualización o el service pack de FAST Search Server 2010 for SharePoint.

Nota

Para modificar un archivo de configuración, compruebe que cumple los requisitos mínimos siguientes: es un miembro del grupo local de FASTSearchAdministrators en el equipo donde está instalado FAST Search Server 2010 for SharePoint.

Para modificar este archivo:

  1. Editarcrawlercollectiondefaults.Xmlen un editor de texto para incluir los elementos y valores de configuración que necesite. Utilice el archivo existente en%FASTSEARCH\etc\como punto de partida.

    Nota

    Utilice un editor de texto (por ejemplo, el Bloc de notas) para cambiarcrawlercollectiondefaults.Xml. No utilice un editor XML de propósito general.

  2. Ejecute nctrl.exe restart crawler para reiniciar el proceso de rastreador Web de búsqueda FAST con las opciones configuradas en el paso 1.

Referencia rápida de configuración de XML del Rastreador de Web

Esta tabla enumeran los elementos en el formato de la configuración del Rastreador de Web XML. Los elementos pueden aparecer en cualquier orden con las siguientes excepciones. CrawlerConfig contiene el elemento DomainSpecification. Los elementos primarios de SubDomainLogin y Node se producen dentro del elemento DomainSpecification. Los subelementos section y attrib pueden ocurrir en cualquiera de los elementos primarios, en cualquier orden. Los subelementos member deben aparecer dentro de un elemento attrib sólo.

<CrawlerConfig>
      <DomainSpecification>
             <SubDomain/>
             <Login/>
             <Node/>
             <attrib>
                    <member/> 
             </attrib>
             <section/>
      </DomainSpecifcation>
</CrawlerConfig>

Normalmente, se incluirá tanto attrib y section subelementos SubDomainLogin y section elementos. El elemento Node puede contener todos estos elementos y subelementos.

Elemento Descripción

CrawlerConfig

Este elemento de nivel superior, se especifica que el XML siguiente es un objeto de configuración del Rastreador de Web.

DomainSpecification

Este elemento especifica una colección de rastreo.

SubDomain

Este elemento especifica la configuración de las colecciones de sub de rastreo.

Inicio de sesión

Este elemento se utiliza para la autenticación basada en formularios HTML.

Node

Este elemento anula los parámetros de configuración en una colección de rastreo o una colección de sub de rastreo para un programador de tareas de nodo concreto.

attrib

Este subelemento especifica un valor de configuración, por su valor o por un conjunto de elementos de miembro.

miembro

Este subelemento especifica un valor de configuración en una lista.

sección

Este subelemento especifica una sección que contiene varias opciones de configuración agrupados por tipo. Después de una tabla que enumera todas las secciones posibles.

Esta tabla define las opciones de section en el formato de la configuración del Rastreador de Web XML. No se pueden realizar en las secciones dentro del elemento CrawlerConfig.

Nombre de sección Descripción

include_domains

Define un conjunto de filtros de nombre de host que especifique que los identificadores URI que se incluirán en una colección de rastreo

exclude_domains

Define un conjunto de filtros de nombre de host que especifique que los identificadores URI para excluir de una colección de rastreo

include_uris

Define un conjunto de reglas de identificador URI que especifica los identificadores URI que se incluirán en una colección de rastreo

exclude_uris

Define un conjunto de reglas de identificador URI que especifica los identificadores URI para excluir de una colección de rastreo

registro

Especifica el comportamiento del registro para el proceso de rastreador de Web

almacenamiento de información

Especifica el modo en que el Rastreador de Web almacena los metadatos y contenido

PP

Especifica el comportamiento de procesamiento de un programador de tareas de nodo de la entrada de blog

ppdup

Especifica la configuración de servidor duplicado

alimentación

Consta de un elemento de al menos un section que especifica cómo se debe enviar una representación de la colección de rastreo para el motor de indización

cachesize

Configura los tamaños de caché para el proceso de rastreador de Web

http_errors

Especifica cómo tratar los códigos de respuesta de error HTTP/HTTPS y condiciones

ftp_errors

Especifica cómo tratar los códigos de respuesta y condiciones de error para identificadores URI de FTP

workqueue_priority

Especifica los niveles de prioridad para las colas de rastreo y especifica los modos que se utiliza para insertar a los identificadores URI en y extraer a los identificadores URI de las colas y reglas

link_extraction

Especifica el tipo de hipervínculos seguir

límites

Especifica los límites de seguridad para una colección de rastreo

centrado

Configura el enfoque de programación

passwd

Configura las credenciales para sitios Web que requiere autenticación

ftp_acct

Especifican las cuentas FTP para rastrear los URI de FTP

exclude_headers

Especifica los elementos que se excluyen del rastreo, en función del contenido de los campos de encabezado HTTP

variable_delay

Especifica los intervalos de tiempo que se utilizan una velocidad de solicitud de retraso diferentes

adaptable

Especifica las opciones de rastreo adaptables

pesos

Cada URI se proporciona una calificación en el proceso de rastreo adaptable. La sección weights debe tener lugar dentro de una sección adaptive.

sitemap_weights

las entradas de <URL> en un mapa del sitio pueden contener un elemento de changefreq, que se especifica con qué frecuencia se puede modificar una dirección URI. Los valores de cadena se convierten en un peso numérico para el rastreo adaptable. La sección sitemap_weights debe aparecer en una sección adaptive.

site_clusters

Especifica los parámetros de configuración que reemplazan el comportamiento habitual del Rastreador de enrutamiento de los nombres de host en un programador de tareas de nodo

crawlmode

Limita la duración de una colección de rastreo

post_payload

Envía el contenido a las solicitudes POST de HTTP

RSS

Inicializa y configura la fuente RSS soporte en una colección de rastreo

inicios de sesión

Se trata de un caso especial de un elemento Login; varios elementos Login se combinan en una sección logins. Se requiere una sección logins o en uno o varios elementos Login al definir la autenticación basada en formularios HTML. Debe utilizar logins para quitar un inicio de sesión debido a la forma en que funcionan las configuraciones de parciales. Tenga en cuenta que al exportar una configuración desde el explorador con crawleradmin devuelve el elemento Login.

parámetros

Establece las credenciales de autenticación que se utilizan en un formulario HTML. Debe aparecer en un elemento Login o una sección logins.

subdominios

Especifica la configuración de las colecciones de sub de rastreo. Se trata de un caso especial de un elemento SubDomain; varios elementos SubDomain se combinan en una sección subdomains. You must use subdomains to remove a subdomain because of the way partial configurations work. Note that exporting a configuration from the crawler with crawleradmin returns the SubDomain element.

Formato de archivo de configuración XML del Rastreador de Web

Los elementos XML en el archivo de configuración comienzan con < y terminan con />.

El formato de elemento básico es el siguiente:

<attrib name=" valor " type=" valor "> valor </attrib>

Por ejemplo:

<attrib name="accept_compression" type="boolean"> yes </attrib>

Elements, section names, attributes, and attribute values are case-sensitive. Attribute names and types must be enclosed in quotation marks (" ").An element definition can span multiple lines. En una definición de elemento se omiten los espacios, retornos de carro, avances de línea y caracteres de tabulación.

Por ejemplo:

<attrib
    name=" accept_compression "
    type="boolean"
> yes </attrib
>

Sugerencia

Las definiciones de parámetro largo, coloque los valores en líneas independientes y utiliza la sangría para facilitar la lectura de archivo.

El elemento <CrawlerConfig> es un caso especial y es necesario. Todos los demás elementos se encuentran dentro del elemento <CrawlerConfig> y se cierra el elemento con </CrawlerConfig>.

La estructura básica del archivo XML está en el ejemplo siguiente:

<?xml version="1.0"?>
<CrawlerConfig>
    <DomainSpecification>
        ...
    </DomainSpecification>
</CrawlerConfig>

Puede agregar comentarios en cualquier lugar, delimitados por <!-- y -->.

CrawlerConfig

Este elemento de nivel superior, se especifica que el XML siguiente es un objeto de configuración del Rastreador de Web. Un archivo de configuración del Rastreador de Web puede contener sólo un elemento XML de CrawlerConfig.

DomainSpecification

Este elemento especifica una colección de rastreo.

Ejemplo

<CrawlerConfig>
  <DomainSpecification name="sp">
  ...
  </DomainSpecification>
</CrawlerConfig>

Reemplazar "sp" con el nombre de la colección de rastreo.

attrib

Este elemento especifica una opción de configuración, un valor único o una lista mediante el elemento member.

Atributos

Nombre Tipo Valor Significado

info

Cadena

Descripción de la colección de rastreo.

fetch_timeout

entero

<seconds>

Especifica el máximo tiempo, en segundos, para un elemento Web de descarga. Aumente este valor si desea descargar elementos Web de gran tamaño desde servidores Web de baja velocidad.

De forma predeterminada: 300

allowed_types

cadena de la lista

 

Especifica los tipos de MIME de elementos Web válidos.

El proceso de rastreador Web descarta otros tipos MIME. Este parámetro de configuración admite la expansión de comodines de un campo completo. Los caracteres comodín se representan mediante un carácter de asterisco. Por ejemplo: "texto / *"o"* / *"pero no"* / html"o"aplicación / ms *".

De forma predeterminada:

  • texto/html.

  • texto sin formato

  • aplicación/msword

  • Application/msexcel

  • aplicación/ppt

  • aplicación/pdf

force_mimetype_detection

Booleanos

yes|no

Especifica que el proceso de rastreador Web utiliza su propio detección de tipo MIME en los elementos. En la mayoría de los casos, los servidores Web devuelven el tipo MIME de los elementos Web cuando se descargan, como parte del encabezado HTTP. Si esta opción está habilitada, los elementos Web obtener se etiquetan con el tipo MIME que tiene un aspecto más preciso: el uno recibido desde el servidor Web o el resultado de la detección del Rastreador de datos.

De forma predeterminada: no

allowed_schemes

cadena de la lista

HTTP

HTTPS

FTP

Especifica los esquemas de URI que debe procesar el Rastreador de Web.

De forma predeterminada: HTTP

ftp_passive

Booleanos

yes|no

Especifica que el Rastreador de Web utiliza el modo FTP pasivo.

De forma predeterminada: Sí

domain_clustering

Booleanos

yes|no

Especifica si se va a enrutar los nombres de host del mismo dominio en el mismo proceso del Administrador de sitio. Es útil cuando se trabaja con los nombres de host que se deben compartir la información como, por ejemplo, las cookies, ya que esta información no se intercambia entre los procesos del Administrador de sitio. Si habilita esta opción en una configuración de varios nodos, nombres de host en el mismo dominio (por ejemplo,www.contoso.comyforums.contoso.com) también se enrutará al misma programador del nodo.

El valor predeterminado para un único nodo: no

El valor predeterminado para varios nodos: Sí

max_inter_docs

entero

número entero, o sin valor

Especifica el número máximo de elementos rastrear antes de procesamiento simultáneo de sitios Web. De forma predeterminada, el Rastreador rastreará a un sitio Web a agotarse, o hasta que se alcanza el número máximo de elementos de Web por el sitio Web. Sin embargo, el Rastreador de datos puede configurarse para rastreo "lotes" de elementos Web desde sitios Web a la vez, entre los sitios Web de la intercalación. Este atributo especifica el número de elementos Web para rastrear de forma consecutiva desde un servidor antes de que el Rastreador intercala y comienza a rastrear otros servidores. Devuelve el Rastreador de datos para rastrear el servidor anterior cuando se liberan recursos.

De forma predeterminada: vacío (deshabilitado)

max_redirects

entero

<value>

Especifica que el número máximo de HTTP redirige seguir desde un identificador URI.

De forma predeterminada: 10

diffcheck

Booleanos

yes|no

Especifica que el rastreador Web realiza la detección de duplicados. Se realiza la detección de duplicados al comprobar si dos o más elementos Web tienen el mismo contenido.

De forma predeterminada: Sí

near_duplicate_detection

Booleanos

yes|no

Especifica que el Rastreador de Web debe utilizar un algoritmo de detección de duplicados menos estricto. En este caso, los elementos duplicados se detectan mediante la identificación de un único patrón de palabras.

De forma predeterminada: no

max_uri_recursion

entero

<value>

Utilice este atributo para comprobar si hay patrones en los indicadores URI de repetición. La opción especifica el número máximo de veces que se puede repetir un patrón antes de que el identificador URI resultante se descarta. El valor 0 deshabilita la prueba.

Por ejemplo:https://www.contoso.com/widgetVincular ahttps://www.contoso.com/widget/widgetes una repetición del elemento de 1.

Valor predeterminado: 5

ftp_searchlinks

Booleanos

yes|no

Especifica que el Rastreador de Web debe buscar los hipervínculos de los elementos descargados desde servidores FTP.

De forma predeterminada: Sí

use_javascript

Booleanos

yes|no

Especifica si se debe habilitar la compatibilidad con JavaScript en el Explorador de Web. Si se habilita, el Rastreador de Web descargar, análisis y ejecución y extraer los vínculos desde cualquier código JavaScript externo.

Nota

El procesamiento de JavaScript se utiliza muchos recursos y no debe estar habilitado para los rastreos de gran tamaño.

Nota

Procesamiento de JavaScript, utiliza el componente del motor del explorador. Para obtener más información, vea Referencia de beconfig.xml.

De forma predeterminada: no

javascript_keep_html

Booleanos

yes|no

Especifica qué se debe enviar al motor de indización. Si este parámetro se establece en yes, se utiliza el código HTML que da como resultado de la transformación de JavaScript. De lo contrario, se utiliza el elemento HTML original.

No utilice esta opción si no se ha establecido el parámetro de configuración use_javascript a yes.

javascript_delay

real

<seconds>

Un valor vacío significa que el Rastreador de Web utiliza el mismo valor que el parámetro de configuración delay

Especifica el retardo en segundos, se utiliza cuando se va a recuperar las dependencias asociadas a un elemento HTML con JavaScript.

De forma predeterminada: 0 (sin retraso)

exclude_exts

cadena de la lista

lista de delimitada por comas de < de file_extensions >

Especifica las extensiones de nombre de archivo que deben excluirse por el rastreo.

Lista de forma predeterminada: vacío

use_http:1

Booleanos

yes|no

Especifica que el Rastreador de Web debe utilizar HTTP/1.1. Cuando se establece en no, se utiliza HTTP/1.0.

De forma predeterminada: Sí

accept_compression

Booleanos

yes|no

Specifies that the Web crawler should accept compressed Web items from the Web server. This parameter has no effect if the use_http:1 configuration parameter is not enabled.

De forma predeterminada: Sí

dbswitch

entero

<value>

Especifica el número de ciclos de rastreo que un elemento de Web puede permanecer en el almacén de rastreo y el índice sin haber encontrado por el Explorador de Web, antes de eliminarlo. El parámetro dbswitch_delete determina la acción que se debe realizar para elementos Web que no se ven este número de ciclos de rastreo.

Nota

Si el valor muy bajo 1 o 2 se pueden eliminar accidentalmente elementos Web.

Valor predeterminado: 5

dbswitch_delete

Booleanos

yes|no

El rastreador Web intenta detectar los elementos Web que se han quitado de los servidores Web. Este parámetro determina qué hacer con los elementos Web. Se pueden eliminar inmediatamente o en la cola de trabajos de recuperación para asegurarse de que ya no están disponibles.

Cuando se establece en yes, elementos Web que son demasiado antiguos se eliminan. Cuando se establece en no, elementos Web están programados para re-retrieval y sólo se eliminan si ya no existen en el servidor Web.

Esta comprobación se realiza de forma independiente para cada sitio Web, al principio de cada ciclo de actualización.

Nota

Esta opción debe tener el valor predeterminado.

De forma predeterminada: no

html_redir_is_redir

Booleanos

yes|no

Utilice este parámetro con html_redir_thresh para tratar las etiquetas META Refresh dentro de los elementos HTML de Web como si fueran redirecciones HTTP. Cuando está habilitado, no se indizará el elemento Web que contiene la actualización de la META. Cuando está deshabilitada, que se tratan como regulares de los elementos Web y se indizan.

De forma predeterminada: Sí

hmtl_redir_threshold

entero

<value>

Especifica el número máximo de segundos que una etiqueta META Refresh dentro de un elemento Web de HTML se puede tratar como una redirección HTTP. Este parámetro se omite si no se ha establecido html_redir_is_redir.

Considere el siguiente ejemplo:

<META HTTP-EQUIV="Refresh" CONTENT="3;URL=http://www.some.org/some.html">

Si el número que se especifica en el atributo CONTENT (en este ejemplo, es 3) es menor o igual al valor de html_redir_threshold, la META actualizar etiqueta se trata como una redirección.

Valor predeterminado: 3

robots_ttl

entero

<seconds>

Especifica con qué frecuencia se debe recuperar el Rastreador de Web delrobots.txtarchivo de un sitio Web. Especifique la frecuencia en segundos.

De forma predeterminada: 86400

use_sitemaps

Booleanos

yes|no

Habilita el Rastreador de Web descubrir y analizar sitemaps.

El Rastreador de Web utiliza el atributo lastmod en un mapa del sitio para determinar si un elemento Web se ha modificado desde la última vez que se ha recuperado el mapa del sitio. No se re-crawled elementos Web que no se han modificado.

Una excepción es si la colección de usesadaptive actualizar modo. En el modo de actualización adaptable, el Rastreador de datos utiliza priority de un mapa de sitio y los atributos de changefreq para determinar con qué frecuencia se debe rastrear un elemento Web. Otras etiquetas que se encuentra en sitemaps se almacenan en la base de datos del Rastreador de la meta y se envían a la indización de las propiedades rastreadas.

Nota

La mayoría de sitemaps se especifican enrobots.txt. Por lo tanto, el atributo robots debe beenabled para obtener los mejores resultados.

De forma predeterminada: no

max_pending

entero

<value>

Especifica el número máximo de solicitudes simultáneas de HTTP para un único sitio Web en cualquier momento.

De forma predeterminada: 2

robots_auth_ignore

Booleanos

yes|no

Especifica si se debe pasar por alto el Rastreador de Webrobots.txtSi el servidor Web devuelve un HTTP 40 x error de autenticación. Cuando se establece en no, el Rastreador de Web no rastrea el sitio Web al que se produzca el error.

Elrobots.txtestándar, muestra este comportamiento como una sugerencia para los rastreadores Web pasar por alto el sitio Web por completo. Sin embargo, una configuración incorrecta de un servidor Web incorrectamente puede excluir un sitio desde el rastreo. Habilitar esta opción para asegurarse de que se rastrea el sitio Web.

De forma predeterminada: Sí

robots_tout_ignore

Booleanos

yes|no

Especifica si el Rastreador de Web debe tener en cuenta elrobots.txtreglas de si la solicitud derobots.txttiempo de espera.

Antes de rastrear un sitio Web, el Rastreador de Web solicita larobots.txtarchivo desde el servidor Web. Por elrobots.txtestándar, si la solicitud de este archivo se agota, el sitio Web no se rastreará. Si se establece este parámetro en yes pasa por alto elrobots.txtlas reglas en este caso y el sitio Web se rastrea.

Nota

Se recomienda mantener esta opción se establece a no si no es el propietario del sitio Web que se están rastreando.

De forma predeterminada: no

rewrite_rules

cadena de la lista

Especifica un conjunto de reglas que se utilizan para volver a escribir a los identificadores URI.

Una regla de reescritura tiene dos componentes: una expresión de coincidencia (match_pattern) y una cadena de reemplazo (replacement_string) que reemplaza la primera expresión. La expresión para hacer coincidir es una expresión regular de coincidencia agrupada.

El formato de la regla de reescritura es como sigue: @match_pattern@replacement_string@, donde @ es cualquier carácter de separador que no sean de espacio en blanco que no se incluye en la expresión por sí mismo.

extract_links_from_dupes

Booleanos

yes|no

Especifica que el Rastreador de Web debe extraer los hipervínculos de los elementos duplicados de Web. Incluso cuando dos elementos Web tienen contenido duplicado, es posible que tienen hipervínculos diferentes, lo que podrían causar más contenido que se encuentra el Rastreador de Web.

De forma predeterminada: no

use_meta_csum

Booleanos

yes|no

Especifica que el Rastreador de Web incluye las etiquetas META en la firma digital generada de detección de duplicados.

De forma predeterminada: no

csum_cut_off

entero

<value>

Especifica el número máximo de bytes que se utilizará para generar la huella digital de detección de duplicados. Si este parámetro se establece en 0, la característica está deshabilitada (es decir, un número ilimitado/todos los bytes se va a utilizar).

De forma predeterminada: 0

if_modified_since

Booleanos

yes|no

Especifica si el Rastreador de Web debe enviar los encabezados HTTP que contienen un valor de If-Modified-Since.

De forma predeterminada: Sí

use_cookies

Booleanos

yes|no

Especifica si el Rastreador de Web debe enviar y almacenar las cookies. Esta característica se habilita automáticamente para los sitios Web que utilice un inicio de sesión, pero también se puede activar para todos los sitios Web.

De forma predeterminada: no

uri_search_mime

cadena de la lista

<values>

Especifica los tipos MIME de la que el rastreador Web extrae los hipervínculos.

Este parámetro de configuración admite la expansión de comodines sólo en el nivel de campo completo. Un carácter comodín está representado por el carácter de asterisco; por ejemplo, text/* o */* pero no */html o application/ms*.

De forma predeterminada:

  • texto/html.

  • text/vnd.WAP.Xml

  • texto/wml

  • texto/x-wap.wml

  • aplicación/x-wml

  • texto/x-hdml

max_backoff_counter

entero

<value>

Junto con max_backoff_delay, esta opción controla el algoritmo que un sitio Web que se producen errores de conexión se pone en contacto con menos frecuencia.

Para cada error de red consecutivas, el retraso de solicitud de ese sitio Web se incrementa en la configuración original de retraso, hasta un máximo de segundos de max_backoff_delay. Este retraso se mantiene hasta que se está completando una solicitud de correctamente, pero no más que max_backoff_counter el número de solicitudes. Si se alcanza el número máximo, el rastreo del sitio Web se detiene temporalmente.

En caso contrario, cuando se resuelven los problemas de red que afectan a los sitios Web, el contador interno multiplicador comienza reduciendo, y se reduce el retraso de solicitud en la mitad de cada descarga correcta de elemento Web hasta que se alcanza el valor original de retraso.

De forma predeterminada: 50

max_backoff_delay

entero

<seconds>

Consulte max_backoff_counter.

Valor predeterminado: 600

delay

real

<seconds>

Especifica la frecuencia (en segundos) que el Rastreador de Web puede recuperar un elemento Web de un sitio Web.

De forma predeterminada: 60.0

refresh

real

<minutes>

Especifica la frecuencia (en minutos) del Rastreador de Web debe iniciar un nuevo ciclo de actualización de rastreo.

La acción que se realiza en el momento de refresh viene determinada por el valor de refresh_mode.

De forma predeterminada: 1500.0

robots

Booleanos

yes|no

Especifica que el Rastreador de Web debe cumplir las reglas que se encuentra enrobot.txtarchivos.

De forma predeterminada: Sí

start_uris

cadena de la lista

Especifica iniciar los identificadores URI para el Rastreador de Web. El Rastreador de Web debe start_uris o de start_uri_files para comenzar el rastreo.

Nota

Si el rastreo incluye todos los nombres de host IDNA, especifíquelos utilizando UTF-8 caracteres, no en el DNS formato codificado.

start_uri_files

cadena de la lista

Especifica el inicio de una lista de archivos que contienen los identificadores URI. Estos archivos se almacenan en formato de archivo de texto sin formato, con un identificador URI de inicio por línea.

Nota

En una implementación de varios nodos, estos archivos sólo deben estar disponibles en el servidor que ejecuta al programador de varios nodos.

max_sites

entero

<value>

Especifica el número máximo de sitios Web que se puede rastrear al mismo tiempo. En una implementación de rastreador Web de varios nodos, este valor aplica por el programador de nodo, no para el Rastreador de Web completo.

Por ejemplo, si max_sites se establece en 5 y tiene 10 sitios al rastrear, 5 sitios deben finalizar antes de que el Rastreador de datos puede rastrear los otros 5 el rastreo.

Nota

Un valor alto max_sites puede afectar negativamente el uso de recursos del sistema.

De forma predeterminada: 128

mirror_site_files

cadena de la lista

Especifica una lista de archivos que contienen sitios de réplica para un nombre de host especificado. Un sitio de réplica es una réplica de un sitio Web ya existente. Este archivo utiliza el formato siguiente: un archivo de texto sin formato que tiene una lista separada por espacios de nombres de host con el nombre preferido que se enumeran en primer lugar.

Nota

En un nodo implementación de rastreador Web múltiples, este archivo debe estar disponible en todos los servidores donde se implementa un programador de tareas de nodo.

proxy

cadena de la lista

Especifica un conjunto de servidores proxy HTTP utilizados por el Rastreador de Web para recuperar los elementos Web.

Cada servidor proxy se especifica con el formato siguiente:

(http://)(username:password@)hostname(:port), argumentos opcionales aparecen entre paréntesis.

La contraseña puede cifrarse como especificada en contraseña.

proxy_max_pending

entero

<value>

Especifica el límite del número de conexiones abiertas pendientes por el proxy HTTP.

De forma predeterminada: valor máximo de Int32

headers

cadena de la lista

<header>

Especifica los encabezados HTTP adicionales para agregar a la solicitud enviada a los servidores Web.

El valor predeterminado actual es la siguiente: User-Agent: FAST Search Web Crawler <version>

cut_off

entero

Especifica el número máximo de bytes en un elemento. Un elemento Web que supera este límite de tamaño se descartan o truncado en función del valor del parámetro de configuración se trunca.

Si no se especifica ningún parámetro de configuración cut_off, esta opción está deshabilitada.

De forma predeterminada: no hay límite.

truncate

Booleanos

yes|no

Especifica si se debe truncar un elemento Web cuando un elemento Web supera el umbral de cut_off especificado.

De forma predeterminada: Sí

check_meta_robots

Booleanos

yes|no

Especifica que el Rastreador de Web debe seguir las directivas de <NoIndex /> y <NoFollow /> dadas por la etiqueta META robots.

Por ejemplo, podría ser una etiqueta META de típica:

<meta name="robots" content="nofollow,noindex"/>

O bien

<meta http-equiv="robots" content="nofollow,noindex"/>

El valor especial de none significa que tanto en nofollownoindex.

De forma predeterminada: Sí

obey_robots_delay

Booleanos

yes|no

Especifica que el Rastreador de Web debe seguir la directiva de retraso de rastreo (si existe) enrobots.txtarchivos. De lo contrario, se utiliza la configuración de delay.

De forma predeterminada: no

key_file

Cadena

Especifica la ruta de acceso de un archivo de clave de certificado de cliente SSL que se utiliza para las conexiones HTTPS.

Esta característica se utiliza para sitios Web que requieren el Rastreador de Web que se autentique con un certificado de cliente.

Esta opción debe utilizarse con cert_file.

Nota

En una implementación de rastreador Web de varios nodos, el archivo debe estar en todos los programadores de nodo.

cert_file

Cadena

Especifica la ruta de acceso de un archivo de certificados X 509 cliente que se utiliza para las conexiones HTTPS.

Esta opción debe utilizarse con key_file.

max_doc

entero

<value>

Especifica el número máximo de elementos Web para descargar desde un sitio Web.

De forma predeterminada: 100000

enforce_delay_per_ip

Booleanos

yes|no

Especifica que el rastreador Web limita las solicitudes a servidores de Web cuyos nombres se asignan a una dirección IPv4 o IPv6 compartida. Este parámetro depende de los parámetros de configuración delay.

De forma predeterminada: Sí

wqfilter

Booleanos

yes|no

Especifica si el Rastreador de Web debe utilizar un filtro de bloom que quita los duplicados de identificadores URI de las colas de rastreo.

De forma predeterminada: Sí

smfilter

entero

<value>

Especifica el número máximo de bits en el filtro de bloom que quita los duplicados de identificadores URI de la cola asociada con el programador de nodo.

Un filtro en blanco es una estructura de datos aprovecha el espacio de probabilidad (una matriz de bits) que se utiliza para comprobar si un elemento es un miembro de un conjunto determinado. La prueba es necesario crear un falso positivo, pero nunca un negativo es false.

De forma predeterminada: 0

mufilter

entero

<value>

Especifica el número máximo de bits que se utilizan en el filtro de bloom, que quita los duplicados de identificadores URI, que se envían desde un programador de tareas de nodo a un programador de tareas múltiples nodos.

Se recomienda activar este filtro para los rastreos de gran tamaño, con un valor de 500000000 (500 megabits).

De forma predeterminada: 0

umlogs

Booleanos

yes|no

Especifica si todo el registro se envía al programador de varios nodos para el almacenamiento.

Si este parámetro no está habilitada, los registros sólo residen en los programadores de nodo.

De forma predeterminada: Sí

sort_query_params

Booleanos

yes|no

Especifica si el Rastreador de Web debe ordenar los parámetros en el componente de consulta de un identificador URI.

Normalmente, los componentes de la consulta son pares de clave y valor separados por puntos y comas o signos de y comercial. Cuando se establece este parámetro de configuración, la consulta está ordenada alfabéticamente por nombre de la clave.

De forma predeterminada: no

robots_timeout

entero

<seconds>

Especifica el número máximo de segundos que puede utilizar el Rastreador de Web para descargar unrobots.txtarchivo.

De forma predeterminada: 300

login_timeout

entero

<seconds>

Especifica el número máximo de segundos que puede utilizar el Rastreador de Web para una solicitud de inicio de sesión.

De forma predeterminada: 300

send_links_to

Cadena

Especifica un nombre de la colección de rastreo a las que se envían todos los hipervínculos extraídos.

cookie_timeout

entero

<seconds>

Especifica el número máximo de segundos que se almacena una cookie de sesión. Una cookie de sesión es una cookie que no tiene una fecha de caducidad.

De forma predeterminada: 300

refresh_when_idle

Booleanos

yes|no

Especifica si el Rastreador de Web, desencadena un ciclo de actualización de rastreo nuevo cuando esté inactivo. Esta opción no debe utilizarse en una instalación de varios nodos.

De forma predeterminada: no

refresh_mode

Cadena

append|prepend|scratch|soft|adaptive

Especifica el modo de actualización de una colección de rastreo. Los valores válidos son:

  • append: agregar el inicio de los identificadores URI para el final de la cola de rastreo al ciclo de actualización de un rastreo comienza. Se conservan las colas existentes.

  • prepend: agregar el inicio de los identificadores URI para el principio de la cola de rastreo al ciclo de actualización de un rastreo comienza. Se conservan las colas existentes.

  • scratch: borrar la cola de rastreo antes de agregar el inicio de los identificadores URI a la cola.

  • soft: si la cola de rastreo para un sitio Web no está vacía al final de un ciclo de actualización de rastreo, el rastreador Web sigue el rastreo en el siguiente ciclo de actualización de rastreo. No se actualiza un sitio de rastreo hasta que el rastreo de la cola está vacía.

  • adaptive: cola de rastreo de generación de acuerdo con la configuración de la adaptación.

Valor predeterminado: cero

Ejemplos

<attrib name="delay" type="real"> 60.0 </attrib>

<attrib name="max_doc" type="integer"> 10000 </attrib>

<attrib name="use_javascript" type="boolean"> no </attrib>

<attrib name="info" type="string">
My Web crawl collection crawling my intranet.
</attrib>

<attrib name="allowed_schemes" type="list-string">
    <member> http </member>
    <member> https </member>
</attrib>

miembro

Especifica un elemento en una lista de valores de opción.

El elemento member sólo se puede utilizar dentro de un elemento attrib.

Ejemplo

<attrib name="allowed_schemes" type="list-string">
    <member> http </member>
    <member> https </member>
</attrib>

Sección

Este elemento agrupa un conjunto de opciones relacionadas. Un elemento section contiene elementos attrib.

Atributos

Atributo Valor Descripción

Nombre

<name>

Especifica el nombre de la sección. Las secciones admitidas se describen en este artículo.

Ejemplo

<section name="crawlmode">
    <attrib name="fwdlinks" type="boolean"> no </attrib>
    <attrib name="fwdredirects" type="boolean"> no </attrib>
    <attrib name="mode" type="string"> FULL </attrib>
    <attrib name="reset_level" type="boolean"> no </attrib>
</section>

include_domains

En esta sección es un conjunto de filtros de nombre de host que especifique que los identificadores URI que se incluirán en una colección de rastreo. Una sección vacía coincide con cualquier nombre de host.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

exact

cadena de la lista

Especifica una lista de nombres de host. Si el nombre de host de un identificador URI coincide exactamente uno de estos nombres de host, se incluye el identificador URI con esta regla.

prefix

cadena de la lista

Especifica una lista de nombres de host. Si el nombre de host de una dirección URI comienza con uno de estos nombres de host, se incluye el identificador URI con esta regla.

suffix

cadena de la lista

Especifica una lista de nombres de host. Si el nombre de host de un identificador URI se termina con uno de estos nombres de host, se incluye el identificador URI con esta regla.

regexp

cadena de la lista

Especifica una lista de expresiones regulares. Si el nombre de host de un identificador URI coincide con una de estas expresiones regulares, se incluye el identificador URI con esta regla.

ipmask

cadena de la lista

Especifica una lista de máscaras de direcciones de IPv4. If the IPv4 address of a retrieved URI matches one of these IPv4 address masks, the URI is include by this rule. An IPv4 address mask must follow one of the following formats:

  • Al escribir una dirección IPv4 en formato de cadena y con un guión para el intervalo, se puede especificar una dirección de intervalo de IPv4. Por ejemplo: 207.46.197.0-100 o 207.46.190-197.100

    Si una dirección IPv4 está dentro de este intervalo, se incluye en esta máscara.

  • También se puede especificar una máscara de IPv4 mediante el examen de los N bits más significativos de una dirección IPv4, donde N es el intervalo de {0, 32}.

    La máscara es una dirección IPv4 en formato de cadena, seguido por una barra diagonal y el número de bits más significativos, por ejemplo: 207.46.197.0 /24

    Si una dirección IPv4 tiene los mismos bits N de la dirección IPv4 especificada, se incluye en esta máscara.

  • También se puede especificar una máscara de IPv4 a través de una máscara de bits de máscara de bits importantes de una dirección de IPv4.

    El formato de esta máscara está IPv4 address in string format:ip-mask, donde la máscara de ip es una dirección IPv4 en formato de cadena que se utiliza para enmascarar o un dígito hexadecimal de 32 bits. Por ejemplo: 207.46.197.0:255.255.255.0 o 207.46.197.0:0xffffff00

    Si una dirección IPv4 tiene los mismos bits establecida según lo especificado por la máscara de ip y la dirección IPv4, se incluye en esta máscara.

ip6mask

cadena de la lista

Especifica una lista de máscaras de direcciones de IPv6. Si la dirección IPv6 de un identificador URI recuperado coincide con una de estas máscaras de direcciones de IPv6, se incluye el identificador URI con esta regla.

Una máscara de dirección IPv6 debe seguir uno de los siguientes formatos:

  • Al escribir una dirección IPv6 en formato de cadena y con un guión para el intervalo, se puede especificar una dirección de intervalo de IPv6. Por ejemplo: 2002:CF2E:C500- C564:0:0:0:0:0 o ::ffff:207.46.197.0-100

    Si una dirección IPv6 que está dentro de este intervalo se incluye en esta máscara.

  • También se puede especificar una máscara de IPv6 examinando los N bits más significativos de una dirección IPv6, donde N tiene el rango de {0, 128}.

    Esta máscara es una dirección IPv6 en formato de cadena seguida de una barra diagonal y el número de bits más significativos. Por ejemplo: 2002:CF2E:C500:0:0:0:0:0/60

    Si una dirección IPv6 tiene los mismos bits N de la dirección IPv6 especificada, se incluye en esta máscara.

Ejemplo

<section name="include_domains">
   <attrib name="exact" type="list-string">
      <member> www.contoso.com </member>
      <member> www2.contoso.com </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> www </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> .contoso.com</member>
      <member> .contoso2.com</member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> .*\.contoso\.com </member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myinclude_domains.txt </member>
   </attrib>
</section>

exclude_domains

En esta sección es un conjunto de filtros de nombre de host que especifique que los identificadores URI para excluir de una colección de rastreo. Una sección vacía no coincidirá con cualquier nombre de host.

Atributos

Consulte la tabla include_domains para los elementos de attrib para esta sección.

Ejemplo

<section name="exclude_domains">
   <attrib name="exact" type="list-string">
      <member> www.contoso.com </member>
      <member> www2.contoso.com </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> www </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> .contoso.com</member>
      <member> .contoso2.com</member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> .*\.contoso\.com </member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myexclude_domains.txt </member>
   </attrib>
</section>

include_uris

En esta sección es un conjunto de reglas de identificador URI que especifica los identificadores URI que se incluirán en una colección de rastreo. Una sección vacía coincidirán con todos los identificadores URI.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

exact

cadena de la lista

Especifica una lista de identificadores URI. Si un identificador URI coincide exactamente uno de estos URI, se incluye el identificador URI con esta regla.

prefix

cadena de la lista

Especifica una lista de cadenas. Si una dirección URI comienza con una de estas cadenas, se incluye el identificador URI con esta regla.

suffix

cadena de la lista

Especifica una lista de cadenas. Si un identificador URI que se termina con una de estas cadenas, se incluye el identificador URI con esta regla.

regexp

cadena de la lista

Especifica una lista de expresiones regulares. If a URI matches one of these regular expressions, the URI is included by this rule.

Ejemplo

<section name="include_uris">
   <attrib name="exact" type="list-string">
      <member> https://www.contoso.com/documents/doc2.html </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> https://www.contoso.com/documents/ </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> /doc2.html </member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> http://.*\.contoso\.com/documents.*</member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myinclude_uris.txt </member>
   </attrib>
</section>

exclude_uris

En esta sección es un conjunto de reglas de identificador URI que especifica los identificadores URI para excluir de una colección de rastreo. Una sección vacía no coincidirán con los identificadores URI.

Atributos

Consulte la tabla include_uris para los elementos de attrib para esta sección.

Ejemplo

<section name="exclude_uris">
   <attrib name="exact" type="list-string">
      <member> https://www.contoso.com/documents/doc2.html </member>
   </attrib>
   <attrib name="prefix" type="list-string">
      <member> https://www.contoso.com/documents/ </member>
   </attrib>
   <attrib name="suffix" type="list-string">
      <member> /doc2.html </member>
   </attrib>
   <attrib name="regexp" type="list-string">
      <member> http://.*\.contoso\.com/documents.*</member>
   </attrib>
   <attrib name="file" type="list-string">
       <member> c:\myexclude_uris.txt </member>
   </attrib>
</section>

registro

En esta sección especifica el comportamiento del registro para el proceso de rastreador Web.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

fetch

Cadena

text|none

Enable/disable logging of downloaded Web items. Los valores válidos son:

  • text: se creará un registro con formato de texto.

  • none: Esto deshabilita el registro.

De forma predeterminada: texto

postprocess

Cadena

text|xml|none

Enable/disable logging of node scheduler item post processing. Los valores válidos son:

  • text: se creará un registro con formato de texto.

  • xml: se creará un registro con formato de XML.

  • none: Esto deshabilita el registro.

De forma predeterminada: texto

header

Cadena

text|none

Enable/disable logging of HTTP headers. Los valores válidos son:

  • text: se creará un registro con formato de texto.

  • none: Esto deshabilita el registro.

screened

Cadena

text|none

Enable/disable logging of all screened URIs. Los valores válidos son:

  • text: se creará un registro con formato de texto.

  • none: Esto deshabilita el registro.

scheduler

Cadena

text|none

Enable/disable logging of adaptive crawling. Los valores válidos son:

  • text: se creará un registro con formato de texto.

  • none: Esto deshabilita el registro.

dsfeed

Cadena

text|none

Enable/disable the logging of content submission to the indexing engine. Los valores válidos son:

  • text: se creará un registro con formato de texto.

  • none: Esto deshabilita el registro.

site

Cadena

text|none

Enable/disable logging per crawl site. Los valores válidos son:

  • text: se creará un registro con formato de texto.

  • none: Esto deshabilita el registro.

Ejemplo

<section name="log">
   <attrib name="dsfeed" type="string"> text </attrib>
   <attrib name="fetch" type="string"> text </attrib>
   <attrib name="postprocess" type="string"> text </attrib>
   <attrib name="screened" type="string"> none </attrib>
   <attrib name="site" type="string"> text </attrib>
</section>

Almacenamiento

En esta sección especifica el modo en que el rastreador Web almacena datos y metadatos.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

datastore

Cadena

flatfile|bstore

Specifies the format for Web item content storage. Los valores válidos son:

  • flatfile: este formato almacena los elementos directamente en el sistema de archivos.

  • bstore: este formato de particiones de los elementos en bloques de tamaños fijos y se distribuyen a través de un conjunto de archivos. Asigna el orden de los bloques de un índice y especifica los bloques que pertenecen a un elemento.

De forma predeterminada: bstore

store_http_header

Booleanos

yes|no

Especifica que el Rastreador de Web debe almacenar en el encabezado HTTP recibido.

De forma predeterminada: Sí

store_dupes

Booleanos

yes|no

Especifica que el Rastreador de Web debe almacenar duplicados de los elementos Web.

De forma predeterminada: no

compress

Booleanos

yes|no

Especifica que se deben comprimir elementos descargados antes de almacenarlos.

De forma predeterminada: Sí

compress_exclude_mime

cadena de la lista

Especifica un conjunto de tipos MIME de los elementos Web que no deben comprimirse cuando se almacenan. Uso de elementos Web que ya están comprimidos, por ejemplo, multimedia de formatos.

Si no se establece el parámetro de configuración compress, este parámetro no es aplicable.

remove_docs

Booleanos

yes|no

Especifica que el Rastreador de Web debe eliminar los elementos Web desde el almacén de rastreador Web tan pronto como se envían al motor de indización. Esto reducirá los requisitos de espacio de disco para el Rastreador de Web, pero le resultará imposible refeed.

De forma predeterminada: no

clusters

entero

<value>

Especifica el número de clústeres se utiliza para el almacenamiento de una colección de rastreo. Elementos Web se distribuyen entre estos clústeres de almacenamiento.

De forma predeterminada: 8

defrag_threshold

entero

<percentage>

Un valor distinto de cero que especifica el valor de umbral (de la capacidad de uso) antes de desfragmentar un archivo de almacenamiento de datos. Cuando el espacio utilizado es menor que thedefrag_threshold, el archivo es elegible para la desfragmentación recuperar espacio fragmentado, causado por los elementos almacenados del Web. Los archivos de base de datos se compactan con independencia del nivel de fragmentación.

El valor predeterminado de 85% significa que debe haber espacio reclaimable del 15% en el archivo de almacenamiento de datos para desencadenar la desfragmentación.

El valor 0 deshabilita la desfragmentación.

Esta opción sólo es aplicable al valor del atributo storage_formatbstore.

De forma predeterminada: 85

uri_dir

Cadena

<path>

Especifica una ruta de acceso para almacenar las listas de archivos de todos los hipervínculos que se extraen de los elementos Web. Cada proceso del Administrador de sitio utiliza un archivo independiente. El nombre de un identificador URI de archivo se crea concatenando el PID del proceso con .txt.

Ejemplo

<section name="storage">
   <attrib name="store_dupes" type="boolean"> no </attrib>
   <attrib name="datastore" type="string"> bstore </attrib>
   <attrib name="compress" type="boolean"> yes </attrib>
</section>

PP

En esta sección especifica el comportamiento de procesamiento de un programador de tareas de nodo de la entrada de blog. Posterior al procesamiento consta de dos tareas principales: alimentar a los elementos Web en el índice y realizar la detección de duplicados.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

use_dupservers

Booleanos

yes|no

Especifica que el Rastreador de Web debe utilizar uno o más servidores duplicados.

Esta opción es aplicable únicamente en una instalación de varios nodos.

De forma predeterminada: no

max_dupes

entero

<value>

Especifica el número máximo de registro por cada elemento Web de elementos duplicados.

De forma predeterminada: 10

stripe

entero

<value>

Especifica el número de archivos de datos para distribuir los datos de la suma de comprobación en. Al aumentar este valor puede mejorar el rendimiento del procesamiento de entrada.

De forma predeterminada: 1

ds_meta_info

cadena de la lista

duplicates|redirects|mirrors|metadata

Especifica el tipo de metadatos que se debe informar de un programador de tareas de nodo para el motor de indización. Los valores válidos son:

duplicates: informa de los identificadores URI que sean duplicados de este artículo.

redirects: informa de los identificadores URI que se le redirige a este elemento

metadata: informa de los datos de metadatos de este artículo.

mirrors: todos reflejan los URI de este elemento Web de informes

ds_max_ecl

entero

<value>

Especifica el número máximo de elementos duplicados o redirige a un informe para el motor de indización, según lo especificado por el parámetro de configuración ds_meta_info.

De forma predeterminada: 10

ecl_override

Cadena

Especifica una expresión regular que identifica la redirección y los duplicados de identificadores URI que se deben almacenar y, posiblemente, se envía al motor de indización, incluso si se alcanza max_dupes. Por ejemplo: .*index\.html$

ds_send_links

Booleanos

yes|no

Especifica si se deben enviar todos los hipervínculos extraídos de un elemento Web para el motor de indización.

ds_paused

Booleanos

yes|no

Especifica si un programador de tareas de nodo debe suspender la presentación de contenido para el motor de indización.

Ejemplo

<section name="pp">
   <attrib name="max_dupes" type="integer"> 10 </attrib>
   <attrib name="use_dupservers" type="boolean"> yes </attrib>
   <attrib name="ds_paused" type="boolean"> no </attrib>
</section>

ppdup

En esta sección especifica la configuración de servidor duplicado.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

format

Cadena

gigabase|hashlog|diskhashlog

Especifica el formato de base de datos de servidor duplicado. Los valores válidos son:

  • gigabase: Gigabase es una sencilla base de datos de clave y valor.

  • hashlog: Hashlog es una estructura de datos en memoria que consta de una tabla hash y un registro de datos. El registro de datos contiene almacenados en todas las claves y valores y automáticamente puede reconstruir la tabla hash en memoria si es necesario.

  • diskhashlog: Diskhashlog es igual a hashlog, excepto en que la estructura de datos que se tiene acceso directamente en el disco.

cachesize

entero

<megabytes>

Especifica el tamaño de caché de base de datos de servidor duplicado en megabytes. Si se establece el parámetro de configuración formathashlog o diskhashlog este parámetro especifica el tamaño inicial de la tabla hash.

stripes

entero

<value>

Especifica el número de archivos de datos para distribuir contenido. Mediante el uso de varios archivos, puede mejorar el rendimiento de la base de datos de servidor duplicado.

compact

Booleanos

yes|no

Especifica si debe realizar la compactación de la base de datos de servidor duplicado. Los formatos hashlog y diskhashlog, se debe realizar compactación manualmente con la crawlerdbtool o bien automáticamente al habilitar esta opción. De lo contrario, aumente el uso de disco para todos los registros escritos o actualizado.

De forma predeterminada: Sí

Ejemplo

<section name="ppdup">
   <attrib name="format" type="string"> hashlog </attrib>
   <attrib name="stripes" type="integer"> 1 </attrib>
      <!-- 1 GB memory hash -->
   <attrib name="cachesize" type="integer"> 1024 </attrib>
   <attrib name="compact" type="boolean"> yes </attrib>
</section>

feeding

La sección de la alimentación se compone de al menos un elemento XML section que especifica cómo se debe enviar una representación de la colección de rastreo para el motor de indización. Una sección de este tipo define un contenido de destino. El atributo name especifica un nombre único para el contenido de destino.

Atributos

En la tabla siguiente especifica que los elementos de attrib para una sección de contenido de destino.

Nombre Tipo Valor Significado

collection

Cadena

<name>

Especifica el nombre de la colección de contenido para el envío de elementos Web. Debe especificar este parámetro de configuración en una sección feeding.

destination

Cadena

Default

Reservado. Este parámetro de configuración debe contener el valor predeterminado.

paused

Booleanos

yes|no

Especifica si el Rastreador de Web debe suspender la presentación de contenido para el motor de indización.

De forma predeterminada: no

primary

Booleanos

yes|no

Especifica si este contenido de destino es un destino de contenido primario o secundario.

Un destino de contenido primario puede actuar en la información de devolución de llamada durante el envío de contenido para el motor de indización.

Si sólo se especifica un destino de contenido, será un destino principal.

Ejemplo

<section name="feeding">
    <section name="Global_News">
        <attrib name="collection" type="string"> collection_A </attrib>
        <attrib name="destination" type="string"> default </attrib>
        <attrib name="primary" type="boolean"> yes </attrib>
        <attrib name="paused" type="boolean"> no </attrib>
    </section>
    <section name="Local_News">
        <attrib name="collection" type="string"> collection_B </attrib>
        <attrib name="destination" type="string"> default </attrib>
        <attrib name="primary" type="boolean"> no </attrib>
        <attrib name="paused" type="boolean"> no </attrib>
     </section>
</section>

cachesize

En esta sección configura los tamaños de caché para el proceso de rastreador Web.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nota

El valor predeterminado para cada atributo, si no se especifica en la tabla, es que el Rastreador de Web determinan automáticamente el tamaño de caché en tiempo de ejecución.

Nombre Tipo Valor Significado

duplicates

entero

< valor que representa un número de elementos >

Especifica el tamaño de la caché de la suma de comprobación duplicados, por el proceso del Administrador de sitio. Esta caché se utiliza como primer nivel de detección de duplicados en tiempo de ejecución.

screened

entero

< valor que representa un número de elementos >

Especifica el tamaño de la caché de URI protegida, como el número de hipervínculos. La caché filtrada filtra duplicados los hipervínculos que recientemente se produjeron en la recuperación de errores.

smcomm

entero

< valor que representa un número de elementos >

Especifica el tamaño del filtro de blanco que se utiliza la caché de filtrado de los hipervínculos duplicados que fluye entre el programador de nodo y los administradores de sitios.

mucomm

entero

< valor que representa un número de elementos >

Especifica el tamaño del filtro de blanco que se utiliza la caché de filtrado de los hipervínculos duplicados que fluye entre el programador de varios nodos y el programador de nodo.

wqcache

entero

< valor que representa un número de elementos >

Especifica el tamaño de la caché de filtrado de duplicados de los hipervínculos de las colas de rastreo del sitio Web.

crosslinks

entero

< valor que representa un número de elementos >

Especifica el tamaño de la caché de vínculo cruzado. La caché de vínculo cruzado contiene hipervínculos recuperados y los hipervínculos que hace referencia. Filtra duplicados de los hipervínculos en el programador del nodo si mufilter no está habilitado.

routetab

entero

<value>

Especifica el tamaño de la caché de base de datos, el enrutamiento en bytes de rastreo.

De forma predeterminada: 1048576

pp

entero

<value>

Especifica el tamaño de caché de base de datos del proceso de correos, en bytes.

De forma predeterminada: 1048576

pp_pending

entero

<value>

Especifica el proceso de envío pendiente de tamaño de caché, en bytes. La caché pendiente contiene entradas que no se han enviado a los servidores duplicados.

De forma predeterminada: 131072

aliases

entero

<value>

Especifica la asignación de tamaño de la caché de base de datos, en bytes de datos de alias. Un sitio de rastreo puede asociarse a uno o más alias (nombres de host alternativo).

De forma predeterminada: 1048576

Ejemplo

<section name="cachesize">
      <!-- Specific cache size values (in number of items) for the following: -->
      <attrib name="duplicates" type="integer"> 128 </attrib>
      <attrib name="screened" type="integer"> 128 </attrib>
      <attrib name="smcomm" type="integer"> 128 </attrib>
      <attrib name="mucomm" type="integer"> 128 </attrib>
      <attrib name="wqcache" type="integer"> 4096 </attrib>
      <!-- Automatic cache size for crosslinks -->
      <attrib name="crosslinks" type="integer"> </attrib>
      <!-- Cache sizes in bytes for the following -->
      <attrib name="routetab" type="integer"> 1048576 </attrib>
      <attrib name="pp" type="integer"> 1048576 </attrib>
      <attrib name="pp_pending" type="integer"> 1048576 </attrib>
      <attrib name="aliases" type="integer"> 1048576 </attrib>
   </section>

http_errors

En esta sección especifica cómo controlar los códigos de respuesta de error HTTP/HTTPS y las condiciones.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección. Because there are multiple values for the name attribute, a description of each purpose is included in the name column.

Nombre

Tipo

Valor

Significado

El atributo name especifica el número de código de respuesta HTTP/HTTPS o FTP para controlar. El carácter "X" se puede utilizar como carácter comodín. Por ejemplo: 4XX

Otros valores válidos son:

  • net: utilizado para controlar los errores de socket de red

  • int: utilizado para controlar los errores internos en el Explorador de Web

  • ttl: utilizado para controlar los tiempos de espera de conexión de HTTP/HTTPS o FTP

Cadena

<value>

Especifica cómo el rastreador Web trata los errores HTTP/HTTPS o FTP y la red. Las opciones válidas para el tratamiento de los códigos de respuesta individuales son los siguientes:

  • KEEP: mantener sin cambios el elemento Web

  • DELETE[:X]: eliminar el elemento Web si la condición de error se produce durante el tiempo de X. Eliminación se produce inmediatamente si no se especifica ningún valor de X.

Si se especifica RETRY[:X] para cualquiera de estas opciones, el rastreador Web va a descargar el elemento Web no más de X veces el mismo período del ciclo antes de falla el intento se actualice la rastreo. De lo contrario, el rastreador no intenta descargar el identificador URI hasta la próxima actualización de rastreo del ciclo.

De forma predeterminada: ver los valores predeterminados para la sección http_errors y valores predeterminados para la sección ftp_errors.

Valores predeterminados de la sección http_errors

La tabla siguiente especifican los valores predeterminados de la sección http_errors.

Nombre Valor Significado

4xx

ELIMINAR: 0

Eliminar inmediatamente.

5xx

ELIMINAR: 10

Eliminar el décimo tiempo este error para este identificador URI, normalmente después de que los ciclos de rastreo de 10. El contador se restablece si el identificador URI se recupere correctamente.

int

CONSERVAR: 0

No se elimine.

net

ELIMINAR: 3, VUELVA A INTENTARLO: 1

Eliminar la tercera vez. Se especifica un reintento. Esto significa que el identificador URI se eliminarán en el siguiente ciclo de actualización si aún no se puede recuperar.

ttl

3: ELIMINAR

Eliminar la tercera vez.

Ejemplo

<section name="http_errors">
    <attrib name="408" type="string"> KEEP </attrib>
    <attrib name="4xx" type="string"> DELETE </attrib>
    <attrib name="5xx" type="string"> DELETE:10, RETRY:3 </attrib>
    <attrib name="ttl" type="string"> DELETE:3 </attrib>
    <attrib name="net" type="string"> DELETE:3 </attrib>
    <attrib name="int" type="string"> KEEP </attrib>
</section>

ftp_errors

En esta sección especifica cómo controlar los códigos de respuesta y condiciones de error para identificadores URI de FTP.

Atributos

Consulte la tabla http_errors para los elementos de attrib para esta sección.

Valores predeterminados de la sección ftp_errors

La tabla siguiente especifican los valores predeterminados de la sección ftp_errors.

Nombre Valor Significado

4xx

3: ELIMINAR

Eliminar la tercera vez que se encuentra este error para este identificador URI, normalmente después de que los ciclos de rastreo de 3. El contador se restablece si el identificador URI se recupere correctamente.

550

ELIMINAR: 0

Eliminar inmediatamente.

5xx

3: ELIMINAR

Eliminar la tercera vez, igual que para 4xx.

int

CONSERVAR: 0

No se elimine.

net

ELIMINAR: 3, VUELVA A INTENTARLO: 1

Eliminar la tercera vez. Se especifica un reintento. Esto significa que el identificador URI se eliminarán en el siguiente ciclo de actualización si aún no se puede recuperar.

Ejemplo

<section name="ftp_errors">
    <attrib name="4xx" type="string"> DELETE:3 </attrib>
    <attrib name="550" type="string"> DELETE:0 </attrib>
    <attrib name="5xx" type="string"> DELETE:3 </attrib>
    <attrib name="int" type="string"> KEEP:0 </attrib>
    <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
    <attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>

workqueue_priority

En esta sección especifica los niveles de prioridad para las colas de rastreo y especifica las reglas y los modos que se utiliza para insertar a los identificadores URI en y extraer a los identificadores URI de las colas.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

levels

entero

<value>

Especifica el número de niveles de prioridad que se utiliza para las colas de rastreo.

De forma predeterminada: 1

Default

entero

<value>

Especifica un nivel de prioridad predeterminado que se asigna a identificadores URI en una cola de rastreo.

De forma predeterminada: 1

start_uri_pri

entero

<value>

Especifica el nivel de prioridad para los identificadores URI de inicio. Consulte la start_uris y los parámetros de configuración start_uri_files.

De forma predeterminada: 1

pop_scheme

Cadena

default|rr|wrr|pri

Especifica el modo utilizado por el Explorador de Web para extraer a los identificadores URI de la cola de rastreo. Los valores válidos son:

  • rr: este modo, extrae los identificadores URI de los niveles de prioridad en orden de los turnos.

  • wrr: este modo, extrae los URI de los niveles de prioridad de un pedido de competitiva ponderado. Los pesos se basan en la configuración de recurso compartido correspondiente por cada nivel de prioridad, tal como se especifica en la sección de nivel de prioridad.

  • pri: este modo extrae los URI de los niveles de prioridad de orden de prioridad por cuando las entradas aún permanecen en la cola de rastreo. 1 es la prioridad más alta, como se especifica en la sección de nivel de prioridad.

  • default: este modo es el mismo que wrr.

Predeterminado: predeterminado

put_scheme

Cadena

default|include

Especifica el modo de rastreador de Web que se utiliza cuando se insertan los identificadores URI en la cola de rastreo. Los valores válidos son:

  • default: este modo, los URI inserta siempre con el nivel de prioridad especificado en el parámetro de la configuración predeterminada.

  • include: este modo, inserta los identificadores URI con el nivel de prioridad de include_domains o include_uris, como especificado en la sección de nivel de prioridad para todos los niveles de prioridad. El proceso de rastreador de Web, asigna el nivel de prioridad predeterminado cuando un identificador URI no coincide con cualquiera de estas secciones.

Predeterminado: predeterminado

Sección de nivel de prioridad

En la sección workqueue_priority, se puede especificar un conjunto de secciones, que especifican los niveles de prioridad y peso de las colas del rastreador. Estas secciones sólo se utilizará si se establece el parámetro pop_schemewrr o pri. El atributo name de estas secciones debe ser el nivel de prioridad que se especifique. Los niveles de prioridad deben comenzar en 1. (Consulte <section name="1"> en el ejemplo siguiente).

La sección include_domains o include_uris puede utilizarse dentro de cada sección de nivel de prioridad, tal como se especifica en include_domains y include_uris. Los identificadores URI que coincidan con estas reglas se pondrán en cola con el nivel de prioridad correspondiente. Además, en la tabla siguiente especifica que los elementos de attrib para estas secciones.

Nombre Tipo Valor Significado

share

entero

Especifica un peso para cada cola de rastreo. Sólo se utilizará este peso si se establece el parámetro de configuración pop_scheme a wrr.

Ejemplo

<section name="workqueue_priority">
    <attrib name="levels" type="integer"> 2 </attrib>
    <attrib name="default" type="integer"> 2 </attrib>
    <attrib name="start_uri_pri" type="integer"> 1 </attrib>
    <attrib name="pop_scheme" type="string"> wrr </attrib>
    <attrib name="put_scheme" type="string"> include </attrib>
    <section name="1">
        <attrib name="share" type="integer"> 10 </attrib>
        <section name="include_domains">
            <attrib name="suffix" type="list-string">
                <member> web005.contoso.com  </member>
            </attrib>
        </section>
    </section>
    <section name="2">
        <attrib name="share" type="integer"> 5 </attrib>
        <section name="include_domains">
           <attrib name="suffix" type="list-string">
              <member> web002.contoso.com  </member>
           </attrib>
        </section>
    </section>
</section>

En esta sección especifica el tipo de hipervínculos seguir.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

a

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <A/>.

De forma predeterminada: Sí

Acción

Booleanos

yes|no

Extrae los hipervínculos de los atributos de action en las etiquetas HTML.

De forma predeterminada: Sí

area

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <AREA/>.

De forma predeterminada: Sí

card

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas de lenguaje de marcado inalámbrico de <CARD/>.

De forma predeterminada: Sí

Comentario

Booleanos

yes|no

Extrae los hipervínculos de los comentarios de un elemento Web.

De forma predeterminada: Sí

embed

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <EMBED/>.

De forma predeterminada: Sí

frame

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <FRAME/>.

De forma predeterminada: Sí

go

Booleanos

yes|no

Extrae los hipervínculos de <GO/> que etiquetas de lenguaje de marcado inalámbrico.

De forma predeterminada: Sí

img

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <IMG/>.

De forma predeterminada: no

layer

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <LAYER/>.

De forma predeterminada: Sí

link

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <LINK/>.

De forma predeterminada: Sí

meta

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <META/>.

De forma predeterminada: Sí

meta_refresh

Booleanos

yes|no

Los hipervínculos de extractos de meta actualización etiquetas HTML (<meta http-equiv="refresh" content="n" />).

De forma predeterminada: Sí

object

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <OBJECT/>.

De forma predeterminada: Sí

script

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <SCRIPT/>.

De forma predeterminada: Sí

script_java

Booleanos

yes|no

Extrae los hipervínculos <SCRIPT/> etiquetas de HTML que contengan JavaScript.

De forma predeterminada: Sí

style

Booleanos

yes|no

Extrae los hipervínculos de las etiquetas HTML <STYLE/>.

De forma predeterminada: Sí

Ejemplo

<section name="link_extraction">
   <attrib name="action" type="boolean"> yes </attrib>
   <attrib name="img" type="boolean"> no </attrib>
   <attrib name="link" type="boolean"> yes </attrib>
   <attrib name="meta" type="boolean"> yes </attrib>
   <attrib name="meta_refresh" type="boolean"> yes </attrib>
   <attrib name="object" type="boolean"> yes </attrib>
   <attrib name="script_java" type="boolean"> yes </attrib>
</section>

límites

La sección limits especifica los límites de seguridad para una colección de rastreo. Cuando la colección supera el límite, entra en un modo de rastreo de "sólo actualizar". Esto significa que los URI de rastrear sólo anteriormente se rastrean nuevo.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

disk_free

entero

<percentage>

Especifica el porcentaje de espacio libre en disco que debe estar disponible para el Rastreador de Web para que funcione en modo de rastreo normal (especificado en el atributo crawlmode). Si el porcentaje es inferior a este límite, el rastreador Web entra en el modo de rastreo de "sólo actualizar" (cuando se alcanzan los umbrales).

Si el parámetro se establece en 0, esta característica está deshabilitada.

De forma predeterminada: 0

disk_free_slack

entero

<percentage>

Especifica el margen de demora para el umbral de disk_free, como un porcentaje.

Esta opción crea una zona alrededor del disk_freethreshold. Cuando el espacio libre en disco está dentro de este búfer, el Rastreador de Web no cambiará el modo de rastreo a su estado normal. Esto impide que el rastreador Web alterna entre los modos de rastreo cuando el porcentaje de espacio libre en disco está cerca del valor especificado por el parámetro disk_free. Cuando supere el porcentaje de espacio freedisk disk_free + disk_free_slack, rastrear normal se reanuda.

Valor predeterminado: 3

max_doc

entero

<value>

Especifica el número de elementos Web almacenados que hará que el Rastreador de datos entrar en modo de rastreo "Actualizar".

Nota

El umbral no es un límite exacto, porque en comparación con estadística se ha retrasado un poco de la generación de informes para el rastreo.

Cuando se establece en 0, esta característica está deshabilitada.

De forma predeterminada: 0

max_doc_slack

entero

<value>

Para evitar cambios en las constantes con el Rastreador de datos entran y salen en "actualizar sólo" modo de rastreo, se puede especificar el intervalo de athreshold junto con el valor de referencia absoluta. El intervalo se define como: (umbral menos margen de demora), (umbral), donde el comportamiento del modo de rastreo permanece sin cambios. El atributo max_doc_slack especifica el número máximo de elementos que pueden estar contenidos en un margen de demora, hasta que el umbral de parámetro de configuración de max_doc.

Valor predeterminado: 1000

Ejemplo

<section name="limits">
   <attrib name="disk_free" type="integer"> 0 </attrib>
   <attrib name="disk_free_slack" type="integer"> 3 </attrib>
   <attrib name="max_doc" type="integer"> 0 </attrib>
   <attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>

centrado

En esta sección configura el enfoque de programación. Una sección exclude_domains puede utilizarse dentro de la sección focused para excluir los nombres de host de este enfoque de programación. Si no se define ninguna sección exclude_domains, todos los nombres de host se incluyen en el enfoque de programación.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre

Tipo

Valor

Significado

idiomas

cadena de la lista

Muestra los idiomas para los elementos que pueden almacenarse por el Explorador de Web, como en ISO 639-1.

profundidad

entero

<value>

Especifica el número de saltos de página deben seguir para elementos Web que no coinciden con los idiomas especificados, tal como lo establece el parámetro de configuración languages.

Ejemplo

En el ejemplo siguiente, el Rastreador de datos va a almacenar todos los elementos con noruego, inglés o el contenido de lenguaje desconocido. Para todos los lenguajes no especificado, el Rastreador de datos seguirá sólo vínculos a los 2 niveles. Además, todo el contenido en contoso.com se excluye de los controles de idioma y se almacena automáticamente.

<section name="focused">
   <!-- Crawl Norwegian, English and content of unknown language -->
   <attrib name="languages" type="list-string">
      <member> norwegian </member>
      <member> unknown </member>
      <member> en </member>
   </attrib>
   <!--Follow hyperlinks containing other languages for 2 levels -->
   <attrib name="depth" type="integer"> 2 </attrib>
   <!-- Exclude anything under .contoso.com from language checks, -->   
   <section name="exclude_domains">
      <attrib name="suffix" type="list-string">
         <member> .contoso.com </member>
      </attrib>
   </section>
</section>

passwd

En esta sección configura las credenciales para los sitios Web que requieren autenticación. El Rastreador de Web es compatible con la autenticación básica, autenticación implícita y autenticación de NTLM.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

Nombre

Cadena

El atributo name debe contener un identificador URI o un territorio. Un URI válido se comporta como un valor de prefijo, ya que todos los hipervínculos que se extrajo en su nivel o profundo utilizan estas opciones de autenticación.

Especifique las credenciales en uno de los siguientes formatos: username:password o usename:password:realm:scheme.

El componente de la contraseña de la cadena de credenciales se puede cifrar; si no está cifrado, se conceden en texto sin formato.

Se crea una contraseña cifrada con la herramienta de crawleradmin con la opción -e. El algoritmo de cifrado que se utiliza es Advanced Encryption Standard AES-128 con la clave que se encuentra en%FASTSEARCH%\etc\CrawlerEncryptionKey.DAT.

Si se dan las credenciales con el formato de username:password, el rastreador Web de forma automática utiliza la autenticación de acceso básico. En caso contrario, la configuración debe especificar un esquema de autenticación. Esquemas de autenticación válidos son:

  • basic

  • digest

  • ntlmv1

  • ntlmv2

  • auto: Especifica que el rastreador Web determina el esquema de autenticación por sí mismo.

Ejemplo

<section name="passwd">
    <attrib name="https://www.contoso.com/confidential1/" type="string">
      user:password:contoso:auto
    </attrib>
</section>

ftp_acct

En esta sección especifica cuentas FTP para rastrear los URI de FTP.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

Nombre

Cadena

El valor del atributo XML name es el nombre de host para que esta cuenta FTP es válida.

Éste es el nombre de usuario y contraseña para esta cuenta FTP. La cadena debe tener el formato: username:password

Ejemplo

<section name="ftp_acct">
   <attrib name="ftp.contoso.com" type="string"> user:pass </attrib>
</section>

exclude_headers

En esta sección se utiliza para excluir los elementos Web desde el rastreo, en función del contenido de los campos de encabezado HTTP.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

Nombre

El atributo de nombre se utiliza para establecer el nombre del encabezado HTTP para probar.

cadena de la lista

Especifica una lista de expresiones regulares. If the value of the specified HTTP header matches one of these regular expressions, the Web item is excluded from the crawl.

Ejemplo

<section name="exclude_headers">
   <attrib name="Header Name" type="list-string">
      <member> .*excluded.*value </member>
   </attrib>
</section>

variable_delay

Esta sección especifican los intervalos de tiempo que se utilizan una velocidad de solicitud diferente. Cuando no se especifica ningún intervalo de tiempo, el Rastreador de datos utiliza el parámetro de configuración delay tal como se especifica en attrib.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

name en el formato: DDD:HH.MM-DDD:HH.MM

Cadena

< valor en segundos >

suspend

Especifica la tasa de solicitudes de retraso de este intervalo de tiempo, en segundos. A value of suspend specifies that crawling of this crawl collection will be suspended.

Ejemplo

En el ejemplo siguiente se muestra cómo el Rastreador de Web utiliza intervalos de retardo diferente durante la semana. Miércoles, entre las 9: 00 a.m. y las 7: 00 p.m., el Rastreador de Web utiliza un retraso de 20 segundos. Entre las 9: 00 a.m. y las 5: 00 p.m. los lunes suspende el Rastreador de rastreo y cualquier otro momento de la semana el Rastreador de Web utiliza un retardo de 60 segundos.

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="variable_example">
      <section name="variable_delay">
         <attrib name="Wed:09-Wed:19" type="string">20 </attrib>
         <attrib name="Mon:09-Mon:17" type="string">suspend</attrib>
      </section>
   </DomainSpecification>
</CrawlerConfig>

adaptable

En esta sección especifica las opciones de rastreo adaptables. El parámetro de configuración refresh_mode, especificado en attrib, se debe establecer a adaptive de esta sección para que se va a utilizar el Rastreador de Web.

Con los pesos y las secciones de sitemap_weights, se puede controlar el comportamiento de rastreo adaptable.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

refresh_count

entero

<value>

Especifica el número de ciclos de actualización secundaria. Un ciclo de actualización se puede dividir en varios intervalos de tiempo fijo que se encuentran los ciclos de actualización secundaria denominada.

De forma predeterminada: 4

refresh_quota

entero

<percentage>

Especifica la proporción de los URI de re-crawled existentes a nuevos identificadores URI aún no descubiertos, expresado como porcentaje. Si establece el porcentaje bajo, da preferencia a identificadores URI nuevo.

De forma predeterminada: 90

coverage_min

entero

<value>

Especifica un número mínimo de los identificadores URI para rastrear por cada sitio Web en un ciclo de actualización secundaria. Se utiliza para garantizar la cobertura de algunos para sitios Web pequeños.

De forma predeterminada: 25

coverage_max_pct

entero

<value>

Especifica el porcentaje de un sitio Web para re-crawl en un ciclo de secundario. Garantiza que sitios Web pequeños no totalmente rastrear cada ciclo de secundaria, tomar tiempo fuera de los sitios Web de mayor tamaño.

De forma predeterminada: 10

Ejemplo

        <section name="adaptive">
            <attrib name="refresh_count" type="integer"> 4 </attrib>
            <attrib name="refresh_quota" type="integer"> 98 </attrib>
            <attrib name="coverage_max_pct" type="integer"> 25 </attrib>
            <attrib name="coverage_min" type="integer"> 10 </attrib>

            <!-- Ranking weights. Each scoring criteria adds a score between -->
            <!-- 0.0 and 1.0 which is then multiplied with the associated    -->
            <!-- weight below. Use a weight of 0 to disable a scorer         --> 
        
           <section name="weights">
                <attrib name="inverse_length" type="real"> 1.0 </attrib>
                <attrib name="inverse_depth" type="real"> 1.0 </attrib>
                <attrib name="is_landing_page" type="real"> 1.0 </attrib>
                <attrib name="is_mime_markup" type="real"> 1.0 </attrib>
                <attrib name="change_history" type="real"> 10.0 </attrib>
            </section>
        </section>

pesos

En esta sección se proporciona a cada URI una puntuación en el proceso de rastreo adaptable. El resultado da prioridad a los identificadores URI y se basa en un conjunto de reglas. Cada regla está asignado un peso que determina su contribución a la puntuación total que se especifica en la sección weights.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

inverse_length

real

<value>

Especifica el grosor de la regla de longitud inverso. La regla de longitud inverso proporciona a los URI con pocos segmentos de ruta de acceso (definidos por el número de barras diagonales) una puntuación más alta. Los identificadores URI con 10 o más barras reciben una puntuación de 0.

De forma predeterminada: 1.0

inverse_depth

real

<value>

Especifica el grosor de la regla de profundidad inverso. Se calcula el número de saltos de página de un identificador URI de inicio, una puntuación más alta se asignan a identificadores URI que tienen menos de 10 saltos de página. La regla da como resultado una puntuación de cero para los identificadores URI con 10 o más saltos de página.

De forma predeterminada: 1.0

is_landing_page

real

<value>

Especifica el grosor de la regla is_landing_page. Este da de regla de un identificador URI que considera una puntuación más alta de una página de inicio. Una página de inicio es un identificador URI que terminen en uno de/,/ index.HTML,index.htm,index.php,index.jsp,index.ASP,default.HTML, odefault.htm.

La regla da como resultado sin puntuación para los identificadores URI que tienen los componentes de la consulta.

De forma predeterminada: 1.0

is_mime_markup

real

<value>

Especifica el grosor de la regla is_mime_markup. Esta regla da como resultado una puntuación adicional a las páginas cuyo tipo MIME especificado en el parámetro de configuración uri_search_mime en attrib.

De forma predeterminada: 1.0

change_history

real

<value>

Especifica el grosor de la regla de historial de cambios. Los resultados de esta regla basan en el HTTP encabezado "última modificación" valor con el tiempo. Los elementos Web que cambian frecuentemente tienen una puntuación más alta que los elementos que cambian con menos frecuencia.

De forma predeterminada: 10.0

sitemap

real

<value>

Especifica el grosor de la regla del mapa del sitio. El resultado de la regla del mapa del sitio se especifica en sitemap_weights.

De forma predeterminada: 10.0

Ejemplo

<!-- Ranking weights. Each scoring criteria adds a score between -->
            <!-- 0.0 and 1.0 which is then multiplied with the associated    -->
            <!-- weight below. Use a weight of 0 to disable a scorer         -->
            <section name="weights">
                <!-- Score based on the number of /'es (segments) in the -->
                <!-- URI. Max score with one, no score with 10 or more   -->
                <attrib name="inverse_length" type="real"> 1.0 </attrib>

                <!-- Score based on the number of link "levels" down to -->
                <!-- this URI. Max score with none, no score with >= 10 -->
                <attrib name="inverse_depth" type="real"> 1.0 </attrib>

                <!-- Score added if URI is determined as a "landing page", -->
                <!-- defined as e.g. ending in "/" or "index.html". URIs   -->
                <!-- with query parameters are not given score             -->
                <attrib name="is_landing_page" type="real"> 1.0 </attrib>

                <!-- Score added if URI points to a markup document as    -->
                <!-- defined by the "uri_search_mime" option. Assumption  -->
                <!-- being that such content changes more often than e.g. -->
                <!-- "static" Word or PDF documents.                      -->
                <attrib name="is_mime_markup" type="real"> 1.0 </attrib>

                <!-- Score based on change history tracked over time by   -->
                <!-- using an estimator based on last modified date given -->
                <!-- by the web server. If no modified date returned then -->
                <!-- one is estimated (based on whether the document has  -->
                <!-- changed or not).                                     -->
                <attrib name="change_history" type="real"> 10.0 </attrib>
            </section>
  

sitemap_weights

En esta sección, las entradas de <URL> en un mapa del sitio pueden contener un elemento de changefreq, que especifica con qué frecuencia se puede modificar una dirección URI.

Los valores de cadena válida para este elemento son los siguientes: always, hourly, daily, weekly, monthly, yearly y never. Los valores de cadena se convierten en un peso numérico para el rastreo adaptable. La sección sitemap_weights especifica una asignación de los valores de cadena para el grosor de una numérico. Este peso numérica se utiliza para calcular el resultado a la puntuación del mapa del sitio en la sección weights.

La puntuación de rastreo adaptable para un identificador URI se calcula multiplicando el peso numérico en el peso de parámetro de configuración de sitemap.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Importante

El intervalo de estos elementos debe ser entre 0,0 y 1,0.

Nombre Tipo Valor Significado

always

real

<value>

Especifica el grosor de la always valor changefreq como un valor numérico.

De forma predeterminada: 1.0

hourly

real

<value>

Especifica el grosor de la hourly valor changefreq como un valor numérico.

De forma predeterminada: 0.64

daily

real

<value>

Especifica el grosor de la daily valor changefreq como un valor numérico.

De forma predeterminada: 0.32

weekly

real

<value>

Especifica el grosor de la weekly valor changefreq como un valor numérico.

De forma predeterminada: 0,16

monthly

real

<value>

Especifica el grosor de la monthly valor changefreq como un valor numérico.

De forma predeterminada: 0,08

yearly

real

<value>

Especifica el grosor de la yearly valor changefreq como un valor numérico.

De forma predeterminada: 0,04

never

real

<value>

Especifica el grosor de la never valor changefreq como un valor numérico.

Valor predeterminado: 0,0

Default

real

<value>

Especifica el grosor de todos los identificadores URI que no están asociados con un valor de <changefreq>.

De forma predeterminada: 0,16

Ejemplo

<section name="sitemap_weights">
    <attrib name="always" type="real"> 1.0 </attrib>
    <attrib name="hourly" type="real"> 0.64 </attrib>
    <attrib name="daily" type="real"> 0.32 </attrib>
    <attrib name="weekly" type="real"> 0.16 </attrib>
    <attrib name="monthly" type="real"> 0.08 </attrib>
    <attrib name="yearly" type="real"> 0.04 </attrib>
    <attrib name="never" type="real"> 0.0 </attrib>
    <attrib name="default" type="real"> 0.16 </attrib>
</section>

site_clusters

Esta sección especifican los parámetros de configuración que reemplazan el comportamiento del Rastreador de enrutamiento de los nombres de host en un nodo de programador. Este parámetro, se garantiza que un grupo de nombres de host se enruta al mismo nodo programador y de sitio Administrador. Esto resulta útil cuando se habilita la opción use_cookies, ya que las cookies son globales sólo a lo largo de un proceso del Administrador de sitio. Además, si sabe que algunos sitios Web están estrechamente interconectados, puede reducir la comunicación interna por sus nombres de host de clúster.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

Nombre

cadena de la lista

Especifica una lista de nombres de host que debe agregarse a un programador de tareas de nodo.

Ejemplo

<section name="site_clusters">
    <attrib name="mycluster" type="list-string">
        <member> host1.constoso.com </member>
        <member> host2.constoso.com </member>
        <member> host3.constoso.com </member>
    </attrib>
</section>

crawlmode

En esta sección se limita la duración de una colección de rastreo.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

mode

Cadena

Especifica la profundidad de la información de rastreo. Los valores válidos son FULL o DEPTH:#, donde # es el número de saltos de página de un identificador URI de inicio.

Default: FULL

fwdlinks

Booleanos

yes|no

Especifica si se deben seguir los hipervínculos que apuntan a un nombre de host diferente.

Default: Sí

fwdredirects

Booleanos

yes|no

Especifica si se deben seguir externas redirecciones HTTP que recibe de los servidores. Redirecciones externas son redirecciones HTTP que elija otro nombre de host de nombre de un host.

Default: no

reset_level

Booleanos

yes|no

Especifica si restablecer la página de contador de saltos usar por mode al seguir un hipervínculo a otro nombre de host.

Default: Sí

Ejemplo

        <section name="crawlmode">
            <attrib name="mode" type="string"> DEPTH:1 </attrib>
            <attrib name="fwdlinks" type="boolean"> yes </attrib>
            <attrib name="fwdredirects" type="boolean"> yes </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>

post_payload

En esta sección se utiliza para enviar contenido a las solicitudes POST de HTTP. El contenido se envía a los identificadores URI que coincidan con un prefijo URI o que coincidan exactamente con un identificador URI.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre

Tipo

Valor

Significado

Nombre

Cadena

Especifica la cadena de contenido de la carga. Esta cadena se registra para los identificadores URI que coincida con un URI o prefijo establecido por el atributo XML name.

La sección, requiere a una coincidencia si el atributo name especifica un identificador URI.

Para especificar un prefijo de identificador URI, se debe utilizar la etiqueta prefix:. A continuación, en la parte inicial de un identificador URI se especifica el resto de la coincidencia.

Ejemplo

<section name="post_payload">
    <attrib name="prefix:https://www.contoso.com/secure" type="string"> variable1=value1&amp;variableB=valueB </attrib>
</section>

RSS

En esta sección se inicializa y configura la fuente RSS soporte en una colección de rastreo.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre

Tipo

Valor

Significado

start_uris

cadena de la lista

Especifica una lista de identificadores URI que señalan a RSS avance de los elementos de inicio.

start_uri_files

cadena de la lista

Especifica una lista de rutas de acceso a los archivos que contienen a los identificadores URI que apuntan a elementos de fuente RSS. El formato de estos archivos debe ser archivos de texto sin formato que tienen un identificador URI por línea.

auto_discover

Booleanos

yes|no

Especifica si el Rastreador de Web debe detectar nuevas fuentes RSS. Si no se establece esta opción, sólo las fuentes especificadas en el RSS iniciar a los URI e iniciar de RSS se tratarán las secciones de los archivos de los identificadores URI como canales RSS.

De forma predeterminada: no

follow_links

Booleanos

yes|no

Especifica que el Rastreador de Web debe seguir los hipervínculos de los elementos Web que se encuentra en la fuente RSS, que es el comportamiento habitual de rastreador de Web. Si se deshabilita, el rastreo produce sólo un salto fuera de una fuente. Deshabilitar esta opción para rastrear sólo las fuentes y elementos Web que hace referencia a las fuentes.

De forma predeterminada: Sí

ignore_rules

Booleanos

yes|no

Especifica que el Rastreador de Web debe rastrear todos los elementos Web que hace referencia a la fuente RSS, independientemente de su inclusión en las reglas de inclusión o exclusión, como en include_domainsexclude_domains, include_uris y exclude_uris.

De forma predeterminada: no

index_feed

Booleanos

yes|no

Especifica si el Rastreador de Web debe enviar las fuentes RSS a sí mismos para el motor de indización, o sólo los elementos de la Web con hipervínculos dentro de las fuentes.

De forma predeterminada: no

del_expired_links

Booleanos

yes|no

Especifica si el Rastreador de Web debe eliminar los elementos de la fuente cuando caducan, tal como se define por max_link_age y max_link_count RSS.

De forma predeterminada: no

max_link_age

entero

<value>

Especifica la antigüedad máxima, en minutos, para un elemento Web que se encuentra en una fuente RSS. Sólo se aplica si se establece el parámetro de configuración del_expired_links a yes.

De forma predeterminada: 0

max_link_count

entero

<value>

Especifica el número máximo de hipervínculos, el Rastreador de Web se guarda de una fuente RSS. Si el rastreador Web encuentra varios hipervínculos, que caducan en una orden de primero-in-first-out. Sólo se aplica si se establece el parámetro de configuración de del_expired_links a yes.

De forma predeterminada: 128

Ejemplo

        <section name="rss">
            <!-- Attempt to discover new rss feeds, yes/no                  -->
            <attrib name="auto_discover" type="boolean"> yes </attrib>
            <attrib name="del_expired_links" type="boolean"> yes </attrib>
            <attrib name="follow_links" type="boolean"> yes </attrib>
            <attrib name="ignore_rules" type="boolean"> no </attrib>
            <attrib name="index_feed" type="boolean"> no </attrib>
            <attrib name="max_link_age" type="integer"> 0 </attrib>
            <attrib name="max_link_count" type="integer"> 128 </attrib>
            <attrib name="start_uris" type="list-string">
                <member> http://www.startsiden.no/rss.rss </member>
            </attrib>
            <!-- Start uri files (optional)                                 -->
            <attrib name="start_uri_files" type="list-string">
                <member> /usr/fast/etc/rss_seedlist.txt </member>
            </attrib>
        </section>

Inicios de sesión

En esta sección se especifica al menos un elemento de la sección logins para la autenticación basada en formularios HTML. Se trata de un asociado de inicios de sesión de sitio Web específico, cada uno de los cuales debe contener un nombre de inicio de sesión único en el atributo name.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

preload

Cadena

<value>

Especifica el identificador URI completo de la página para recuperar antes de procesar el formulario de inicio de sesión.

scheme

Cadena

HTTP|HTTPS

Especifica el esquema URI del sitio Web de inicio de sesión.

Los valores válidos: http o https

site

Cadena

<value>

Especifica el nombre de host de la página de formulario de inicio de sesión.

form

Cadena

<value>

Especifica la ruta de acceso del formulario de inicio de sesión.

Acción

Cadena

GET|POST

Especifica si el formulario utiliza HTTP POST o GET de HTTP.

Los valores válidos son los siguientes: GET o POST

sites

cadena de la lista

<value>

Especifica una lista de sitios Web o los nombres de host que el Rastreador de Web debe iniciar sesión antes de que comience el proceso de rastreo.

ttl

entero

<seconds>

Especifica el tiempo, en segundos, que pueden transcurrir antes de requerir otro inicio de sesión para continuar el rastreo.

html_form

Cadena

<value>

Especifica el identificador URI a la página HTML que contiene el formulario de inicio de sesión.

autofill

Booleanos

yes|no

Especifica si el Rastreador de Web debe intentar rellenar automáticamente el formulario de inicio de sesión HTML. El parámetro de configuración html_form debe ser especificado si está establecido a yes.

relogin_if_failed

Booleanos

yes|no

Especifica si el Rastreador de Web puede intentar re-log en el sitio Web después de ttl segundos si el error en el inicio de sesión.

Notas

Los elementos de Inicio de sesión se pueden utilizar como alternativa a la sección logins.

Ejemplo

        <section name="logins">
            <section name="mytestlogin">
                <!-- Instructs the crawler to "preload" potential cookies by -->
                <!-- fetching this page and register any cookies before      -->
                <!-- proceeding with login                                   -->
                <attrib name="preload" type="string">http://preload.contoso.com/</attrib>
                <attrib name="scheme" type="string"> https </attrib>
                <attrib name="site" type="string"> login.contoso.com </attrib>
                <attrib name="form" type="string"> /path/to/some/form.cgi </attrib> 
                <attrib name="action" type="string">POST</attrib> 
                <section name="parameters"> 
                    <attrib name="user" type="string"> username </attrib>
                    <attrib name="password" type="string"> password </attrib>
                    <attrib name="target" type="string"> sometarget </attrib>
                </section> 
                <!-- Host names of sites requiring this login to crawl -->
                <attrib name="sites" type="list-string"> 
                    <member> site1.contoso.com </member> 
                    <member> site2.contoso.com </member> 
                </attrib> 
                <!-- Time to live for login cookie. Will re-log in when expires -->
                <attrib name="ttl" type="integer"> 7200 </attrib> 
            </section>
        </section>

parámetros

En esta sección establece las credenciales de autenticación que se utilizan en un formulario HTML. Debe especificarse en una sección de inicios de sesión del sitio o en un elemento de Inicio de sesión. Los parámetros de credenciales son suele ser diferentes para cada formulario HTML.

Si el parámetro de configuración autofill está habilitado, se especifican sólo las variables que son visibles en el explorador. Por ejemplo: nombre de usuario y contraseña o equivalente. En este caso, el Rastreador de Web debe recuperar la página HTML y leer las variables "ocultas" que se requieren para enviar el formulario. Un valor de la variable especificada en los parámetros de configuración suplantará a cualquier valor almacenado en el formulario.

Atributos

En la tabla siguiente especifica que los elementos de attrib para esta sección.

Nombre Tipo Valor Significado

Nombre

El atributo de nombre XML contiene la variable de formulario HTML para establecer.

Cadena

Especifica los valores de la variable de formulario HTML.

Ejemplo

<section name="parameters"> 
                <attrib name="user" type="string"> username </attrib>
                <attrib name="password" type="string"> password </attrib>
                <attrib name="target" type="string"> sometarget </attrib>
            </section> 

subdominios

En esta sección se especifica la configuración de las colecciones de sub de rastreo. La sección subdomains debe contener al menos un elemento XML section, cada uno de los cuales especifica una colección de sub de rastreo. A crawl sub collection section must contain a unique name by setting the name attribute

Notas

En lugar de una sección subdomains, se puede utilizar un elemento de SubDomain.

Debe especificar las reglas de inclusión o exclusión para limitar el ámbito de una colección de sub de rastreo. Éstos incluyen o excluir reglas son las siguientes: include_domains, exclude_domains, include_uris y exclude_uris.

Sólo un subconjunto de los parámetros de configuración especificado en attrib puede utilizarse en una subsección. Estos parámetros de configuración son:

-
accept_compression

-
allowed_schemes

-
crawlmode

-
cut_off

-
delay

-
ftp_passive

-
headers

-
max_doc

-
proxy

-
refresh

-
refresh_mode

-
start_uris

-
start_uri_files

-
use_http:1

-
use_javascript

-
use_sitemaps

Deben establecer los parámetros de configuración refresh de una colección de sub rastreo inferiores a la frecuencia de actualización de la colección de rastreo principal. No se puede utilizar los parámetros de configuración use_javascriptuse_sitemaps y max_doc si la configuración de include_uris o exclude_uris se utiliza para especificar la colección de sub de rastreo.

Además, puede utilizar las, RSS y las secciones de variable_delay en una colección de sub de rastreo.

Ejemplo

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="subcollection_example">
      <section name="subdomains">
         <section name="subdomain_1">
            <section name="include_uris">
               <attrib name="prefix" type="list-string">
                  <member> https://www.contoso.com/index </member>
               </attrib>
            </section>
            <attrib name="refresh" type="real"> 60.0 </attrib>
            <attrib name="delay" type="real"> 10.0 </attrib>
            <attrib name="start_uris" type="list-string">
               <member> https://www.contoso.com/ </member>
            </attrib>
         </section>
      </section>
</DomainSpecification>
</CrawlerConfig>

SubDomain

Este elemento especifica la configuración de las colecciones de sub de rastreo. Una colección de sub de rastreo es un objeto que diferencia a miembros de la colección de rastreo entre sí por sus definiciones. Puede contener varios elementos SubDomain a una colección de rastreo.

Los parámetros de configuración de un elemento SubDomain se especifican en los subdominios.

Un elemento SubDomain contiene elementos attrib y section elementos.

Atributos

Atributo Valor Significado

Nombre

<name>

Cadena que especifica el nombre de la colección de sub de rastreo.

Ejemplo

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="subcollection_example">
      <SubDomain name="subdomain_1">
         <section name="include_uris">
            <attrib name="prefix" type="list-string">
               <member> https://www.contoso.com/index </member>
            </attrib>
         </section>
         <attrib name="refresh" type="real"> 60.0 </attrib>
         <attrib name="delay" type="real"> 10.0 </attrib>
         <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com/ </member>
         </attrib>
      </SubDomain>
   </DomainSpecification>
</CrawlerConfig>

Inicio de sesión

Este elemento se utiliza para la autenticación basada en formularios HTML. Los parámetros de configuración de un elemento Login se especifican en los inicios de sesión. Puede contener varios elementos Login a una colección de rastreo. Un elemento Login contiene elementos attrib y section elementos.

Atributos

Atributo Valor Significado

Nombre

<value>

Cadena que especifica el nombre de la especificación de inicio de sesión.

Ejemplo

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="login_example">
      <Login name="mytestlogin">
         <attrib name="preload" type="string">http://preload.contoso.com/
         </attrib>
         <attrib name="scheme" type="string"> https </attrib>
         <attrib name="site" type="string"> login.contoso.com  </attrib>
         <attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
         <attrib name="action" type="string">POST</attrib>
         <section name="parameters">
            <attrib name="user" type="string"> username </attrib>
            <attrib name="password" type="string"> password </attrib>
         </section>
         <attrib name="sites" type="list-string">
            <member> site1.contoso.com  </member>
            <member> site2.contoso.com  </member>
         </attrib>
         <attrib name="ttl" type="integer"> 7200 </attrib>
         <attrib name="html_form" type="string">
            http://login.contoso.com/login.html 
         </attrib>
         <attrib name="autofill" type="boolean"> yes </attrib>
         <attrib name="relogin_if_failed" type="boolean"> yes </attrib>
      </Login>
   </DomainSpecification>
</CrawlerConfig>

Node

Este elemento se utiliza para reemplazar los parámetros de configuración en una colección de rastreo o una colección de sub de rastreo para un programador de tareas de nodo concreto. Los parámetros de configuración de un elemento Node se especifican en el SubDomain, el Inicio de sesión, el attrib y sección.

Un elemento Node contiene elementos attrib y section elementos.

Atributos

Atributo Valor Significado

Nombre

<value>

Cadena que especifica al nodo programador para estos parámetros de configuración.

Ejemplo

En el ejemplo siguiente se utiliza una instalación de varios nodos. Uno de los programadores de nodo se denomina "crawler_node1". De este modo, el "crawler_node1" configura con un parámetro de configuración de retraso diferentes a los demás nodos.

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
   <DomainSpecification name="node_example ">
      <attrib name="delay" type="real"> 60.0 </attrib>
      <Node name="crawler_node1">
         <attrib name="delay" type="real"> 90.0 </attrib>
      </Node>
   </DomainSpecification>
</CrawlerConfig>

Esquema XML

Un archivo de configuración del Rastreador de Web debe tener el formato con el esquema XML siguiente:

<?xml version="1.0" encoding="UTF-8" ?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">

  <xs:element name="CrawlerConfig" type="CT_CrawlerConfig"/>
  
  <xs:complexType name="CT_CrawlerConfig >
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="DomainSpecification" type="CT_DomainSpecification"/>
    </xs:choice>
  </xs:complexType>

  <xs:complexType name="CT_DomainSpecification">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib" maxOccurs="unbounded"/>
      <xs:element name="section" type="CT_section"/>
      <xs:element name="SubDomain" type="CT_SubDomain"/>
      <xs:element name="Login" type="CT_Login"/>
      <xs:element name="Node" type="CT_Node"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_attrib" mixed="true">
    <xs:sequence minOccurs="0" maxOccurs="unbounded">
      <xs:element name="member" type="ST_member"/>
    </xs:sequence>
    <xs:attribute name="name" type="xs:string" use="required"/>
    <xs:attribute name="type" type="ST_type" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_section">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
        <xs:element name="attrib" type="CT_attrib"/>
        <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_SubDomain">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_Login">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>

  <xs:complexType name="CT_Node">
    <xs:choice minOccurs="0" maxOccurs="unbounded">
      <xs:element name="attrib" type="CT_attrib"/>
      <xs:element name="section" type="CT_section"/>
    </xs:choice>
    <xs:attribute name="name" type="xs:string" use="required"/>
  </xs:complexType>
  
  <xs:simpleType name="ST_type">
    <xs:restriction base="xs:string">
      <xs:enumeration value="boolean"/>
      <xs:enumeration value="string"/>
      <xs:enumeration value="integer"/>
      <xs:enumeration value="list-string"/>
      <xs:enumeration value="real"/>
    </xs:restriction>
  </xs:simpleType>

  <xs:simpleType name="ST_member">
    <xs:restriction base="xs:string"></xs:restriction>
  </xs:simpleType>
</xs:schema>

Configuración sencilla

En el ejemplo siguiente se configura una configuración sencilla de rastreador de Web. Está configurado para rastrear sólo el sitio Web de contoso.com.

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
    <DomainSpecification name="default_example">
        <section name="crawlmode">
            <attrib name="fwdlinks" type="boolean"> no </attrib>
            <attrib name="fwdredirects" type="boolean"> no </attrib>
            <attrib name="mode" type="string"> FULL </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>
        <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com </member>
        </attrib>
    </DomainSpecification>
</CrawlerConfig>

Configuración típica

La configuración del Rastreador de datos de ejemplo siguiente contiene algunos parámetros de configuración comunes.

<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
    <DomainSpecification name="default_example">
        <attrib name="accept_compression" type="boolean"> yes </attrib>
        <attrib name="allowed_schemes" type="list-string">
            <member> http </member>
            <member> https </member>
        </attrib>
        <attrib name="allowed_types" type="list-string">
            <member> text/html </member>
            <member> text/plain </member>
        </attrib>
        <section name="cachesize">
            <attrib name="aliases" type="integer"> 1048576 </attrib>
            <attrib name="pp" type="integer"> 1048576 </attrib>
            <attrib name="pp_pending" type="integer"> 131072 </attrib>
            <attrib name="routetab" type="integer"> 1048576 </attrib>
        </section>
        <attrib name="check_meta_robots" type="boolean"> yes </attrib>
        <attrib name="cookie_timeout" type="integer"> 900 </attrib>
        <section name="crawlmode">
            <attrib name="fwdlinks" type="boolean"> yes </attrib>
            <attrib name="fwdredirects" type="boolean"> yes </attrib>
            <attrib name="mode" type="string"> FULL </attrib>
            <attrib name="reset_level" type="boolean"> no </attrib>
        </section>
        <attrib name="csum_cut_off" type="integer"> 0 </attrib>
        <attrib name="cut_off" type="integer"> 5000000 </attrib>
        <attrib name="dbswitch" type="integer"> 5 </attrib>
        <attrib name="dbswitch_delete" type="boolean"> no </attrib>
        <attrib name="delay" type="real"> 60.0 </attrib>
        <attrib name="domain_clustering" type="boolean"> no </attrib>
        <attrib name="enforce_delay_per_ip" type="boolean"> yes </attrib>
        <attrib name="exclude_exts" type="list-string">
            <member> .jpg </member>
            <member> .jpeg </member>
            <member> .ico </member>
            <member> .tif </member>
            <member> .png </member>
            <member> .bmp </member>
            <member> .gif </member>
            <member> .wmf </member>
            <member> .avi </member>
            <member> .mpg </member>
            <member> .wmv </member>
            <member> .wma </member>
            <member> .ram </member>
            <member> .asx </member>
            <member> .asf </member>
            <member> .mp3 </member>
            <member> .wav </member>
            <member> .ogg </member>
            <member> .ra </member>
            <member> .aac </member>
            <member> .m4a </member>
            <member> .zip </member>
            <member> .gz </member>
            <member> .vmarc </member>
            <member> .z </member>
            <member> .tar </member>
            <member> .iso </member>
            <member> .img </member>
            <member> .rpm </member>
            <member> .cab </member>
            <member> .rar </member>
            <member> .ace </member>
            <member> .hqx </member>
            <member> .swf </member>
            <member> .exe </member>
            <member> .java </member>
            <member> .jar </member>
            <member> .prz </member>
            <member> .wrl </member>
            <member> .midr </member>
            <member> .css </member>
            <member> .ps </member>
            <member> .ttf </member>
            <member> .mso </member>
            <member> .dvi </member>
        </attrib>
        <attrib name="extract_links_from_dupes" type="boolean"> no </attrib>
        <attrib name="fetch_timeout" type="integer"> 300 </attrib>
        <attrib name="force_mimetype_detection" type="boolean"> no </attrib>
        <section name="ftp_errors">
            <attrib name="4xx" type="string"> DELETE:3 </attrib>
            <attrib name="550" type="string"> DELETE:0 </attrib>
            <attrib name="5xx" type="string"> DELETE:3 </attrib>
            <attrib name="int" type="string"> KEEP:0 </attrib>
            <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
            <attrib name="ttl" type="string"> DELETE:3 </attrib>
        </section>
        <attrib name="headers" type="list-string">
            <member> User-Agent: FAST Enterprise Crawler 6 </member>
        </attrib>
        <attrib name="html_redir_is_redir" type="boolean"> yes </attrib>
        <attrib name="html_redir_thresh" type="integer"> 3 </attrib>
        <section name="http_errors">
            <attrib name="4xx" type="string"> DELETE:0 </attrib>
            <attrib name="5xx" type="string"> DELETE:10 </attrib>
            <attrib name="int" type="string"> KEEP:0 </attrib>
            <attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
            <attrib name="ttl" type="string"> DELETE:3 </attrib>
        </section>
        <attrib name="if_modified_since" type="boolean"> yes </attrib>
        <attrib name="javascript_keep_html" type="boolean"> no </attrib>
        <section name="limits">
            <attrib name="disk_free" type="integer"> 0 </attrib>
            <attrib name="disk_free_slack" type="integer"> 3 </attrib>
            <attrib name="max_doc" type="integer"> 0 </attrib>
            <attrib name="max_doc_slack" type="integer"> 1000 </attrib>
        </section>
        <section name="link_extraction">
            <attrib name="a" type="boolean"> yes </attrib>
            <attrib name="action" type="boolean"> yes </attrib>
            <attrib name="area" type="boolean"> yes </attrib>
            <attrib name="card" type="boolean"> yes </attrib>
            <attrib name="comment" type="boolean"> no </attrib>
            <attrib name="embed" type="boolean"> no </attrib>
            <attrib name="frame" type="boolean"> yes </attrib>
            <attrib name="go" type="boolean"> yes </attrib>
            <attrib name="img" type="boolean"> no </attrib>
            <attrib name="layer" type="boolean"> yes </attrib>
            <attrib name="link" type="boolean"> yes </attrib>
            <attrib name="meta" type="boolean"> yes </attrib>
            <attrib name="meta_refresh" type="boolean"> yes </attrib>
        </section>
        <section name="log">
            <attrib name="dsfeed" type="string"> text </attrib>
            <attrib name="fetch" type="string"> text </attrib>
            <attrib name="postprocess" type="string"> text </attrib>
            <attrib name="site" type="string"> text </attrib>
        </section>
        <attrib name="login_failed_ignore" type="boolean"> no </attrib>
        <attrib name="login_timeout" type="integer"> 300 </attrib>
        <attrib name="max_backoff_counter" type="integer"> 50 </attrib>
        <attrib name="max_backoff_delay" type="integer"> 600 </attrib>
        <attrib name="max_doc" type="integer"> 1000000 </attrib>
        <attrib name="max_pending" type="integer"> 2 </attrib>
        <attrib name="max_redirects" type="integer"> 10 </attrib>
        <attrib name="max_reflinks" type="integer"> 0 </attrib>
        <attrib name="max_sites" type="integer"> 128 </attrib>
        <attrib name="max_uri_recursion" type="integer"> 5 </attrib>
        <attrib name="mufilter" type="integer"> 0 </attrib>
        <attrib name="near_duplicate_detection" type="boolean"> no </attrib>
        <attrib name="obey_robots_delay" type="boolean"> no </attrib>
        <section name="pp">
            <attrib name="ds_max_ecl" type="integer"> 10 </attrib>
            <attrib name="ds_meta_info" type="list-string">
                <member> duplicates </member>
                <member> redirects </member>
                <member> mirrors </member>
                <member> metadata </member>
            </attrib>
            <attrib name="ds_paused" type="boolean"> no </attrib>
            <attrib name="ds_send_links" type="boolean"> no </attrib>
            <attrib name="max_dupes" type="integer"> 10 </attrib>
            <attrib name="stripe" type="integer"> 1 </attrib>
        </section>
        <section name="ppdup">
            <attrib name="compact" type="boolean"> yes </attrib>
        </section>
        <attrib name="proxy_max_pending" type="integer"> 2147483647 </attrib>
        <attrib name="refresh" type="real"> 1440.0 </attrib>
        <attrib name="refresh_mode" type="string"> scratch </attrib>
        <attrib name="refresh_when_idle" type="boolean"> no </attrib>
        <attrib name="robots" type="boolean"> yes </attrib>
        <attrib name="robots_auth_ignore" type="boolean"> yes </attrib>
        <attrib name="robots_timeout" type="integer"> 300 </attrib>
        <attrib name="robots_tout_ignore" type="boolean"> no </attrib>
        <attrib name="robots_ttl" type="integer"> 86400 </attrib>
        <section name="rss">
            <attrib name="auto_discover" type="boolean"> no </attrib>
            <attrib name="del_expired_links" type="boolean"> no </attrib>
            <attrib name="follow_links" type="boolean"> no </attrib>
            <attrib name="ignore_rules" type="boolean"> no </attrib>
            <attrib name="index_feed" type="boolean"> no </attrib>
            <attrib name="max_link_age" type="integer"> 0 </attrib>
            <attrib name="max_link_count" type="integer"> 128 </attrib>
        </section>
        <attrib name="smfilter" type="integer"> 0 </attrib>
        <attrib name="sort_query_params" type="boolean"> no </attrib>
        <attrib name="start_uris" type="list-string">
            <member> https://www.contoso.com </member>
        </attrib>
        <section name="storage">
            <attrib name="clusters" type="integer"> 8 </attrib>
            <attrib name="compress" type="boolean"> yes </attrib>
            <attrib name="compress_exclude_mime" type="list-string">
                <member> application/x-shockwave-flash </member>
            </attrib>
            <attrib name="datastore" type="string"> bstore </attrib>
            <attrib name="defrag_threshold" type="integer"> 85 </attrib>
            <attrib name="remove_docs" type="boolean"> no </attrib>
            <attrib name="store_dupes" type="boolean"> no </attrib>
            <attrib name="store_http_header" type="boolean"> yes </attrib>
        </section>
        <attrib name="truncate" type="boolean"> no </attrib>
        <attrib name="umlogs" type="boolean"> yes </attrib>
        <attrib name="uri_search_mime" type="list-string">
            <member> text/html </member>
            <member> text/vnd.wap.wml </member>
            <member> text/wml </member>
            <member> text/x-wap.wml </member>
            <member> x-application/wml </member>
            <member> text/x-hdml </member>
        </attrib>
        <attrib name="use_cookies" type="boolean"> no </attrib>
        <attrib name="use_http_1_1" type="boolean"> yes </attrib>
        <attrib name="use_javascript" type="boolean"> no </attrib>
        <attrib name="use_meta_csum" type="boolean"> no </attrib>
        <attrib name="use_sitemaps" type="boolean"> no </attrib>
        <section name="workqueue_priority">
            <attrib name="default" type="integer"> 1 </attrib>
            <attrib name="levels" type="integer"> 1 </attrib>
            <attrib name="pop_scheme" type="string"> default </attrib>
            <attrib name="start_uri_pri" type="integer"> 1 </attrib>
        </section>
   </DomainSpecification>
</CrawlerConfig>

Nota

Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.

See Also

Reference

Referencia de crawleradmin.exe

Concepts

Referencia de crawlerglobaldefaults.xml