Referencia de configuración XML del agente de búsqueda
Se aplica a: FAST Search Server 2010
Última modificación del tema: 2016-11-29
Importante
Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.
El agente de búsqueda de FAST Search automáticamente recupera información de sitios web y la pasa al índice de Microsoft FAST Search Server 2010 for SharePoint. El agente de búsqueda de FAST Search se configura mediante la creación de un archivo de configuración XML con el formato especificado en este artículo. A continuación, se debe enviar el archivo al agente de búsqueda mediante la crawleradmin.exeherramienta de línea de comandos.
El formato especificado en este documento también se utiliza elcrawlercollectiondefaults.Xmlarchivo que contiene todas los opciones/valores predeterminados para nuevas colecciones de rastreo. Cuando se modifica, cambia los valores predeterminados para todas las nuevas colecciones. Los valores predeterminados se utilizan para cualquier opción que no se especifica en la configuración de XML que se creó para una colección específica de rastreo.
Estos archivos de configuración deben tener el formato de acuerdo con el Esquema XML. Este documento incluye un Configuración sencilla y un ejemplo típico de un archivo de configuración. Información general de los elementos y secciones del archivo de configuración, consulte la tabla de referencia rápida de crawlercollectiondefaults.xml.
Terminología básica
Sitio Web hace referencia no a un sitio de SharePoint, pero el contenido en un sitio Web como, por ejemplo, www.contoso.com.
Nombre de host hace referencia a cualquier "contoso" en http://contoso/ o "download.contoso.com" en http://download.contoso.com/. Se puede ser bien completo o no. En este documento, la diferencia entre un sitio Web y un nombre de host es que un sitio Web se describe el sitio actual y su contenido, mientras que el nombre de host es el nombre de red que se utiliza para tener acceso a un servidor Web determinado. Un único sitio puede tener varios nombres de host.
Crear una nueva configuración de rastreo
Nota
Para modificar un archivo de configuración, compruebe que cumple los requisitos mínimos siguientes: es un miembro del grupo local de FASTSearchAdministrators en el equipo donde está instalado FAST Search Server 2010 for SharePoint.
Siga estos pasos para crear una nueva configuración de rastreo con el formato de la configuración de XML:
Copiar una de las tres plantillas de configuración de rastreo proporcionado que se encuentra en%FASTSEARCH%\Etcen un nuevo archivo comoMyCollection.xml, o crear un nuevo archivo. Edite el archivo en un editor de texto para incluir los elementos y valores de configuración que necesite.
Nota
Utilice un editor de texto (por ejemplo, el Bloc de notas) para cambiarcrawlercollectiondefaults.Xml. No utilice un editor XML de propósito general.
Ejecute crawleradmin.exe –f MyCollection.xml para agregar la configuración de rastreo para el Rastreador de datos. ReemplazarMyCollection.xmlcon el nombre que le asignó el archivo en el paso 1.
Consulte Referencia de crawleradmin.exe para obtener más información.
Personalizar crawlercollectiondefaults.xml
Advertencia
Se sobrescribe y se ha perdido si todos los cambios realizados en este archivo es:
-
Ejecute el cmdlet Windows PowerShell FASTSearchConfiguration del conjunto.
-
Instalar un paquete de actualización o el servicio de FAST Search Server 2010 for SharePoint.
No olvide volver a aplicar los cambios después de ejecutar el cmdlet de Set-FASTSearchConfiguration Windows PowerShell o instalar una actualización o el service pack de FAST Search Server 2010 for SharePoint.
Nota
Para modificar un archivo de configuración, compruebe que cumple los requisitos mínimos siguientes: es un miembro del grupo local de FASTSearchAdministrators en el equipo donde está instalado FAST Search Server 2010 for SharePoint.
Para modificar este archivo:
Editarcrawlercollectiondefaults.Xmlen un editor de texto para incluir los elementos y valores de configuración que necesite. Utilice el archivo existente en%FASTSEARCH\etc\como punto de partida.
Nota
Utilice un editor de texto (por ejemplo, el Bloc de notas) para cambiarcrawlercollectiondefaults.Xml. No utilice un editor XML de propósito general.
Ejecute nctrl.exe restart crawler para reiniciar el proceso de rastreador Web de búsqueda FAST con las opciones configuradas en el paso 1.
Referencia rápida de configuración de XML del Rastreador de Web
Esta tabla enumeran los elementos en el formato de la configuración del Rastreador de Web XML. Los elementos pueden aparecer en cualquier orden con las siguientes excepciones. CrawlerConfig contiene el elemento DomainSpecification. Los elementos primarios de SubDomainLogin y Node se producen dentro del elemento DomainSpecification. Los subelementos section y attrib pueden ocurrir en cualquiera de los elementos primarios, en cualquier orden. Los subelementos member deben aparecer dentro de un elemento attrib sólo.
<CrawlerConfig>
<DomainSpecification>
<SubDomain/>
<Login/>
<Node/>
<attrib>
<member/>
</attrib>
<section/>
</DomainSpecifcation>
</CrawlerConfig>
Normalmente, se incluirá tanto attrib y section subelementos SubDomainLogin y section elementos. El elemento Node puede contener todos estos elementos y subelementos.
Elemento | Descripción |
---|---|
CrawlerConfig |
Este elemento de nivel superior, se especifica que el XML siguiente es un objeto de configuración del Rastreador de Web. |
DomainSpecification |
Este elemento especifica una colección de rastreo. |
SubDomain |
Este elemento especifica la configuración de las colecciones de sub de rastreo. |
Inicio de sesión |
Este elemento se utiliza para la autenticación basada en formularios HTML. |
Node |
Este elemento anula los parámetros de configuración en una colección de rastreo o una colección de sub de rastreo para un programador de tareas de nodo concreto. |
attrib |
Este subelemento especifica un valor de configuración, por su valor o por un conjunto de elementos de miembro. |
miembro |
Este subelemento especifica un valor de configuración en una lista. |
sección |
Este subelemento especifica una sección que contiene varias opciones de configuración agrupados por tipo. Después de una tabla que enumera todas las secciones posibles. |
Esta tabla define las opciones de section en el formato de la configuración del Rastreador de Web XML. No se pueden realizar en las secciones dentro del elemento CrawlerConfig.
Nombre de sección | Descripción |
---|---|
include_domains |
Define un conjunto de filtros de nombre de host que especifique que los identificadores URI que se incluirán en una colección de rastreo |
exclude_domains |
Define un conjunto de filtros de nombre de host que especifique que los identificadores URI para excluir de una colección de rastreo |
include_uris |
Define un conjunto de reglas de identificador URI que especifica los identificadores URI que se incluirán en una colección de rastreo |
exclude_uris |
Define un conjunto de reglas de identificador URI que especifica los identificadores URI para excluir de una colección de rastreo |
registro |
Especifica el comportamiento del registro para el proceso de rastreador de Web |
almacenamiento de información |
Especifica el modo en que el Rastreador de Web almacena los metadatos y contenido |
PP |
Especifica el comportamiento de procesamiento de un programador de tareas de nodo de la entrada de blog |
ppdup |
Especifica la configuración de servidor duplicado |
alimentación |
Consta de un elemento de al menos un section que especifica cómo se debe enviar una representación de la colección de rastreo para el motor de indización |
cachesize |
Configura los tamaños de caché para el proceso de rastreador de Web |
http_errors |
Especifica cómo tratar los códigos de respuesta de error HTTP/HTTPS y condiciones |
ftp_errors |
Especifica cómo tratar los códigos de respuesta y condiciones de error para identificadores URI de FTP |
workqueue_priority |
Especifica los niveles de prioridad para las colas de rastreo y especifica los modos que se utiliza para insertar a los identificadores URI en y extraer a los identificadores URI de las colas y reglas |
link_extraction |
Especifica el tipo de hipervínculos seguir |
límites |
Especifica los límites de seguridad para una colección de rastreo |
centrado |
Configura el enfoque de programación |
passwd |
Configura las credenciales para sitios Web que requiere autenticación |
ftp_acct |
Especifican las cuentas FTP para rastrear los URI de FTP |
exclude_headers |
Especifica los elementos que se excluyen del rastreo, en función del contenido de los campos de encabezado HTTP |
variable_delay |
Especifica los intervalos de tiempo que se utilizan una velocidad de solicitud de retraso diferentes |
adaptable |
Especifica las opciones de rastreo adaptables |
pesos |
Cada URI se proporciona una calificación en el proceso de rastreo adaptable. La sección weights debe tener lugar dentro de una sección adaptive. |
sitemap_weights |
las entradas de <URL> en un mapa del sitio pueden contener un elemento de changefreq, que se especifica con qué frecuencia se puede modificar una dirección URI. Los valores de cadena se convierten en un peso numérico para el rastreo adaptable. La sección sitemap_weights debe aparecer en una sección adaptive. |
site_clusters |
Especifica los parámetros de configuración que reemplazan el comportamiento habitual del Rastreador de enrutamiento de los nombres de host en un programador de tareas de nodo |
crawlmode |
Limita la duración de una colección de rastreo |
post_payload |
Envía el contenido a las solicitudes POST de HTTP |
RSS |
Inicializa y configura la fuente RSS soporte en una colección de rastreo |
inicios de sesión |
Se trata de un caso especial de un elemento Login; varios elementos Login se combinan en una sección logins. Se requiere una sección logins o en uno o varios elementos Login al definir la autenticación basada en formularios HTML. Debe utilizar logins para quitar un inicio de sesión debido a la forma en que funcionan las configuraciones de parciales. Tenga en cuenta que al exportar una configuración desde el explorador con crawleradmin devuelve el elemento Login. |
parámetros |
Establece las credenciales de autenticación que se utilizan en un formulario HTML. Debe aparecer en un elemento Login o una sección logins. |
subdominios |
Especifica la configuración de las colecciones de sub de rastreo. Se trata de un caso especial de un elemento SubDomain; varios elementos SubDomain se combinan en una sección subdomains. You must use subdomains to remove a subdomain because of the way partial configurations work. Note that exporting a configuration from the crawler with crawleradmin returns the SubDomain element. |
Formato de archivo de configuración XML del Rastreador de Web
Los elementos XML en el archivo de configuración comienzan con <
y terminan con />
.
El formato de elemento básico es el siguiente:
<attrib name=" valor " type=" valor "> valor </attrib>
Por ejemplo:
<attrib name="accept_compression" type="boolean"> yes </attrib>
Elements, section names, attributes, and attribute values are case-sensitive. Attribute names and types must be enclosed in quotation marks (" ").An element definition can span multiple lines. En una definición de elemento se omiten los espacios, retornos de carro, avances de línea y caracteres de tabulación.
Por ejemplo:
<attrib
name=" accept_compression "
type="boolean"
> yes </attrib
>
Sugerencia
Las definiciones de parámetro largo, coloque los valores en líneas independientes y utiliza la sangría para facilitar la lectura de archivo.
El elemento <CrawlerConfig>
es un caso especial y es necesario. Todos los demás elementos se encuentran dentro del elemento <CrawlerConfig>
y se cierra el elemento con </CrawlerConfig>.
La estructura básica del archivo XML está en el ejemplo siguiente:
<?xml version="1.0"?>
<CrawlerConfig>
<DomainSpecification>
...
</DomainSpecification>
</CrawlerConfig>
Puede agregar comentarios en cualquier lugar, delimitados por <!--
y -->
.
CrawlerConfig
Este elemento de nivel superior, se especifica que el XML siguiente es un objeto de configuración del Rastreador de Web. Un archivo de configuración del Rastreador de Web puede contener sólo un elemento XML de CrawlerConfig.
DomainSpecification
Este elemento especifica una colección de rastreo.
Ejemplo
<CrawlerConfig>
<DomainSpecification name="sp">
...
</DomainSpecification>
</CrawlerConfig>
Reemplazar "sp"
con el nombre de la colección de rastreo.
attrib
Este elemento especifica una opción de configuración, un valor único o una lista mediante el elemento member.
Atributos
Nombre | Tipo | Valor | Significado |
---|---|---|---|
info |
Cadena |
Descripción de la colección de rastreo. |
|
fetch_timeout |
entero |
<seconds> |
Especifica el máximo tiempo, en segundos, para un elemento Web de descarga. Aumente este valor si desea descargar elementos Web de gran tamaño desde servidores Web de baja velocidad. De forma predeterminada: 300 |
allowed_types |
cadena de la lista |
Especifica los tipos de MIME de elementos Web válidos. El proceso de rastreador Web descarta otros tipos MIME. Este parámetro de configuración admite la expansión de comodines de un campo completo. Los caracteres comodín se representan mediante un carácter de asterisco. Por ejemplo: "texto / *"o"* / *"pero no"* / html"o"aplicación / ms *". De forma predeterminada:
|
|
force_mimetype_detection |
Booleanos |
yes|no |
Especifica que el proceso de rastreador Web utiliza su propio detección de tipo MIME en los elementos. En la mayoría de los casos, los servidores Web devuelven el tipo MIME de los elementos Web cuando se descargan, como parte del encabezado HTTP. Si esta opción está habilitada, los elementos Web obtener se etiquetan con el tipo MIME que tiene un aspecto más preciso: el uno recibido desde el servidor Web o el resultado de la detección del Rastreador de datos. De forma predeterminada: no |
allowed_schemes |
cadena de la lista |
HTTP HTTPS FTP |
Especifica los esquemas de URI que debe procesar el Rastreador de Web. De forma predeterminada: HTTP |
ftp_passive |
Booleanos |
yes|no |
Especifica que el Rastreador de Web utiliza el modo FTP pasivo. De forma predeterminada: Sí |
domain_clustering |
Booleanos |
yes|no |
Especifica si se va a enrutar los nombres de host del mismo dominio en el mismo proceso del Administrador de sitio. Es útil cuando se trabaja con los nombres de host que se deben compartir la información como, por ejemplo, las cookies, ya que esta información no se intercambia entre los procesos del Administrador de sitio. Si habilita esta opción en una configuración de varios nodos, nombres de host en el mismo dominio (por ejemplo,www.contoso.comyforums.contoso.com) también se enrutará al misma programador del nodo. El valor predeterminado para un único nodo: no El valor predeterminado para varios nodos: Sí |
max_inter_docs |
entero |
número entero, o sin valor |
Especifica el número máximo de elementos rastrear antes de procesamiento simultáneo de sitios Web. De forma predeterminada, el Rastreador rastreará a un sitio Web a agotarse, o hasta que se alcanza el número máximo de elementos de Web por el sitio Web. Sin embargo, el Rastreador de datos puede configurarse para rastreo "lotes" de elementos Web desde sitios Web a la vez, entre los sitios Web de la intercalación. Este atributo especifica el número de elementos Web para rastrear de forma consecutiva desde un servidor antes de que el Rastreador intercala y comienza a rastrear otros servidores. Devuelve el Rastreador de datos para rastrear el servidor anterior cuando se liberan recursos. De forma predeterminada: vacío (deshabilitado) |
max_redirects |
entero |
<value> |
Especifica que el número máximo de HTTP redirige seguir desde un identificador URI. De forma predeterminada: 10 |
diffcheck |
Booleanos |
yes|no |
Especifica que el rastreador Web realiza la detección de duplicados. Se realiza la detección de duplicados al comprobar si dos o más elementos Web tienen el mismo contenido. De forma predeterminada: Sí |
near_duplicate_detection |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe utilizar un algoritmo de detección de duplicados menos estricto. En este caso, los elementos duplicados se detectan mediante la identificación de un único patrón de palabras. De forma predeterminada: no |
max_uri_recursion |
entero |
<value> |
Utilice este atributo para comprobar si hay patrones en los indicadores URI de repetición. La opción especifica el número máximo de veces que se puede repetir un patrón antes de que el identificador URI resultante se descarta. El valor 0 deshabilita la prueba. Por ejemplo:https://www.contoso.com/widgetVincular ahttps://www.contoso.com/widget/widgetes una repetición del elemento de 1. Valor predeterminado: 5 |
ftp_searchlinks |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe buscar los hipervínculos de los elementos descargados desde servidores FTP. De forma predeterminada: Sí |
use_javascript |
Booleanos |
yes|no |
Especifica si se debe habilitar la compatibilidad con JavaScript en el Explorador de Web. Si se habilita, el Rastreador de Web descargar, análisis y ejecución y extraer los vínculos desde cualquier código JavaScript externo. Nota El procesamiento de JavaScript se utiliza muchos recursos y no debe estar habilitado para los rastreos de gran tamaño. Nota Procesamiento de JavaScript, utiliza el componente del motor del explorador. Para obtener más información, vea Referencia de beconfig.xml. De forma predeterminada: no |
javascript_keep_html |
Booleanos |
yes|no |
Especifica qué se debe enviar al motor de indización. Si este parámetro se establece en yes, se utiliza el código HTML que da como resultado de la transformación de JavaScript. De lo contrario, se utiliza el elemento HTML original. No utilice esta opción si no se ha establecido el parámetro de configuración use_javascript a yes. |
javascript_delay |
real |
<seconds> Un valor vacío significa que el Rastreador de Web utiliza el mismo valor que el parámetro de configuración delay |
Especifica el retardo en segundos, se utiliza cuando se va a recuperar las dependencias asociadas a un elemento HTML con JavaScript. De forma predeterminada: 0 (sin retraso) |
exclude_exts |
cadena de la lista |
lista de delimitada por comas de < de file_extensions > |
Especifica las extensiones de nombre de archivo que deben excluirse por el rastreo. Lista de forma predeterminada: vacío |
use_http:1 |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe utilizar HTTP/1.1. Cuando se establece en no, se utiliza HTTP/1.0. De forma predeterminada: Sí |
accept_compression |
Booleanos |
yes|no |
Specifies that the Web crawler should accept compressed Web items from the Web server. This parameter has no effect if the use_http:1 configuration parameter is not enabled. De forma predeterminada: Sí |
dbswitch |
entero |
<value> |
Especifica el número de ciclos de rastreo que un elemento de Web puede permanecer en el almacén de rastreo y el índice sin haber encontrado por el Explorador de Web, antes de eliminarlo. El parámetro dbswitch_delete determina la acción que se debe realizar para elementos Web que no se ven este número de ciclos de rastreo. Nota Si el valor muy bajo 1 o 2 se pueden eliminar accidentalmente elementos Web. Valor predeterminado: 5 |
dbswitch_delete |
Booleanos |
yes|no |
El rastreador Web intenta detectar los elementos Web que se han quitado de los servidores Web. Este parámetro determina qué hacer con los elementos Web. Se pueden eliminar inmediatamente o en la cola de trabajos de recuperación para asegurarse de que ya no están disponibles. Cuando se establece en yes, elementos Web que son demasiado antiguos se eliminan. Cuando se establece en no, elementos Web están programados para re-retrieval y sólo se eliminan si ya no existen en el servidor Web. Esta comprobación se realiza de forma independiente para cada sitio Web, al principio de cada ciclo de actualización. Nota Esta opción debe tener el valor predeterminado. De forma predeterminada: no |
html_redir_is_redir |
Booleanos |
yes|no |
Utilice este parámetro con html_redir_thresh para tratar las etiquetas META Refresh dentro de los elementos HTML de Web como si fueran redirecciones HTTP. Cuando está habilitado, no se indizará el elemento Web que contiene la actualización de la META. Cuando está deshabilitada, que se tratan como regulares de los elementos Web y se indizan. De forma predeterminada: Sí |
hmtl_redir_threshold |
entero |
<value> |
Especifica el número máximo de segundos que una etiqueta META Refresh dentro de un elemento Web de HTML se puede tratar como una redirección HTTP. Este parámetro se omite si no se ha establecido html_redir_is_redir. Considere el siguiente ejemplo:
Si el número que se especifica en el atributo Valor predeterminado: 3 |
robots_ttl |
entero |
<seconds> |
Especifica con qué frecuencia se debe recuperar el Rastreador de Web delrobots.txtarchivo de un sitio Web. Especifique la frecuencia en segundos. De forma predeterminada: 86400 |
use_sitemaps |
Booleanos |
yes|no |
Habilita el Rastreador de Web descubrir y analizar sitemaps. El Rastreador de Web utiliza el atributo lastmod en un mapa del sitio para determinar si un elemento Web se ha modificado desde la última vez que se ha recuperado el mapa del sitio. No se re-crawled elementos Web que no se han modificado. Una excepción es si la colección de usesadaptive actualizar modo. En el modo de actualización adaptable, el Rastreador de datos utiliza priority de un mapa de sitio y los atributos de changefreq para determinar con qué frecuencia se debe rastrear un elemento Web. Otras etiquetas que se encuentra en sitemaps se almacenan en la base de datos del Rastreador de la meta y se envían a la indización de las propiedades rastreadas. Nota La mayoría de sitemaps se especifican enrobots.txt. Por lo tanto, el atributo robots debe beenabled para obtener los mejores resultados. De forma predeterminada: no |
max_pending |
entero |
<value> |
Especifica el número máximo de solicitudes simultáneas de HTTP para un único sitio Web en cualquier momento. De forma predeterminada: 2 |
robots_auth_ignore |
Booleanos |
yes|no |
Especifica si se debe pasar por alto el Rastreador de Webrobots.txtSi el servidor Web devuelve un HTTP 40 x error de autenticación. Cuando se establece en no, el Rastreador de Web no rastrea el sitio Web al que se produzca el error. Elrobots.txtestándar, muestra este comportamiento como una sugerencia para los rastreadores Web pasar por alto el sitio Web por completo. Sin embargo, una configuración incorrecta de un servidor Web incorrectamente puede excluir un sitio desde el rastreo. Habilitar esta opción para asegurarse de que se rastrea el sitio Web. De forma predeterminada: Sí |
robots_tout_ignore |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe tener en cuenta elrobots.txtreglas de si la solicitud derobots.txttiempo de espera. Antes de rastrear un sitio Web, el Rastreador de Web solicita larobots.txtarchivo desde el servidor Web. Por elrobots.txtestándar, si la solicitud de este archivo se agota, el sitio Web no se rastreará. Si se establece este parámetro en yes pasa por alto elrobots.txtlas reglas en este caso y el sitio Web se rastrea. Nota Se recomienda mantener esta opción se establece a no si no es el propietario del sitio Web que se están rastreando. De forma predeterminada: no |
rewrite_rules |
cadena de la lista |
Especifica un conjunto de reglas que se utilizan para volver a escribir a los identificadores URI. Una regla de reescritura tiene dos componentes: una expresión de coincidencia ( El formato de la regla de reescritura es como sigue: |
|
extract_links_from_dupes |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe extraer los hipervínculos de los elementos duplicados de Web. Incluso cuando dos elementos Web tienen contenido duplicado, es posible que tienen hipervínculos diferentes, lo que podrían causar más contenido que se encuentra el Rastreador de Web. De forma predeterminada: no |
use_meta_csum |
Booleanos |
yes|no |
Especifica que el Rastreador de Web incluye las etiquetas META en la firma digital generada de detección de duplicados. De forma predeterminada: no |
csum_cut_off |
entero |
<value> |
Especifica el número máximo de bytes que se utilizará para generar la huella digital de detección de duplicados. Si este parámetro se establece en 0, la característica está deshabilitada (es decir, un número ilimitado/todos los bytes se va a utilizar). De forma predeterminada: 0 |
if_modified_since |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe enviar los encabezados HTTP que contienen un valor de De forma predeterminada: Sí |
use_cookies |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe enviar y almacenar las cookies. Esta característica se habilita automáticamente para los sitios Web que utilice un inicio de sesión, pero también se puede activar para todos los sitios Web. De forma predeterminada: no |
uri_search_mime |
cadena de la lista |
<values> |
Especifica los tipos MIME de la que el rastreador Web extrae los hipervínculos. Este parámetro de configuración admite la expansión de comodines sólo en el nivel de campo completo. Un carácter comodín está representado por el carácter de asterisco; por ejemplo, De forma predeterminada:
|
max_backoff_counter |
entero |
<value> |
Junto con max_backoff_delay, esta opción controla el algoritmo que un sitio Web que se producen errores de conexión se pone en contacto con menos frecuencia. Para cada error de red consecutivas, el retraso de solicitud de ese sitio Web se incrementa en la configuración original de retraso, hasta un máximo de segundos de max_backoff_delay. Este retraso se mantiene hasta que se está completando una solicitud de correctamente, pero no más que max_backoff_counter el número de solicitudes. Si se alcanza el número máximo, el rastreo del sitio Web se detiene temporalmente. En caso contrario, cuando se resuelven los problemas de red que afectan a los sitios Web, el contador interno multiplicador comienza reduciendo, y se reduce el retraso de solicitud en la mitad de cada descarga correcta de elemento Web hasta que se alcanza el valor original de retraso. De forma predeterminada: 50 |
max_backoff_delay |
entero |
<seconds> |
Consulte max_backoff_counter. Valor predeterminado: 600 |
delay |
real |
<seconds> |
Especifica la frecuencia (en segundos) que el Rastreador de Web puede recuperar un elemento Web de un sitio Web. De forma predeterminada: 60.0 |
refresh |
real |
<minutes> |
Especifica la frecuencia (en minutos) del Rastreador de Web debe iniciar un nuevo ciclo de actualización de rastreo. La acción que se realiza en el momento de refresh viene determinada por el valor de refresh_mode. De forma predeterminada: 1500.0 |
robots |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe cumplir las reglas que se encuentra enrobot.txtarchivos. De forma predeterminada: Sí |
start_uris |
cadena de la lista |
Especifica iniciar los identificadores URI para el Rastreador de Web. El Rastreador de Web debe start_uris o de start_uri_files para comenzar el rastreo. Nota Si el rastreo incluye todos los nombres de host IDNA, especifíquelos utilizando UTF-8 caracteres, no en el DNS formato codificado. |
|
start_uri_files |
cadena de la lista |
Especifica el inicio de una lista de archivos que contienen los identificadores URI. Estos archivos se almacenan en formato de archivo de texto sin formato, con un identificador URI de inicio por línea. Nota En una implementación de varios nodos, estos archivos sólo deben estar disponibles en el servidor que ejecuta al programador de varios nodos. |
|
max_sites |
entero |
<value> |
Especifica el número máximo de sitios Web que se puede rastrear al mismo tiempo. En una implementación de rastreador Web de varios nodos, este valor aplica por el programador de nodo, no para el Rastreador de Web completo. Por ejemplo, si max_sites se establece en 5 y tiene 10 sitios al rastrear, 5 sitios deben finalizar antes de que el Rastreador de datos puede rastrear los otros 5 el rastreo. Nota Un valor alto max_sites puede afectar negativamente el uso de recursos del sistema. De forma predeterminada: 128 |
mirror_site_files |
cadena de la lista |
Especifica una lista de archivos que contienen sitios de réplica para un nombre de host especificado. Un sitio de réplica es una réplica de un sitio Web ya existente. Este archivo utiliza el formato siguiente: un archivo de texto sin formato que tiene una lista separada por espacios de nombres de host con el nombre preferido que se enumeran en primer lugar. Nota En un nodo implementación de rastreador Web múltiples, este archivo debe estar disponible en todos los servidores donde se implementa un programador de tareas de nodo. |
|
proxy |
cadena de la lista |
Especifica un conjunto de servidores proxy HTTP utilizados por el Rastreador de Web para recuperar los elementos Web. Cada servidor proxy se especifica con el formato siguiente:
La contraseña puede cifrarse como especificada en contraseña. |
|
proxy_max_pending |
entero |
<value> |
Especifica el límite del número de conexiones abiertas pendientes por el proxy HTTP. De forma predeterminada: valor máximo de Int32 |
headers |
cadena de la lista |
<header> |
Especifica los encabezados HTTP adicionales para agregar a la solicitud enviada a los servidores Web. El valor predeterminado actual es la siguiente: |
cut_off |
entero |
Especifica el número máximo de bytes en un elemento. Un elemento Web que supera este límite de tamaño se descartan o truncado en función del valor del parámetro de configuración se trunca. Si no se especifica ningún parámetro de configuración cut_off, esta opción está deshabilitada. De forma predeterminada: no hay límite. |
|
truncate |
Booleanos |
yes|no |
Especifica si se debe truncar un elemento Web cuando un elemento Web supera el umbral de cut_off especificado. De forma predeterminada: Sí |
check_meta_robots |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe seguir las directivas de Por ejemplo, podría ser una etiqueta META de típica:
O bien
El valor especial de De forma predeterminada: Sí |
obey_robots_delay |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe seguir la directiva de retraso de rastreo (si existe) enrobots.txtarchivos. De lo contrario, se utiliza la configuración de delay. De forma predeterminada: no |
key_file |
Cadena |
Especifica la ruta de acceso de un archivo de clave de certificado de cliente SSL que se utiliza para las conexiones HTTPS. Esta característica se utiliza para sitios Web que requieren el Rastreador de Web que se autentique con un certificado de cliente. Esta opción debe utilizarse con cert_file. Nota En una implementación de rastreador Web de varios nodos, el archivo debe estar en todos los programadores de nodo. |
|
cert_file |
Cadena |
Especifica la ruta de acceso de un archivo de certificados X 509 cliente que se utiliza para las conexiones HTTPS. Esta opción debe utilizarse con key_file. |
|
max_doc |
entero |
<value> |
Especifica el número máximo de elementos Web para descargar desde un sitio Web. De forma predeterminada: 100000 |
enforce_delay_per_ip |
Booleanos |
yes|no |
Especifica que el rastreador Web limita las solicitudes a servidores de Web cuyos nombres se asignan a una dirección IPv4 o IPv6 compartida. Este parámetro depende de los parámetros de configuración delay. De forma predeterminada: Sí |
wqfilter |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe utilizar un filtro de bloom que quita los duplicados de identificadores URI de las colas de rastreo. De forma predeterminada: Sí |
smfilter |
entero |
<value> |
Especifica el número máximo de bits en el filtro de bloom que quita los duplicados de identificadores URI de la cola asociada con el programador de nodo. Un filtro en blanco es una estructura de datos aprovecha el espacio de probabilidad (una matriz de bits) que se utiliza para comprobar si un elemento es un miembro de un conjunto determinado. La prueba es necesario crear un falso positivo, pero nunca un negativo es false. De forma predeterminada: 0 |
mufilter |
entero |
<value> |
Especifica el número máximo de bits que se utilizan en el filtro de bloom, que quita los duplicados de identificadores URI, que se envían desde un programador de tareas de nodo a un programador de tareas múltiples nodos. Se recomienda activar este filtro para los rastreos de gran tamaño, con un valor de 500000000 (500 megabits). De forma predeterminada: 0 |
umlogs |
Booleanos |
yes|no |
Especifica si todo el registro se envía al programador de varios nodos para el almacenamiento. Si este parámetro no está habilitada, los registros sólo residen en los programadores de nodo. De forma predeterminada: Sí |
sort_query_params |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe ordenar los parámetros en el componente de consulta de un identificador URI. Normalmente, los componentes de la consulta son pares de clave y valor separados por puntos y comas o signos de y comercial. Cuando se establece este parámetro de configuración, la consulta está ordenada alfabéticamente por nombre de la clave. De forma predeterminada: no |
robots_timeout |
entero |
<seconds> |
Especifica el número máximo de segundos que puede utilizar el Rastreador de Web para descargar unrobots.txtarchivo. De forma predeterminada: 300 |
login_timeout |
entero |
<seconds> |
Especifica el número máximo de segundos que puede utilizar el Rastreador de Web para una solicitud de inicio de sesión. De forma predeterminada: 300 |
send_links_to |
Cadena |
Especifica un nombre de la colección de rastreo a las que se envían todos los hipervínculos extraídos. |
|
cookie_timeout |
entero |
<seconds> |
Especifica el número máximo de segundos que se almacena una cookie de sesión. Una cookie de sesión es una cookie que no tiene una fecha de caducidad. De forma predeterminada: 300 |
refresh_when_idle |
Booleanos |
yes|no |
Especifica si el Rastreador de Web, desencadena un ciclo de actualización de rastreo nuevo cuando esté inactivo. Esta opción no debe utilizarse en una instalación de varios nodos. De forma predeterminada: no |
refresh_mode |
Cadena |
append|prepend|scratch|soft|adaptive |
Especifica el modo de actualización de una colección de rastreo. Los valores válidos son:
Valor predeterminado: cero |
Ejemplos
<attrib name="delay" type="real"> 60.0 </attrib>
<attrib name="max_doc" type="integer"> 10000 </attrib>
<attrib name="use_javascript" type="boolean"> no </attrib>
<attrib name="info" type="string">
My Web crawl collection crawling my intranet.
</attrib>
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
miembro
Especifica un elemento en una lista de valores de opción.
El elemento member sólo se puede utilizar dentro de un elemento attrib.
Ejemplo
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
Sección
Este elemento agrupa un conjunto de opciones relacionadas. Un elemento section contiene elementos attrib.
Atributos
Atributo | Valor | Descripción |
---|---|---|
Nombre |
<name> |
Especifica el nombre de la sección. Las secciones admitidas se describen en este artículo. |
Ejemplo
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> no </attrib>
<attrib name="fwdredirects" type="boolean"> no </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
include_domains
En esta sección es un conjunto de filtros de nombre de host que especifique que los identificadores URI que se incluirán en una colección de rastreo. Una sección vacía coincide con cualquier nombre de host.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
exact |
cadena de la lista |
Especifica una lista de nombres de host. Si el nombre de host de un identificador URI coincide exactamente uno de estos nombres de host, se incluye el identificador URI con esta regla. |
|
prefix |
cadena de la lista |
Especifica una lista de nombres de host. Si el nombre de host de una dirección URI comienza con uno de estos nombres de host, se incluye el identificador URI con esta regla. |
|
suffix |
cadena de la lista |
Especifica una lista de nombres de host. Si el nombre de host de un identificador URI se termina con uno de estos nombres de host, se incluye el identificador URI con esta regla. |
|
regexp |
cadena de la lista |
Especifica una lista de expresiones regulares. Si el nombre de host de un identificador URI coincide con una de estas expresiones regulares, se incluye el identificador URI con esta regla. |
|
ipmask |
cadena de la lista |
Especifica una lista de máscaras de direcciones de IPv4. If the IPv4 address of a retrieved URI matches one of these IPv4 address masks, the URI is include by this rule. An IPv4 address mask must follow one of the following formats:
|
|
ip6mask |
cadena de la lista |
Especifica una lista de máscaras de direcciones de IPv6. Si la dirección IPv6 de un identificador URI recuperado coincide con una de estas máscaras de direcciones de IPv6, se incluye el identificador URI con esta regla. Una máscara de dirección IPv6 debe seguir uno de los siguientes formatos:
|
Ejemplo
<section name="include_domains">
<attrib name="exact" type="list-string">
<member> www.contoso.com </member>
<member> www2.contoso.com </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> www </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> .contoso.com</member>
<member> .contoso2.com</member>
</attrib>
<attrib name="regexp" type="list-string">
<member> .*\.contoso\.com </member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myinclude_domains.txt </member>
</attrib>
</section>
exclude_domains
En esta sección es un conjunto de filtros de nombre de host que especifique que los identificadores URI para excluir de una colección de rastreo. Una sección vacía no coincidirá con cualquier nombre de host.
Atributos
Consulte la tabla include_domains para los elementos de attrib para esta sección.
Ejemplo
<section name="exclude_domains">
<attrib name="exact" type="list-string">
<member> www.contoso.com </member>
<member> www2.contoso.com </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> www </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> .contoso.com</member>
<member> .contoso2.com</member>
</attrib>
<attrib name="regexp" type="list-string">
<member> .*\.contoso\.com </member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myexclude_domains.txt </member>
</attrib>
</section>
include_uris
En esta sección es un conjunto de reglas de identificador URI que especifica los identificadores URI que se incluirán en una colección de rastreo. Una sección vacía coincidirán con todos los identificadores URI.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
exact |
cadena de la lista |
Especifica una lista de identificadores URI. Si un identificador URI coincide exactamente uno de estos URI, se incluye el identificador URI con esta regla. |
|
prefix |
cadena de la lista |
Especifica una lista de cadenas. Si una dirección URI comienza con una de estas cadenas, se incluye el identificador URI con esta regla. |
|
suffix |
cadena de la lista |
Especifica una lista de cadenas. Si un identificador URI que se termina con una de estas cadenas, se incluye el identificador URI con esta regla. |
|
regexp |
cadena de la lista |
Especifica una lista de expresiones regulares. If a URI matches one of these regular expressions, the URI is included by this rule. |
Ejemplo
<section name="include_uris">
<attrib name="exact" type="list-string">
<member> https://www.contoso.com/documents/doc2.html </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/documents/ </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> /doc2.html </member>
</attrib>
<attrib name="regexp" type="list-string">
<member> http://.*\.contoso\.com/documents.*</member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myinclude_uris.txt </member>
</attrib>
</section>
exclude_uris
En esta sección es un conjunto de reglas de identificador URI que especifica los identificadores URI para excluir de una colección de rastreo. Una sección vacía no coincidirán con los identificadores URI.
Atributos
Consulte la tabla include_uris para los elementos de attrib para esta sección.
Ejemplo
<section name="exclude_uris">
<attrib name="exact" type="list-string">
<member> https://www.contoso.com/documents/doc2.html </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/documents/ </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> /doc2.html </member>
</attrib>
<attrib name="regexp" type="list-string">
<member> http://.*\.contoso\.com/documents.*</member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myexclude_uris.txt </member>
</attrib>
</section>
registro
En esta sección especifica el comportamiento del registro para el proceso de rastreador Web.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
fetch |
Cadena |
text|none |
Enable/disable logging of downloaded Web items. Los valores válidos son:
De forma predeterminada: texto |
postprocess |
Cadena |
text|xml|none |
Enable/disable logging of node scheduler item post processing. Los valores válidos son:
De forma predeterminada: texto |
header |
Cadena |
text|none |
Enable/disable logging of HTTP headers. Los valores válidos son:
|
screened |
Cadena |
text|none |
Enable/disable logging of all screened URIs. Los valores válidos son:
|
scheduler |
Cadena |
text|none |
Enable/disable logging of adaptive crawling. Los valores válidos son:
|
dsfeed |
Cadena |
text|none |
Enable/disable the logging of content submission to the indexing engine. Los valores válidos son:
|
site |
Cadena |
text|none |
Enable/disable logging per crawl site. Los valores válidos son:
|
Ejemplo
<section name="log">
<attrib name="dsfeed" type="string"> text </attrib>
<attrib name="fetch" type="string"> text </attrib>
<attrib name="postprocess" type="string"> text </attrib>
<attrib name="screened" type="string"> none </attrib>
<attrib name="site" type="string"> text </attrib>
</section>
Almacenamiento
En esta sección especifica el modo en que el rastreador Web almacena datos y metadatos.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
datastore |
Cadena |
flatfile|bstore |
Specifies the format for Web item content storage. Los valores válidos son:
De forma predeterminada: bstore |
store_http_header |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe almacenar en el encabezado HTTP recibido. De forma predeterminada: Sí |
store_dupes |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe almacenar duplicados de los elementos Web. De forma predeterminada: no |
compress |
Booleanos |
yes|no |
Especifica que se deben comprimir elementos descargados antes de almacenarlos. De forma predeterminada: Sí |
compress_exclude_mime |
cadena de la lista |
Especifica un conjunto de tipos MIME de los elementos Web que no deben comprimirse cuando se almacenan. Uso de elementos Web que ya están comprimidos, por ejemplo, multimedia de formatos. Si no se establece el parámetro de configuración compress, este parámetro no es aplicable. |
|
remove_docs |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe eliminar los elementos Web desde el almacén de rastreador Web tan pronto como se envían al motor de indización. Esto reducirá los requisitos de espacio de disco para el Rastreador de Web, pero le resultará imposible refeed. De forma predeterminada: no |
clusters |
entero |
<value> |
Especifica el número de clústeres se utiliza para el almacenamiento de una colección de rastreo. Elementos Web se distribuyen entre estos clústeres de almacenamiento. De forma predeterminada: 8 |
defrag_threshold |
entero |
<percentage> |
Un valor distinto de cero que especifica el valor de umbral (de la capacidad de uso) antes de desfragmentar un archivo de almacenamiento de datos. Cuando el espacio utilizado es menor que thedefrag_threshold, el archivo es elegible para la desfragmentación recuperar espacio fragmentado, causado por los elementos almacenados del Web. Los archivos de base de datos se compactan con independencia del nivel de fragmentación. El valor predeterminado de 85% significa que debe haber espacio reclaimable del 15% en el archivo de almacenamiento de datos para desencadenar la desfragmentación. El valor 0 deshabilita la desfragmentación. Esta opción sólo es aplicable al valor del atributo storage_format De forma predeterminada: 85 |
uri_dir |
Cadena |
<path> |
Especifica una ruta de acceso para almacenar las listas de archivos de todos los hipervínculos que se extraen de los elementos Web. Cada proceso del Administrador de sitio utiliza un archivo independiente. El nombre de un identificador URI de archivo se crea concatenando el PID del proceso con |
Ejemplo
<section name="storage">
<attrib name="store_dupes" type="boolean"> no </attrib>
<attrib name="datastore" type="string"> bstore </attrib>
<attrib name="compress" type="boolean"> yes </attrib>
</section>
PP
En esta sección especifica el comportamiento de procesamiento de un programador de tareas de nodo de la entrada de blog. Posterior al procesamiento consta de dos tareas principales: alimentar a los elementos Web en el índice y realizar la detección de duplicados.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
use_dupservers |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe utilizar uno o más servidores duplicados. Esta opción es aplicable únicamente en una instalación de varios nodos. De forma predeterminada: no |
max_dupes |
entero |
<value> |
Especifica el número máximo de registro por cada elemento Web de elementos duplicados. De forma predeterminada: 10 |
stripe |
entero |
<value> |
Especifica el número de archivos de datos para distribuir los datos de la suma de comprobación en. Al aumentar este valor puede mejorar el rendimiento del procesamiento de entrada. De forma predeterminada: 1 |
ds_meta_info |
cadena de la lista |
duplicates|redirects|mirrors|metadata |
Especifica el tipo de metadatos que se debe informar de un programador de tareas de nodo para el motor de indización. Los valores válidos son: duplicates: informa de los identificadores URI que sean duplicados de este artículo. redirects: informa de los identificadores URI que se le redirige a este elemento metadata: informa de los datos de metadatos de este artículo. mirrors: todos reflejan los URI de este elemento Web de informes |
ds_max_ecl |
entero |
<value> |
Especifica el número máximo de elementos duplicados o redirige a un informe para el motor de indización, según lo especificado por el parámetro de configuración ds_meta_info. De forma predeterminada: 10 |
ecl_override |
Cadena |
Especifica una expresión regular que identifica la redirección y los duplicados de identificadores URI que se deben almacenar y, posiblemente, se envía al motor de indización, incluso si se alcanza max_dupes. Por ejemplo: |
|
ds_send_links |
Booleanos |
yes|no |
Especifica si se deben enviar todos los hipervínculos extraídos de un elemento Web para el motor de indización. |
ds_paused |
Booleanos |
yes|no |
Especifica si un programador de tareas de nodo debe suspender la presentación de contenido para el motor de indización. |
Ejemplo
<section name="pp">
<attrib name="max_dupes" type="integer"> 10 </attrib>
<attrib name="use_dupservers" type="boolean"> yes </attrib>
<attrib name="ds_paused" type="boolean"> no </attrib>
</section>
ppdup
En esta sección especifica la configuración de servidor duplicado.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
format |
Cadena |
gigabase|hashlog|diskhashlog |
Especifica el formato de base de datos de servidor duplicado. Los valores válidos son:
|
cachesize |
entero |
<megabytes> |
Especifica el tamaño de caché de base de datos de servidor duplicado en megabytes. Si se establece el parámetro de configuración formathashlog o diskhashlog este parámetro especifica el tamaño inicial de la tabla hash. |
stripes |
entero |
<value> |
Especifica el número de archivos de datos para distribuir contenido. Mediante el uso de varios archivos, puede mejorar el rendimiento de la base de datos de servidor duplicado. |
compact |
Booleanos |
yes|no |
Especifica si debe realizar la compactación de la base de datos de servidor duplicado. Los formatos hashlog y diskhashlog, se debe realizar compactación manualmente con la crawlerdbtool o bien automáticamente al habilitar esta opción. De lo contrario, aumente el uso de disco para todos los registros escritos o actualizado. De forma predeterminada: Sí |
Ejemplo
<section name="ppdup">
<attrib name="format" type="string"> hashlog </attrib>
<attrib name="stripes" type="integer"> 1 </attrib>
<!-- 1 GB memory hash -->
<attrib name="cachesize" type="integer"> 1024 </attrib>
<attrib name="compact" type="boolean"> yes </attrib>
</section>
feeding
La sección de la alimentación se compone de al menos un elemento XML section que especifica cómo se debe enviar una representación de la colección de rastreo para el motor de indización. Una sección de este tipo define un contenido de destino. El atributo name especifica un nombre único para el contenido de destino.
Atributos
En la tabla siguiente especifica que los elementos de attrib para una sección de contenido de destino.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
collection |
Cadena |
<name> |
Especifica el nombre de la colección de contenido para el envío de elementos Web. Debe especificar este parámetro de configuración en una sección feeding. |
destination |
Cadena |
Default |
Reservado. Este parámetro de configuración debe contener el valor predeterminado. |
paused |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe suspender la presentación de contenido para el motor de indización. De forma predeterminada: no |
primary |
Booleanos |
yes|no |
Especifica si este contenido de destino es un destino de contenido primario o secundario. Un destino de contenido primario puede actuar en la información de devolución de llamada durante el envío de contenido para el motor de indización. Si sólo se especifica un destino de contenido, será un destino principal. |
Ejemplo
<section name="feeding">
<section name="Global_News">
<attrib name="collection" type="string"> collection_A </attrib>
<attrib name="destination" type="string"> default </attrib>
<attrib name="primary" type="boolean"> yes </attrib>
<attrib name="paused" type="boolean"> no </attrib>
</section>
<section name="Local_News">
<attrib name="collection" type="string"> collection_B </attrib>
<attrib name="destination" type="string"> default </attrib>
<attrib name="primary" type="boolean"> no </attrib>
<attrib name="paused" type="boolean"> no </attrib>
</section>
</section>
cachesize
En esta sección configura los tamaños de caché para el proceso de rastreador Web.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nota
El valor predeterminado para cada atributo, si no se especifica en la tabla, es que el Rastreador de Web determinan automáticamente el tamaño de caché en tiempo de ejecución.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
duplicates |
entero |
< valor que representa un número de elementos > |
Especifica el tamaño de la caché de la suma de comprobación duplicados, por el proceso del Administrador de sitio. Esta caché se utiliza como primer nivel de detección de duplicados en tiempo de ejecución. |
screened |
entero |
< valor que representa un número de elementos > |
Especifica el tamaño de la caché de URI protegida, como el número de hipervínculos. La caché filtrada filtra duplicados los hipervínculos que recientemente se produjeron en la recuperación de errores. |
smcomm |
entero |
< valor que representa un número de elementos > |
Especifica el tamaño del filtro de blanco que se utiliza la caché de filtrado de los hipervínculos duplicados que fluye entre el programador de nodo y los administradores de sitios. |
mucomm |
entero |
< valor que representa un número de elementos > |
Especifica el tamaño del filtro de blanco que se utiliza la caché de filtrado de los hipervínculos duplicados que fluye entre el programador de varios nodos y el programador de nodo. |
wqcache |
entero |
< valor que representa un número de elementos > |
Especifica el tamaño de la caché de filtrado de duplicados de los hipervínculos de las colas de rastreo del sitio Web. |
crosslinks |
entero |
< valor que representa un número de elementos > |
Especifica el tamaño de la caché de vínculo cruzado. La caché de vínculo cruzado contiene hipervínculos recuperados y los hipervínculos que hace referencia. Filtra duplicados de los hipervínculos en el programador del nodo si mufilter no está habilitado. |
routetab |
entero |
<value> |
Especifica el tamaño de la caché de base de datos, el enrutamiento en bytes de rastreo. De forma predeterminada: 1048576 |
pp |
entero |
<value> |
Especifica el tamaño de caché de base de datos del proceso de correos, en bytes. De forma predeterminada: 1048576 |
pp_pending |
entero |
<value> |
Especifica el proceso de envío pendiente de tamaño de caché, en bytes. La caché pendiente contiene entradas que no se han enviado a los servidores duplicados. De forma predeterminada: 131072 |
aliases |
entero |
<value> |
Especifica la asignación de tamaño de la caché de base de datos, en bytes de datos de alias. Un sitio de rastreo puede asociarse a uno o más alias (nombres de host alternativo). De forma predeterminada: 1048576 |
Ejemplo
<section name="cachesize">
<!-- Specific cache size values (in number of items) for the following: -->
<attrib name="duplicates" type="integer"> 128 </attrib>
<attrib name="screened" type="integer"> 128 </attrib>
<attrib name="smcomm" type="integer"> 128 </attrib>
<attrib name="mucomm" type="integer"> 128 </attrib>
<attrib name="wqcache" type="integer"> 4096 </attrib>
<!-- Automatic cache size for crosslinks -->
<attrib name="crosslinks" type="integer"> </attrib>
<!-- Cache sizes in bytes for the following -->
<attrib name="routetab" type="integer"> 1048576 </attrib>
<attrib name="pp" type="integer"> 1048576 </attrib>
<attrib name="pp_pending" type="integer"> 1048576 </attrib>
<attrib name="aliases" type="integer"> 1048576 </attrib>
</section>
http_errors
En esta sección especifica cómo controlar los códigos de respuesta de error HTTP/HTTPS y las condiciones.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección. Because there are multiple values for the name attribute, a description of each purpose is included in the name column.
Nombre |
Tipo |
Valor |
Significado |
El atributo name especifica el número de código de respuesta HTTP/HTTPS o FTP para controlar. El carácter "X" se puede utilizar como carácter comodín. Por ejemplo: 4XX Otros valores válidos son:
|
Cadena |
<value> |
Especifica cómo el rastreador Web trata los errores HTTP/HTTPS o FTP y la red. Las opciones válidas para el tratamiento de los códigos de respuesta individuales son los siguientes:
Si se especifica RETRY[:X] para cualquiera de estas opciones, el rastreador Web va a descargar el elemento Web no más de X veces el mismo período del ciclo antes de falla el intento se actualice la rastreo. De lo contrario, el rastreador no intenta descargar el identificador URI hasta la próxima actualización de rastreo del ciclo. De forma predeterminada: ver los valores predeterminados para la sección http_errors y valores predeterminados para la sección ftp_errors. |
Valores predeterminados de la sección http_errors
La tabla siguiente especifican los valores predeterminados de la sección http_errors.
Nombre | Valor | Significado |
---|---|---|
4xx |
ELIMINAR: 0 |
Eliminar inmediatamente. |
5xx |
ELIMINAR: 10 |
Eliminar el décimo tiempo este error para este identificador URI, normalmente después de que los ciclos de rastreo de 10. El contador se restablece si el identificador URI se recupere correctamente. |
int |
CONSERVAR: 0 |
No se elimine. |
net |
ELIMINAR: 3, VUELVA A INTENTARLO: 1 |
Eliminar la tercera vez. Se especifica un reintento. Esto significa que el identificador URI se eliminarán en el siguiente ciclo de actualización si aún no se puede recuperar. |
ttl |
3: ELIMINAR |
Eliminar la tercera vez. |
Ejemplo
<section name="http_errors">
<attrib name="408" type="string"> KEEP </attrib>
<attrib name="4xx" type="string"> DELETE </attrib>
<attrib name="5xx" type="string"> DELETE:10, RETRY:3 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
<attrib name="net" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP </attrib>
</section>
ftp_errors
En esta sección especifica cómo controlar los códigos de respuesta y condiciones de error para identificadores URI de FTP.
Atributos
Consulte la tabla http_errors para los elementos de attrib para esta sección.
Valores predeterminados de la sección ftp_errors
La tabla siguiente especifican los valores predeterminados de la sección ftp_errors.
Nombre | Valor | Significado |
---|---|---|
4xx |
3: ELIMINAR |
Eliminar la tercera vez que se encuentra este error para este identificador URI, normalmente después de que los ciclos de rastreo de 3. El contador se restablece si el identificador URI se recupere correctamente. |
550 |
ELIMINAR: 0 |
Eliminar inmediatamente. |
5xx |
3: ELIMINAR |
Eliminar la tercera vez, igual que para 4xx. |
int |
CONSERVAR: 0 |
No se elimine. |
net |
ELIMINAR: 3, VUELVA A INTENTARLO: 1 |
Eliminar la tercera vez. Se especifica un reintento. Esto significa que el identificador URI se eliminarán en el siguiente ciclo de actualización si aún no se puede recuperar. |
Ejemplo
<section name="ftp_errors">
<attrib name="4xx" type="string"> DELETE:3 </attrib>
<attrib name="550" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
workqueue_priority
En esta sección especifica los niveles de prioridad para las colas de rastreo y especifica las reglas y los modos que se utiliza para insertar a los identificadores URI en y extraer a los identificadores URI de las colas.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
levels |
entero |
<value> |
Especifica el número de niveles de prioridad que se utiliza para las colas de rastreo. De forma predeterminada: 1 |
Default |
entero |
<value> |
Especifica un nivel de prioridad predeterminado que se asigna a identificadores URI en una cola de rastreo. De forma predeterminada: 1 |
start_uri_pri |
entero |
<value> |
Especifica el nivel de prioridad para los identificadores URI de inicio. Consulte la start_uris y los parámetros de configuración start_uri_files. De forma predeterminada: 1 |
pop_scheme |
Cadena |
default|rr|wrr|pri |
Especifica el modo utilizado por el Explorador de Web para extraer a los identificadores URI de la cola de rastreo. Los valores válidos son:
Predeterminado: predeterminado |
put_scheme |
Cadena |
default|include |
Especifica el modo de rastreador de Web que se utiliza cuando se insertan los identificadores URI en la cola de rastreo. Los valores válidos son:
Predeterminado: predeterminado |
Sección de nivel de prioridad
En la sección workqueue_priority, se puede especificar un conjunto de secciones, que especifican los niveles de prioridad y peso de las colas del rastreador. Estas secciones sólo se utilizará si se establece el parámetro pop_schemewrr o pri. El atributo name de estas secciones debe ser el nivel de prioridad que se especifique. Los niveles de prioridad deben comenzar en 1. (Consulte <section name="1">
en el ejemplo siguiente).
La sección include_domains o include_uris puede utilizarse dentro de cada sección de nivel de prioridad, tal como se especifica en include_domains y include_uris. Los identificadores URI que coincidan con estas reglas se pondrán en cola con el nivel de prioridad correspondiente. Además, en la tabla siguiente especifica que los elementos de attrib para estas secciones.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
share |
entero |
Especifica un peso para cada cola de rastreo. Sólo se utilizará este peso si se establece el parámetro de configuración pop_scheme a wrr. |
Ejemplo
<section name="workqueue_priority">
<attrib name="levels" type="integer"> 2 </attrib>
<attrib name="default" type="integer"> 2 </attrib>
<attrib name="start_uri_pri" type="integer"> 1 </attrib>
<attrib name="pop_scheme" type="string"> wrr </attrib>
<attrib name="put_scheme" type="string"> include </attrib>
<section name="1">
<attrib name="share" type="integer"> 10 </attrib>
<section name="include_domains">
<attrib name="suffix" type="list-string">
<member> web005.contoso.com </member>
</attrib>
</section>
</section>
<section name="2">
<attrib name="share" type="integer"> 5 </attrib>
<section name="include_domains">
<attrib name="suffix" type="list-string">
<member> web002.contoso.com </member>
</attrib>
</section>
</section>
</section>
link_extraction
En esta sección especifica el tipo de hipervínculos seguir.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
a |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
Acción |
Booleanos |
yes|no |
Extrae los hipervínculos de los atributos de action en las etiquetas HTML. De forma predeterminada: Sí |
area |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
card |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas de lenguaje de marcado inalámbrico de De forma predeterminada: Sí |
Comentario |
Booleanos |
yes|no |
Extrae los hipervínculos de los comentarios de un elemento Web. De forma predeterminada: Sí |
embed |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
frame |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
go |
Booleanos |
yes|no |
Extrae los hipervínculos de De forma predeterminada: Sí |
img |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: no |
layer |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
link |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
meta |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
meta_refresh |
Booleanos |
yes|no |
Los hipervínculos de extractos de meta actualización etiquetas HTML ( De forma predeterminada: Sí |
object |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
script |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
script_java |
Booleanos |
yes|no |
Extrae los hipervínculos De forma predeterminada: Sí |
style |
Booleanos |
yes|no |
Extrae los hipervínculos de las etiquetas HTML De forma predeterminada: Sí |
Ejemplo
<section name="link_extraction">
<attrib name="action" type="boolean"> yes </attrib>
<attrib name="img" type="boolean"> no </attrib>
<attrib name="link" type="boolean"> yes </attrib>
<attrib name="meta" type="boolean"> yes </attrib>
<attrib name="meta_refresh" type="boolean"> yes </attrib>
<attrib name="object" type="boolean"> yes </attrib>
<attrib name="script_java" type="boolean"> yes </attrib>
</section>
límites
La sección limits especifica los límites de seguridad para una colección de rastreo. Cuando la colección supera el límite, entra en un modo de rastreo de "sólo actualizar". Esto significa que los URI de rastrear sólo anteriormente se rastrean nuevo.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
disk_free |
entero |
<percentage> |
Especifica el porcentaje de espacio libre en disco que debe estar disponible para el Rastreador de Web para que funcione en modo de rastreo normal (especificado en el atributo crawlmode). Si el porcentaje es inferior a este límite, el rastreador Web entra en el modo de rastreo de "sólo actualizar" (cuando se alcanzan los umbrales). Si el parámetro se establece en 0, esta característica está deshabilitada. De forma predeterminada: 0 |
disk_free_slack |
entero |
<percentage> |
Especifica el margen de demora para el umbral de disk_free, como un porcentaje. Esta opción crea una zona alrededor del disk_freethreshold. Cuando el espacio libre en disco está dentro de este búfer, el Rastreador de Web no cambiará el modo de rastreo a su estado normal. Esto impide que el rastreador Web alterna entre los modos de rastreo cuando el porcentaje de espacio libre en disco está cerca del valor especificado por el parámetro disk_free. Cuando supere el porcentaje de espacio freedisk disk_free + disk_free_slack, rastrear normal se reanuda. Valor predeterminado: 3 |
max_doc |
entero |
<value> |
Especifica el número de elementos Web almacenados que hará que el Rastreador de datos entrar en modo de rastreo "Actualizar". Nota El umbral no es un límite exacto, porque en comparación con estadística se ha retrasado un poco de la generación de informes para el rastreo. Cuando se establece en 0, esta característica está deshabilitada. De forma predeterminada: 0 |
max_doc_slack |
entero |
<value> |
Para evitar cambios en las constantes con el Rastreador de datos entran y salen en "actualizar sólo" modo de rastreo, se puede especificar el intervalo de athreshold junto con el valor de referencia absoluta. El intervalo se define como: (umbral menos margen de demora), (umbral), donde el comportamiento del modo de rastreo permanece sin cambios. El atributo max_doc_slack especifica el número máximo de elementos que pueden estar contenidos en un margen de demora, hasta que el umbral de parámetro de configuración de max_doc. Valor predeterminado: 1000 |
Ejemplo
<section name="limits">
<attrib name="disk_free" type="integer"> 0 </attrib>
<attrib name="disk_free_slack" type="integer"> 3 </attrib>
<attrib name="max_doc" type="integer"> 0 </attrib>
<attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>
centrado
En esta sección configura el enfoque de programación. Una sección exclude_domains puede utilizarse dentro de la sección focused para excluir los nombres de host de este enfoque de programación. Si no se define ninguna sección exclude_domains, todos los nombres de host se incluyen en el enfoque de programación.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre |
Tipo |
Valor |
Significado |
idiomas |
cadena de la lista |
Muestra los idiomas para los elementos que pueden almacenarse por el Explorador de Web, como en ISO 639-1. |
|
profundidad |
entero |
<value> |
Especifica el número de saltos de página deben seguir para elementos Web que no coinciden con los idiomas especificados, tal como lo establece el parámetro de configuración languages. |
Ejemplo
En el ejemplo siguiente, el Rastreador de datos va a almacenar todos los elementos con noruego, inglés o el contenido de lenguaje desconocido. Para todos los lenguajes no especificado, el Rastreador de datos seguirá sólo vínculos a los 2 niveles. Además, todo el contenido en contoso.com se excluye de los controles de idioma y se almacena automáticamente.
<section name="focused">
<!-- Crawl Norwegian, English and content of unknown language -->
<attrib name="languages" type="list-string">
<member> norwegian </member>
<member> unknown </member>
<member> en </member>
</attrib>
<!--Follow hyperlinks containing other languages for 2 levels -->
<attrib name="depth" type="integer"> 2 </attrib>
<!-- Exclude anything under .contoso.com from language checks, -->
<section name="exclude_domains">
<attrib name="suffix" type="list-string">
<member> .contoso.com </member>
</attrib>
</section>
</section>
passwd
En esta sección configura las credenciales para los sitios Web que requieren autenticación. El Rastreador de Web es compatible con la autenticación básica, autenticación implícita y autenticación de NTLM.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
Nombre |
Cadena |
El atributo name debe contener un identificador URI o un territorio. Un URI válido se comporta como un valor de prefijo, ya que todos los hipervínculos que se extrajo en su nivel o profundo utilizan estas opciones de autenticación. |
Especifique las credenciales en uno de los siguientes formatos: El componente de la contraseña de la cadena de credenciales se puede cifrar; si no está cifrado, se conceden en texto sin formato. Se crea una contraseña cifrada con la herramienta de crawleradmin con la opción Si se dan las credenciales con el formato de
|
Ejemplo
<section name="passwd">
<attrib name="https://www.contoso.com/confidential1/" type="string">
user:password:contoso:auto
</attrib>
</section>
ftp_acct
En esta sección especifica cuentas FTP para rastrear los URI de FTP.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
Nombre |
Cadena |
El valor del atributo XML name es el nombre de host para que esta cuenta FTP es válida. |
Éste es el nombre de usuario y contraseña para esta cuenta FTP. La cadena debe tener el formato: |
Ejemplo
<section name="ftp_acct">
<attrib name="ftp.contoso.com" type="string"> user:pass </attrib>
</section>
exclude_headers
En esta sección se utiliza para excluir los elementos Web desde el rastreo, en función del contenido de los campos de encabezado HTTP.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
Nombre El atributo de nombre se utiliza para establecer el nombre del encabezado HTTP para probar. |
cadena de la lista |
Especifica una lista de expresiones regulares. If the value of the specified HTTP header matches one of these regular expressions, the Web item is excluded from the crawl. |
Ejemplo
<section name="exclude_headers">
<attrib name="Header Name" type="list-string">
<member> .*excluded.*value </member>
</attrib>
</section>
variable_delay
Esta sección especifican los intervalos de tiempo que se utilizan una velocidad de solicitud diferente. Cuando no se especifica ningún intervalo de tiempo, el Rastreador de datos utiliza el parámetro de configuración delay tal como se especifica en attrib.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
name en el formato: DDD:HH.MM-DDD:HH.MM |
Cadena |
< valor en segundos > suspend |
Especifica la tasa de solicitudes de retraso de este intervalo de tiempo, en segundos. A value of suspend specifies that crawling of this crawl collection will be suspended. |
Ejemplo
En el ejemplo siguiente se muestra cómo el Rastreador de Web utiliza intervalos de retardo diferente durante la semana. Miércoles, entre las 9: 00 a.m. y las 7: 00 p.m., el Rastreador de Web utiliza un retraso de 20 segundos. Entre las 9: 00 a.m. y las 5: 00 p.m. los lunes suspende el Rastreador de rastreo y cualquier otro momento de la semana el Rastreador de Web utiliza un retardo de 60 segundos.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="variable_example">
<section name="variable_delay">
<attrib name="Wed:09-Wed:19" type="string">20 </attrib>
<attrib name="Mon:09-Mon:17" type="string">suspend</attrib>
</section>
</DomainSpecification>
</CrawlerConfig>
adaptable
En esta sección especifica las opciones de rastreo adaptables. El parámetro de configuración refresh_mode, especificado en attrib, se debe establecer a adaptive de esta sección para que se va a utilizar el Rastreador de Web.
Con los pesos y las secciones de sitemap_weights, se puede controlar el comportamiento de rastreo adaptable.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
refresh_count |
entero |
<value> |
Especifica el número de ciclos de actualización secundaria. Un ciclo de actualización se puede dividir en varios intervalos de tiempo fijo que se encuentran los ciclos de actualización secundaria denominada. De forma predeterminada: 4 |
refresh_quota |
entero |
<percentage> |
Especifica la proporción de los URI de re-crawled existentes a nuevos identificadores URI aún no descubiertos, expresado como porcentaje. Si establece el porcentaje bajo, da preferencia a identificadores URI nuevo. De forma predeterminada: 90 |
coverage_min |
entero |
<value> |
Especifica un número mínimo de los identificadores URI para rastrear por cada sitio Web en un ciclo de actualización secundaria. Se utiliza para garantizar la cobertura de algunos para sitios Web pequeños. De forma predeterminada: 25 |
coverage_max_pct |
entero |
<value> |
Especifica el porcentaje de un sitio Web para re-crawl en un ciclo de secundario. Garantiza que sitios Web pequeños no totalmente rastrear cada ciclo de secundaria, tomar tiempo fuera de los sitios Web de mayor tamaño. De forma predeterminada: 10 |
Ejemplo
<section name="adaptive">
<attrib name="refresh_count" type="integer"> 4 </attrib>
<attrib name="refresh_quota" type="integer"> 98 </attrib>
<attrib name="coverage_max_pct" type="integer"> 25 </attrib>
<attrib name="coverage_min" type="integer"> 10 </attrib>
<!-- Ranking weights. Each scoring criteria adds a score between -->
<!-- 0.0 and 1.0 which is then multiplied with the associated -->
<!-- weight below. Use a weight of 0 to disable a scorer -->
<section name="weights">
<attrib name="inverse_length" type="real"> 1.0 </attrib>
<attrib name="inverse_depth" type="real"> 1.0 </attrib>
<attrib name="is_landing_page" type="real"> 1.0 </attrib>
<attrib name="is_mime_markup" type="real"> 1.0 </attrib>
<attrib name="change_history" type="real"> 10.0 </attrib>
</section>
</section>
pesos
En esta sección se proporciona a cada URI una puntuación en el proceso de rastreo adaptable. El resultado da prioridad a los identificadores URI y se basa en un conjunto de reglas. Cada regla está asignado un peso que determina su contribución a la puntuación total que se especifica en la sección weights.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
inverse_length |
real |
<value> |
Especifica el grosor de la regla de longitud inverso. La regla de longitud inverso proporciona a los URI con pocos segmentos de ruta de acceso (definidos por el número de barras diagonales) una puntuación más alta. Los identificadores URI con 10 o más barras reciben una puntuación de 0. De forma predeterminada: 1.0 |
inverse_depth |
real |
<value> |
Especifica el grosor de la regla de profundidad inverso. Se calcula el número de saltos de página de un identificador URI de inicio, una puntuación más alta se asignan a identificadores URI que tienen menos de 10 saltos de página. La regla da como resultado una puntuación de cero para los identificadores URI con 10 o más saltos de página. De forma predeterminada: 1.0 |
is_landing_page |
real |
<value> |
Especifica el grosor de la regla is_landing_page. Este da de regla de un identificador URI que considera una puntuación más alta de una página de inicio. Una página de inicio es un identificador URI que terminen en uno de/,/ index.HTML,index.htm,index.php,index.jsp,index.ASP,default.HTML, odefault.htm. La regla da como resultado sin puntuación para los identificadores URI que tienen los componentes de la consulta. De forma predeterminada: 1.0 |
is_mime_markup |
real |
<value> |
Especifica el grosor de la regla is_mime_markup. Esta regla da como resultado una puntuación adicional a las páginas cuyo tipo MIME especificado en el parámetro de configuración uri_search_mime en attrib. De forma predeterminada: 1.0 |
change_history |
real |
<value> |
Especifica el grosor de la regla de historial de cambios. Los resultados de esta regla basan en el HTTP encabezado "última modificación" valor con el tiempo. Los elementos Web que cambian frecuentemente tienen una puntuación más alta que los elementos que cambian con menos frecuencia. De forma predeterminada: 10.0 |
sitemap |
real |
<value> |
Especifica el grosor de la regla del mapa del sitio. El resultado de la regla del mapa del sitio se especifica en sitemap_weights. De forma predeterminada: 10.0 |
Ejemplo
<!-- Ranking weights. Each scoring criteria adds a score between -->
<!-- 0.0 and 1.0 which is then multiplied with the associated -->
<!-- weight below. Use a weight of 0 to disable a scorer -->
<section name="weights">
<!-- Score based on the number of /'es (segments) in the -->
<!-- URI. Max score with one, no score with 10 or more -->
<attrib name="inverse_length" type="real"> 1.0 </attrib>
<!-- Score based on the number of link "levels" down to -->
<!-- this URI. Max score with none, no score with >= 10 -->
<attrib name="inverse_depth" type="real"> 1.0 </attrib>
<!-- Score added if URI is determined as a "landing page", -->
<!-- defined as e.g. ending in "/" or "index.html". URIs -->
<!-- with query parameters are not given score -->
<attrib name="is_landing_page" type="real"> 1.0 </attrib>
<!-- Score added if URI points to a markup document as -->
<!-- defined by the "uri_search_mime" option. Assumption -->
<!-- being that such content changes more often than e.g. -->
<!-- "static" Word or PDF documents. -->
<attrib name="is_mime_markup" type="real"> 1.0 </attrib>
<!-- Score based on change history tracked over time by -->
<!-- using an estimator based on last modified date given -->
<!-- by the web server. If no modified date returned then -->
<!-- one is estimated (based on whether the document has -->
<!-- changed or not). -->
<attrib name="change_history" type="real"> 10.0 </attrib>
</section>
sitemap_weights
En esta sección, las entradas de <URL>
en un mapa del sitio pueden contener un elemento de changefreq, que especifica con qué frecuencia se puede modificar una dirección URI.
Los valores de cadena válida para este elemento son los siguientes: always, hourly, daily, weekly, monthly, yearly y never. Los valores de cadena se convierten en un peso numérico para el rastreo adaptable. La sección sitemap_weights especifica una asignación de los valores de cadena para el grosor de una numérico. Este peso numérica se utiliza para calcular el resultado a la puntuación del mapa del sitio en la sección weights.
La puntuación de rastreo adaptable para un identificador URI se calcula multiplicando el peso numérico en el peso de parámetro de configuración de sitemap.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Importante
El intervalo de estos elementos debe ser entre 0,0 y 1,0.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
always |
real |
<value> |
Especifica el grosor de la always valor changefreq como un valor numérico. De forma predeterminada: 1.0 |
hourly |
real |
<value> |
Especifica el grosor de la hourly valor changefreq como un valor numérico. De forma predeterminada: 0.64 |
daily |
real |
<value> |
Especifica el grosor de la daily valor changefreq como un valor numérico. De forma predeterminada: 0.32 |
weekly |
real |
<value> |
Especifica el grosor de la weekly valor changefreq como un valor numérico. De forma predeterminada: 0,16 |
monthly |
real |
<value> |
Especifica el grosor de la monthly valor changefreq como un valor numérico. De forma predeterminada: 0,08 |
yearly |
real |
<value> |
Especifica el grosor de la yearly valor changefreq como un valor numérico. De forma predeterminada: 0,04 |
never |
real |
<value> |
Especifica el grosor de la never valor changefreq como un valor numérico. Valor predeterminado: 0,0 |
Default |
real |
<value> |
Especifica el grosor de todos los identificadores URI que no están asociados con un valor de <changefreq>. De forma predeterminada: 0,16 |
Ejemplo
<section name="sitemap_weights">
<attrib name="always" type="real"> 1.0 </attrib>
<attrib name="hourly" type="real"> 0.64 </attrib>
<attrib name="daily" type="real"> 0.32 </attrib>
<attrib name="weekly" type="real"> 0.16 </attrib>
<attrib name="monthly" type="real"> 0.08 </attrib>
<attrib name="yearly" type="real"> 0.04 </attrib>
<attrib name="never" type="real"> 0.0 </attrib>
<attrib name="default" type="real"> 0.16 </attrib>
</section>
site_clusters
Esta sección especifican los parámetros de configuración que reemplazan el comportamiento del Rastreador de enrutamiento de los nombres de host en un nodo de programador. Este parámetro, se garantiza que un grupo de nombres de host se enruta al mismo nodo programador y de sitio Administrador. Esto resulta útil cuando se habilita la opción use_cookies, ya que las cookies son globales sólo a lo largo de un proceso del Administrador de sitio. Además, si sabe que algunos sitios Web están estrechamente interconectados, puede reducir la comunicación interna por sus nombres de host de clúster.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
Nombre |
cadena de la lista |
Especifica una lista de nombres de host que debe agregarse a un programador de tareas de nodo. |
Ejemplo
<section name="site_clusters">
<attrib name="mycluster" type="list-string">
<member> host1.constoso.com </member>
<member> host2.constoso.com </member>
<member> host3.constoso.com </member>
</attrib>
</section>
crawlmode
En esta sección se limita la duración de una colección de rastreo.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
mode |
Cadena |
Especifica la profundidad de la información de rastreo. Los valores válidos son FULL o DEPTH:#, donde # es el número de saltos de página de un identificador URI de inicio. Default: FULL |
|
fwdlinks |
Booleanos |
yes|no |
Especifica si se deben seguir los hipervínculos que apuntan a un nombre de host diferente. Default: Sí |
fwdredirects |
Booleanos |
yes|no |
Especifica si se deben seguir externas redirecciones HTTP que recibe de los servidores. Redirecciones externas son redirecciones HTTP que elija otro nombre de host de nombre de un host. Default: no |
reset_level |
Booleanos |
yes|no |
Especifica si restablecer la página de contador de saltos usar por mode al seguir un hipervínculo a otro nombre de host. Default: Sí |
Ejemplo
<section name="crawlmode">
<attrib name="mode" type="string"> DEPTH:1 </attrib>
<attrib name="fwdlinks" type="boolean"> yes </attrib>
<attrib name="fwdredirects" type="boolean"> yes </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
post_payload
En esta sección se utiliza para enviar contenido a las solicitudes POST de HTTP. El contenido se envía a los identificadores URI que coincidan con un prefijo URI o que coincidan exactamente con un identificador URI.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre |
Tipo |
Valor |
Significado |
Nombre |
Cadena |
Especifica la cadena de contenido de la carga. Esta cadena se registra para los identificadores URI que coincida con un URI o prefijo establecido por el atributo XML name. La sección, requiere a una coincidencia si el atributo name especifica un identificador URI. Para especificar un prefijo de identificador URI, se debe utilizar la etiqueta |
Ejemplo
<section name="post_payload">
<attrib name="prefix:https://www.contoso.com/secure" type="string"> variable1=value1&variableB=valueB </attrib>
</section>
RSS
En esta sección se inicializa y configura la fuente RSS soporte en una colección de rastreo.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre |
Tipo |
Valor |
Significado |
start_uris |
cadena de la lista |
Especifica una lista de identificadores URI que señalan a RSS avance de los elementos de inicio. |
|
start_uri_files |
cadena de la lista |
Especifica una lista de rutas de acceso a los archivos que contienen a los identificadores URI que apuntan a elementos de fuente RSS. El formato de estos archivos debe ser archivos de texto sin formato que tienen un identificador URI por línea. |
|
auto_discover |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe detectar nuevas fuentes RSS. Si no se establece esta opción, sólo las fuentes especificadas en el RSS iniciar a los URI e iniciar de RSS se tratarán las secciones de los archivos de los identificadores URI como canales RSS. De forma predeterminada: no |
follow_links |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe seguir los hipervínculos de los elementos Web que se encuentra en la fuente RSS, que es el comportamiento habitual de rastreador de Web. Si se deshabilita, el rastreo produce sólo un salto fuera de una fuente. Deshabilitar esta opción para rastrear sólo las fuentes y elementos Web que hace referencia a las fuentes. De forma predeterminada: Sí |
ignore_rules |
Booleanos |
yes|no |
Especifica que el Rastreador de Web debe rastrear todos los elementos Web que hace referencia a la fuente RSS, independientemente de su inclusión en las reglas de inclusión o exclusión, como en include_domainsexclude_domains, include_uris y exclude_uris. De forma predeterminada: no |
index_feed |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe enviar las fuentes RSS a sí mismos para el motor de indización, o sólo los elementos de la Web con hipervínculos dentro de las fuentes. De forma predeterminada: no |
del_expired_links |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe eliminar los elementos de la fuente cuando caducan, tal como se define por max_link_age y max_link_count RSS. De forma predeterminada: no |
max_link_age |
entero |
<value> |
Especifica la antigüedad máxima, en minutos, para un elemento Web que se encuentra en una fuente RSS. Sólo se aplica si se establece el parámetro de configuración del_expired_links a yes. De forma predeterminada: 0 |
max_link_count |
entero |
<value> |
Especifica el número máximo de hipervínculos, el Rastreador de Web se guarda de una fuente RSS. Si el rastreador Web encuentra varios hipervínculos, que caducan en una orden de primero-in-first-out. Sólo se aplica si se establece el parámetro de configuración de del_expired_links a yes. De forma predeterminada: 128 |
Ejemplo
<section name="rss">
<!-- Attempt to discover new rss feeds, yes/no -->
<attrib name="auto_discover" type="boolean"> yes </attrib>
<attrib name="del_expired_links" type="boolean"> yes </attrib>
<attrib name="follow_links" type="boolean"> yes </attrib>
<attrib name="ignore_rules" type="boolean"> no </attrib>
<attrib name="index_feed" type="boolean"> no </attrib>
<attrib name="max_link_age" type="integer"> 0 </attrib>
<attrib name="max_link_count" type="integer"> 128 </attrib>
<attrib name="start_uris" type="list-string">
<member> http://www.startsiden.no/rss.rss </member>
</attrib>
<!-- Start uri files (optional) -->
<attrib name="start_uri_files" type="list-string">
<member> /usr/fast/etc/rss_seedlist.txt </member>
</attrib>
</section>
Inicios de sesión
En esta sección se especifica al menos un elemento de la sección logins para la autenticación basada en formularios HTML. Se trata de un asociado de inicios de sesión de sitio Web específico, cada uno de los cuales debe contener un nombre de inicio de sesión único en el atributo name.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
preload |
Cadena |
<value> |
Especifica el identificador URI completo de la página para recuperar antes de procesar el formulario de inicio de sesión. |
scheme |
Cadena |
HTTP|HTTPS |
Especifica el esquema URI del sitio Web de inicio de sesión. Los valores válidos: http o https |
site |
Cadena |
<value> |
Especifica el nombre de host de la página de formulario de inicio de sesión. |
form |
Cadena |
<value> |
Especifica la ruta de acceso del formulario de inicio de sesión. |
Acción |
Cadena |
GET|POST |
Especifica si el formulario utiliza HTTP POST o GET de HTTP. Los valores válidos son los siguientes: GET o POST |
sites |
cadena de la lista |
<value> |
Especifica una lista de sitios Web o los nombres de host que el Rastreador de Web debe iniciar sesión antes de que comience el proceso de rastreo. |
ttl |
entero |
<seconds> |
Especifica el tiempo, en segundos, que pueden transcurrir antes de requerir otro inicio de sesión para continuar el rastreo. |
html_form |
Cadena |
<value> |
Especifica el identificador URI a la página HTML que contiene el formulario de inicio de sesión. |
autofill |
Booleanos |
yes|no |
Especifica si el Rastreador de Web debe intentar rellenar automáticamente el formulario de inicio de sesión HTML. El parámetro de configuración html_form debe ser especificado si está establecido a yes. |
relogin_if_failed |
Booleanos |
yes|no |
Especifica si el Rastreador de Web puede intentar re-log en el sitio Web después de ttl segundos si el error en el inicio de sesión. |
Notas
Los elementos de Inicio de sesión se pueden utilizar como alternativa a la sección logins.
Ejemplo
<section name="logins">
<section name="mytestlogin">
<!-- Instructs the crawler to "preload" potential cookies by -->
<!-- fetching this page and register any cookies before -->
<!-- proceeding with login -->
<attrib name="preload" type="string">http://preload.contoso.com/</attrib>
<attrib name="scheme" type="string"> https </attrib>
<attrib name="site" type="string"> login.contoso.com </attrib>
<attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
<attrib name="action" type="string">POST</attrib>
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
<attrib name="target" type="string"> sometarget </attrib>
</section>
<!-- Host names of sites requiring this login to crawl -->
<attrib name="sites" type="list-string">
<member> site1.contoso.com </member>
<member> site2.contoso.com </member>
</attrib>
<!-- Time to live for login cookie. Will re-log in when expires -->
<attrib name="ttl" type="integer"> 7200 </attrib>
</section>
</section>
parámetros
En esta sección establece las credenciales de autenticación que se utilizan en un formulario HTML. Debe especificarse en una sección de inicios de sesión del sitio o en un elemento de Inicio de sesión. Los parámetros de credenciales son suele ser diferentes para cada formulario HTML.
Si el parámetro de configuración autofill está habilitado, se especifican sólo las variables que son visibles en el explorador. Por ejemplo: nombre de usuario y contraseña o equivalente. En este caso, el Rastreador de Web debe recuperar la página HTML y leer las variables "ocultas" que se requieren para enviar el formulario. Un valor de la variable especificada en los parámetros de configuración suplantará a cualquier valor almacenado en el formulario.
Atributos
En la tabla siguiente especifica que los elementos de attrib para esta sección.
Nombre | Tipo | Valor | Significado |
---|---|---|---|
Nombre El atributo de nombre XML contiene la variable de formulario HTML para establecer. |
Cadena |
Especifica los valores de la variable de formulario HTML. |
Ejemplo
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
<attrib name="target" type="string"> sometarget </attrib>
</section>
subdominios
En esta sección se especifica la configuración de las colecciones de sub de rastreo. La sección subdomains debe contener al menos un elemento XML section, cada uno de los cuales especifica una colección de sub de rastreo. A crawl sub collection section must contain a unique name by setting the name attribute
Notas
En lugar de una sección subdomains, se puede utilizar un elemento de SubDomain.
Debe especificar las reglas de inclusión o exclusión para limitar el ámbito de una colección de sub de rastreo. Éstos incluyen o excluir reglas son las siguientes: include_domains, exclude_domains, include_uris y exclude_uris.
Sólo un subconjunto de los parámetros de configuración especificado en attrib puede utilizarse en una subsección. Estos parámetros de configuración son:
-
accept_compression
-
allowed_schemes
-
crawlmode
-
cut_off
-
delay
-
ftp_passive
-
headers
-
max_doc
-
proxy
-
refresh
-
refresh_mode
-
start_uris
-
start_uri_files
-
use_http:1
-
use_javascript
-
use_sitemaps
Deben establecer los parámetros de configuración refresh de una colección de sub rastreo inferiores a la frecuencia de actualización de la colección de rastreo principal. No se puede utilizar los parámetros de configuración use_javascriptuse_sitemaps y max_doc si la configuración de include_uris o exclude_uris se utiliza para especificar la colección de sub de rastreo.
Además, puede utilizar las, RSS y las secciones de variable_delay en una colección de sub de rastreo.
Ejemplo
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="subcollection_example">
<section name="subdomains">
<section name="subdomain_1">
<section name="include_uris">
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/index </member>
</attrib>
</section>
<attrib name="refresh" type="real"> 60.0 </attrib>
<attrib name="delay" type="real"> 10.0 </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com/ </member>
</attrib>
</section>
</section>
</DomainSpecification>
</CrawlerConfig>
SubDomain
Este elemento especifica la configuración de las colecciones de sub de rastreo. Una colección de sub de rastreo es un objeto que diferencia a miembros de la colección de rastreo entre sí por sus definiciones. Puede contener varios elementos SubDomain a una colección de rastreo.
Los parámetros de configuración de un elemento SubDomain se especifican en los subdominios.
Un elemento SubDomain contiene elementos attrib y section elementos.
Atributos
Atributo | Valor | Significado |
---|---|---|
Nombre |
<name> |
Cadena que especifica el nombre de la colección de sub de rastreo. |
Ejemplo
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="subcollection_example">
<SubDomain name="subdomain_1">
<section name="include_uris">
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/index </member>
</attrib>
</section>
<attrib name="refresh" type="real"> 60.0 </attrib>
<attrib name="delay" type="real"> 10.0 </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com/ </member>
</attrib>
</SubDomain>
</DomainSpecification>
</CrawlerConfig>
Inicio de sesión
Este elemento se utiliza para la autenticación basada en formularios HTML. Los parámetros de configuración de un elemento Login se especifican en los inicios de sesión. Puede contener varios elementos Login a una colección de rastreo. Un elemento Login contiene elementos attrib y section elementos.
Atributos
Atributo | Valor | Significado |
---|---|---|
Nombre |
<value> |
Cadena que especifica el nombre de la especificación de inicio de sesión. |
Ejemplo
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="login_example">
<Login name="mytestlogin">
<attrib name="preload" type="string">http://preload.contoso.com/
</attrib>
<attrib name="scheme" type="string"> https </attrib>
<attrib name="site" type="string"> login.contoso.com </attrib>
<attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
<attrib name="action" type="string">POST</attrib>
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
</section>
<attrib name="sites" type="list-string">
<member> site1.contoso.com </member>
<member> site2.contoso.com </member>
</attrib>
<attrib name="ttl" type="integer"> 7200 </attrib>
<attrib name="html_form" type="string">
http://login.contoso.com/login.html
</attrib>
<attrib name="autofill" type="boolean"> yes </attrib>
<attrib name="relogin_if_failed" type="boolean"> yes </attrib>
</Login>
</DomainSpecification>
</CrawlerConfig>
Node
Este elemento se utiliza para reemplazar los parámetros de configuración en una colección de rastreo o una colección de sub de rastreo para un programador de tareas de nodo concreto. Los parámetros de configuración de un elemento Node se especifican en el SubDomain, el Inicio de sesión, el attrib y sección.
Un elemento Node contiene elementos attrib y section elementos.
Atributos
Atributo | Valor | Significado |
---|---|---|
Nombre |
<value> |
Cadena que especifica al nodo programador para estos parámetros de configuración. |
Ejemplo
En el ejemplo siguiente se utiliza una instalación de varios nodos. Uno de los programadores de nodo se denomina "crawler_node1". De este modo, el "crawler_node1" configura con un parámetro de configuración de retraso diferentes a los demás nodos.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="node_example ">
<attrib name="delay" type="real"> 60.0 </attrib>
<Node name="crawler_node1">
<attrib name="delay" type="real"> 90.0 </attrib>
</Node>
</DomainSpecification>
</CrawlerConfig>
Esquema XML
Un archivo de configuración del Rastreador de Web debe tener el formato con el esquema XML siguiente:
<?xml version="1.0" encoding="UTF-8" ?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="CrawlerConfig" type="CT_CrawlerConfig"/>
<xs:complexType name="CT_CrawlerConfig >
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="DomainSpecification" type="CT_DomainSpecification"/>
</xs:choice>
</xs:complexType>
<xs:complexType name="CT_DomainSpecification">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib" maxOccurs="unbounded"/>
<xs:element name="section" type="CT_section"/>
<xs:element name="SubDomain" type="CT_SubDomain"/>
<xs:element name="Login" type="CT_Login"/>
<xs:element name="Node" type="CT_Node"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_attrib" mixed="true">
<xs:sequence minOccurs="0" maxOccurs="unbounded">
<xs:element name="member" type="ST_member"/>
</xs:sequence>
<xs:attribute name="name" type="xs:string" use="required"/>
<xs:attribute name="type" type="ST_type" use="required"/>
</xs:complexType>
<xs:complexType name="CT_section">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_SubDomain">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_Login">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_Node">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:simpleType name="ST_type">
<xs:restriction base="xs:string">
<xs:enumeration value="boolean"/>
<xs:enumeration value="string"/>
<xs:enumeration value="integer"/>
<xs:enumeration value="list-string"/>
<xs:enumeration value="real"/>
</xs:restriction>
</xs:simpleType>
<xs:simpleType name="ST_member">
<xs:restriction base="xs:string"></xs:restriction>
</xs:simpleType>
</xs:schema>
Configuración sencilla
En el ejemplo siguiente se configura una configuración sencilla de rastreador de Web. Está configurado para rastrear sólo el sitio Web de contoso.com.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="default_example">
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> no </attrib>
<attrib name="fwdredirects" type="boolean"> no </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com </member>
</attrib>
</DomainSpecification>
</CrawlerConfig>
Configuración típica
La configuración del Rastreador de datos de ejemplo siguiente contiene algunos parámetros de configuración comunes.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="default_example">
<attrib name="accept_compression" type="boolean"> yes </attrib>
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
<attrib name="allowed_types" type="list-string">
<member> text/html </member>
<member> text/plain </member>
</attrib>
<section name="cachesize">
<attrib name="aliases" type="integer"> 1048576 </attrib>
<attrib name="pp" type="integer"> 1048576 </attrib>
<attrib name="pp_pending" type="integer"> 131072 </attrib>
<attrib name="routetab" type="integer"> 1048576 </attrib>
</section>
<attrib name="check_meta_robots" type="boolean"> yes </attrib>
<attrib name="cookie_timeout" type="integer"> 900 </attrib>
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> yes </attrib>
<attrib name="fwdredirects" type="boolean"> yes </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
<attrib name="csum_cut_off" type="integer"> 0 </attrib>
<attrib name="cut_off" type="integer"> 5000000 </attrib>
<attrib name="dbswitch" type="integer"> 5 </attrib>
<attrib name="dbswitch_delete" type="boolean"> no </attrib>
<attrib name="delay" type="real"> 60.0 </attrib>
<attrib name="domain_clustering" type="boolean"> no </attrib>
<attrib name="enforce_delay_per_ip" type="boolean"> yes </attrib>
<attrib name="exclude_exts" type="list-string">
<member> .jpg </member>
<member> .jpeg </member>
<member> .ico </member>
<member> .tif </member>
<member> .png </member>
<member> .bmp </member>
<member> .gif </member>
<member> .wmf </member>
<member> .avi </member>
<member> .mpg </member>
<member> .wmv </member>
<member> .wma </member>
<member> .ram </member>
<member> .asx </member>
<member> .asf </member>
<member> .mp3 </member>
<member> .wav </member>
<member> .ogg </member>
<member> .ra </member>
<member> .aac </member>
<member> .m4a </member>
<member> .zip </member>
<member> .gz </member>
<member> .vmarc </member>
<member> .z </member>
<member> .tar </member>
<member> .iso </member>
<member> .img </member>
<member> .rpm </member>
<member> .cab </member>
<member> .rar </member>
<member> .ace </member>
<member> .hqx </member>
<member> .swf </member>
<member> .exe </member>
<member> .java </member>
<member> .jar </member>
<member> .prz </member>
<member> .wrl </member>
<member> .midr </member>
<member> .css </member>
<member> .ps </member>
<member> .ttf </member>
<member> .mso </member>
<member> .dvi </member>
</attrib>
<attrib name="extract_links_from_dupes" type="boolean"> no </attrib>
<attrib name="fetch_timeout" type="integer"> 300 </attrib>
<attrib name="force_mimetype_detection" type="boolean"> no </attrib>
<section name="ftp_errors">
<attrib name="4xx" type="string"> DELETE:3 </attrib>
<attrib name="550" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
<attrib name="headers" type="list-string">
<member> User-Agent: FAST Enterprise Crawler 6 </member>
</attrib>
<attrib name="html_redir_is_redir" type="boolean"> yes </attrib>
<attrib name="html_redir_thresh" type="integer"> 3 </attrib>
<section name="http_errors">
<attrib name="4xx" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:10 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
<attrib name="if_modified_since" type="boolean"> yes </attrib>
<attrib name="javascript_keep_html" type="boolean"> no </attrib>
<section name="limits">
<attrib name="disk_free" type="integer"> 0 </attrib>
<attrib name="disk_free_slack" type="integer"> 3 </attrib>
<attrib name="max_doc" type="integer"> 0 </attrib>
<attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>
<section name="link_extraction">
<attrib name="a" type="boolean"> yes </attrib>
<attrib name="action" type="boolean"> yes </attrib>
<attrib name="area" type="boolean"> yes </attrib>
<attrib name="card" type="boolean"> yes </attrib>
<attrib name="comment" type="boolean"> no </attrib>
<attrib name="embed" type="boolean"> no </attrib>
<attrib name="frame" type="boolean"> yes </attrib>
<attrib name="go" type="boolean"> yes </attrib>
<attrib name="img" type="boolean"> no </attrib>
<attrib name="layer" type="boolean"> yes </attrib>
<attrib name="link" type="boolean"> yes </attrib>
<attrib name="meta" type="boolean"> yes </attrib>
<attrib name="meta_refresh" type="boolean"> yes </attrib>
</section>
<section name="log">
<attrib name="dsfeed" type="string"> text </attrib>
<attrib name="fetch" type="string"> text </attrib>
<attrib name="postprocess" type="string"> text </attrib>
<attrib name="site" type="string"> text </attrib>
</section>
<attrib name="login_failed_ignore" type="boolean"> no </attrib>
<attrib name="login_timeout" type="integer"> 300 </attrib>
<attrib name="max_backoff_counter" type="integer"> 50 </attrib>
<attrib name="max_backoff_delay" type="integer"> 600 </attrib>
<attrib name="max_doc" type="integer"> 1000000 </attrib>
<attrib name="max_pending" type="integer"> 2 </attrib>
<attrib name="max_redirects" type="integer"> 10 </attrib>
<attrib name="max_reflinks" type="integer"> 0 </attrib>
<attrib name="max_sites" type="integer"> 128 </attrib>
<attrib name="max_uri_recursion" type="integer"> 5 </attrib>
<attrib name="mufilter" type="integer"> 0 </attrib>
<attrib name="near_duplicate_detection" type="boolean"> no </attrib>
<attrib name="obey_robots_delay" type="boolean"> no </attrib>
<section name="pp">
<attrib name="ds_max_ecl" type="integer"> 10 </attrib>
<attrib name="ds_meta_info" type="list-string">
<member> duplicates </member>
<member> redirects </member>
<member> mirrors </member>
<member> metadata </member>
</attrib>
<attrib name="ds_paused" type="boolean"> no </attrib>
<attrib name="ds_send_links" type="boolean"> no </attrib>
<attrib name="max_dupes" type="integer"> 10 </attrib>
<attrib name="stripe" type="integer"> 1 </attrib>
</section>
<section name="ppdup">
<attrib name="compact" type="boolean"> yes </attrib>
</section>
<attrib name="proxy_max_pending" type="integer"> 2147483647 </attrib>
<attrib name="refresh" type="real"> 1440.0 </attrib>
<attrib name="refresh_mode" type="string"> scratch </attrib>
<attrib name="refresh_when_idle" type="boolean"> no </attrib>
<attrib name="robots" type="boolean"> yes </attrib>
<attrib name="robots_auth_ignore" type="boolean"> yes </attrib>
<attrib name="robots_timeout" type="integer"> 300 </attrib>
<attrib name="robots_tout_ignore" type="boolean"> no </attrib>
<attrib name="robots_ttl" type="integer"> 86400 </attrib>
<section name="rss">
<attrib name="auto_discover" type="boolean"> no </attrib>
<attrib name="del_expired_links" type="boolean"> no </attrib>
<attrib name="follow_links" type="boolean"> no </attrib>
<attrib name="ignore_rules" type="boolean"> no </attrib>
<attrib name="index_feed" type="boolean"> no </attrib>
<attrib name="max_link_age" type="integer"> 0 </attrib>
<attrib name="max_link_count" type="integer"> 128 </attrib>
</section>
<attrib name="smfilter" type="integer"> 0 </attrib>
<attrib name="sort_query_params" type="boolean"> no </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com </member>
</attrib>
<section name="storage">
<attrib name="clusters" type="integer"> 8 </attrib>
<attrib name="compress" type="boolean"> yes </attrib>
<attrib name="compress_exclude_mime" type="list-string">
<member> application/x-shockwave-flash </member>
</attrib>
<attrib name="datastore" type="string"> bstore </attrib>
<attrib name="defrag_threshold" type="integer"> 85 </attrib>
<attrib name="remove_docs" type="boolean"> no </attrib>
<attrib name="store_dupes" type="boolean"> no </attrib>
<attrib name="store_http_header" type="boolean"> yes </attrib>
</section>
<attrib name="truncate" type="boolean"> no </attrib>
<attrib name="umlogs" type="boolean"> yes </attrib>
<attrib name="uri_search_mime" type="list-string">
<member> text/html </member>
<member> text/vnd.wap.wml </member>
<member> text/wml </member>
<member> text/x-wap.wml </member>
<member> x-application/wml </member>
<member> text/x-hdml </member>
</attrib>
<attrib name="use_cookies" type="boolean"> no </attrib>
<attrib name="use_http_1_1" type="boolean"> yes </attrib>
<attrib name="use_javascript" type="boolean"> no </attrib>
<attrib name="use_meta_csum" type="boolean"> no </attrib>
<attrib name="use_sitemaps" type="boolean"> no </attrib>
<section name="workqueue_priority">
<attrib name="default" type="integer"> 1 </attrib>
<attrib name="levels" type="integer"> 1 </attrib>
<attrib name="pop_scheme" type="string"> default </attrib>
<attrib name="start_uri_pri" type="integer"> 1 </attrib>
</section>
</DomainSpecification>
</CrawlerConfig>
Nota
Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.
See Also
Reference
Referencia de crawleradmin.exe