Referencia de crawlerglobaldefaults.xml

 

Se aplica a: FAST Search Server 2010

Última modificación del tema: 2015-03-09

Importante

Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.

Uso crawlerglobaldefaults.XmlPara especificar las opciones de configuración del rastreador Web de búsqueda FAST que se aplican a todas las colecciones de rastreo. Incluyen las opciones de configuración de DNS, el envío de contenido, detección de duplicados y otra configuración global. Se trata de una característica avanzada. Rara vez tendrá que utilizarla.

Advertencia

Se sobrescribe y se ha perdido si todos los cambios realizados en este archivo es:

  • Ejecute el cmdlet Windows PowerShell FASTSearchConfiguration del conjunto.

  • Instalar un paquete de actualización o el servicio de FAST Search Server 2010 for SharePoint.

Para evitar perder los cambios, asegúrese de que copia este archivo una vez que haya modificado.
No olvide volver a aplicar los cambios después de ejecutar el cmdlet de Set-FASTSearchConfiguration Windows PowerShell o instalar una actualización o el service pack de FAST Search Server 2010 for SharePoint.

Busca el Agente de búsqueda de FAST Search elcrawlerglobaldefaults.Xmlarchivo que se menciona en%FASTSEARCH%\etc\en el inicio (donde % FASTSEARCH % es la carpeta de instalación FAST Search Server 2010 for SharePoint.) Se puede reemplazar esta ubicación al pasar el argumento -F <path> para el crawler.exe ejecutable enNodeConf.xml(después de modificarNodeConf.xml, reiniciarnctrl.exeo bien ejecutar nctrl.exe reloadcfg).

Si uncrawlerglobaldefaults.Xmlarchivo no se encuentra, el rastreador Web de búsqueda FAST revierte los valores predeterminados para la configuración que se puede especificar en este archivo. Se pueden reemplazar algunas opciones de configuración en elcrawler.execommand line. Para obtener más información, vea Referencia de crawler.exe.

Personalizar crawlerglobaldefaults.xml

Nota

Para modificar un archivo de configuración, compruebe que cumple los requisitos mínimos siguientes: es un miembro del grupo local de FASTSearchAdministrators en el equipo donde está instalado FAST Search Server 2010 for SharePoint.

Para modificar este archivo:

  1. Editarcrawlerglobaldefaults.Xmlen un editor de texto, no un editor XML de propósito general. Utilice el archivo existente en%FASTSEARCH\etc\como punto de partida. Incluir los elementos y valores de configuración que necesite.

  2. Ejecute nctrl.exe restart crawler para reiniciar el proceso de rastreador Web de búsqueda FAST con las opciones configuradas en el paso 1.

Si el rastreador Web de búsqueda FAST se ejecuta como un rastreador de datos de varios nodos, se debe editar este archivo en cada servidor donde se ejecuta un rastreador de datos. También se debe reiniciar cada Rastreador de datos, ejecutando nctrl.exe restart multinodescheduler en el nodo que se está ejecutando el programador de varios nodos y nctrl.exe restart nodescheduler en los servidores que ejecutan a los programadores de nodo.

referencia rápida de crawlerglobaldefaults.Xml

Esta tabla enumeran los elementos decrawlerglobaldefaults.Xml. Los elementos pueden aparecer en cualquier orden, salvo para GlobalConfig, en el que deben incluirse todas las secciones y atributos, y member, que sólo puede aparecer dentro de un elemento de atributo.

Elemento Descripción

CrawlerConfig

Este elemento de raíz, identifica el archivo como un archivo de configuración del Rastreador de Web de búsqueda FAST.

GlobalConfig

Este elemento identifica el archivo como un archivo de configuración de la configuración global para el rastreador Web de búsqueda FAST.

attrib

Este elemento secundario especifica un valor de configuración, especificado por su valor o un conjunto de elementos de miembro. El formato:

<attrib name="name" type="string|integer|real|boolean"> value </attrib>

miembro

Este elemento secundario sólo puede realizarse en un elemento attrib. Se especifica un valor de configuración en una lista y tiene el formato:

<attrib name="name" type="list-string">   
  <member> first value </member>
  ..
  <member> last value </member>
</attrib>

sección

Este elemento secundario contiene varias opciones de configuración agrupados por tipo.

Esta tabla enumeran las opciones encrawlerglobaldefaults.Xml.

Opción Descripción

Opciones de GlobalConfig

Estas opciones son válidas dentro del elemento GlobalConfig.

las opciones de alimentación

Estas opciones son válidas dentro de un elemento de la sección que tiene el nombre "alimentación". Configuran las características de envío de los elementos Web para la indización de contenido.

Opciones de DNS

Estos atributos especifican la configuración relacionada con servicio de resolución DNS interno del Rastreador de datos.

Opciones de near_duplicate_detection

Estas opciones configura el duplicado de casi el algoritmo de detección para las colecciones que tengan habilitado.

Opciones de los tiempos de espera

Estas opciones especifican los valores de tiempo de espera de rastreador de datos global.

formato de archivo crawlerglobaldefaults.Xml

Elementos XML decrawlerglobaldefaults.Xmlcomenzar con < y terminan con />.

El formato de elemento básico es el siguiente:

<attrib name=" valor " type=" valor "> valor </attrib>

Por ejemplo:

<attrib name="sitemanager_numsites" type="integer" > 1024 </attrib>

Los elementos, nombres de sección, atributos y valores de atributo están entre mayúsculas y minúsculas. Tipos y nombres de atributo deben ir entre comillas ("") definición del elemento .An puede abarcar varias líneas. En una definición de elemento se omiten los espacios, retornos de carro, avances de línea y caracteres de tabulación.

Por ejemplo:

<attrib
    name="sitemanager_numsites"
    type="integer"
> 1024 </attrib
>

Sugerencia

Las definiciones de parámetro largo, coloque los valores en líneas independientes y utiliza la sangría para facilitar la lectura de archivo.

El elemento <GlobalConfig> es un caso especial y es necesario. Todos los demás elementos se encuentran dentro del elemento <GlobalConfig> y se cierra el elemento con </GlobalConfig>.

La estructura básica de lacrawlerglobaldefaults.Xmles el siguiente archivo:

<?xml version="1.0"?>
<CrawlerConfig>
    <GlobalConfig>
        ...
    </GlobalConfig>
</CrawlerConfig>

Puede agregar comentarios en cualquier lugar, delimitados por <!-- y -->.

CrawlerConfig

Éste es el elemento de nivel superior. No tiene ningún atributo.

GlobalConfig

Este elemento contiene la configuración del Rastreador de datos global. No tiene ningún atributo.

attrib

Este elemento secundario especifica una opción de configuración, un valor único o una lista mediante el elemento member.

Atributos

Atributo Valor Descripción

Nombre

nombre de la opción

Especifica la opción de configurar. Ver las opciones válidas en las secciones de la opción más adelante en este tema.

type

string|integer|real|boolean|list-string

Especifica el tipo del valor de opción:

  • string - especifica un tipo de cadena del valor de opción.

  • integer - especifica un tipo de entero para el valor de opción. El intervalo de número entero es 0-2 ^ 31 a menos que otra cosa.

  • real - especifica un tipo real del valor de opción. El intervalo real es de 0 a 2 ^ 63 a menos que otra cosa.

  • boolean - especifica un tipo booleano para el valor de opción. Los valores de tipo Boolean válidos son "yes" y "no".

  • list-string - especifica que el valor de opción es una lista de valores, especificado por uno o varios elementos member.

El valor del atributo type debe coincidir con el type asociado con la opción que se ha especificado para el atributo name. For example, the numprocs option must always be used with the integer type.

Ejemplo

En el ejemplo siguiente se especifica el valor 2 para la opción numprocs:

<attrib name="numprocs" type="integer"> 2 </attrib>

miembro

Especifica un elemento en una lista de valores de opción. It has no attributes.

El elemento member sólo se puede utilizar dentro de un elemento attrib.

Ejemplo

En el ejemplo siguiente se especifica dos motores de explorador para la opción browser_engines:

<attrib name="browser_engines" type="list-string">
    <member> hostname1:13045 </member>
    <member> hostname2:13045 </member>
</attrib>

Sección

This child element groups a set of related options. Un elemento section contiene elementos attrib.

Atributos

Atributo

Valor

Descripción

Nombre

nombre

Especifica el nombre de la sección. Supported sections are listed in the options tables later in this topic.

Ejemplo

El siguiente ejemplo configura las opciones de DNS, sólo la opción de timeout:

<section name="dns">
    <attrib name="timeout" type="integer"> 30 </attrib>
</section>

Opciones de GlobalConfig

Estas opciones son válidas dentro del elemento GlobalConfig.

Opción Tipo Valor Descripción

browser_engines

cadena de la lista

hostname:Port

Lista de los motores de explorador. El Rastreador de datos utiliza en el proceso de las páginas Web que contienen archivos JavaScript.

De forma predeterminada: configurados automáticamente por el programa de instalación

datadir

Cadena

directorio

La ubicación del almacén de contenido de rastreador de datos. Se reemplaza por la opción de -d crawler.exe.

dbtrace

Booleanos

yes|no

Habilitar o deshabilitar el seguimiento de la operación de base de datos. Para la depuración sólo.

De forma predeterminada: no

directio

Booleanos

yes|no

Habilita o deshabilita la E/s directa en el servidor postprocess y duplicado. Para la depuración sólo.

De forma predeterminada: no

disk_resume_threshold

real

1-2 ^ 63

Umbral (en bytes) a la que el Rastreador reanuda el rastreo de todas las colecciones, si ya han suspendido por disk_suspend_threshold.

De forma predeterminada: 629145600

disk_suspend_threshold

real

1-2 ^ 63

Umbral (en bytes) cuando el Rastreador de datos suspende el rastreo de todas las colecciones.

De forma predeterminada: 524288000

dns_use_platform_api

Booleanos

yes|no

Especifica si se utiliza la API de gethostbyname del sistema operativo para resolver nombres DNS y nombres de NetBIOS o la resolución interna.

La resolución DNS interna ofrece un mejor rendimiento y escalabilidad, pero no es compatible con los nombres NetBIOS.

De forma predeterminada: Sí

duplicate_servers

cadena de la lista

hostname:Port

Lista de servidores duplicados.

De forma predeterminada: configurados automáticamente por el programa de instalación

logdir

Cadena

directorio

La ubicación del registro del rastreador. Se reemplaza por la opción de -L crawler.exe

logfile_ttl

entero

1-2 ^ 31

Cómo tiempo (en días) para mantener los archivos de registro girados antes de eliminarlos.

De forma predeterminada: 365

numprocs

entero

1-8

Número de procesos del Administrador de sitio para iniciar.

De forma predeterminada: 2

ppdup_dbformat

Cadena

hastlog|diskhashlog|gigabase

Formato de base de datos que se utiliza el servidor duplicado en una implementación de rastreador Web de búsqueda FAST varios nodos.

De forma predeterminada: hashlog

rc_update_freq

entero

1 y 3600.

Especifica la frecuencia de actualización de estadísticas de rastreo (en segundos) para el servicio de supervisión.

De forma predeterminada: 120

sitemanager_numsites

entero

1-1024

Número máximo de los trabajadores del sitio por el administrador del sitio.

De forma predeterminada: 1024

store_cleanup

Cadena

HH: mm

Hora de la limpieza diaria de almacenamiento que utiliza el tiempo de reloj de 24 horas.

De forma predeterminada: 04: 00

xmlrpcport

entero

número de puerto

El puerto de rastreador de datos base. Se reemplaza por la opción de -p crawler.exe

Ejemplo

El ejemplo siguiente especifica las opciones de tipos diferentes:

<attrib name="ipv4" type="boolean"> yes </attrib>
<attrib name="numprocs" type="integer"> 2 </attrib>
<attrib name="disk_resume_threshold" type="real"> 629145600 </attrib>
<attrib name="browser_engines" type="list-string">
    <member> localhost:13045 </member>
</attrib>s

las opciones de alimentación

Las siguientes opciones son válidas dentro de un elemento de la sección que tiene el nombre feeding. Estas opciones configurar características de envío de los elementos Web para la indización de contenido.

Opción Tipo Valor Descripción

feeder_threads

entero

1-8

Especifica el número de subprocesos del alimentador de contenido para iniciar. Para los escenarios a gran escala, lo que aumenta el número de subprocesos puede mejorar el rendimiento.

Nota

Sólo se debe cambiar cuando el%FASTSEARCH%\data\crawler\store\dsqueuesel directorio está vacío.

De forma predeterminada: 1

fs_threshold

entero

0-2 ^ 31

Especifica el tamaño máximo de elementos enviados en un lote para la indización. Se enviará ningún elemento mayor que este valor como una referencia de dirección URL, que el procesador de elemento de descarga por separado desde el Rastreador de datos.

De forma predeterminada: 128

max_batch_datasize

entero

0-2 ^ 31

Especifica el número máximo de bytes por lote. Reducir el tamaño de datos máximo del lote puede reducir el uso de memoria de procesador de elemento.

De forma predeterminada: 50 MB

max_batch_size

entero

1-1024

El número máximo de elementos de cada lote de envío. Si no hay suficientes elementos que están disponibles, o si el tamaño de la memoria del lote demasiado grande, se pueden enviar lotes más pequeños.

Reducir el tamaño máximo del lote, puede reducir el uso de memoria de procesador de elemento, pero también puede disminuir el rendimiento.

De forma predeterminada: 128

max_cb_timeout

entero

1 y 3600.

El número máximo de segundos de espera para las devoluciones de llamada pendientes en durante el cierre de la indización de contenido.

Valor predeterminado: 1800

Ejemplo

En el ejemplo siguiente se especifica una sección de alimentación típica:

<section name="feeding">
  <attrib name="feeder_threads" type="integer"> 1 </attrib>
  <attrib name="max_cb_timeout" type="integer"> 1800 </attrib>
  <attrib name="max_batch_size" type="integer"> 128 </attrib>
  <attrib name="max_batch_datasize" type="integer"> 52428800 </attrib>
  <attrib name="fs_threshold" type="integer"> 128 </attrib>
</section>

Opciones de DNS

Estos atributos especifican la configuración relacionada con servicio de resolución DNS interno del Rastreador de datos. In single node installations, the node scheduler calls DNS to resolve host names. In a multiple node installation, this job is performed by the multi-node scheduler.

Opción Tipo Valor Descripción

db_cachesize

entero

1-2 ^ 31

Tamaño de caché de base de datos DNS en bytes. Un programador de tareas múltiples nodos utilizará esta cantidad de 4 veces.

De forma predeterminada: 10485760

ipv4

Booleanos

yes|no

Indica si el Rastreador de datos debe resolver los nombres de host en direcciones IPv4.

De forma predeterminada: Sí

ipv6

Booleanos

yes|no

Especifica si el Rastreador de datos debe resolver los nombres de host en direcciones IPv6.

De forma predeterminada: Sí

max_rate

entero

1-200

Número máximo de solicitudes DNS para enviar por segundo.

De forma predeterminada: 100

max_retries

entero

1-10

Número máximo de reintentos DNS para que emita una búsqueda de errores antes de desistir.

Valor predeterminado: 5

min_rate

entero

1-10

Número mínimo de las solicitudes DNS al que se emiten por segundo.

Valor predeterminado: 5

min_ttl

entero

1-2 ^ 31

Vigencia mínima de los nombres resueltos (en segundos) antes de que intente volver a resolver incorrectamente.

De forma predeterminada: 21600

timeout

entero

1-300

DNS solicitar tiempo de espera (en segundos) antes de volver a intentarlo.

Valor predeterminado de 30.

La configuración de min_rate, max_rate, max_retries y timeout sólo se aplica cuando se utiliza la resolución DNS interna en lugar de la resolución DNS del sistema operativo. Hacer referencia a la opción dns_use_platform_api que controla este setting.You debe especificar ip4 o ipv6 establecida en yes.

Ejemplo

En el ejemplo siguiente se especifica una sección DNS típica:

<section name="dns">
  <attrib name="min_rate" type="integer"> 5 </attrib>
  <attrib name="max_rate" type="integer"> 100 </attrib>
  <attrib name="max_retries" type="integer"> 5 </attrib>
  <attrib name="timeout" type="integer"> 30 </attrib>
  <attrib name="min_ttl" type="integer"> 21600 </attrib>
  <attrib name="db_cachesize" type="integer"> 10485760 </attrib>
  <attrib name="ipv4 " type="integer"> yes </attrib>
  <attrib name="ipv6 " type="integer"> yes </attrib>
</section>

Opciones de near_duplicate_detection

Near duplicate detection is enabled on a per-collection basis. Near duplicate detection only works for languages that use a white space word separator, e.g. western languages. Estas opciones configura el duplicado de casi el algoritmo de detección para las colecciones que tengan habilitado.

Opción Tipo Valor Descripción

min_token_size

entero

1-(max_token_size-1)

Esta opción especifica el número mínimo de caracteres que debe tener un símbolo (token) que desea incluir en el léxico (el léxico es una lista de las palabras que se producen en un elemento). Símbolos (token) que contiene menos caracteres se excluye de la biblioteca.

Valor predeterminado: 5

max_token_size

entero

1-100

Especifica la longitud máxima de caracteres para un símbolo (token). Símbolos (token) que contienen más caracteres se excluye de la política (el léxico es una lista de las palabras que se producen en un elemento).

De forma predeterminada: 35

unique_tokens

entero

1-10

Especifica el número mínimo de símbolos (token) único que debe contener un léxico para llevar a cabo avanzadas de detección de duplicados. (Un léxico es la lista de las palabras que se producen en un elemento.) A continuación de este nivel, la suma de comprobación se calcula en toda la item.

De forma predeterminada: 10

high_freq_cut

real

0.0 y 1.0

Especifica el porcentaje de símbolos (token) (como un decimal) con una alta frecuencia para cortar de la política (un léxico es la lista de las palabras que se producen en un elemento).

De forma predeterminada: 0,1

low_freq_cut

real

0.0 y 1.0

Especifica el porcentaje de símbolos (token) (como un decimal) con una frecuencia baja para cortar de la política (un léxico es la lista de las palabras que se producen en un elemento).

De forma predeterminada: 0,2

Ejemplo

En el ejemplo siguiente se especifica una sección near_duplicate_detection típico:

<section name='near_duplicate_detection'>
  <attrib name="min_token_size" type="integer"> 5 </attrib>
  <attrib name="max_token_size" type="integer"> 35 </attrib>
  <attrib name="unique_tokens" type="integer"> 10 </attrib>
  <attrib name="high_freq_cut" type="real"> 0.1 </attrib>
  <attrib name="low_freq_cut" type="real"> 0.2 </attrib>
</section>

Opciones de los tiempos de espera

Estas opciones especifican diversas opciones de tiempo de espera de rastreador de datos global.

Opción Tipo Valor Descripción

compaction_idle

entero

1-3600

Especifica el período de tiempo de espera (en segundos) para toda la actividad de rastreo en curso Detener, en preparación para el contenido de todas las noches, almacenar la desfragmentación.

Los administradores de sitios que no están inactivos en este momento se deben detener para que pueda comenzar la desfragmentación.

Valor predeterminado: 600

compaction_kill

entero

1-3600

Especifica el período de tiempo de espera (en segundos) para que los administradores de sitios para que se cierre antes de la desfragmentación. Se pueden eliminar los procesos del Administrador de sitio que no se detienen durante este tiempo.

De forma predeterminada: 120

shutdown_fileserver

entero

1-3600

Especifica el período de tiempo de espera de cierre del sistema (en segundos) para el servidor de archivos. Los procesos que no apaguen dentro del período de tiempo de espera son eliminados.

De forma predeterminada: 10

shutdown_postprocess

entero

1-3600

Especifica el período de tiempo de espera de cierre del sistema (en segundos) para el procesamiento. Los procesos que no apaguen dentro del período de tiempo de espera son eliminados.

De forma predeterminada: 300

shutdown_sitemanager

entero

1-3600

Especifica el período de tiempo de espera de cierre del sistema (en segundos) para el administrador del sitio. Los procesos que no apaguen dentro del período de tiempo de espera son eliminados.

De forma predeterminada: 300

Ejemplo

En el ejemplo siguiente se especifica una sección típico de tiempo de espera:

<section name="timeouts">
  <attrib name="compaction_idle" type="integer"> 600 </attrib>
  <attrib name="compaction_kill" type="integer"> 120 </attrib>
  <attrib name="shutdown_sitemanager" type="integer"> 300 </attrib>
  <attrib name="shutdown_postprocess" type="integer"> 300 </attrib>
  <attrib name="shutdown_fileserver" type="integer"> 10 </attrib>
</section>

Nota

Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.

See Also

Reference

Referencia de crawler.exe

Concepts

Referencia de configuración XML del agente de búsqueda