Referencia de crawlerglobaldefaults.xml
Se aplica a: FAST Search Server 2010
Última modificación del tema: 2015-03-09
Importante
Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.
Uso crawlerglobaldefaults.XmlPara especificar las opciones de configuración del rastreador Web de búsqueda FAST que se aplican a todas las colecciones de rastreo. Incluyen las opciones de configuración de DNS, el envío de contenido, detección de duplicados y otra configuración global. Se trata de una característica avanzada. Rara vez tendrá que utilizarla.
Advertencia
Se sobrescribe y se ha perdido si todos los cambios realizados en este archivo es:
-
Ejecute el cmdlet Windows PowerShell FASTSearchConfiguration del conjunto.
-
Instalar un paquete de actualización o el servicio de FAST Search Server 2010 for SharePoint.
No olvide volver a aplicar los cambios después de ejecutar el cmdlet de Set-FASTSearchConfiguration Windows PowerShell o instalar una actualización o el service pack de FAST Search Server 2010 for SharePoint.
Busca el Agente de búsqueda de FAST Search elcrawlerglobaldefaults.Xmlarchivo que se menciona en%FASTSEARCH%\etc\en el inicio (donde % FASTSEARCH % es la carpeta de instalación FAST Search Server 2010 for SharePoint.) Se puede reemplazar esta ubicación al pasar el argumento -F <path> para el crawler.exe ejecutable enNodeConf.xml(después de modificarNodeConf.xml, reiniciarnctrl.exeo bien ejecutar nctrl.exe reloadcfg).
Si uncrawlerglobaldefaults.Xmlarchivo no se encuentra, el rastreador Web de búsqueda FAST revierte los valores predeterminados para la configuración que se puede especificar en este archivo. Se pueden reemplazar algunas opciones de configuración en elcrawler.execommand line. Para obtener más información, vea Referencia de crawler.exe.
Personalizar crawlerglobaldefaults.xml
Nota
Para modificar un archivo de configuración, compruebe que cumple los requisitos mínimos siguientes: es un miembro del grupo local de FASTSearchAdministrators en el equipo donde está instalado FAST Search Server 2010 for SharePoint.
Para modificar este archivo:
Editarcrawlerglobaldefaults.Xmlen un editor de texto, no un editor XML de propósito general. Utilice el archivo existente en%FASTSEARCH\etc\como punto de partida. Incluir los elementos y valores de configuración que necesite.
Ejecute nctrl.exe restart crawler para reiniciar el proceso de rastreador Web de búsqueda FAST con las opciones configuradas en el paso 1.
Si el rastreador Web de búsqueda FAST se ejecuta como un rastreador de datos de varios nodos, se debe editar este archivo en cada servidor donde se ejecuta un rastreador de datos. También se debe reiniciar cada Rastreador de datos, ejecutando nctrl.exe restart multinodescheduler en el nodo que se está ejecutando el programador de varios nodos y nctrl.exe restart nodescheduler en los servidores que ejecutan a los programadores de nodo.
referencia rápida de crawlerglobaldefaults.Xml
Esta tabla enumeran los elementos decrawlerglobaldefaults.Xml. Los elementos pueden aparecer en cualquier orden, salvo para GlobalConfig, en el que deben incluirse todas las secciones y atributos, y member, que sólo puede aparecer dentro de un elemento de atributo.
Elemento | Descripción |
---|---|
CrawlerConfig |
Este elemento de raíz, identifica el archivo como un archivo de configuración del Rastreador de Web de búsqueda FAST. |
GlobalConfig |
Este elemento identifica el archivo como un archivo de configuración de la configuración global para el rastreador Web de búsqueda FAST. |
attrib |
Este elemento secundario especifica un valor de configuración, especificado por su valor o un conjunto de elementos de miembro. El formato:
|
miembro |
Este elemento secundario sólo puede realizarse en un elemento attrib. Se especifica un valor de configuración en una lista y tiene el formato:
|
sección |
Este elemento secundario contiene varias opciones de configuración agrupados por tipo. |
Esta tabla enumeran las opciones encrawlerglobaldefaults.Xml.
Opción | Descripción |
---|---|
Opciones de GlobalConfig |
Estas opciones son válidas dentro del elemento GlobalConfig. |
las opciones de alimentación |
Estas opciones son válidas dentro de un elemento de la sección que tiene el nombre "alimentación". Configuran las características de envío de los elementos Web para la indización de contenido. |
Opciones de DNS |
Estos atributos especifican la configuración relacionada con servicio de resolución DNS interno del Rastreador de datos. |
Opciones de near_duplicate_detection |
Estas opciones configura el duplicado de casi el algoritmo de detección para las colecciones que tengan habilitado. |
Opciones de los tiempos de espera |
Estas opciones especifican los valores de tiempo de espera de rastreador de datos global. |
formato de archivo crawlerglobaldefaults.Xml
Elementos XML decrawlerglobaldefaults.Xmlcomenzar con <
y terminan con />
.
El formato de elemento básico es el siguiente:
<attrib name=" valor " type=" valor "> valor </attrib>
Por ejemplo:
<attrib name="sitemanager_numsites" type="integer" > 1024 </attrib>
Los elementos, nombres de sección, atributos y valores de atributo están entre mayúsculas y minúsculas. Tipos y nombres de atributo deben ir entre comillas ("") definición del elemento .An puede abarcar varias líneas. En una definición de elemento se omiten los espacios, retornos de carro, avances de línea y caracteres de tabulación.
Por ejemplo:
<attrib
name="sitemanager_numsites"
type="integer"
> 1024 </attrib
>
Sugerencia
Las definiciones de parámetro largo, coloque los valores en líneas independientes y utiliza la sangría para facilitar la lectura de archivo.
El elemento <GlobalConfig>
es un caso especial y es necesario. Todos los demás elementos se encuentran dentro del elemento <GlobalConfig>
y se cierra el elemento con </GlobalConfig>.
La estructura básica de lacrawlerglobaldefaults.Xmles el siguiente archivo:
<?xml version="1.0"?>
<CrawlerConfig>
<GlobalConfig>
...
</GlobalConfig>
</CrawlerConfig>
Puede agregar comentarios en cualquier lugar, delimitados por <!--
y -->
.
CrawlerConfig
Éste es el elemento de nivel superior. No tiene ningún atributo.
GlobalConfig
Este elemento contiene la configuración del Rastreador de datos global. No tiene ningún atributo.
attrib
Este elemento secundario especifica una opción de configuración, un valor único o una lista mediante el elemento member.
Atributos
Atributo | Valor | Descripción |
---|---|---|
Nombre |
nombre de la opción |
Especifica la opción de configurar. Ver las opciones válidas en las secciones de la opción más adelante en este tema. |
type |
string|integer|real|boolean|list-string |
Especifica el tipo del valor de opción:
|
El valor del atributo type debe coincidir con el type asociado con la opción que se ha especificado para el atributo name. For example, the numprocs option must always be used with the integer type.
Ejemplo
En el ejemplo siguiente se especifica el valor 2 para la opción numprocs:
<attrib name="numprocs" type="integer"> 2 </attrib>
miembro
Especifica un elemento en una lista de valores de opción. It has no attributes.
El elemento member sólo se puede utilizar dentro de un elemento attrib.
Ejemplo
En el ejemplo siguiente se especifica dos motores de explorador para la opción browser_engines:
<attrib name="browser_engines" type="list-string">
<member> hostname1:13045 </member>
<member> hostname2:13045 </member>
</attrib>
Sección
This child element groups a set of related options. Un elemento section contiene elementos attrib.
Atributos
Atributo |
Valor |
Descripción |
Nombre |
nombre |
Especifica el nombre de la sección. Supported sections are listed in the options tables later in this topic. |
Ejemplo
El siguiente ejemplo configura las opciones de DNS, sólo la opción de timeout:
<section name="dns">
<attrib name="timeout" type="integer"> 30 </attrib>
</section>
Opciones de GlobalConfig
Estas opciones son válidas dentro del elemento GlobalConfig.
Opción | Tipo | Valor | Descripción |
---|---|---|---|
browser_engines |
cadena de la lista |
hostname:Port |
Lista de los motores de explorador. El Rastreador de datos utiliza en el proceso de las páginas Web que contienen archivos JavaScript. De forma predeterminada: configurados automáticamente por el programa de instalación |
datadir |
Cadena |
directorio |
La ubicación del almacén de contenido de rastreador de datos. Se reemplaza por la opción de -d crawler.exe. |
dbtrace |
Booleanos |
yes|no |
Habilitar o deshabilitar el seguimiento de la operación de base de datos. Para la depuración sólo. De forma predeterminada: no |
directio |
Booleanos |
yes|no |
Habilita o deshabilita la E/s directa en el servidor postprocess y duplicado. Para la depuración sólo. De forma predeterminada: no |
disk_resume_threshold |
real |
1-2 ^ 63 |
Umbral (en bytes) a la que el Rastreador reanuda el rastreo de todas las colecciones, si ya han suspendido por disk_suspend_threshold. De forma predeterminada: 629145600 |
disk_suspend_threshold |
real |
1-2 ^ 63 |
Umbral (en bytes) cuando el Rastreador de datos suspende el rastreo de todas las colecciones. De forma predeterminada: 524288000 |
dns_use_platform_api |
Booleanos |
yes|no |
Especifica si se utiliza la API de gethostbyname del sistema operativo para resolver nombres DNS y nombres de NetBIOS o la resolución interna. La resolución DNS interna ofrece un mejor rendimiento y escalabilidad, pero no es compatible con los nombres NetBIOS. De forma predeterminada: Sí |
duplicate_servers |
cadena de la lista |
hostname:Port |
Lista de servidores duplicados. De forma predeterminada: configurados automáticamente por el programa de instalación |
logdir |
Cadena |
directorio |
La ubicación del registro del rastreador. Se reemplaza por la opción de -L crawler.exe |
logfile_ttl |
entero |
1-2 ^ 31 |
Cómo tiempo (en días) para mantener los archivos de registro girados antes de eliminarlos. De forma predeterminada: 365 |
numprocs |
entero |
1-8 |
Número de procesos del Administrador de sitio para iniciar. De forma predeterminada: 2 |
ppdup_dbformat |
Cadena |
hastlog|diskhashlog|gigabase |
Formato de base de datos que se utiliza el servidor duplicado en una implementación de rastreador Web de búsqueda FAST varios nodos. De forma predeterminada: hashlog |
rc_update_freq |
entero |
1 y 3600. |
Especifica la frecuencia de actualización de estadísticas de rastreo (en segundos) para el servicio de supervisión. De forma predeterminada: 120 |
sitemanager_numsites |
entero |
1-1024 |
Número máximo de los trabajadores del sitio por el administrador del sitio. De forma predeterminada: 1024 |
store_cleanup |
Cadena |
HH: mm |
Hora de la limpieza diaria de almacenamiento que utiliza el tiempo de reloj de 24 horas. De forma predeterminada: 04: 00 |
xmlrpcport |
entero |
número de puerto |
El puerto de rastreador de datos base. Se reemplaza por la opción de -p crawler.exe |
Ejemplo
El ejemplo siguiente especifica las opciones de tipos diferentes:
<attrib name="ipv4" type="boolean"> yes </attrib>
<attrib name="numprocs" type="integer"> 2 </attrib>
<attrib name="disk_resume_threshold" type="real"> 629145600 </attrib>
<attrib name="browser_engines" type="list-string">
<member> localhost:13045 </member>
</attrib>s
las opciones de alimentación
Las siguientes opciones son válidas dentro de un elemento de la sección que tiene el nombre feeding. Estas opciones configurar características de envío de los elementos Web para la indización de contenido.
Opción | Tipo | Valor | Descripción |
---|---|---|---|
feeder_threads |
entero |
1-8 |
Especifica el número de subprocesos del alimentador de contenido para iniciar. Para los escenarios a gran escala, lo que aumenta el número de subprocesos puede mejorar el rendimiento. Nota Sólo se debe cambiar cuando el%FASTSEARCH%\data\crawler\store\dsqueuesel directorio está vacío. De forma predeterminada: 1 |
fs_threshold |
entero |
0-2 ^ 31 |
Especifica el tamaño máximo de elementos enviados en un lote para la indización. Se enviará ningún elemento mayor que este valor como una referencia de dirección URL, que el procesador de elemento de descarga por separado desde el Rastreador de datos. De forma predeterminada: 128 |
max_batch_datasize |
entero |
0-2 ^ 31 |
Especifica el número máximo de bytes por lote. Reducir el tamaño de datos máximo del lote puede reducir el uso de memoria de procesador de elemento. De forma predeterminada: 50 MB |
max_batch_size |
entero |
1-1024 |
El número máximo de elementos de cada lote de envío. Si no hay suficientes elementos que están disponibles, o si el tamaño de la memoria del lote demasiado grande, se pueden enviar lotes más pequeños. Reducir el tamaño máximo del lote, puede reducir el uso de memoria de procesador de elemento, pero también puede disminuir el rendimiento. De forma predeterminada: 128 |
max_cb_timeout |
entero |
1 y 3600. |
El número máximo de segundos de espera para las devoluciones de llamada pendientes en durante el cierre de la indización de contenido. Valor predeterminado: 1800 |
Ejemplo
En el ejemplo siguiente se especifica una sección de alimentación típica:
<section name="feeding">
<attrib name="feeder_threads" type="integer"> 1 </attrib>
<attrib name="max_cb_timeout" type="integer"> 1800 </attrib>
<attrib name="max_batch_size" type="integer"> 128 </attrib>
<attrib name="max_batch_datasize" type="integer"> 52428800 </attrib>
<attrib name="fs_threshold" type="integer"> 128 </attrib>
</section>
Opciones de DNS
Estos atributos especifican la configuración relacionada con servicio de resolución DNS interno del Rastreador de datos. In single node installations, the node scheduler calls DNS to resolve host names. In a multiple node installation, this job is performed by the multi-node scheduler.
Opción | Tipo | Valor | Descripción |
---|---|---|---|
db_cachesize |
entero |
1-2 ^ 31 |
Tamaño de caché de base de datos DNS en bytes. Un programador de tareas múltiples nodos utilizará esta cantidad de 4 veces. De forma predeterminada: 10485760 |
ipv4 |
Booleanos |
yes|no |
Indica si el Rastreador de datos debe resolver los nombres de host en direcciones IPv4. De forma predeterminada: Sí |
ipv6 |
Booleanos |
yes|no |
Especifica si el Rastreador de datos debe resolver los nombres de host en direcciones IPv6. De forma predeterminada: Sí |
max_rate |
entero |
1-200 |
Número máximo de solicitudes DNS para enviar por segundo. De forma predeterminada: 100 |
max_retries |
entero |
1-10 |
Número máximo de reintentos DNS para que emita una búsqueda de errores antes de desistir. Valor predeterminado: 5 |
min_rate |
entero |
1-10 |
Número mínimo de las solicitudes DNS al que se emiten por segundo. Valor predeterminado: 5 |
min_ttl |
entero |
1-2 ^ 31 |
Vigencia mínima de los nombres resueltos (en segundos) antes de que intente volver a resolver incorrectamente. De forma predeterminada: 21600 |
timeout |
entero |
1-300 |
DNS solicitar tiempo de espera (en segundos) antes de volver a intentarlo. Valor predeterminado de 30. |
La configuración de min_rate, max_rate, max_retries y timeout sólo se aplica cuando se utiliza la resolución DNS interna en lugar de la resolución DNS del sistema operativo. Hacer referencia a la opción dns_use_platform_api que controla este setting.You debe especificar ip4 o ipv6 establecida en yes.
Ejemplo
En el ejemplo siguiente se especifica una sección DNS típica:
<section name="dns">
<attrib name="min_rate" type="integer"> 5 </attrib>
<attrib name="max_rate" type="integer"> 100 </attrib>
<attrib name="max_retries" type="integer"> 5 </attrib>
<attrib name="timeout" type="integer"> 30 </attrib>
<attrib name="min_ttl" type="integer"> 21600 </attrib>
<attrib name="db_cachesize" type="integer"> 10485760 </attrib>
<attrib name="ipv4 " type="integer"> yes </attrib>
<attrib name="ipv6 " type="integer"> yes </attrib>
</section>
Opciones de near_duplicate_detection
Near duplicate detection is enabled on a per-collection basis. Near duplicate detection only works for languages that use a white space word separator, e.g. western languages. Estas opciones configura el duplicado de casi el algoritmo de detección para las colecciones que tengan habilitado.
Opción | Tipo | Valor | Descripción |
---|---|---|---|
min_token_size |
entero |
1-(max_token_size-1) |
Esta opción especifica el número mínimo de caracteres que debe tener un símbolo (token) que desea incluir en el léxico (el léxico es una lista de las palabras que se producen en un elemento). Símbolos (token) que contiene menos caracteres se excluye de la biblioteca. Valor predeterminado: 5 |
max_token_size |
entero |
1-100 |
Especifica la longitud máxima de caracteres para un símbolo (token). Símbolos (token) que contienen más caracteres se excluye de la política (el léxico es una lista de las palabras que se producen en un elemento). De forma predeterminada: 35 |
unique_tokens |
entero |
1-10 |
Especifica el número mínimo de símbolos (token) único que debe contener un léxico para llevar a cabo avanzadas de detección de duplicados. (Un léxico es la lista de las palabras que se producen en un elemento.) A continuación de este nivel, la suma de comprobación se calcula en toda la item. De forma predeterminada: 10 |
high_freq_cut |
real |
0.0 y 1.0 |
Especifica el porcentaje de símbolos (token) (como un decimal) con una alta frecuencia para cortar de la política (un léxico es la lista de las palabras que se producen en un elemento). De forma predeterminada: 0,1 |
low_freq_cut |
real |
0.0 y 1.0 |
Especifica el porcentaje de símbolos (token) (como un decimal) con una frecuencia baja para cortar de la política (un léxico es la lista de las palabras que se producen en un elemento). De forma predeterminada: 0,2 |
Ejemplo
En el ejemplo siguiente se especifica una sección near_duplicate_detection típico:
<section name='near_duplicate_detection'>
<attrib name="min_token_size" type="integer"> 5 </attrib>
<attrib name="max_token_size" type="integer"> 35 </attrib>
<attrib name="unique_tokens" type="integer"> 10 </attrib>
<attrib name="high_freq_cut" type="real"> 0.1 </attrib>
<attrib name="low_freq_cut" type="real"> 0.2 </attrib>
</section>
Opciones de los tiempos de espera
Estas opciones especifican diversas opciones de tiempo de espera de rastreador de datos global.
Opción | Tipo | Valor | Descripción |
---|---|---|---|
compaction_idle |
entero |
1-3600 |
Especifica el período de tiempo de espera (en segundos) para toda la actividad de rastreo en curso Detener, en preparación para el contenido de todas las noches, almacenar la desfragmentación. Los administradores de sitios que no están inactivos en este momento se deben detener para que pueda comenzar la desfragmentación. Valor predeterminado: 600 |
compaction_kill |
entero |
1-3600 |
Especifica el período de tiempo de espera (en segundos) para que los administradores de sitios para que se cierre antes de la desfragmentación. Se pueden eliminar los procesos del Administrador de sitio que no se detienen durante este tiempo. De forma predeterminada: 120 |
shutdown_fileserver |
entero |
1-3600 |
Especifica el período de tiempo de espera de cierre del sistema (en segundos) para el servidor de archivos. Los procesos que no apaguen dentro del período de tiempo de espera son eliminados. De forma predeterminada: 10 |
shutdown_postprocess |
entero |
1-3600 |
Especifica el período de tiempo de espera de cierre del sistema (en segundos) para el procesamiento. Los procesos que no apaguen dentro del período de tiempo de espera son eliminados. De forma predeterminada: 300 |
shutdown_sitemanager |
entero |
1-3600 |
Especifica el período de tiempo de espera de cierre del sistema (en segundos) para el administrador del sitio. Los procesos que no apaguen dentro del período de tiempo de espera son eliminados. De forma predeterminada: 300 |
Ejemplo
En el ejemplo siguiente se especifica una sección típico de tiempo de espera:
<section name="timeouts">
<attrib name="compaction_idle" type="integer"> 600 </attrib>
<attrib name="compaction_kill" type="integer"> 120 </attrib>
<attrib name="shutdown_sitemanager" type="integer"> 300 </attrib>
<attrib name="shutdown_postprocess" type="integer"> 300 </attrib>
<attrib name="shutdown_fileserver" type="integer"> 10 </attrib>
</section>
Nota
Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.