Cómo afectan los separadores de palabras, lematizadores y archivos de palabras irrelevantes a los resultados de la búsqueda (Search Server 2008)

Nota

A menos que se especifique lo contrario, la información de este artículo se aplica a Microsoft Search Server 2008 y Microsoft Search Server 2008 Express.

Los separadores de palabras, los lematizadores y los archivos de palabras irrelevantes forman parte de los procesos de indización y consulta.

En este artículo:

  • Separadores de palabras

  • Lematizadores

  • Archivos de palabras irrelevantes

Separadores de palabras

Un separador de palabras es un componente usado para dividir cadenas de texto en palabras individuales durante los procesos de indización y consulta. Durante el proceso de indización, se extrae el texto de los elementos de contenido como una cadena de caracteres sin dividir. Los separadores de palabras restablecen la ubicación en la que empieza y termina cada palabra de la cadena de caracteres. Además, los separadores de palabras separan palabras compuestas para que los usuarios reciban un resultado de consulta de una parte de la palabra compuesta original, así como los términos individuales que componen la palabra compuesta. Asimismo, los separadores de palabras convierten los números y las fechas de los elementos de contenido a un formato estándar.

Cada idioma tiene separadores de palabras diferentes. El motor de indización decide qué separador de palabras se va a usar y, si se detecta más de un idioma, se puede usar más de un separador de palabras para el texto de un solo documento. Si no existe ningún separador de palabras para un idioma concreto, se usa el separador de palabras independiente del idioma.

El motor de consulta también usa separadores de palabras. Si el usuario envía una consulta, se usa un separador de palabras para separar las palabras compuestas y frases. Esto aumenta las posibilidades de que la consulta del usuario coincida con los términos del índice de contenido. Durante la consulta, el idioma del separador de palabras se determina mediante el idioma del explorador web del usuario.

De forma predeterminada, Search Server 2008 instala los separadores de palabras incluidos en la siguiente tabla en cada servidor de una granja de Servidor de búsqueda.

Árabe

Húngaro

Punyabí

Bengalí

Islandés

Rumano

Búlgaro

Indonesio

Ruso

Catalán

Italiano

Serbio (cirílico)

Croata

Japonés

Serbio (latino)

Checo

Canarés

Eslovaco

Danés

Coreano

Esloveno

Neerlandés

Letón

Español

Inglés

Lituano

Sueco

Finés

Malayo

Tamil

Francés

Malayalam

Telugu

Alemán

Marathi

Tailandés

Griego

Noruego (Bokmaal)

Turco

Gujarati

Polaco

Ucraniano

Hebreo

Portugués

Urdú

Hindi

Portugués (Brasil)

Vietnamita

Lematizadores

Un lematizador es un componente que busca la raíz de un término y puede generar variaciones del mismo. Por ejemplo, en español, si la consulta contiene la palabra “comprado”, el lematizador puede agregar la raíz “compr-” a la consulta y generar otras formas del término, como “compra” y “comprando”, para agregarlas a la consulta.

Los lematizadores son específicos del idioma y pueden proporcionar distintas capacidades según el idioma admitido. Algunos lematizadores buscan la raíz, pero no generan formas adicionales de las palabras. De forma predeterminada, la reducción a la raíz se desactiva durante las consultas para muchos idiomas. Puede habilitar la reducción a la raíz para las consultas de búsqueda en el elemento web Resultados principales de la búsqueda.

Nota

Todos los idiomas con un separador de palabras incluyen un lematizador si se admite la reducción a la raíz. En el caso de algunos idiomas, los lematizadores están instalados, pero no habilitados. Para habilitar los lematizadores, debe editar el Registro. Para obtener instrucciones acerca de cómo habilitar los lematizadores para estos idiomas específicos, vea el tema sobre cómo activar los separadores de palabras y lematizadores en SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0xC0A).

Archivos de palabras irrelevantes

Algunas palabras de un idioma no son útiles para hacer búsquedas. Por ejemplo, en español, algunas palabras como “el” y “un” no son útiles en la búsqueda porque prácticamente todos los documentos escritos en español contienen estas palabras. Las palabras que no son de utilidad en la búsqueda se llaman palabras irrelevantes. Durante el proceso de indización, las palabras irrelevantes se quitan para que no aumente el tamaño de los índices, lo que mejora el rendimiento. Las palabras irrelevantes se incluyen en archivos de texto específicos del idioma que se pueden editar. La eliminación o adición de palabras a un archivo de palabras irrelevantes requiere un rastreo completo del contenido.

Los archivos de palabras irrelevantes han cambiado considerablemente respecto a las versiones anteriores de los productos de SharePoint. Muchas palabras irrelevantes incluidas previamente se han quitado de los archivos de palabras irrelevantes de Servidor de búsqueda y se incluyen en índices de contenido. De forma predeterminada, los usuarios pueden realizar consultas de palabras que anteriormente se encontraban excluidas como palabras irrelevantes. Estas consultas se llaman consultas con palabras irrelevantes. Puede no permitir estas búsquedas en el elemento web Resultados principales de la búsqueda. Además, si una cadena entrecomillada de una consulta incluye una palabra irrelevante, esta palabra se puede reemplazar por cualquier palabra en los resultados de la consulta. Por ejemplo, si una consulta incluye “configurar un servidor”, los elementos de contenido que incluyan “configurar el servidor” y “configurar cada servidor” se incluyen en los resultados de la consulta.

Nota

No quite todas las palabras de un archivo de palabras irrelevantes. El archivo de palabras irrelevantes debe tener como mínimo una entrada, aunque sólo se trate de un carácter de punto (.).

Vea también

Conceptos

Administración de la configuración para mejorar los resultados de búsqueda (Search Server 2008)
Configuración de páginas autoritativas (Search Server 2008)
Adición de términos de palabra clave con resultados más probables (Search Server 2008)