Compartir a través de


Cómo afectan los separadores de palabras, lematizadores y archivos de palabras irrelevantes a los resultados de la búsqueda (Office SharePoint Server 2007)

Los separadores de palabras, los lematizadores y los archivos de palabras irrelevantes forman parte de los procesos de indización y consulta.

En este artículo:

  • Separadores de palabras

  • Lematizadores

  • Archivos de palabras irrelevantes

Separadores de palabras

Un separador de palabras es un componente que permite separar cadenas de texto en palabras individuales durante los procesos de indizado y consulta. Durante el proceso de indizado, el texto se extrae de los elementos de contenido como una cadena de caracteres ininterrumpida. Los separadores de palabras vuelven a establecer dónde comienza y dónde termina cada palabra en la cadena de caracteres. Además, separan las palabras compuestas para que los usuarios reciban el resultado de una consulta sobre una parte de la palabra compuesta original, y también sobre los términos individuales que componen la palabra. Los separadores de palabras también convierten los números y las fechas de elementos de contenido en una forma estándar.

Cada idioma tiene un separador de palabras distinto. El motor de indizado determina qué separador de palabras se usará y, si se detecta más de un idioma, se puede usar más de un separador de palabras para el texto procedente de un único documento. Si no hay ningún separador de palabras para un determinado idioma, se usa el separador de palabras neutro.

El motor de consulta también usa separadores de palabras. Si el usuario envía una consulta, se usa un separador de palabras para separar las palabras compuestas y frases. Esto aumenta las posibilidades de que la consulta del usuario coincida con los términos del índice de contenido. Durante la consulta, el idioma del separador de palabras se determina mediante el idioma del explorador web del usuario.

De manera predeterminada, Microsoft Office SharePoint Server 2007 instala los separadores de palabras que figuran en la siguiente tabla en cada servidor de la granja de servidores de SharePoint.

Árabe

Húngaro

Punyabí

Bengalí

Islandés

Rumano

Búlgaro

Indonesio

Ruso

Catalán

Italiano

Serbio (cirílico)

Croata

Japonés

Serbio (latino)

Checo

Canarés

Eslovaco

Danés

Coreano

Esloveno

Neerlandés

Letón

Español

Inglés

Lituano

Sueco

Finés

Malayo

Tamil

Francés

Malayalam

Telugu

Alemán

Marathi

Tailandés

Griego

Noruego (Bokmaal)

Turco

Gujarati

Polaco

Ucraniano

Hebreo

Portugués

Urdú

Hindi

Portugués (Brasil)

Vietnamita

Lematizadores

Un lematizador es un componente que busca la palabra raíz de un término y además genera variantes de dicho término. Por ejemplo, en español, si una consulta contiene la palabra "comprado", el lematizador puede agregar el término raíz "comprar" a la consulta y además puede generar otras formas de este término, como "compra" y "comprando" para agregarlas a la consulta.

Los lematizadores son específicos del idioma y pueden proporcionar distintas capacidades según el idioma admitido. Algunos lematizadores buscan la raíz, pero no generan formas adicionales de las palabras. De forma predeterminada, la reducción a la raíz se desactiva durante las consultas para muchos idiomas. Puede habilitar la reducción a la raíz para las consultas de búsqueda en el elemento web Resultados principales de la búsqueda.

Nota

Todos los idiomas con un separador de palabras incluyen un lematizador si se admite la reducción a la raíz. En el caso de algunos idiomas, los lematizadores están instalados, pero no habilitados. Para habilitar los lematizadores, debe editar el Registro. Para obtener instrucciones acerca de cómo habilitar los lematizadores para estos idiomas específicos, vea el tema sobre cómo activar los separadores de palabras y lematizadores en SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0xC0A).

Archivos de palabras irrelevantes

Algunas palabras de un idioma no son útiles para realizar búsquedas. Por ejemplo, en español, palabras como "el" o "un" aportan poco valor de búsqueda porque prácticamente cada documento escrito en español contiene estas palabras. Este tipo de palabras que aportan poco valor de búsqueda se denominan palabras irrelevantes. Durante el proceso de indizado, se quitan las palabras irrelevantes para reducir el tamaño de los índices, lo que mejora el rendimiento. Las palabras irrelevantes se incluyen en archivos de texto específicos del idioma que se pueden editar. Para quitar o agregar palabras a un archivo de palabras irrelevantes es necesario realizar un rastreo completo del contenido. Para obtener más información, vea Edición de un archivo de palabras irrelevantes (Office SharePoint Server).

Los archivos de palabras irrelevantes han cambiado considerablemente desde las versiones anteriores de los productos de SharePoint. Muchas palabras irrelevantes que antes se incluían en archivos de palabras irrelevantes se han quitado de los archivos de palabras irrelevantes de Office SharePoint Server 2007 y se han incluido en índices de contenido. De manera predeterminada, los usuarios pueden realizar consultas en palabras que antes no se incluían por ser palabras irrelevantes. Estas consultas se denominan consultas con palabras irrelevantes. Pueden no permitirse estas búsquedas en el elemento web de resultados principales de la búsqueda. Además, si una cadena entrecomillada en una consulta incluye una palabra irrelevante, dicha palabra se puede reemplazar por cualquier palabra en los resultados de la consulta. Por ejemplo, si una consulta incluye "configurar un servidor", los elementos de contenido que contengan "configurar el servidor" y "configurar cada servidor" se incluirán en los resultados de la consulta.

Importante

No quite todas las palabras de un archivo de palabras irrelevantes, ya que dicho archivo debe contener al menos una entrada, aunque solo sea un carácter de punto (.).

Vea también

Conceptos

Administración de la configuración para mejorar los resultados de búsqueda (Office SharePoint Server)
Configuración de páginas autoritativas (Office SharePoint Server)
Adición de palabras clave con resultados más probables (Office SharePoint Server)
Edición de un archivo de palabras irrelevantes (Office SharePoint Server)
Edición de un archivo de sinónimos (Office SharePoint Server)
Creación de un diccionario personalizado (Office SharePoint Server 2007)