Acerca de las características lingüísticas (FAST Search Server 2010 for SharePoint)

 

Se aplica a: FAST Search Server 2010

Última modificación del tema: 2011-11-10

Importante

Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.

Microsoft FAST Search Server 2010 for SharePoint tiene muchas características lingüísticas que ayudan a mejorar la relevancia de búsqueda. Algunas características se pueden optimizar, pero otras tienen un comportamiento predeterminado que no se puede cambiar.

Las siguientes características lingüísticas se describen en este artículo:

  • Conversión en testigos

  • Detección automática de idioma

  • Fruto

  • Comprobar la ortografía y la optimización de la revisión ortográfica

  • Anti-phrasing

  • Extracción de propiedad

  • El filtrado de contenido ofensivo

Información general de los idiomas admitidos para estas características lingüísticas, consulte Características lingüísticas por idioma (FAST Search Server 2010 for SharePoint).

Conversión en testigos

La conversión en testigos es la segmentación de texto en palabras individuales (tokens) que se pueden indizar. Espacios, tabulaciones, puntos, comas, guiones, signos de interrogación y entre comillas se consideran caracteres delimitadores. Idiomas de Asia oriental (chino, japonés, coreano), que no tienen estos caracteres entre las palabras de delimitación, deben emplearse métodos más sofisticados para producir los símbolos que se pueden indizables.

Se realiza la conversión en testigos en contenido tanto durante el procesamiento de documentos y el procesamiento de consultas de texto. El proceso de la conversión en testigos en FAST Search Server 2010 for SharePoint está formada por tres fases:

  1. Independiente del lenguaje de entrada de la normalización, donde la introducción de texto se transforma en un formato unificado. Esto incluye reemplazar caracteres complejos como, por ejemplo, ligaduras con los formularios canónicos y reemplazar caracteres de Unicode utilizados menos caracteres compatibles o secuencias de caracteres (signo de marca comercial tm) o caracteres latinos de ancho completo con equivalentes de ancho medio.

  2. Un motor de lenguaje específico de la conversión en testigos según las divisiones de lenguaje del documento el texto en palabras y símbolos individuales según Tokenizer de separador de palabras.

  3. Símbolos indizados se normalizan según independiente del lenguaje reglas para garantizar la recuperación de varios lenguajes. La normalización, reduce la complejidad de un carácter por su modificación o eliminación de partes del mismo. En FAST Search Server 2010 for SharePoint, todos los caracteres están en minúsculas y caracteres acentuados se reducen en sus caracteres sin acentos de base.

La conversión en testigos es compatible con todos los idiomas.

Automática de idioma y la detección de codificación

Durante el procesamiento de documentos, FAST Search Server 2010 for SharePoint reconoce automáticamente más de 80 idiomas diferentes en todas las codificaciones comunes. El texto del idioma y codificación pueden definirse en los metadatos de un documento, o se puede determinar si un proceso automático durante el procesamiento de documentos.

La información se utiliza para seleccionar los algoritmos y los diccionarios de idiomas específicos adecuados durante el procesamiento de documentos.

Fruto

Derivados combinan varios formularios de la misma palabra, por ejemplo las formas singulares y plural de un sustantivo. Recuperar base aumenta y lenguajes que tienen muchas formas de la misma palabra, etimología es muy importante para lograr la recuperación suficiente. No se puede ajustar los diccionarios de base.

Comprobar la ortografía y la optimización de la revisión ortográfica

Revisar ortografía mientras escribe, se mejora la calidad de las consultas mediante la comparación de los términos de consulta con diccionarios específicos de idioma y la identificación de términos con errores ortográficos.

Optimización de la revisión ortográfica, se ajusta con precisión los diccionarios para asegurarse de que se alineen con la frecuencia de las palabras en los documentos elaborados de revisión ortográfica. Los usuarios sólo recibirán las sugerencias que son relevantes en el contenido procesado de la revisión ortográfica. Sin esta alineación, las sugerencias de comprobación de ortografía podrían producir conjuntos de resultados de detección de cero.

Puede definir las palabras que se excluyen de revisión ortográfica, por ejemplo un nombre específico de productos y compañías. La lista de exclusión se utiliza para todos los idiomas.

Anti-phrasing

Anti-phrasing está estrechamente relacionado con el concepto de Detener las palabras, que son palabras que el sistema de búsqueda se omite en las consultas de usuario final. No quita la característica anti-phrasing palabras y frases completas. Eliminación de palabras sueltas implica el riesgo de la eliminación de palabras importantes que son idénticas para dejar de palabras. Las frases están menos ambiguas y se pueden quitar de la consulta de forma más segura. Los diccionarios anti-phrasing que se entregan con FAST Search Server 2010 for SharePoint, por tanto, no contienen las palabras que aparezcan. No se puede ajustar los diccionarios anti-phrasing.

Extracción de propiedad

FAST Search Server 2010 for SharePoint proporciona extractores de datos en Propiedades avanzadas, específicas del idioma de la persona de nombres, nombres de compañías y los nombres y ubicaciones geográficas.

Para obtener más información, vea Administración de la extracción de propiedades (FAST Search Server 2010 for SharePoint).

El filtrado de contenido ofensivo

FAST Search Server 2010 for SharePoint puede proporcionar filtrado de contenido ofensivo de muchos idiomas.

El filtrado de contenido ofensivo es no proporcionan de forma inmediata, pero se pueden configurar.

Nota

Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.

See Also

Concepts

Características lingüísticas por idioma (FAST Search Server 2010 for SharePoint)
Administración de la revisión ortográfica (FAST Search Server 2010 for SharePoint)
Cmdlets de optimización ortográfica (FAST Search Server 2010 for SharePoint)