Planeación del esquema de índice (FAST Search Server 2010 for SharePoint)

Actualizado: 10 de febrero de 2011

Ff599529.Important(es-es,office.14).gifImportante:
Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.

Este artículo contiene consideraciones de planeación para el esquema de índice de Microsoft FAST Search Server 2010 for SharePoint. El esquema de índice se usa para especificar qué propiedades administradas se pueden buscar en el índice de búsqueda y las características relacionadas con indización o consulta asociadas con estas propiedades.

En este artículo:

  • Introducción al esquema de índice

  • Propiedades rastreadas y administrados

  • Características de relevancia

  • Características de mejora de la consulta

Introducción al esquema de índice

Utilice el esquema de índice para configurar las características siguientes:

  • Propiedades que desee incluir en el índice. Definir la asignación de las propiedades rastreadas a propiedades administradas y las características de índice asociado.

  • Índices de texto completo. This defines how to apply full-text queries against a given set of managed properties.

  • Perfiles de rango. Define cómo conseguir un conjunto de resultados que se ordena por rango.

  • Perfeccionamiento de la consulta. Describe cómo estadística de la información acerca de propiedades administradas se pueden devolver los resultados de consulta y utilizadas para la mejora de la consulta.

Debe tener en cuenta la estrategia de índice de esquema anterior a la implementación de un conjunto de servidores FAST Search Server 2010 for SharePoint a gran escala. Asegúrese de planear la estrategia general de índice de esquema antes de comenzar la indexación de grandes cantidades de contenido. En caso contrario, es posible que deba volver a indizar todo el contenido de los cambios surtan efecto. Es posible que los cambios incrementales para la asignación sin necesidad de interrumpir el servicio o el tiempo de inactividad de búsqueda, pero es muy poco útiles aplicar los cambios principales después de tener indizado gran cantidad de contenido.

Si debe a que la implementación se indizarán los varios millones de documentos, se recomienda para optimizar el esquema de índice y las características de búsqueda asociados para el usuario final en una instalación menor de prueba con un subconjunto relevante del contenido que desea indizar.

El plan de índice de esquema debe tener en cuenta dos aspectos principal:

  1. El objetivo principal del plan de esquema de índice es definir la función que desee establecer para la aplicación.

  2. Algunas características de esquema de índice tendrá efecto significativo en el conjunto de dimensiones fastsearch. Cuando se habilita determinadas características Esto puede tener un impacto significativo sobre el uso de recursos en el conjunto de servidores y, por lo tanto, puede afectar el cambio de tamaño de un conjunto de.

En este artículo se trata aspectos clave del esquema de índice que se debe tener en cuenta en la fase de diseño. Los artículos siguientes proporcionan detalles adicionales sobre distintos aspectos de los esquemas de índice:

Propiedades rastreadas y administrados

Los elementos indizados constan de varias propiedades, que refleja el contenido real y los metadatos de los elementos.

Propiedades rastreadas

Las propiedades rastreadas son metadatos extraídos de orígenes de contenido para que los datos disponibles para la búsqueda. Las propiedades rastreadas normalmente se informa de los conectores de indización, pero también pueden crearse durante el procesamiento por parte de un IFilter o un extractor de propiedad de elemento.

Una propiedad rastreada se define de forma única por nombre, propSet y VariantType.

Cada propiedad rastreada pertenece a una categoría de propiedad rastreada, que es una agrupación de alto nivel de las propiedades rastreadas según el iFilter y controlador de protocolo (proporcionado por el conector de Index Server utilizada y el origen de datos) que se utiliza para extraer los metadatos de contenido.

Ejemplos de categorías:

  • Datos económicos: los metadatos que se asocien al contenido en el catálogo de datos profesionales.

  • Correo: estos metadatos son asociados de Microsoft Exchange Server.

  • Oficinas: los metadatos contenidos en documentos de Microsoft Office como Word, Excel, PowerPoint, etc..

  • Personas, los metadatos que está asociado con los perfiles de usuarios de SharePoint. La mayoría de los siguientes también se asignan a varias propiedades administradas de Active Directory y la información de SharePoint.

  • Web: los metadatos HTML asociados a las páginas web.

El índice de texto predeterminado se asigna automáticamente un subconjunto de todas las propiedades rastreadas. Esto significa que una consulta de la palabra clave sencillo coincidirá con el contenido de todas estas propiedades. A number of crawled properties contain metadata that is irrelevant or may have bad effect on the search relevance. The conditions that decide whether a crawled property will be automatically mapped are:

  • Rastrean sólo las propiedades con tipos de variantes que se asignan a una cadena o una lista de cadenas.

  • Rastrean las propiedades que se sabe que proporcionan contenido no deseado en el índice de búsqueda se excluyen estableciendo su propiedad IsMappedToContents “ false ”.

  • Dado que todas las propiedades rastreadas pertenece a una categoría (determinada por el conjunto de propiedades), la categoría tiene una propiedad booleana (MapToContents) que establece el valor predeterminado de la propiedad IsMappedToContents de nuevas las propiedades rastreadas.

Para obtener más información acerca de la asignación de propiedad rastreada, consulte Asignación de propiedades rastreadas (FAST Search Server 2010 for SharePoint).

Propiedades administradas

Las propiedades administradas son metadatos que se va a buscar o utilizar en otras formas, como, por ejemplo, que se muestran en los resultados de búsqueda.

Las propiedades rastreadas contiene una gran cantidad de las propiedades de metadatos diferentes. Una fase de su plan de implementación clave es determinar que la asignación de los siguientes de propiedades rastreadas a propiedades administradas. En la forma más sencilla, un índice de búsqueda puede contener la representación de búsqueda del cuerpo y el título de un documento. Pero se producirá rápidamente la capacidad de asignación y la indización de los metadatos de varios de los orígenes de contenido. Mediante el uso de los servicios de administración del esquema FAST Search Server 2010 for SharePoint, puede explorar las propiedades rastreadas reales de los orígenes de contenido y decidir una asignación a propiedades administradas. A continuación, podrá asignar funciones a los administrados propiedades que proporcionan valor añadido para el usuario final al crear su consulta.

El esquema de índice predeterminado proporciona las asignaciones predeterminadas que se adaptación a formatos comunes de contenido. Como optimizar el sistema de relevancia, examine la calidad del contenido de las propiedades administradas, averigüe si hay otras propiedades rastreadas que tienen una mejor calidad para el contenido y actualización las asignaciones.

Debe realizar un ajuste inicial de la asignación de propiedad rastreada en una instalación de prueba con una cantidad limitada de contenido. Esto facilita mucho más fáciles de probar los cambios.

Puede habilitar el perfeccionamiento de la consulta para una propiedad administrada que se utiliza una configuración de la matriz.

Una propiedad administrada se puede asociar uno o varios de los índices de texto completo.

Características de relevancia

Puede habilitar y cambiar de un conjunto de características que afectan a la clasificación de relevancia de resultados de consulta. Este artículo se centra principalmente en el efecto de rendimiento de estas características, como puede ser importante para averiguar el tiempo de espera antes de cambiar el tamaño del conjunto FAST Search Server 2010 for SharePoint. Para obtener más detalles acerca de cómo puede optimizar la relevancia de la instalación del conjunto de servidores FAST Search Server 2010 for SharePoint, consulte Optimización de la relevancia (FAST Search Server 2010 for SharePoint).

Índices de texto completo

También puede agrupar múltiples propiedades administradas en un índice de texto. Esto permite que una consulta que se ejecutará a través de varias propiedades administradas al mismo tiempo. Los índices de texto completo le permiten tener clasificación dinámico de las consultas (resultados ordenados por relevancia). Cuando se escribe un conjunto de palabras en el cuadro de búsqueda de la consulta de aplicaciones para usuario, normalmente, Esto conduce a una consulta en el índice de texto predeterminado, denominado content. También es posible consultar las propiedades administradas individuales por separado, pero dichas coincidencias de la consulta no contribuye a la clasificación de resultados de consulta.

Normalmente, un índice de texto contendrá un conjunto de propiedades administradas que representa el contenido del elemento que se está consultando. Esto incluye el cuerpo del elemento, el título, la dirección URL y así sucesivamente.

En algunos casos puede ser deseable para definir varios índices de texto completo para los distintos tipos de consultas o aplicaciones diferentes. Aunque esto da como resultado una gran cantidad de flexibilidad, dispondrá de un cierto costo de rendimiento para el espacio de disco y el uso de recursos del sistema como, por ejemplo, los descriptores de archivo. Por lo tanto, no se recomienda definir más de 10 índices de texto dentro de un esquema de índice.

Perfiles de rango

Personalizar los perfiles de rango y crear nuevos perfiles de rango, afectará pequeño estático recursos del sistema al igual que el disco y memoria. Las características del perfil de la jerarquía son los parámetros de tiempo de consulta general que no afectan a la indización de los elementos y el uso del espacio de disco asociada. El efecto de los cambios de perfil de rango principalmente tendrá el efecto de rendimiento de consulta tal como se indica en la lista siguiente.

  • Umbral de palabras de detención. Se trata de un parámetro importante para evitar que las consultas para las palabras muy comunes tiene demasiados recursos para evaluar. A fin de proporcionar una relevancia razonable de clasificación para las coincidencias del elemento con este término, debe utilizar la característica de nivel de importancia en el esquema de índice.

  • Aumento de la propiedad de Managed. Se trata de una manera eficaz para lograr el aumento de la importancia de destino para los documentos que administrar las propiedades que tienen determinados valores. Cada aumento de la propiedad administrada establece se agrega a la hora de evaluación para todas las consultas. Por lo tanto, tenga cuidado de no definir demasiados tal aumenta en el mismo perfil de rango. Es mejor definir varios perfiles de rango con el aumento de la propiedad de destino administrado establecer.

Para obtener más información sobre las características de la jerarquía de perfil, vea Acerca del perfil de clasificación (FAST Search Server 2010 for SharePoint).

Ordenación de texto completo

Ordenar el resultado de texto basándose en las propiedades administradas permite obtener una ordenación alfabética el conjunto de resultados en lugar de la ordenación predeterminada según la relevancia (clasificación). Proporcionar la ordenación eficaz en el resultado conjunto requiere las estructuras de datos adicionales en el índice y esta característica es, por tanto, puede configurar cada propiedad administrada.

Definir muchas propiedades administradas que tienen habilitada la ordenación tendrá un efecto importante sobre el uso de memoria en el componente correspondiente de la consulta.

Puede controlar esta característica mediante el parámetro de SortableType de la propiedad administrada del esquema de índice.

Puede utilizar el LatentSortable del valor de configuración si desea preparar las estructuras de datos para la ordenación de resultados, pero no desea habilitar la característica todavía para la evaluación de la consulta. Cuando se utiliza esta opción, las estructuras de datos necesarios para la ordenación de resultados no se carga en la memoria principal y, por lo tanto, no tiene ningún efecto de rendimiento. The setting can later be changed from latent to active in order to enable the feature. In that case the change will have immediate effect (no requirement to re-index items).

resumen resaltado de aciertos

FAST Search Server 2010 for SharePoint incluye un generador de resumen automático puede configurar que se puede generar los resúmenes de resaltado de visitas para las propiedades seleccionadas en resultados de la consulta en función de la consulta de entrada. Puede controlar esta característica mediante el parámetro de SummaryType de la propiedad administrada del esquema de índice. De forma predeterminada, el resumen de detección resaltado está configurado para las propiedades body y title.

Configurar la creación de resumen resaltada visitas para otras propiedades administradas tendrá algún efecto de rendimiento en la creación de resultados de consulta, en particular si la propiedad administrada en el medio contiene gran cantidad de texto.

Un parámetro de clave de rendimiento que afecta a la creación resumen resaltado de visitas es el parámetro de MaxResultSize de la propiedad administrada del esquema de índice. Esto afecta a cuánto contenido textual de la propiedad administrada que se almacena con el índice. Para las propiedades administradas que no están configuradas para obtener acceso al resumen resaltados este parámetro afecta al da como resultado en la cantidad de contenido que se devuelve en la consulta, con efecto directo en el rendimiento de la consulta. Especialmente esto se aplica a los accesos a disco y E/s de red. Para las propiedades administradas que está configurado para obtener acceso al resumen resaltados este parámetro afecta a la carga de proceso de crear el resumen resaltado de visitas para cada visita en la lista de aciertos de la consulta.

Optimización de la relevancia de idiomas de Asia

Chino, japonés y coreano requiere la normalización de carácter o palabra distinta que la mayoría de los otros idiomas. Estos lenguajes no utilice espacios de forma coherente para marcar los límites de símbolo (token); textos en estos idiomas deben se acorta si un componente específico del lenguaje de la conversión en testigos. Nos referiremos a estos lenguajes como CJK idiomas.

FAST Search Server 2010 for SharePoint realiza la conversión en el lenguaje específico testigos en función de detección automática de idioma de los elementos indizados y el valor de la configuración regional del usuario final, pero también incluye un enfoque alternativo de normalización con el nombre de búsqueda de la subcadena.

Búsqueda de la subcadena, a menudo se conoce como la búsqueda de N-g, se suele aplica a propiedades administradas que se consideran difíciles convertir automáticamente. A menudo, estos textos contienen muchas palabras poco habituales o las palabras nuevas, como, por ejemplo, los nombres de productos o las palabras que rara vez se encuentra en el diccionario del sistema del analizador de la.

La función también se puede considerar cuando recuerdo (el número total de los documentos recuperados) se considera más importante que la precisión (de alta relevancia de los resultados). Sin la búsqueda de la subcadena habilitado, una consulta CJK puede, en algunos casos, se acorta incorrectamente y, por tanto, obtener una lista de resultados meager ni estar vacío. This will never occur if substring search is used, as all N-gram substrings of each token will be indexed, and also N-grams spanning token boundaries. By using this feature, you will improve the recall (more matching items found), but may also reduce the precision and return more items than desired.

Puede controlar esta característica mediante el parámetro de SubstringEnabled de la propiedad administrada del esquema de índice.

Tenga en cuenta que la subcadena búsqueda tendrá un efecto significativo en el tamaño del índice de estas propiedades administradas. Por lo tanto, no se recomienda que use la función de texto libre, pero se puede considerar para los metadatos que contiene los nombres de producto específica del dominio, los códigos y así sucesivamente.

Características de mejora de la consulta

Las características de mejora de la consulta proporcionan al usuario final mediante el uso de las opciones de perfeccionamiento relevantes para sus consultas. Permite la obtención de detalles de resultados de una consulta mediante el uso de los datos estadísticos agregados calculados para el resultado de la consulta. Normalmente se utiliza para metadatos asociados a los elementos indizados, como, por ejemplo, la fecha de creación, los nombres de autor y la persona que aparece en el elemento. Mediante el uso de las opciones de ajuste, puede perfeccionar la consulta sólo presentes los elementos creados durante un período de tiempo determinado, o sólo se muestran elementos que hacen referencia a una persona determinada.

FAST Search Server 2010 for SharePoint admite dos tipos de consulta refinadores, refinadores profunda y refinadores superficial.

Refinadores profunda

El perfeccionamiento de la consulta se basa en la agregación de estadísticas de la propiedad administrada para todos los resultados de una consulta de búsqueda. El indizador crea datos de agregación que se utilizan en consultas que coinciden con el proceso. La ventaja de utilizar este tipo es que las opciones de perfeccionamiento afectará a todos los elementos que coinciden con una consulta. Esto suele ser el modo recomendado, pero definir muchas refinadores profunda puede tener un efecto importante sobre el uso de memoria en el componente correspondiente de la consulta.

Puede utilizar el LatentRefinement de parámetro de configuración si desea preparar las estructuras de datos para el perfeccionamiento de profundidad, pero no desea habilitar la característica todavía para la evaluación de la consulta. Cuando se utiliza esta opción, las estructuras de datos necesarios de perfeccionamiento profunda no está cargado en la memoria principal y, por lo tanto, no tiene ningún efecto de rendimiento. La configuración más adelante se puede cambiar de latente a activo a fin de habilitar la característica. En ese caso, el cambio tendrá efecto inmediatamente (sin necesidad de los elementos de reindización).

Ff599529.Important(es-es,office.14).gifImportante:
Los exploradores de profundidad de la cadena que tiene muchos valores únicos afectará considerablemente el rendimiento en la comunicación interna de E/s entre el nodo de consulta correspondiente y el nodo (si se encuentra en diferentes servidores) de procesamiento de consultas. Si la instalación tiene el número de columnas de índice, esta interfaz puede convertirse en un cuello de botella. En este caso, considere la posibilidad de utilizar CutoffMaxBuckets de parámetro de configuración para limitar el número de ajuste que se evalúa en cada columna de índice.

Refinadores superficial

El perfeccionamiento de la consulta se basa en la agregación de estadísticas de la propiedad administrada para los primeros 100 resultados para una consulta de búsqueda. Los datos del resultado de perfeccionamiento se crean durante el procesamiento de los resultados. Como el perfeccionamiento está limitado a la parte superior que coinciden con los resultados, es posible que no se encuentra ocultados de los resultados más profunda en los resultados de consulta. Por otra parte, esta opción de ajuste no afecta el proceso de indización y, por tanto, puede aplicar inmediatamente después de habilitar.

Superficial refinadores adquirirán considerablemente el rendimiento en el nodo de procesamiento de consultas y reducirán el rendimiento de la consulta. Considere la posibilidad de utilizar refinadores profunda en su lugar.

Nota

Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.

Historial de cambios

Fecha Descripción Motivo

10 de febrero de 2011

2011/02/07

Actualización de contenido

12 de mayo de 2010

Publicación inicial