Share via


Planejar o esquema de índice (FAST Search Server 2010 para SharePoint)

Atualizado em: 10 de fevereiro de 2011

Ff599529.Important(pt-br,office.14).gifImportante:
Este artigo foi traduzido por um sistema de tradução automática, leia o aviso de isenção de responsabilidade. Para sua referência, veja a versão em inglês deste artigo aqui.

Este artigo contém considerações de planejamento para o esquema de índice no Microsoft FAST Search Server 2010 for SharePoint. O esquema de índice é usado para especificar as propriedades gerenciadas que podem ser pesquisadas no índice de pesquisa e os recursos de indexação/consulta associados a essas propriedades.

Neste artigo:

  • Visão geral sobre o esquema de índice

  • Propriedades rastreadas e gerenciadas

  • Recursos de relevância

  • Recursos de ajuste de consulta

Visão geral sobre o esquema de índice

Você pode usar o esquema de índice para configurar os seguintes recursos:

  • As propriedades que incluir no índice. Você define o mapeamento de propriedades rastreadas para propriedades gerenciadas e os recursos de índice associado.

  • Índices de texto completo. Isso define como se aplica a consultas de texto completo em relação a um determinado conjunto de propriedades gerenciadas.

  • Perfis de classificação. Isso define como obter um conjunto de resultados é classificado por posição.

  • Ajuste de consulta. Descreve como estatísticas de informações sobre propriedades gerenciadas podem ser retornadas nos resultados da consulta e usadas para ajuste de consulta.

Você deve considerar a estratégia de esquema do índice antes para implantar um farm FAST Search Server 2010 for SharePoint completa. Certifique-se de que você planeja a estratégia geral de esquema do índice antes de iniciar a indexação de grandes quantidades de conteúdo. Caso contrário, talvez seja necessário indexar novamente todo o conteúdo para que as alterações entrem em vigor. É possível fazer alterações incrementais para o mapeamento sem nenhuma interrupção do serviço ou o tempo de inatividade de pesquisa, mas é muito inconveniente aplicar as principais alterações depois de ter indexado grande quantidade de conteúdo.

Se sua implantação será indexar vários milhões de documentos, é recomendável para ajustar o esquema de índice e os recursos de pesquisa associadas ao usuário final em uma instalação menor do teste com um subconjunto relevante do conteúdo que você deseja indexar.

O plano de índice de esquema deve levar em consideração dois aspectos principais:

  1. O principal objetivo do plano de esquema do índice é definir o recurso desejado para seu aplicativo.

  2. Determinados recursos do esquema de índice terão efeito significativo sobre o dimensionamento de farm fastsearch. Quando você habilita determinados recursos isso pode ter um impacto significativo no uso dos recursos do farm e, portanto, pode afetar o dimensionamento de seu farm.

Este artigo aborda os principais aspectos do esquema de índice que você deve levar em consideração na fase de planejamento. Os artigos a seguir fornecem detalhes adicionais sobre vários aspectos do esquema do índice:

Propriedades rastreadas e gerenciadas

Itens indexados consistem em várias propriedades, refletindo o conteúdo real e os metadados para os itens.

Propriedades rastreadas

As propriedades rastreadas são extraídos de fontes de conteúdo para tornar os dados disponíveis para pesquisa de metadados. As propriedades rastreadas são geralmente relatadas por conectores de indexação, mas também podem ser criadas durante o processamento por um IFilter ou um extrator de propriedade de item.

Uma propriedade de rastreamento é definida exclusivamente pelo nome, o conjunto de propriedades e VariantType.

Cada propriedade rastreada pertence a uma categoria de propriedade rastreada, que é um agrupamento de alto nível de propriedades rastreadas com base no iFilter e identificador de protocolo (fornecida pelo conector de indexação usado e a fonte de dados) usado para extrair os metadados do conteúdo.

Exemplos de categorias:

  • Dados de negócios – metadados que está associado com o conteúdo do catálogo de dados corporativos.

  • Email – esses metadados estão associado com o Microsoft Exchange Server.

  • Escritório-metadados contidos em documentos do Microsoft Office como Word, Excel, PowerPoint, etc.

  • Pessoas – metadados está associada com os perfis de pessoas no SharePoint. A maioria desses também são mapeados para várias propriedades gerenciadas do Active Directory e as informações do SharePoint.

  • Web – metadados HTML associado às páginas da web.

Um subconjunto de todas as propriedades rastreadas automaticamente é mapeado para o índice de texto completo padrão. Isso significa que uma consulta de palavra-chave simples coincidirá com o conteúdo de todas essas propriedades. Um número de propriedades rastreadas contêm metadados que é irrelevante ou podem ter efeito incorreto sobre a relevância de pesquisa. As condições que decidir se uma propriedade rastreada será mapeada automaticamente são:

  • Rastrear somente propriedades de tipos variantes que são mapeados para uma seqüência de caracteres ou uma lista de cadeias de caracteres.

  • Rastrear as propriedades que são conhecidas para fornecer conteúdo indesejado no índice de pesquisa são excluídas, definindo sua propriedade IsMappedToContents “ False ”.

  • Uma vez que cada propriedade rastreada pertence a uma categoria (determinada pelo seu conjunto de propriedades), a categoria tem uma propriedade booleana (MapToContents) que define o valor padrão da propriedade IsMappedToContents de novas propriedades rastreadas.

Para obter mais detalhes sobre o mapeamento de propriedade rastreada, consulte o Mapeando propriedades rastreadas (FAST Search Server 2010 para SharePoint).

Propriedades gerenciadas

Propriedades gerenciadas são metadados que podem ser pesquisados ou usados em outras formas, como, por exemplo, que está sendo exibido nos resultados da pesquisa.

As propriedades rastreadas conterá uma grande quantidade de propriedades de metadados diferentes. Uma fase principal do seu planejamento de implantação é determinar que o mapeamento do propriedades rastreadas para propriedades gerenciadas. De forma mais simples, um índice de pesquisa pode conter a representação pesquisável de corpo e título de um documento. Mas, rapidamente, você terá a capacidade de mapeamento e indexar vários metadados de suas fontes de conteúdo. Usando os serviços de administração do esquema FAST Search Server 2010 for SharePoint, você pode explorar as propriedades rastreadas reais, as fontes de conteúdo e decidir um mapeamento de propriedades gerenciadas. Você será capaz de atribuir recursos para o gerenciado de propriedades que fornecem valor agregado para o usuário final quando eles fazem sua consulta.

O esquema de índice padrão fornece os mapeamentos padrão são adaptados para formatos comuns de conteúdo. Como você otimizar o sistema de relevância, examine a qualidade do conteúdo nas propriedades gerenciadas, determine se há outras propriedades rastreadas que possuem uma qualidade melhor para o seu conteúdo e atualizem os mapeamentos.

Você deve executar um ajuste inicial do mapeamento de propriedades rastreadas em uma instalação de teste com uma quantidade limitada de conteúdo. Isso torna muito mais fácil de testar suas alterações.

Você pode habilitar o ajuste de consulta para uma propriedade gerenciada usando uma configuração de refinamento.

Você pode associar uma propriedade gerenciada com um ou mais índices de texto completo.

Recursos de relevância

Você pode ativar e alterar um conjunto de recursos que afeta a classificação de relevância de consulta de resultados. Este artigo enfoca principalmente o efeito no desempenho desses recursos, como isso pode ser importante saber antes de seu farm Ajustar a relevância (FAST Search Server 2010 para SharePoint) de dimensionamento. Para obter mais detalhes sobre como você pode otimizar a relevância de sua instalação do farm FAST Search Server 2010 for SharePoint, consulte o FAST Search Server 2010 for SharePoint.

Índices de texto completo

Várias propriedades gerenciadas podem ser agrupadas em um índice de texto completo. Isso permite que uma consulta a ser executado através de várias propriedades gerenciadas, ao mesmo tempo. Índices de texto completo permitem que você tenha a classificação de dinâmica de consultas (classificados por relevância de resultados). Quando você digita um conjunto de palavras na caixa de busca da sua consulta front-end, isso normalmente resulta em uma consulta contra o índice de texto completo padrão denominado content. Também é possível consultar propriedades gerenciadas individuais separadamente, mas essas correspondências de consulta não contribui para a classificação de resultados da consulta.

Normalmente, um índice de texto completo conterá um conjunto de propriedades gerenciadas que representa o conteúdo do item que você está consultando. Isso inclui o corpo do item, o título, URL e assim por diante.

Em determinados casos, ela ser desejada para definir vários índices de texto completo para diferentes tipos de consultas ou aplicativos diferentes. Embora isso proporciona uma grande quantidade de flexibilidade, ela terá um determinado custo de desempenho para o espaço em disco e uso de recursos do sistema, como os descritores de arquivo. Portanto, não é recomendável definir mais de 10 índices de texto completo dentro de um esquema de índice.

Perfis de classificação

Personalizando os perfis de classificação e criação de novos perfis de posto terão efeito pequeno nos recursos de sistema estático como disco e memória. Recursos de classificação de perfil são parâmetros de tempo de consulta geralmente não afetam a indexação de itens e o uso de espaço em disco associado. O efeito das alterações de perfil de classificação principalmente terão efeito de desempenho de consulta, conforme descrito na seguinte lista.

  • Limite de palavras de parada. Este é um parâmetro importante para evitar que consultas de palavras muito comuns tem muitos recursos para avaliar. Para fornecer ainda uma relevância razoável de classificação para correspondências do item com esse termo, você deve usar o recurso de nível de importância dentro do esquema de índice.

  • Aumento de propriedade gerenciada. Esta é uma maneira eficiente para alcançar o aumento de relevância de destino para documentos que tenham gerenciados propriedades que possuem determinados valores. Cada definição de aumento de propriedade gerenciada irá aumentar o tempo de avaliação para todas as consultas. Portanto, tenha cuidado para não definir muitas dessas aumenta no mesmo perfil de classificação. É melhor definir vários perfis de classificação com a definição de aumento de propriedade gerenciada-alvo.

Para obter mais detalhes sobre os recursos de classificação de perfil, consulte o Sobre o perfil de classificação (FAST Search Server 2010 para SharePoint).

A classificação de texto completo

A classificação de resultados de texto completo baseado em propriedades gerenciadas habilita você para obter uma classificação alfabética do resultado definido em vez da classificação padrão com base na relevância (classificação). Fornecimento eficiente de classificação entre o resultado requer o conjunto de estruturas de dados adicionais no índice e esse recurso, portanto, é configurável por propriedade gerenciada.

Definir muitas propriedades gerenciadas que tem habilitado a classificação terá um efeito significativo sobre o uso de memória no componente correspondente de consulta.

Você pode controlar esse recurso via parâmetro SortableType propriedade gerenciada no esquema do índice.

Considere usar o valor de configuração LatentSortable se você deseja preparar as estruturas de dados de índice para a classificação de resultados, mas não deseja habilitar o recurso ainda para avaliação da consulta. Ao usar essa opção as estruturas de dados necessários para a classificação do resultado não é carregado na memória principal e, portanto, não terá nenhum efeito no desempenho. A configuração mais tarde pode ser alterada de latentes como ativo para ativar o recurso. Nesse caso, a alteração terá efeito imediato (não há necessidade de reindexação itens).

Realçado do resumo de ocorrências

title inclui um gerador configurável de resumo automático que pode gerar os resumos de realçado ocorrências de propriedades selecionadas nos resultados da consulta com base na consulta de entrada. Você pode controlar esse recurso via parâmetro body propriedade gerenciada no esquema do índice. Por padrão, o resumo de ocorrência realçado é configurado para as propriedades FAST Search Server 2010 for SharePoint e SummaryType.

Configurando a ocorrência realçada resumo criação de outras propriedades gerenciadas para terá algum efeito de desempenho sobre a criação de resultado da consulta, em particular se a propriedade gerenciada na média contiver grande quantidade de texto.

Um parâmetro de chave de desempenho afeta realçada de criação de resumo de ocorrências é o parâmetro MaxResultSize de propriedade gerenciada no esquema do índice. Isso afeta a quantidade de conteúdo textual da propriedade gerenciada que é armazenada com o índice. Para propriedades gerenciadas que não estão configuradas para visita resumo realçado este parâmetro afeta o conteúdo que é retornado na consulta de resultados, com impacto direto no desempenho de consulta. Em particular isso se aplica para os acessos de disco e e/S de rede. Para propriedades gerenciadas que esteja configurado para visita resumo realçado este parâmetro afeta a carga de processamento de criar o resumo de ocorrência realçado para cada ocorrência na lista de ocorrência de consulta.

Otimização de relevância do idioma asiático

Chinês, os idiomas japonês e coreano precisam de normalização de caractere/palavra diferente que a maioria das outras linguagens. Essas linguagens não usem espaços consistentemente para marcar os limites de token; textos nesses idiomas devem ser indexados por um componente do uso de token de determinado idioma. Nós nos referimos a esses idiomas como idiomas CJK.

FAST Search Server 2010 for SharePoint executa o uso de linguagem específica token com base em detecção automática de idioma para os itens indexados e configuração de localidade do usuário final, mas também inclui uma abordagem alternativa de normalização chamada subseqüência de caracteres de pesquisa.

Pesquisa da subseqüência de caracteres, geralmente conhecida como pesquisa de grama N, normalmente é aplicada para propriedades gerenciadas que são consideradas difíceis de indexar automaticamente. Esses textos geralmente contêm muitas palavras raras ou novas palavras, como nomes de produtos ou palavras que raramente são encontradas no dicionário de sistema do tokenizer.

O recurso pode ser considerado ao cancelamento (o número total de documentos recuperados) é considerado muito mais importante do que a precisão (alta relevância dos resultados). Sem pesquisa da subseqüência habilitada, uma consulta CJK podem, em determinados casos, ser indexado incorretamente e, portanto, retorna uma lista de resultados meager ou está vazio. Isso jamais ocorrerá se a pesquisa da subseqüência de caracteres é usada, pois todas as subseqüências de grama N de cada token serão indexadas e também os limites de token de abrangência do N-gramas. Ao usar esse recurso, você irá melhorar o cancelamento (mais itens correspondentes encontrados), mas também pode reduzir a precisão e retornar mais itens que desejar.

Você pode controlar esse recurso via parâmetro SubstringEnabled propriedade gerenciada no esquema do índice.

Observe que a pesquisa subseqüência terá um efeito significativo sobre o tamanho do índice para essas propriedades gerenciadas. Portanto, não é recomendável usar o recurso em texto livre, mas podem ser considerados para metadados contém nomes de produto específica do domínio, códigos e assim por diante.

Recursos de ajuste de consulta

Recursos de ajuste de consulta fornecem o usuário final usando as opções de refinamento relevantes para suas consultas. Ele permite que a busca detalhada em um resultado de consulta usando dados de estatísticos agregados calculados para o resultado da consulta. Isso geralmente é usado para metadados associados a itens indexados, como a data de criação de nomes de autor e a pessoa que aparecem no item. Usando as opções de ajuste, pode refinar sua consulta para que somente os itens presentes criado durante um determinado período de tempo, ou exibir apenas os itens de referência a uma determinada pessoa.

FAST Search Server 2010 for SharePoint oferece suporte a dois tipos de consulta refiners, refiners profunda e refiners superficiais.

Refiners profunda

O ajuste de consulta baseia-se na agregação de estatísticas de propriedade gerenciada para todos os resultados de uma consulta de pesquisa. O indexador cria dados de agregação que são usados na consulta de correspondência de processo. A vantagem de usar esse tipo é que as opções de refinamento refletirá a todos os itens correspondentes a uma consulta. Isso geralmente é o modo recomendado, mas definir muitas refiners profunda pode ter um efeito significativo sobre o uso de memória no componente correspondente de consulta.

Considere usar o parâmetro de configuração LatentRefinement se você deseja preparar as estruturas de dados do índice de refinamento profunda, mas não deseja habilitar o recurso ainda para avaliação da consulta. Ao usar essa opção as estruturas de dados necessários para refinamento detalhada não está carregado na memória principal e, portanto, não terá nenhum efeito no desempenho. A configuração mais tarde pode ser alterada de latentes como ativo para ativar o recurso. Nesse caso, a alteração terá efeito imediato (não há necessidade de reindexação itens).

Ff599529.Important(pt-br,office.14).gifImportante:
Navegadores de profundidade de seqüência de caracteres com muitos valores exclusivos terá impacto significativo no desempenho em comunicação interna de e/S entre o nó de consulta correspondente e a nó (se em diferentes servidores) de processamento de consultas. Se a instalação tiver muitas colunas de índice, essa interface pode se tornar um gargalo. Nesse caso, considere a possibilidade de usar o parâmetro de configuração CutoffMaxBuckets para limitar o número de compartimentos de refinamento a serem avaliadas em cada coluna de índice.

Refiners superficiais

O ajuste de consulta baseia-se na agregação de estatísticas de propriedade gerenciada para os 100 principais resultados de uma consulta de pesquisa. Os dados resultantes de refinamento são criados durante o processamento de resultados. Como o refinamento é limitado para o início de correspondência de resultados, você pode não conseguir encontrar resultados ocultados mais profundos nos resultados da consulta. Por outro lado, esta opção de refinamento não afeta o processo de indexação e, portanto, pode ser aplicadas imediatamente depois de ativado.

Refiners superficiais terão efeito no desempenho significativos sobre o processamento de nó da consulta e reduzirão o desempenho da consulta. Considere o uso refiners profunda.

Ff599529.note(pt-br,office.14).gifObservação:
Aviso de Isenção de Tradução Automática: Este artigo foi traduzido por computador, sem intervenção humana. A Microsoft oferece essas traduções automáticas para ajudar as pessoas que não falam inglês a aproveitar os textos escritos sobre produtos, serviços e tecnologias da Microsoft. Como este artigo foi traduzido automaticamente, é possível que contenha erros de vocabulário, sintaxe ou gramática.

Histórico de Alterações

Data Descrição Motivo

10 de fevereiro de 2011

2011/02/07

Atualização de conteúdo

12 de maio de 2010

Publicação inicial