Sobre recursos linguísticos (FAST Search Server 2010 para SharePoint)

 

Aplica-se a: FAST Search Server 2010

Tópico modificado em: 2011-11-10

Importante

Este artigo foi traduzido por um sistema de tradução automática, leia o aviso de isenção de responsabilidade. Para sua referência, veja a versão em inglês deste artigo aqui.

O Microsoft FAST Search Server 2010 for SharePoint possui muitos recursos linguísticos que ajudam a aumentar a relevância das pesquisas. Alguns recursos podem ser ajustados, mas outros têm um comportamento padrão que não pode ser alterado.

Os seguintes recursos lingüísticos são descritos neste artigo:

  • Uso de token

  • Detecção automática de idioma

  • Lematização

  • A verificação ortográfica e o ajuste de ortografia

  • Anti-phrasing

  • Extração de propriedades

  • A filtragem de conteúdo ofensivo

Para obter uma visão geral dos idiomas com suporte para esses recursos lingüísticos, consulte Recursos linguísticos por idioma (FAST Search Server 2010 para SharePoint).

Uso de token

Uso de token é a segmentação de texto em palavras individuais (tokens) que podem ser indexados. Espaços, tabulações, pontos, vírgulas, traços, pontos de interrogação e as aspas são consideradas caracteres de delimitação. Para idiomas do Leste Asiático (chinês, japonês, coreano), que não têm esses caracteres entre as palavras de delimitação, os métodos mais sofisticados devem ser empregados para produzir os tokens indexáveis.

Uso de token é executado no conteúdo, tanto durante o processamento do documento e o processamento de consultas de texto. O processo de uso de token em FAST Search Server 2010 for SharePoint consiste em três estágios:

  1. Independente de linguagem de normalização de entrada, onde o texto de entrada é transformado em um formato unificado. Isso inclui a substituição de caracteres complexas como, por exemplo, ligaduras com os formulários canônicos e substituindo caracteres menos usados de Unicode por seqüências de caracteres (sinal de marca comercial com tm) ou caracteres latinos de largura total ou de caracteres compatíveis com os equivalentes de meia largura.

  2. Um mecanismo de uso de token de determinado idioma base as divisões de idioma do documento o texto em palavras/tokens individuais com base em tokenizers de separador de palavras.

  3. Tokens indexados são normalizadas de acordo com regras independente de linguagem para garantir a recuperação de várias linguagens. A normalização reduz a complexidade de um caractere, alteração ou remoção de partes dele. Em FAST Search Server 2010 for SharePoint, todos os caracteres são minúscula e caracteres acentuados são reduzidos os caracteres de base sem acento.

Há suporte para o uso de token para todos os idiomas.

Detecção de codificação e automática de idioma

Durante o processamento de documentos, o FAST Search Server 2010 for SharePoint reconhece automaticamente a mais de 80 idiomas diferentes em todas as codificações comuns. O texto de linguagem e codificação podem ser definidos nos metadados de um documento ou pode ser determinada por um processo automático durante o processamento do documento.

As informações são usadas para selecionar os algoritmos e os dicionários específicos do idioma apropriados durante o processamento do documento.

Lematização

Lematização mescla várias formas da mesma palavra, por exemplo as formas no singulares e no plural de um substantivo. Recuperar stemming aumenta e para os idiomas que têm várias formas da mesma palavra, lematização é muito importante para atingir o recolhimento suficiente. Você não conseguir sintonizar os dicionários stemming.

A verificação ortográfica e o ajuste de ortografia

A verificação ortográfica melhora a qualidade das consultas, comparando os termos da consulta em relação a dicionários específicos de idiomas e identificar termos com erros de ortografia.

Ajuste de ortografia fine-tunes a dicionários para certificar-se de que eles estejam alinhados com a freqüência de palavras em documentos processados de verificação ortográfica. Os usuários receberão apenas sugestões que são relevantes dentro do conteúdo processado de verificação ortográfica. Sem esse alinhamento, sugestões de ortografia verificação podem levar à zero conjuntos de resultados de visitas.

Você pode definir as palavras a serem excluídos de verificação ortográfica, por exemplo um nome de empresa ou produto específico. A lista de exclusão é usada para todos os idiomas.

Anti-phrasing

Anti-phrasing está intimamente relacionada com o conceito de palavras de parada, que são palavras que o sistema de pesquisa ignora em consultas do usuário final. O recurso anti-phrasing não remove palavras simples, mas frases completas. Remover palavras únicas implica o risco de remoção de palavras importantes que são idênticas às palavras de parada. Frases são ambíguas menos e podem ser removidos da consulta com mais segurança. Os dicionários anti-phrasing que são fornecidos com o FAST Search Server 2010 for SharePoint, portanto, não contêm palavras únicas. Você não conseguir sintonizar os dicionários anti-phrasing.

Extração de propriedades

FAST Search Server 2010 for SharePoint fornece extractors propriedade avançada, específicos do idioma para a pessoa nomes, nomes de empresas e nomes/localizações geográficas.

Para obter mais informações, consulte o Gerenciar a extração de propriedades (FAST Search Server 2010 para SharePoint).

A filtragem de conteúdo ofensivo

FAST Search Server 2010 for SharePoint pode oferecer filtragem contra conteúdo ofensivo para vários idiomas.

A filtragem de conteúdo ofensivo é não fornecido fora da caixa, mas pode ser configurado.

Observação

Aviso de Isenção de Tradução Automática: Este artigo foi traduzido por computador, sem intervenção humana. A Microsoft oferece essas traduções automáticas para ajudar as pessoas que não falam inglês a aproveitar os textos escritos sobre produtos, serviços e tecnologias da Microsoft. Como este artigo foi traduzido automaticamente, é possível que contenha erros de vocabulário, sintaxe ou gramática.

See Also

Concepts

Cmdlets de ajuste de ortografia (FAST Search Server 2010 para SharePoint)
Gerenciar a verificação ortográfica (FAST Search Server 2010 para SharePoint)
Recursos linguísticos por idioma (FAST Search Server 2010 para SharePoint)