Share via


Planejar o rastreamento de conteúdo (Office SharePoint Server)

Atualizado em: 2009-02-26

Neste artigo:

  • Sobre como rastrear e indexar conteúdo

  • Identificar as fontes de conteúdo que você deseja rastrear

  • Planejar as fontes de conteúdo

  • Planejar a autenticação

  • Planejar os manipuladores de protocolo

  • Planejar o gerenciamento do impacto de rastreamento

  • Planejar as regras de rastreamento

  • Planejar as definições de pesquisa gerenciadas no nível do farm

  • Indexando conteúdo em idiomas diferentes

  • Planilha

A finalidade deste artigo é ajudar os administradores de serviços de pesquisa a entender como o Microsoft Office SharePoint Server 2007 rastreia e indexa conteúdo e ajudá-los a planejar o rastreamento de conteúdo.

Para que os usuários finais possam usar a funcionalidade de pesquisa corporativa no Office SharePoint Server 2007 para pesquisar por conteúdo, você deve primeiro rastrear o conteúdo que deseja disponibilizar para ser consultado pelos usuários.

No escopo deste artigo, conteúdo é qualquer item que possa ser rastreado, como uma página da Web, um documento do Microsoft Office Word, dados corporativos ou um arquivo de mensagem de email.

Ao planejar o rastreamento de conteúdo, você deve considerar as seguintes questões:

  • Onde está localizado fisicamente o conteúdo a ser rastreado?

  • Alguma parte do conteúdo a ser rastreado está armazenada em tipos de fontes diferentes, como compartilhamentos de arquivos, sites do SharePoint, sites ou outros locais?

  • Você deseja rastrear todo o conteúdo em fontes específicas ou apenas parte dele?

  • Quais tipos de arquivos formam o conteúdo que você deseja rastrear?

  • Quando e com que frequência você rastreará o conteúdo?

  • Como este conteúdo é protegido?

Use as informações deste artigo para ajudá-lo a responder a essas perguntas e tomar as decisões de planejamento necessárias sobre o conteúdo que deseja rastrear, como e quando deseja rastrear esse conteúdo.

Em pontos chave deste artigo, nós solicitaremos que você preencha uma seção de uma planilha que pertence às informações que você acabou de ler. Você pode registrar suas decisões na planilha à medida que percorrer o artigo ou fazer tudo de uma vez no fim do artigo. De qualquer forma, uma planilha preenchida pode ter muito valor quando você implantar a sua solução de pesquisa.

Dica

Este artigo descreve o processo de planejamento para o rastreamento e a indexação de conteúdo em um índice. Se, à medida que planejar rastrear o conteúdo, você descobrir que deseja usar um índice de conteúdo adicional, registre suas decisões de planejamento para cada SSP (Provedor de Serviços Compartilhados) em uma planilha separada.

O Office SharePoint Server 2007 inclui o serviço Office SharePoint Server Search, que é usado para rastrear e indexar conteúdo. Esse serviço é parte de um SSP e todo o conteúdo rastreado usando um SSP em particular é indexado em um único índice. Para obter informações sobre como escolher o número de SSPs a serem usados para indexar o conteúdo, consulte Planejar provedores de serviços compartilhados.

Sobre como rastrear e indexar conteúdo

Rastrear e indexar o conteúdo é o processo pelo qual o sistema acessa e analisa o conteúdo e suas propriedades, às vezes denominadas metadados, para criar um índice de conteúdo com base no qual as consultas de pesquisa poderão ser realizadas.

O resultado de um rastreamento de conteúdo bem-sucedido é que as partes de conteúdo ou os arquivos individuais que você deseja disponibilizar para as consultas de pesquisa são acessados e lidos pelo rastreador. As palavras-chave e os metadados desses arquivos são armazenados no índice de conteúdo, algumas vezes chamado de índice. O índice consiste nas palavras-chave armazenadas no sistema de arquivos do servidor de indexação e nos metadados armazenados no banco de dados de pesquisa. O sistema mantém um mapeamento entre as palavras-chave, os metadados associados às partes individuais de conteúdo das quais as palavras-chave foram rastreadas e a URL da fonte da qual o conteúdo foi rastreado.

Dica

O rastreador não altera os arquivos nos servidores host de forma alguma. Em vez disso, os arquivos nos servidores host são simplesmente acessados e lidos, e o texto e os metadados desses arquivos são enviados para o servidor de indexação para serem indexados. Entretanto, como o rastreador lê o conteúdo no servidor host, alguns servidores que hospedam certas fontes de conteúdo podem atualizar a data de último acesso em arquivos que tenham sido rastreados.

Identificar as fontes de conteúdo que você deseja rastrear

Em muitos casos, as necessidades da sua organização podem exigir apenas que você rastreie todo o conteúdo dos sites do SharePoint no farm de servidores da sua organização. Nesse caso, talvez você não precise identificar as fontes de conteúdo que deseja rastrear, pois todos os conjuntos de sites em um farm de servidores podem ser rastreados usando a fonte de conteúdo padrão. Para obter mais informações sobre a fonte de conteúdo padrão, consulte Planejar fontes de conteúdo posteriormente neste artigo.

Muitas organizações também precisam rastrear o conteúdo externo ao farm de servidores, como compartilhamentos de arquivo ou sites na Internet. O Office SharePoint Server 2007 pode rastrear e indexar conteúdo hospedado em outro Windows SharePoint Services ou em farms do Office SharePoint Server, sites, compartilhamentos de arquivo, pastas públicas do Microsoft Exchange, servidores IBM Lotus Notes e dados corporativos armazenados em bancos de dados. Isso aumenta bastante a quantidade de conteúdo que pode ser disponibilizado em consultas de pesquisa.

No entanto, em muitos casos, talvez você não queira rastrear todos os conjuntos de sites no farm de servidores, porque o conteúdo armazenado em alguns conjuntos de sites pode não ser relevante nos resultados da pesquisa. Nesse caso, siga um ou ambos os procedimentos:

  • Observe os conjuntos de sites que você não deseja rastrear. Se você decidir usar a fonte de conteúdo padrão, deverá verificar se os endereços iniciais dos conjuntos de sites que não deseja rastrear não estão listados na fonte de conteúdo padrão.

  • Anote os endereços iniciais individuais dos conjuntos de sites que você deseja rastrear. Se você decidir criar fontes de conteúdo adicionais para usar para rastrear esse conteúdo, precisará saber esses endereços iniciais. As informações sobre quando usar uma ou mais fontes de conteúdo são fornecidas na seção Planejar fontes de conteúdo adiante neste capítulo.

Com o Atualização de infraestrutura para os Microsoft Office Servers instalado, há duas maneiras de processar consultas de pesquisa para retornar resultados de pesquisa aos usuários. Você pode consultar o índice de conteúdo do Servidor de Pesquisa ou usar a pesquisa federada.

Observação

Observe que o Atualização de infraestrutura para os Microsoft Office Servers fornece o Office SharePoint Server 2007 com o recurso de pesquisa federada que apareceu pela primeira vez no Search Server 2008.

Há vantagens em ambas as abordagens. Para obter uma comparação entre essas duas abordagens de processamento de consultas, leia a página sobre a visão geral da pesquisa federada (https://go.microsoft.com/fwlink/?linkid=122651\&clcid=0x416). Para obter uma lista e uma breve descrição de artigos sobre o entendimento e o uso do recurso de federação, consulte Trabalhando com Federação (Office SharePoint Server). Para obter mais informações sobre a atualização de infraestrutura para os Servidores do Microsoft Office, consulte Instalar a atualização de infraestrutura para o Microsoft Office Servers (Office SharePoint Server 2007).

Planejar as fontes de conteúdo

Antes de você rastrear o conteúdo, deve primeiro determinar onde ele está e em que tipos de servidores o conteúdo está hospedado. Depois que essas informações forem reunidas, um administrador de serviços compartilhados poderá criar uma ou mais fontes de conteúdo que serão usadas para rastrear esse conteúdo. Essas fontes de conteúdo fornecem as seguintes informações ao rastreador durante um rastreamento:

  • Tipo de conteúdo que deseja rastrear — por exemplo, um site do SharePoint ou compartilhamento de arquivo.

  • Endereço inicial do rastreamento.

  • Comportamento ao rastrear — por exemplo, com que profundidade rastrear do endereço inicial, ou quantos saltos do servidor permitir.

  • Agendamento do rastreamento.

Dica

O processo de rastrear o conteúdo usando uma determinada fonte de conteúdo às vezes é denominado "rastreamento da fonte de conteúdo".

Esta seção o ajuda a planejar as fontes de conteúdo necessárias para a sua organização.

A fonte de conteúdo padrão é chamada de Sites locais do Office SharePoint Server. Os administradores dos serviços compartilhados podem usar essa fonte de conteúdo para rastrear e indexar todo o conteúdo em todos os aplicativos Web associados ao SSP. Por padrão, o Office SharePoint Server 2007 adiciona o endereço inicial (nesse caso uma URL) do site de nível superior de cada conjunto de sites criado no aplicativo Web que use o mesmo SSP para a fonte de conteúdo padrão.

Para algumas organizações, o simples uso da fonte de conteúdo padrão para rastrear todos os sites nos conjuntos de sites satisfaz os requisitos de pesquisa. No entanto, muitas organizações precisam de mais fontes de conteúdo.

Os motivos para a criação de fontes de conteúdo adicionais incluem a necessidade de:

  • Rastrear tipos diferentes de conteúdo.

  • Rastrear algum conteúdo em agendamentos diferentes de outro conteúdo.

  • Limitar ou aumentar a quantidade de conteúdo rastreada.

Os administradores de serviços compartilhados podem criar até 500 fontes de conteúdo em cada SSP, e cada fonte de conteúdo pode conter até 500 endereços iniciais. Para manter a administração a mais simples possível, você deve criar apenas quantas fontes de conteúdo forem necessárias.

Rastrear tipos diferentes de conteúdo

Você somente pode rastrear um tipo de conteúdo por fonte de conteúdo. Ou seja, você pode criar uma fonte de conteúdo que tenha URLs para sites do SharePoint e outra que tenha URLs para compartilhamentos de arquivo, mas não pode criar uma única fonte de conteúdo que tenha URLs para sites do SharePoint e compartilhamentos de arquivo. A tabela a seguir lista os tipos de fontes de conteúdo que podem ser configurados.

Este tipo de fonte de conteúdo Inclui este tipo de conteúdo

Sites do SharePoint

Sites do SharePoint do mesmo farm ou de farms diferentes do Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou

Sites do SharePoint de farms do Microsoft Office SharePoint Portal Server 2003 ou do Microsoft Windows SharePoint Services 2.0

ObservaçãoObservação:
Ao contrário do rastreamento de sites do SharePoint no Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou , o rastreador não pode rastrear automaticamente todos os subsites em um conjunto de sites de versões anteriores dos Produtos e Tecnologias do SharePoint. Portanto, ao rastrear sites do SharePoint de versões anteriores, você deve especificar a URL de cada site de nível superior e cada subsite que deseja rastrear. Os sites listados no Diretório de Sites dos farms do Microsoft Office SharePoint Portal Server 2003 são rastreados quando o site do portal é rastreado. Para obter mais informações sobre o Diretório de Sites, consulte Sobre o Diretório de Sites (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x416).

Sites

Outro conteúdo da Web na sua organização não encontrado em sites do SharePoint

Conteúdo em sites na Internet

Compartilhamentos de arquivo

Conteúdo em compartilhamentos de arquivo em sua organização

Pastas públicas do Exchange

Conteúdo do Microsoft Exchange Server

Lotus Notes

Mensagens de email armazenadas em bancos de dados do Lotus Notes

ObservaçãoObservação:
Ao contrário de todos os outros tipos de fontes de conteúdo, a opção Lotus Notes não aparece na interface do usuário até que você tenha instalado e configurado o software de pré-requisito apropriado. Para obter mais informações, consulte Configurar o Office SharePoint Server Search para rastrear o Lotus Notes (Office SharePoint Server 2007).

Dados corporativos

Dados corporativos armazenados em aplicativos de linha de negócios

Planejar as fontes de conteúdo para dados corporativos

As fontes de conteúdo de dados corporativos requerem que os aplicativos que hospedam os dados primeiro sejam registrados no Catálogo de Dados Corporativos. Você deve criar uma ou mais fontes de conteúdo separadas dos tipos de fonte de conteúdo de Dados Corporativos para rastrear dados corporativos. Você pode criar uma fonte de conteúdo para rastrear todos os aplicativos registrados no Catálogo de Dados Corporativos ou pode criar fontes de conteúdo separadas para rastrear aplicativos individuais registrados no Catálogo de Dados Corporativos.

Com frequência, as pessoas que planejam a integração de dados corporativos em seus conjuntos de sites não serão as mesmas envolvidas no processo geral de planejamento de conteúdo. Assim, inclua administradores de aplicativos de negócios em suas equipes de planejamento de conteúdo para que possam informá-lo sobre como integrar seus dados em outro conteúdo e como apresentá-los eficazmente em conjuntos de sites.

Para obter mais informações sobre o planejamento da pesquisa de dados corporativos, consulte Planejar a pesquisa de dados corporativos.

Rastrear conteúdo em agendamentos diferentes

Os administradores de serviços compartilhados frequentemente devem decidir se determinado conteúdo será rastreado com mais frequência que outro. Quanto maior o volume de conteúdo que você rastrear, maior a probabilidade de rastrear conteúdo de fontes diferentes. Essas fontes diferentes podem ou não ser do mesmo tipo e podem estar hospedadas em servidores com velocidades variadas em relação um ao outro.

Esses fatores aumentam a probabilidade de você precisar de mais fontes de conteúdo para rastrear essas fontes de conteúdo diferentes em diversas ocasiões.

Os motivos principais do rastreamento de conteúdo em agendamentos diferentes são:

  • Para acomodar tempos de inatividade e períodos de pico de uso.

  • Para rastrear com mais frequência o conteúdo atualizado mais frequentemente.

  • Para rastrear o conteúdo hospedado em servidores host mais lentos separadamente do conteúdo rastreado em servidores host mais rápidos.

Em muitos casos, nem todas essas informações poderão ser conhecidas sem primeiro implantar e executar o Office SharePoint Server 2007 por algum tempo. Em vez disso, algumas dessas decisões são tomadas durante a fase de operação. No entanto, é uma boa ideia considerar esses fatores durante o planejamento, para que você possa planejar os agendamentos de rastreamento com base nas informações disponíveis.

As duas seções a seguir fornecem mais informações sobre como rastrear conteúdo em agendamentos diferentes.

Tempos de inatividade e períodos de pico de uso

Considere os tempos de inatividade e os períodos de pico de uso dos servidores que hospedam o conteúdo que você deseja rastrear. Por exemplo, se você estiver rastreando conteúdo hospedado por vários servidores diferentes fora do farm de servidores, é provável que o backup desses servidores seja realizado em agendamentos diferentes e tenha períodos de pico de uso distintos. A administração de servidores fora do farm geralmente não está sob seu controle. Assim, é recomendável coordenar os rastreamentos com os administradores dos servidores que hospedam o conteúdo que você deseja rastrear para assegurar que não haja uma tentativa de rastreamento de conteúdo em seus servidores durante um tempo de inatividade ou período de pico de uso.

Um cenário comum envolve um conteúdo fora do controle da sua organização relacionado ao conteúdo nos seus sites do SharePoint. Você pode adicionar os endereços iniciais desse conteúdo a uma fonte de conteúdo existente ou criar uma nova fonte de conteúdo para conteúdo externo. Como a disponibilidade dos sites externos varia amplamente, é útil adicionar fontes de conteúdo à parte para um conteúdo externo distinto. Dessa maneira, as fontes de conteúdo externo poderão ser rastreadas em horários diferentes de outras fontes de conteúdo. O próximo passo é atualizar o conteúdo externo em um agendamento de rastreamento que considere a disponibilidade de cada site.

Conteúdo atualizado com frequência

Ao planejar agendamentos de rastreamento, considere que algumas fontes de conteúdo geralmente são atualizadas com mais frequência que outras. Por exemplo, se você souber que o conteúdo em alguns conjuntos de sites ou fontes externas é atualizado somente nas sextas-feiras, seria um desperdício de recursos rastrear esse conteúdo com uma frequência maior que uma vez por semana. Entretanto, o farm de servidores pode conter outros conjuntos de sites que sejam atualizados continuamente de segunda a sexta, mas que normalmente não sejam atualizados aos sábados e domingos. Nesse caso, você pode rastrear várias vezes em cada dia da semana, mas apenas uma ou duas vezes nos fins de semana.

A maneira como o conteúdo é armazenado nos conjuntos de sites do seu ambiente pode orientá-lo na criação de fontes de conteúdo adicionais para cada um dos conjuntos de sites em cada um dos aplicativos Web. Por exemplo, se um conjunto de sites armazenar apenas informações arquivadas, talvez você não precise rastrear esse conteúdo com tanta frequência quanto rastreia um conjunto de sites que armazena conteúdo atualizado frequentemente. Nesse caso, você pode rastrear esses dois conjuntos de sites usando fontes de conteúdo diferentes para que eles possam ser rastreados em agendamentos diferentes, sem ter de rastrear os sites de dados arquivados com a mesma frequência que o outro conteúdo.

Agendamentos de rastreamento completo e incremental

Os administradores de serviços compartilhados podem configurar os agendamentos de rastreamento independentemente para cada fonte de conteúdo. Para cada fonte de conteúdo, eles podem especificar um horário para fazer rastreamentos completos e um horário separado para fazer rastreamentos incrementais. Observe que você deve executar um rastreamento completo para uma fonte de conteúdo em particular antes de executar um rastreamento incremental. Se você escolher um rastreamento incremental para um conteúdo que ainda não tenha sido rastreado, o sistema realizará um rastreamento completo.

Dica

O rastreamento completo rastreia todo o conteúdo encontrado pelo rastreador no qual tenha, no mínimo, o acesso de leitura. Portanto, independentemente desse conteúdo já ter sido rastreado, os rastreamentos completos podem levar bastante tempo a mais para serem concluídos que os rastreamentos incrementais.

É recomendável planejar os agendamentos de rastreamento com base em considerações de disponibilidade, desempenho e largura de banda dos servidores que executam o serviço de pesquisa e dos servidores que hospedam o conteúdo rastreado.

Ao planejar agendamentos de rastreamento, considere as seguintes práticas recomendadas:

  • Agrupe endereços iniciais em fontes de conteúdo com base em uma disponibilidade semelhante e com um uso geral aceitável de recursos para os servidores que hospedam o conteúdo.

  • Agende rastreamentos incrementais para cada fonte de conteúdo durante horários nos quais os servidores que hospedam o conteúdo estão disponíveis e quando houver pouca demanda de recursos nesses servidores.

  • Intercale os agendamentos de rastreamento para que a carga nos servidores do seu farm seja distribuída ao longo do tempo.

  • Só agende rastreamentos completos quando necessário e pelos motivos listados na próxima seção. Recomendamos que você faça rastreamentos completos com menos frequência do que rastreamentos incrementais.

  • Faça o agendamento de alterações administrativas que exigem um rastreamento completo de forma que ele ocorra logo antes do agendamento planejado para rastreamentos completos. Por exemplo, é recomendável tentar agendar a criação da regra de rastreamento antes do próximo rastreamento completo agendado, para que um rastreamento completo adicional não seja necessário.

  • Baseie rastreamentos simultâneos na capacidade do servidor de indexação que vai rastreá-los. É recomendável intercalar os agendamentos de rastreamento de modo que o servidor de indexação não rastreie usando várias fontes de conteúdo ao mesmo tempo. Para obter o melhor desempenho, sugerimos que você intercale os agendamentos de rastreamento de fontes de conteúdo. O desempenho do servidor de indexação e dos servidores que hospedam o conteúdo determina a extensão máxima para sobreposição dos rastreamentos. Uma estratégia para agendar rastreamentos pode ser desenvolvida com o tempo, à medida que você se familiariza com as durações comuns dos rastreamentos para cada fonte de conteúdo.

Motivos para executar um rastreamento completo

Os motivos para um administrador de serviços de pesquisa executar um rastreamento completo incluem:

  • Um ou mais hotfix ou service pack foi instalado nos servidores do farm. Consulte as instruções do hotfix ou service pack para obter mais informações.

  • Um administrador de SSP adicionou uma nova propriedade gerenciada.

  • Para indexar novamente páginas ASPX em sites do Windows SharePoint Services 3.0 ou Office SharePoint Server 2007.

    Dica

    O rastreador não pode descobrir quando as páginas ASPX em sites do Windows SharePoint Services 3.0 ou Office SharePoint Server 2007 foram alteradas. Por causa disso, os rastreamentos incrementais não indexam novamente modos de exibição ou home pages quando itens de lista individuais são excluídos. É recomendável executar periodicamente rastreamentos completos de sites que contenham arquivos ASPX para assegurar que essas páginas sejam indexadas novamente.

  • Para resolver falhas de rastreamento incremental consecutivas. Raramente, quando um rastreamento incremental falha diversas vezes consecutivas em qualquer nível de um repositório, o servidor de indexação remove o conteúdo afetado do índice.

  • Regras de rastreamento foram adicionadas, excluídas ou modificadas.

  • Para reparar um índice corrompido.

  • O administrador dos serviços de pesquisa criou um ou mais mapeamentos de nome de servidor.

  • A conta atribuída à conta de acesso a conteúdo padrão ou regra de rastreamento mudou.

O sistema executa um rastreamento completo até mesmo quando um rastreamento incremental é solicitado nas seguintes circunstâncias:

  • Um administrador de SSP interrompeu o rastreamento anterior.

  • Um banco de dados de conteúdo foi restaurado do backup.

    Dica

    Se você estiver executando o Atualização de infraestrutura para os Microsoft Office Servers, poderá usar a operação de restauração da ferramenta de linha de comando stsadm para alterar se a restauração de um banco de dados de conteúdo causa um rastreamento completo.

  • Um administrador de farm desanexou e reanexou um banco de dados de conteúdo.

  • Um rastreamento completo do site nunca foi realizado.

  • O log de alterações não contém entradas dos endereços que estão sendo rastreados. Sem as entradas no log de alterações dos itens que estão sendo rastreados, não podem ocorrer rastreamentos incrementais.

  • A conta atribuída à conta de acesso a conteúdo padrão ou regra de rastreamento mudou.

  • Reparar um índice corrompido.

    Dependendo da severidade da corrupção, o sistema poderá tentar executar um rastreamento completo caso a corrupção seja detectada no índice.

Você pode ajustar agendamentos após a implantação inicial com base no desempenho e na capacidade dos servidores do farm e nos servidores que hospedam o conteúdo.

Ação de planilha

Registre as decisões que você tomar sobre fontes de conteúdo para a implantação inicial nas tabelas na seção sobre fontes de conteúdo da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Limitar ou aumentar a quantidade de conteúdo rastreado

Para cada fonte de conteúdo, você pode selecionar em que nível rastreará os endereços iniciais nessa fonte. Você também especifica o comportamento do rastreamento, às vezes denominado definições de rastreamento. As opções que você pode escolher para uma determinada fonte de conteúdo variam um pouco com base no tipo de fonte de conteúdo selecionado. No entanto, muitas opções determinam quantos níveis na hierarquia de cada endereço inicial listado na fonte de conteúdo são rastreados. Observe que esse comportamento é aplicado a todos os endereços iniciais em uma determinada fonte de conteúdo. Se você precisar rastrear alguns sites em níveis mais profundos, crie fontes de conteúdo adicionais que englobem esses sites.

As opções disponíveis nas propriedades para cada fonte de conteúdo variam de acordo com o tipo de fonte de conteúdo selecionado. A tabela a seguir descreve as opções de configuração de rastreamento para cada tipo de fonte de conteúdo.

Tipo de fonte de conteúdo Opções de configuração de rastreamento

Sites do SharePoint

Todos os itens sob o nome de host para cada endereço inicial

Somente o site do SharePoint de cada endereço inicial

Sites

Somente dentro do servidor de cada endereço inicial

Somente a primeira página de cada endereço inicial

Personalizado — Especifique a profundidade de página e o número de saltos do servidor.

ObservaçãoObservação:
A configuração padrão dessa opção são profundidades de página e saltos de servidor ilimitados.

Compartilhamentos de arquivo

A pasta e todas as subpastas de cada endereço inicial

Somente a pasta de cada endereço inicial

Pastas públicas do Exchange

A pasta e todas as subpastas de cada endereço inicial

Somente a pasta de cada endereço inicial

Dados corporativos

Rastrear Catálogo de Dados Corporativos inteiro

Rastrear aplicativos selecionados

Como mostra a tabela anterior, os administradores de serviços compartilhados podem usar opções de configuração de rastreamento para limitar ou aumentar a quantidade de conteúdo rastreado.

A tabela a seguir descreve as práticas recomendadas durante a configuração de opções de rastreamento.

Para este tipo de fonte de conteúdo Se isto for pertinente Use esta opção de configuração de rastreamento

Sites do SharePoint

Você deseja incluir o conteúdo no próprio site.

-ou-

Você não deseja incluir o conteúdo disponível em subsites ou deseja rastreá-lo em um agendamento diferente.

Rastrear apenas o site do SharePoint de cada endereço inicial

Sites do SharePoint

Você deseja incluir o conteúdo no próprio site.

-ou-

Você deseja rastrear todo o conteúdo no endereço inicial no mesmo agendamento.

Rastrear tudo sob o nome do host de cada endereço inicial

Sites

O conteúdo do site propriamente dito é relevante.

-ou-

O conteúdo disponível em sites vinculados provavelmente não é relevante.

Rastrear somente dentro do servidor de cada endereço inicial

Sites

O conteúdo relevante está somente na primeira página.

Rastrear somente a primeira página de cada endereço inicial

Sites

Você quer limitar a profundidade do rastreamento dos links nos endereços iniciais.

Personalizado — Especifique o número de páginas para profundidade e o número de saltos de servidor a serem rastreados

ObservaçãoObservação:
É recomendável começar com um número pequeno em um site altamente conectado porque a especificação de mais de três páginas de profundidade ou mais de três saltos de servidor poderá rastrear toda a Internet.

Compartilhamentos de arquivo

Pastas públicas do Exchange

O conteúdo disponível nas subpastas provavelmente não é relevante.

Rastrear somente a pasta de cada endereço inicial

Compartilhamentos de arquivo

Pastas públicas do Exchange

O conteúdo das subpastas provavelmente é relevante.

Rastrear a pasta e a subpasta de cada endereço inicial

Dados corporativos

Todos os aplicativos registrados no Catálogo de Dados Corporativos apresentam conteúdo relevante.

Rastrear o Catálogo de Dados Corporativos inteiro

Dados corporativos

Nem todos os aplicativos registrados no Catálogo de Dados Corporativos têm conteúdo relevante.

-ou-

Você deseja rastrear alguns aplicativos em um agendamento diferente.

Rastrear aplicativos selecionados

Planejar inclusões de tipos de arquivo e iFilters

O conteúdo só é rastreado se a extensão de nome de arquivo relevante estiver incluída na lista de inclusões de tipos de arquivo e um iFilter estiver instalado no servidor de indexação com suporte a esses tipos de arquivo. Vários tipos de arquivo são incluídos automaticamente durante a instalação inicial. Quando você planejar as fontes de conteúdo na implantação inicial, determine se o conteúdo que deseja rastrear usa tipos de arquivo não incluídos. Se os tipos de arquivo não estiverem incluídos, você deverá adicioná-los na página Gerenciar Tipos de Arquivo durante a implantação e garantir que haja um IFilter instalado e registrado para oferecer suporte a esse tipo de arquivo.

O Office SharePoint Server 2007 fornece vários IFilters e há outros disponíveis, da Microsoft e de fabricantes terceirizados. Para obter mais informações sobre como instalar e registrar IFilters adicionais disponíveis da Microsoft, consulte a página sobre como registrar o Microsoft Filter Pack no SharePoint Server 2007 e no Search Server 2008 (https://go.microsoft.com/fwlink/?linkid=110532\&clcid=0x416). Se necessário, os desenvolvedores de software podem criar IFilters para novos tipos de arquivos.

Por outro lado, se você quiser excluir certos tipos de arquivo do rastreamento, poderá excluir a extensão de nome de arquivo para esse tipo de arquivo da lista de inclusões de tipos de arquivo. Isso excluirá do rastreamento nomes de arquivos que tenham essa extensão.

A tabela a seguir lista quais tipos de arquivo têm suporte pelos iFilters instalados por padrão e quais tipos de arquivo são habilitados na página Gerenciar Tipos de Arquivo por padrão.

Extensão de nome de arquivo Suporte a iFilter padrão Inclusões de tipos de arquivo padrão

ascx

Sim

Sim

asm

Sim

Não

.asp

Sim

Sim

aspx

Sim

Sim

.bat

Sim

Não

c

Sim

Não

.cmd

Sim

Não

cpp

Sim

Não

css

Sim

Não

cxx

Sim

Não

def

Sim

Não

dic

Sim

Não

doc

Sim

Sim

docm

Sim

Sim

docx

Sim

Sim

dot

Sim

Sim

eml

Sim

Sim

exch

Não

Sim

h

Sim

Não

hhc

Sim

Não

hht

Sim

Não

hpp

Sim

Não

hta

Sim

Não

htm

Sim

Sim

html

Sim

Sim

htw

Sim

Não

htx

Sim

Não

jhtml

Não

Sim

jsp

Não

Sim

lnk

Sim

Não

mht

Sim

Sim

mhtml

Sim

Sim

mpx

Sim

Não

msg

Sim

Sim

mspx

Não

Sim

nsf

Não

Sim

odc

Sim

Sim

one

Não

Não

php

Não

Sim

pot

Sim

Não

pps

Sim

Não

ppt

Sim

Sim

pptm

Sim

Sim

pptx

Sim

Sim

pub

Sim

Sim

stm

Sim

Não

tif

Sim

Sim

tiff

Não

Sim

trf

Sim

Não

txt

Sim

Sim

url

Não

Sim

vdx

Não

Sim

vsd

Não

Sim

vss

Não

Sim

vst

Não

Sim

vsx

Não

Sim

vtx

Não

Sim

xlb

Sim

Não

xlc

Sim

Não

xls

Sim

Sim

xlsm

Sim

Sim

xlsx

Sim

Sim

xlt

Sim

Não

xml

Sim

Sim

iFilters e Microsoft Office OneNote

Um IFilter não é fornecido para a extensão de nome de arquivo .one usada pelo Microsoft Office OneNote. Para permitir que os usuários pesquisem conteúdo em arquivos do Office OneNote, instale um IFilter para o OneNote. Para fazer isso, você deve executar uma das ações a seguir.

Ação de planilha

Registre as decisões que você tomar sobre inclusões de tipos de arquivo e iFilters para sua implantação inicial na seção sobre inclusões de tipos de arquivo e iFilters da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Limitar ou excluir conteúdo usando regras de rastreamento

Quando você adiciona um endereço inicial a uma fonte de conteúdo e aceita o comportamento padrão, todos os subsites ou as pastas abaixo desse endereço inicial são rastreados, a menos que você os exclua usando uma ou mais regras de rastreamento.

Para obter mais informações sobre regras de rastreamento, consulte Planejar as regras de rastreamento posteriormente neste artigo.

Outras considerações ao planejar fontes de conteúdo

Você não pode rastrear os mesmos endereços usando várias fontes de conteúdo. Por exemplo, se você usar uma fonte de conteúdo específica para rastrear um conjunto de sites e todos os seus subsites, não poderá usar uma fonte de conteúdo diferente para rastrear um desses subsites separadamente em outro agendamento. Para acomodar essa restrição, talvez seja necessário rastrear alguns desses sites separadamente. Considere o seguinte cenário:

O administrador de SSP da Contoso deseja rastrear http://contoso, que contém os subsites http://contoso/sites/site1 e http://contoso/sites/site2. Ele deseja rastrear http://contoso/sites/site2 em um agendamento diferente dos outros sites. Para conseguir isso, ele adiciona os endereços http://contoso e http://contoso/sites/site1 a uma fonte de conteúdo e seleciona a configuração Rastrear apenas o site do SharePoint de cada endereço inicial. Em seguida, ele adiciona http://contoso/sites/site2 a outra fonte de conteúdo e especifica um agendamento diferente para essa fonte de conteúdo.

Além dos agendamentos de rastreamento, há outros itens a serem considerados durante o planejamento de fontes de conteúdo. Por exemplo, a opção de agrupar endereços iniciais em uma única fonte de conteúdo ou criar fontes de conteúdo adicionais para rastrear esses endereços iniciais depende amplamente de considerações de administração. Em geral, os administradores fazem alterações que exigem a atualização completa de uma fonte de conteúdo específica. As alterações em uma fonte de conteúdo exigem um rastreamento completo dessa fonte. Para facilitar a administração, organize as fontes de conteúdo de forma que a atualização delas, das regras de rastreamento e do conteúdo de rastreamento seja conveniente aos administradores.

Resumo de fontes de conteúdo

Considere o seguinte ao planejar suas fontes de conteúdo:

  • Uma fonte de conteúdo em particular pode ser usada para rastrear apenas um dos seguintes tipos de conteúdo: sites do SharePoint, sites que não sejam do SharePoint, compartilhamentos de arquivo, pastas públicas do Exchange, bancos de dados do Lotus Notes e dados corporativos.

  • Os administradores de serviços compartilhados podem criar até 500 fontes de conteúdo em cada SSP, e cada fonte de conteúdo pode conter até 500 endereços iniciais. Para manter a administração a mais simples possível, você deve criar apenas quantas fontes de conteúdo forem realmente necessárias.

  • Cada URL em uma determinada fonte de conteúdo deve ser do mesmo tipo da fonte de conteúdo.

  • Para uma determinada fonte de conteúdo, você pode escolher com que profundidade rastrear os endereços iniciais. Essas definições de configuração aplicam-se a todos os endereços iniciais na fonte de conteúdo. As opções disponíveis de profundidade de rastreamento de endereços iniciais são diferentes de acordo com o tipo de fonte de conteúdo selecionado.

  • Você pode agendar quando executar um rastreamento completo ou incremental para toda a fonte de conteúdo. Para obter mais informações sobre como agendar rastreamentos, consulte "Agendamentos de rastreamento completo e incremental" anteriormente neste artigo.

  • Os administradores de serviços compartilhados podem modificar a fonte de conteúdo padrão, criar fontes de conteúdo adicionais para rastrear outro conteúdo, ou ambas as opções. Por exemplo, eles podem configurar a fonte de conteúdo padrão para também rastrear conteúdo em um farm de servidores diferente ou podem criar uma nova fonte de conteúdo para rastrear outro conteúdo.

  • Para rastrear com eficiência todo o conteúdo necessário para a organização, use a quantidade de fontes de conteúdo necessária para os tipos de fonte que você deseja rastrear e para a frequência na qual planeja rastreá-las.

Planejar a autenticação

Quando o rastreador acessa os endereços iniciais listados nas fontes de conteúdo, ele deve ser autenticado pelos servidores que hospedam esse conteúdo e receber acesso a eles. Isso significa que a conta de domínio usada pelo rastreador deve ter pelo menos permissão de leitura no conteúdo.

A conta de acesso de conteúdo padrão é a conta usada por padrão no rastreamento de fontes de conteúdo. Essa conta é especificada pelo administrador de serviços compartilhados. Como alternativa, você pode usar regras de rastreamento para especificar uma conta de acesso de conteúdo diferente a ser usada ao rastrear um conteúdo em particular. Independentemente de você usar a conta de acesso de conteúdo padrão ou uma conta de acesso de conteúdo diferente especificada por uma regra de rastreamento, a conta de acesso de conteúdo que você usar deverá ter acesso de leitura a todo o conteúdo rastreado, ou o conteúdo não será rastreado e não estará disponível para consultas.

É recomendável selecionar uma conta de acesso de conteúdo padrão que tenha o acesso mais amplo à maior parte do conteúdo rastreado e usar apenas outras contas de acesso de conteúdo quando as considerações de segurança exigirem contas de acesso de conteúdo separadas. Para obter mais informações sobre como criar contas de acesso de conteúdo separadas para rastrear conteúdo que não possa ser lido com o uso da conta de acesso de conteúdo padrão, consulte Planejar as regras de rastreamento posteriormente neste artigo.

Para cada fonte de conteúdo que você planejar, identifique os endereços iniciais que não podem ser acessados pela conta de acesso de conteúdo padrão e planeje adicionar regras de rastreamento para padrões de URL que englobem esses endereços iniciais.

Dica

Verifique se a conta de domínio usada para a conta de acesso de conteúdo padrão ou qualquer outra conta de acesso de conteúdo não é a mesma conta de domínio usada por um pool de aplicativos associado a qualquer aplicativo Web rastreado. Isso poderá causar conteúdo não publicado em sites do SharePoint e versões secundárias de arquivos (histórico) em sites do SharePoint a serem rastreados e indexados.

Para obter mais informações sobre as considerações de planejamento para contas de acesso a conteúdo, consulte Planejar as regras de rastreamento posteriormente neste artigo.

Ação de planilha

Registre a conta de acesso de conteúdo padrão que o rastreador usará ao rastrear conteúdo na seção sobre a conta de acesso de conteúdo padrão da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Outra consideração importante é que o rastreador deve usar o mesmo método de autenticação que o servidor host. Por padrão, o rastreador tenta autenticar usando a autenticação NTLM. Você pode configurar o rastreador para usar um método de autenticação diferente, se necessário. Para obter mais informações, consulte "Authentication requirements for crawling content" em Planejar métodos de autenticação (Office SharePoint Server).

Planejar os manipuladores de protocolo

Todo o conteúdo rastreado requer o uso de um manipulador de protocolo para obter acesso a esse conteúdo. O Office SharePoint Server 2007 fornece manipuladores de conteúdo para todos os protocolos de Internet comuns. No entanto, se você quiser rastrear conteúdo que exija um manipulador de protocolo que não seja instalado com o Office SharePoint Server 2007, instale o manipulador de protocolo de terceiros ou personalizado antes de rastrear esse conteúdo.

A tabela a seguir mostra os manipuladores de protocolo instalados por padrão.

Manipulador de protocolo Usado para rastrear

Bdc

Catálogo de Dados Corporativos

Bdc2

URLs do Catálogo de Dados Corporativos (protocolo interno)

Arquivo

Compartilhamentos de arquivo

http

Sites

https

Sites sobre SSL

Observações

Bancos de dados do Lotus Notes

Rb

Pastas públicas do Exchange

Rbs

Pastas públicas do Exchange sobre SSL

Sps

Perfis pessoais de farms de servidores do Windows SharePoint Services 2.0

Sps3

Rastreamentos de perfis pessoais de farms de servidores do Windows SharePoint Services 3.0 apenas

Sps3s

Rastreamentos de perfis pessoais de farms de servidores do Windows SharePoint Services 3.0 sobre SSL

Spsimport

Importação de perfil pessoal

Spss

Importação de perfil pessoal de farms de servidores do Windows SharePoint Services 2.0 sobre SSL

Sts

URLs de raiz do Windows SharePoint Services 3.0 (protocolo interno)

Sts2

Sites do Windows SharePoint Services 2.0

Sts2s

Sites do Windows SharePoint Services 2.0 sobre SSL

Sts3

Sites do Windows SharePoint Services 3.0

Sts3s

Sites do Windows SharePoint Services 3.0 sobre SSL

Ação de planilha

Registre as decisões que você tomar sobre manipuladores de protocolo para a sua implantação inicial na seção sobre manipuladores de protocolo da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Planejar o gerenciamento do impacto de rastreamento

O rastreamento de conteúdo pode diminuir significativamente o desempenho dos servidores que hospedam o conteúdo. O impacto que isso tem em um determinado servidor varia de acordo com a carga atual do servidor host e se o servidor tem recursos suficientes (particularmente de CPU e RAM) para manter contratos de nível de serviço sob o uso normal ou de pico.

As regras de impacto do rastreador permitem que os administradores de farm gerenciem o impacto do seu rastreador sobre os servidores que estão sendo rastreados. Para cada regra de impacto do rastreador, você pode especificar uma única URL ou usar caracteres curinga no caminho da URL para incluir um bloco de URLs às quais a regra se aplica. Em seguida, você pode indicar quantas solicitações simultâneas de páginas são feitas para a URL especificada ou optar por solicitar somente um documento de cada vez e esperar alguns segundos entre as solicitações.

As regras de impacto do rastreador reduzem ou aumentam a taxa na qual o rastreador solicita conteúdo de um determinado endereço inicial ou intervalo de endereços iniciais (às vezes denominado nome do site), independentemente da fonte de conteúdo usada para rastrear esses endereços. A tabela a seguir mostra os caracteres curinga que podem ser utilizados no nome do site ao adicionar uma regra.

Caractere curinga a ser usado Resultado

* como o nome do site

Aplica a regra a todos os sites.

*.* como o nome do site

Aplica a regra a sites com pontos no nome.

*.nome_do_site.com como o nome do site

Aplica a regra a todos os sites no domínio nome_do_site.com (por exemplo, *.adventure-works.com).

*.nome_de_domínio_de_nível_superior como o nome do site

Aplica a regra a todos os sites que terminam com um nome de domínio de nível superior específico, por exemplo, *.com ou *.net.

?

Substitui um único caractere em uma regra. Por exemplo, *.adventure-works?.com aplica-se a todos os sites nos domínios adventure-works1.com, adventure-works2.com e assim por diante.

Você pode criar uma regra de impacto do rastreador que seja aplicada a todos os sites em um determinado domínio de nível superior. Por exemplo, *.com aplica-se a todos os sites de Internet com endereços que terminam em .com. Por exemplo, um administrador de um site de portal pode adicionar uma fonte de conteúdo para samples.microsoft.com. A regra para *.com aplica-se a esse site, a menos que você adicione uma regra de impacto do rastreador especificamente para samples.microsoft.com.

Para o conteúdo de sua organização rastreado por outros administradores, é possível trabalhar coordenadamente com esses administradores de forma a criar regras de impacto do rastreador com base no desempenho e na capacidade dos servidores. Para a maioria dos sites externos, essa coordenação não é possível. A solicitação de muito conteúdo em servidores externos ou o excesso de novas solicitações pode fazer com que os administradores desses sites limitem o seu acesso futuro, se os seus rastreamentos estiverem usando muitos recursos ou muita largura de banda. Assim, a prática recomendada é rastrear mais lentamente. Dessa forma, você pode reduzir o risco de perder o acesso para rastrear o conteúdo relevante.

Durante a implantação inicial, defina as regras de impacto do rastreador de forma a criar o menor impacto possível sobre outros servidores e, ao mesmo tempo, ainda rastrear o conteúdo com a frequência necessária para garantir que o conteúdo rastreado permaneça atualizado.

Durante a fase de operação, é possível ajustar regras de impacto do rastreador com base nas suas experiências e nos dados de logs de rastreamento.

Ação de planilha

Registre as decisões que você tomar sobre as regras de impacto do rastreador para a sua implantação inicial na seção sobre regras de impacto do rastreador da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Planejar as regras de rastreamento

As regras de rastreamento aplicam-se a uma determinada URL ou conjunto de URLs representado por caracteres curinga (também mencionado como o caminho afetado pela regra). Use as regras de rastreamento para executar as seguintes operações:

  • Evitar rastrear conteúdo irrelevante excluindo uma ou mais URLs. Isso também ajuda a reduzir o uso de recursos de servidor e o tráfego na rede e a aumentar a relevância dos resultados da pesquisa.

  • Rastrear links da URL sem rastrear a própria URL. Essa opção é útil para sites com links de conteúdo relevante quando a página que contém os links não contém informações relevantes.

  • Permitir que URLs complexas sejam rastreadas. Essa opção rastreia URLs que contêm um parâmetro de consulta especificado com um ponto de interrogação. Dependendo do site, essas URLs podem ou não incluir conteúdo relevante. Como as URLs complexas podem frequentemente fazer o redirecionamento para sites irrelevantes, convém habilitar essa opção apenas em sites nos quais o conteúdo disponível a partir de URLs complexas seja considerado relevante.

  • Permitir que o conteúdo de sites do SharePoint seja rastreado como páginas HTTP. Essa opção permite que o servidor de indexação rastreie sites do SharePoint que estejam protegidos por firewall ou em cenários em que o site que estiver sendo rastreado restrinja o acesso ao serviço Web usado pelo rastreador.

  • Especificar se você deseja usar a conta de acesso de conteúdo padrão, uma conta de acesso de conteúdo diferente ou um certificado cliente para rastrear a URL especificada.

Dica

As regras de rastreamento aplicam-se simultaneamente a todas as fontes de conteúdo do SSP.

Em geral, grande parte do conteúdo do endereço de um site em particular é relevante, mas não um subsite específico ou intervalo de sites abaixo desse endereço de site. Ao selecionar uma combinação direcionada de URLs para a qual criar regras de rastreamento que excluam itens desnecessários, os administradores de serviços compartilhados podem maximizar a relevância do conteúdo no índice e minimizar o impacto no desempenho do rastreamento e no tamanho dos bancos de dados de pesquisa. A criação de regras de rastreamento para excluir URLs é particularmente útil ao planejar endereços iniciais para conteúdo externo, o impacto sobre o seu uso de recurso não é controlado pelas pessoas em sua organização.

Ao criar uma regra de rastreamento, você pode usar caracteres curinga padrão no caminho. Por exemplo:

  • http://server1/folder* contém todos os recursos da Web com uma URL que inicie com http://server1/folder.

  • *://*.txt inclui todos os documentos com a extensão de nome de arquivo .txt.

Como o rastreamento de conteúdo consome recursos e largura de banda, convém incluir uma quantidade menor de conteúdo relevante do que uma grande quantidade de conteúdo irrelevante. Após a implantação inicial, você poderá revisar os logs de consulta e rastreamento e ajustar as fontes de conteúdo e as regras de rastreamento de forma a serem mais relevantes e incluírem mais conteúdo.

Especificar uma conta de acesso de conteúdo diferente

Para regras de rastreamento que incluam conteúdo, os administradores têm a opção de alterar a conta de acesso de conteúdo para uma regra. A conta de acesso de conteúdo padrão será usada caso outra conta não tenha sido especificada em uma regra de rastreamento. O principal motivo de usar uma conta de acesso de conteúdo diferente para uma regra de rastreamento é que a conta de acesso de conteúdo padrão não precisa acessar todos os endereços iniciais. Para esses endereços, é possível criar uma regra de rastreamento e especificar uma conta que tenha acesso.

Dica

Verifique se a conta de domínio usada para a conta de acesso de conteúdo padrão ou qualquer outra conta de acesso de conteúdo não é a mesma conta de domínio usada por um pool de aplicativos associado a qualquer aplicativo Web rastreado. Isso poderá causar conteúdo não publicado em sites do SharePoint e versões secundárias de arquivos (histórico) em sites do SharePoint a serem rastreados e indexados.

Ação de planilha

Registre as decisões que você tomar sobre regras de rastreamento para a sua implantação inicial na seção sobre regras de rastreamento da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Planejar as definições de pesquisa gerenciadas no nível do farm

Além das definições configuradas no nível do SSP, várias definições que são gerenciadas no nível do farm afetam como o conteúdo é rastreado. Considere as seguintes definições de pesquisa no nível do farm para o rastreamento:

  • Email para contato: o conteúdo do rastreamento afeta os recursos dos servidores que estão sendo rastreados. Antes que você possa rastrear o conteúdo, deve fornecer nas definições de configuração o endereço de email da pessoa na sua organização com quem os administradores podem entrar em contato caso o rastreamento afete os servidores de forma adversa. Esse endereço de email aparece em logs para os administradores dos servidores que estão sendo rastreados para que esses administradores possam entrar em contato com alguém se o impacto do rastreamento no desempenho e na largura de banda for muito grande ou se outros problemas ocorrerem.

    O email para contato deve pertencer à pessoa que tem os conhecimentos necessários e a disponibilidade para responder rapidamente às solicitações. Se desejar, use um alias de lista de distribuição monitorada como o endereço de email do contato. Independentemente do conteúdo rastreado ser ou não armazenado internamente na empresa, é essencial ter um tempo de resposta rápido.

  • Configurações do servidor proxy: você pode escolher se deseja usar um servidor proxy ao rastrear conteúdo. O servidor proxy a ser usado depende da topologia da implantação do Office SharePoint Server 2007 e da arquitetura de outros servidores na organização.

  • Configurações de tempo limite: as configurações de tempo limite são usadas para limitar o tempo que o servidor de pesquisa aguarda enquanto se conecta a outros serviços.

  • Configuração de SSL: a configuração de SSL (Secure Sockets Layer) determina se o certificado SSL deve corresponder exatamente ao conteúdo do rastreamento.

Ação de planilha

Registre as decisões que você tomar sobre definições de pesquisa no nível do farm para a sua implantação inicial na seção sobre definições de pesquisa no nível do farm da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Indexando conteúdo em idiomas diferentes

Ao rastrear conteúdo, o rastreador determina cada palavra do conteúdo que localiza. Os idiomas que têm palavras separadas por espaços tornam relativamente fácil para o rastreador distinguir cada uma delas. Em outros idiomas, encontrar os limites entre palavras pode ser mais complexo.

O Office SharePoint Server 2007 fornece separadores de palavras e lematizadores por padrão para ajudar a rastrear e indexar conteúdo em vários idiomas. Os separadores de palavras encontram os limites da palavra em dados indexados de texto completo, enquanto os lematizadores conjugam verbos.

Se você estiver rastreando qualquer um dos idiomas incluídos na tabela a seguir, o Office SharePoint Server 2007 usará automaticamente o separador de palavra e o lematizador apropriados a esse idioma. Um asterisco (*) indica que o recurso de lematização está ativado por padrão.

Idioma com suporte por padrão Idioma com suporte por padrão

Árabe

Lituano*

Bengalês

Malaio

Búlgaro*

Malaiala*

Catalão

Marata

Croata

Norueguês - Bokmal

Tcheco*

Polonês*

Dinamarquês

Português

Holandês

Português - Brasil

Inglês

Punjabi

Finlandês*

Romeno*

Francês*

Russo*

Alemão*

Sérvio - Cirílico*

Grego*

Sérvio - Latim*

Guzerate

Eslovaco*

Hebraico

Esloveno*

Hindi

Espanhol*

Húngaro*

Sueco

Islandês*

Tâmil*

Indonésio

Telugu*

Italiano

Tailandês

Japonês

Turco*

Kannada*

Ucraniano*

Coreano

Urdu*

Letão*

Vietnamita

Quando o rastreador indexa conteúdo para um idioma sem suporte, o separador neutro é usado. Se o separador neutro não der os resultados esperados, tente soluções de terceiros que funcionem com o Office SharePoint Server 2007.

Como prática recomendada, certifique-se de instalar o separador de palavras e o lematizador apropriados para cada um dos idiomas que precise de suporte. Os separadores de palavras e lematizadores devem ser instalados em todos os servidores que estejam executando o serviço Office SharePoint Server Search.

Para obter mais informações sobre separadores de palavras e lematizadores, consulte Planejar sites multilíngues.

Ação de planilha

Registre as decisões que você tomar sobre separadores de palavras e lematizadores para a sua implantação inicial na seção sobre separadores de palavras e lematizadores da planilha de planejamento do rastreamento do conteúdo (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x416).

Planilha

Caso ainda não tenha feito isso, registre suas decisões de planejamento sobre fontes de conteúdo e outras decisões sobre rastreamento de conteúdo na seguinte planilha:

Se você decidir criar apenas algumas das fontes de conteúdo e regras de rastreamento planejadas durante a implantação inicial e a configuração, poderá usar essa planilha como parte das operações em andamento.

Baixar este manual

Este tópico está incluído no seguinte manual baixável para facilitar a leitura e a impressão:

Consulte a lista completa de manuais disponíveis na página de download de conteúdo do Office SharePoint Server 2007.