Compartilhar via


Rastrear conteúdo (Office SharePoint Server 2007)

Atualizado em: 2010-09-23

O rastreamento do conteúdo é o processo pelo qual um sistema acessa e analisa o conteúdo e suas propriedades, às vezes denominados metadados, para criar um índice de conteúdo com base no qual as consultas de pesquisa poderão ser realizadas.

O resultado de um rastreamento de conteúdo bem-sucedido é que as partes de conteúdo ou os arquivos individuais que você deseja disponibilizar para as consultas de pesquisa são acessados e lidos pelo rastreador. As palavras-chave e os metadados desses arquivos são armazenados no índice de conteúdo, algumas vezes chamado de índice. O índice consiste nas palavras-chave armazenadas no sistema de arquivos do servidor de indexação e nos metadados armazenados no banco de dados de pesquisa. O sistema mantém um mapeamento entre as palavras-chave, os metadados associados às partes individuais de conteúdo e à URL da fonte da qual o conteúdo foi rastreado.

Dica

O rastreador não altera os arquivos nos servidores host. Em vez disso, os arquivos nos servidores host são simplesmente acessados e lidos, e o texto e os metadados desses arquivos são enviados para o servidor de indexação para serem indexados. Entretanto, como o rastreador lê o conteúdo no servidor host, alguns servidores que hospedam certas fontes de conteúdo podem atualizar a data de último acesso em arquivos que tenham sido rastreados.

Determinando quando rastrear o conteúdo

Depois que um farm de servidores tiver sido implantado e estiver em execução há algum tempo, um administrador de serviços de pesquisa normalmente precisa alterar a agenda de rastreamento. Talvez seja necessário fazer isso pelos seguintes motivos:

  • Para acomodar alterações em períodos de inatividade e de pico de uso.

  • Para acomodar alterações na frequência com a qual o conteúdo é atualizado nos servidores que hospedam o conteúdo.

  • Para agendar rastreamentos de modo que:

    • O conteúdo hospedado em servidores host mais lentos seja rastreado separadamente do conteúdo hospedado em servidores host mais rápidos.

    • Novas fontes de conteúdo são rastreadas.

    • Os rastreamentos ocorrem na mesma medida em que um conteúdo de destino é atualizado. Por exemplo, talvez seja necessário fazer rastreamentos diários em repositórios atualizados todos os dias e rastrear menos frequentemente repositórios atualizados só ocasionalmente.

Executando rastreamentos

Em geral, você deseja automatizar a maioria dos rastreamentos por meio do agendamento. Entretanto, às vezes você quer iniciar um rastreamento manualmente. Por exemplo, é possível iniciar um rastreamento para aplicar alterações administrativas, como regras de rastreamento, no conteúdo que você rastreia e indexa ou para determinar se um erro no log de rastreamento foi resolvido.

Além disso, não importa se um rastreamento foi iniciado por agendamento ou manualmente, talvez seja necessário interromper ou pausar um ou mais rastreamentos. Por exemplo, um administrador cujo servidor hospeda o conteúdo que você está rastreando pode notificá-lo de que determinado rastreamento está sobrecarregando o servidor ou você pode ser alertado de que o servidor que está sendo rastreado está offline no momento. Em ambos os casos, você pode querer interromper ou pausar o rastreamento.

Você deve considerar que mais tempo e recursos de servidor são necessários para realizar um rastreamento completo do que são necessários para realizar um rastreamento incremental. Os rastreamentos completos:

  • Consomem mais memória e ciclos de CPU no servidor de indexação que os rastreamentos incrementais.

  • Consomem mais memória e ciclos de CPU nos servidores front-end da Web ao rastrear conteúdo no farm de servidores. Isso não se aplica ao conteúdo externo ao farm de servidores.

  • Usam mais largura de banda de rede que os rastreamentos incrementais.

Importante

Quando você interromper um rastreamento de qualquer fonte de conteúdo, na próxima vez que rastrear essa fonte de conteúdo, o Microsoft Office SharePoint Server 2007 realizará automaticamente um rastreamento completo da fonte de conteúdo. Isso ocorrerá mesmo que você tente realizar um rastreamento incremental. Portanto, considere cuidadosamente se você deve pausar o rastreamento em vez de pará-lo.

Você também deve ter cuidado para não pausar os rastreamentos de muitas fontes de conteúdo ao mesmo tempo, pis cada fonte de conteúdo pausada consome memória e recursos de CPU no servidor de indexação.

Para iniciar um rastreamento completo ou incremental, interromper, pausar ou reiniciar ou rastreamento, realize um dos seguintes procedimentos:

Agendando rastreamentos

As seções a seguir fornecem mais informações sobre considerações do rastreamento de conteúdo em um agendamento.

Tempos de inatividade e períodos de pico de uso

Considere os tempos de inatividade e os períodos de pico de uso dos servidores que hospedam o conteúdo que você deseja rastrear. Por exemplo, se você estiver rastreando conteúdo hospedado por muitos servidores diferentes fora do farm de servidores, é provável que o backup desses servidores seja realizado em agendamentos diferentes e tenha períodos de pico de uso distintos. A administração de servidores fora do farm de servidores geralmente não está sob seu controle. Assim, recomendamos coordenar os rastreamentos com os administradores dos servidores que hospedam o conteúdo que você deseja rastrear para assegurar que não haja uma tentativa de rastreamento de conteúdo em seus servidores durante um tempo de inatividade ou período de pico de uso.

Dica

Como os períodos de pico de uso e de inatividade de servidores host podem mudar, recomendamos a reavaliação periódica das programações de rastreamento de todas as fontes de conteúdo, não apenas das novas fontes que você criar.

Um cenário comum envolve conteúdo fora do controle da empresa relacionado ao conteúdo nos seus sites do SharePoint. Você pode adicionar os endereços de início desse conteúdo a uma fonte de conteúdo existente ou criar uma nova fonte de conteúdo para conteúdo externo. Como a disponibilidade dos sites externos varia amplamente, é útil adicionar fontes de conteúdo à parte para um conteúdo externo distinto. Dessa maneira, as fontes de conteúdo externo poderão ser rastreadas em ocasiões diferentes daquelas das fontes de conteúdo. Em seguida, basta atualizar o conteúdo externo em uma agenda de rastreamento que considere a disponibilidade de cada site.

Conteúdo atualizado com frequência

Ao planejar agendas de rastreamento, considere que algumas fontes de conteúdo são atualizadas com mais frequência que outras. Por exemplo, se você souber que o conteúdo de alguns conjuntos de sites ou fontes externas é atualizado às sextas-feiras, é perda de recurso rastrear conteúdo mais frequentemente que uma vez por semana. Contudo, o farm de servidores pode conter outros conjuntos de sites que são continuamente atualizados de segunda a sexta-feira, mas geralmente não são atualizados aos sábados e domingos. Nesse caso, pode ser interessante rastrear esses sites várias vezes durante a semana e não nos fins de semana.

A maneira pela qual o conteúdo é armazenado nos conjuntos de sites do seu ambiente pode direcioná-lo a criar outras fontes de conteúdo para cada conjunto de sites de cada aplicativo Web. Por exemplo, se um conjunto de sites armazena somente informações arquivadas, talvez não seja necessário rastrear esse conteúdo com a mesma frequência de um conjunto de sites que armazena conteúdo frequentemente atualizado. Nesse caso, pode ser necessário rastrear esses conjuntos de sites com fontes de conteúdo diferentes, para que possam ser rastreados em agendas diferentes.

Agendas de rastreamento completo e incremental

Como administrador de serviços de pesquisa, você pode configurar de maneira independente os agendamentos de rastreamento para cada fonte de conteúdo. Para cada fonte de conteúdo, é possível especificar um período para fazer rastreamentos completos e um período diferente para fazer rastreamentos incrementais.

Dica

Você precisa executar um rastreamento completo para uma determinada fonte de conteúdo para poder executar um rastreamento incremental.

Recomendamos planejar as agendas de rastreamento com base em considerações de disponibilidade, desempenho e largura de banda dos servidores que executam o serviço de pesquisa e dos servidores que hospedam o conteúdo rastreado.

Ao planejar agendas de rastreamento, considere as seguintes práticas recomendadas:

  • Agrupe endereços de início em origens de conteúdo com base em uma disponibilidade semelhante e com um uso geral aceitável de recursos para os servidores que hospedam o conteúdo.

  • Agende rastreamentos incrementais para cada fonte de conteúdo durante horários nos quais os servidores que hospedam o conteúdo estão disponíveis e quando houver pouca demanda de recursos nesses servidores. Também é possível adicionar ou editar uma ou mais regras de impacto do rastreador para reduzir a carga dos servidores que estão sendo rastreados. Para obter informações sobre regras de impacto do rastreador, consulte Gerenciar impacto do rastreador (Office SharePoint Server 2007).

  • Faça o escalonamento de agendamentos de rastreamento para que a carga nos servidores do seu farm seja distribuída ao longo do tempo.

  • Só agende rastreamentos completos quando for necessário e pelos motivos listados na próxima seção. Recomendamos que você faça rastreamentos completos com menos frequência do que rastreamentos incrementais.

  • Faça o agendamento de alterações administrativas que exigem um rastreamento completo de forma que ele ocorra logo antes do agendamento planejado para rastreamentos completos. Por exemplo, recomendamos tentar agendar a criação da regra de rastreamento antes do próximo rastreamento completo agendado, para que um rastreamento completo adicional não seja necessário.

  • Baseie rastreamentos simultâneos na capacidade do servidor de indexação de rastreá-los. Recomendamos coordenar as agendas de rastreamento, de modo que o servidor de indexação não rastreie usando várias fontes de conteúdo ao mesmo tempo. O desempenho do servidor de indexação e dos servidores que hospedam o conteúdo determina em que medida os rastreamentos podem se sobrepor. Uma estratégia para agendar rastreamentos pode ser desenvolvida ao longo do tempo, à medida que você se familiarizar com as durações típicas de rastreamento de cada fonte de conteúdo. Recomendamos registrar dados de tendência do tempo de duração dos rastreamentos no seu ambiente.

Motivos para executar um rastreamento completo

Os motivos para que um administrador de serviços de pesquisa execute um rastreamento completo são:

  • Um ou mais hotfix ou service pack foi instalado nos servidores do farm. Consulte as instruções do hotfix ou service pack para obter mais informações.

  • Um administrador de SSP adicionou uma nova propriedade gerenciada.

  • Indexar novamente páginas ASPX em sites do Windows SharePoint Services 3.0 ou Office SharePoint Server 2007.

    Dica

    O rastreador não pode descobrir quando as páginas ASPX em sites do Windows SharePoint Services 3.0 ou do Office SharePoint Server 2007 foram alteradas. Por causa disso, os rastreamentos incrementais não indexam novamente modos de exibição ou home pages quando itens de lista individuais são excluídos. Recomendamos executar periodicamente rastreamentos completos de sites que contenham arquivos ASPX para garantir que essas páginas sejam indexadas novamente.

  • Detectar alterações de segurança feitas em um compartilhamento de arquivos depois do último rastreamento completo do compartilhamento de arquivos.

  • Resolver falhas de rastreamento incremental consecutivas. Em casos raros, se um rastreamento incremental falhar uma centena de vezes consecutivas em qualquer nível de um repositório, o servidor de indexação removerá o conteúdo afetado do índice.

  • As regras de rastreamento foram adicionadas, excluídas ou modificadas.

  • Reparar um índice corrompido.

  • O administrador dos serviços de pesquisa criou pelo menos um ou mais mapeamentos de nome de servidor.

  • A conta atribuída à conta de acesso ao conteúdo padrão ou regra de rastreamento mudou.

O sistema executa um rastreamento completo até mesmo quando um rastreamento incremental é solicitado nas seguintes circunstâncias:

  • Um administrador de SSP interrompeu o rastreamento anterior.

  • Um banco de dados de conteúdo foi restaurado do backup.

    Dica

    Se você estiver executando o Atualização de infraestrutura para os Microsoft Office Servers, poderá usar a operação de restauração da ferramenta de linha de comando stsadm para alterar se a restauração de um banco de dados de conteúdo causa um rastreamento completo.

  • Um administrador de farm desanexou e reanexou um banco de dados de conteúdo.

  • Um rastreamento completo do site nunca foi realizado.

  • O log de alteração não contém entradas de endereços a serem rastreados. Sem as entradas do log de alterações dos itens a serem rastreados, não podem ocorrer rastreamentos incrementais.

  • A conta atribuída à conta de acesso ao conteúdo padrão ou regra de rastreamento mudou.

  • Reparar um índice corrompido.

    Dependendo da gravidade da corrupção, o sistema poderá tentar executar um rastreamento completo caso ela seja detectada no índice.

Você pode ajustar agendamentos após a implantação inicial com base no desempenho e na capacidade dos servidores do farm e nos servidores que hospedam conteúdo.

Consulte também

Conceitos

Rastreando o seu conteúdo (Office SharePoint Server 2007)
Agendar um rastreamento completo (Office SharePoint Server 2007)
Agendar um rastreamento incremental (Office SharePoint Server 2007)