SharePoint

Encontre tudo com o SharePoint Enterprise Search

Matt Hester

 

Visão geral:

  • Arquitetura de uma solução de pesquisa empresarial
  • Indexação e consulta de dados corporativos
  • Dados LOB e base de dados de conhecimento das pessoas

Provavelmente, você passa muito tempo preocupado com tarefas, como tempo de atividade e disponibilidade do servidor, atualizações de software e segurança. Mas mesmo que sua infra-estrutura esteja funcionando perfeitamente – todos os aplicativos e

os arquivos disponíveis em toda a rede – talvez seus usuários ainda continuem perdendo produtividade. Claro, todos os dados de que eles precisam estão disponíveis, mas quanto tempo eles demoram para encontrá-los?

Muito se tem feito para ajudar as pessoas a lidarem com sobrecarga de informações. As ferramentas de pesquisa de desktop facilitaram a localização de informações escondidas no meio de todos os outros dados armazenados no sistema. (Consulte meu artigo de agosto de 2006 “Find Anything with Windows Desktop Search” (em inglês)). Mas e todos aqueles dados disponíveis em portais, armazenados em compartilhamentos e interceptados em aplicativos de negócios, que permitem que as informações valiosas sejam armazenadas na memória de vários funcionários? Essas informações são essenciais para seus usuários – eles precisam desses dados para realizarem seus trabalhos e precisam deles rapidamente para tomar decisões comerciais precisas e em tempo hábil. Mas pense no tempo que seus funcionários levam para encontrar e reunir dados espalhados pela rede. Agora, pense no impacto potencial que isso tem no resultado financeiro da sua empresa.

Você precisa reduzir o tempo que seus usuários demoram para rastrear informações armazenadas em toda a empresa. Como fazer isso? A resposta é muito simples, basta usar um mecanismo de pesquisa que fornece recursos de pesquisa empresarial.

A pesquisa empresarial pode encontrar informações armazenadas em qualquer lugar da sua organização. A ferramenta de pesquisa empresarial também pode ajudar na pesquisa de dados armazenados no desktop, em um site da intranet, bloqueados em um aplicativo LOB (linha de negócios) ou guardados na memória de uma pessoa. (Não se preocupe, você não precisará implantar um chip nos cérebros dos seus usuários.)

A solução de pesquisa empresarial combina pesquisa de desktop com recursos rápidos de pesquisa na intranet. Conseqüentemente, a ferramenta de pesquisa empresarial deve ser capaz de realizar pesquisas federadas, aquelas que acessam várias fontes de dados em uma única consulta. O usuário tem uma interface única onde ele digita a consulta. No entanto, nos bastidores, a consulta é enviada a vários mecanismos de pesquisa diferentes e os resultados são exibidos em uma exibição agregada.

Neste artigo, discutirei como o MOSS 2007 (Microsoft® Office SharePoint® Server 2007), as soluções do Microsoft SharePoint de última geração, fornece um mecanismo de pesquisa poderoso que ajudará a derrubar os silos de informações da sua organização. O MOSS 2007 oferece diversos aprimoramentos em relação às versões anteriores, componentes completamente novos em termos de desenvolvimento e alguns recursos novos em folha. Neste artigo, discutirei alguns dos principais componentes – como indexação, propagação, relevância e fontes de conteúdo – e como eles o ajudarão a fornecer melhores recursos de pesquisa empresarial a seus usuários.

Pesquisando a empresa com o SharePoint

A pesquisa da empresa estará disponível em quatro versões com algumas diferenças: Microsoft Office SharePoint Server 2007 for Search Standard Edition, Microsoft Office SharePoint Server 2007 for Search Enterprise Edition, Microsoft Office SharePoint Server 2007 Standard e Microsoft Office SharePoint Server 2007 Enterprise.

A principal diferença entre as duas edições de pesquisa e as edições completas do SharePoint Server é que as duas edições de pesquisa não incluem a funcionalidade Pesquisa de Pessoas (que também inclui a integração com a Rede de Conhecimento do MOSS 2007), Catálogo de Dados Corporativos ou o Centro de Pesquisa aprimorado com tabelas personalizadas. A Figura 1 detalha as principais diferenças.

Figure 1 Principais diferenças das quatro ofertas de pesquisa

  Microsoft Office SharePoint Server 2007 for Search Standard Edition Microsoft Office SharePoint Server 2007 for Search Enterprise Edition Microsoft Office SharePoint Server 2007 Standard Edition Microsoft Office SharePoint Server 2007 Enterprise Edition
Índices 40 tipos de arquivos prontos (extensível) 40 tipos de arquivos prontos (extensível) 40 tipos de arquivos prontos (extensível) 40 tipos de arquivos prontos (extensível)
Oferece suporte (pronto) à pesquisa nos compartilhamentos de arquivos, sites, sites do SharePoint, pastas públicas do Exchange, arquivos de banco de dados do Notes
Oferece suporte à pesquisa em repositórios de documentos de terceiros
Oferece suporte à pesquisa de pessoas e especialistas    
Oferece suporte à pesquisa em fontes de dados estruturados      
Fornece controle de acesso ao conteúdo seguro
Fornece interface do usuário do Centro de Pesquisa aprimorado    
Limite do documento 400.000 Ilimitado Ilimitado Ilimitado

A interface do usuário oferece vários recursos novos, incluindo “O que você quis dizer?”. Um suporte aos mecanismos de pesquisa da Internet, ele avisa quando você tiver escrito um termo de pesquisa comum de forma errada (consulte a Figura 2). A interface também inclui destaque de problema e suporte completo para as “melhores apostas”. Mas isso aborda apenas os novos recursos de pesquisa.

Figura 2 A nova funcionalidade “O que você quis dizer...” nas pesquisas do SharePoint

Figura 2** A nova funcionalidade “O que você quis dizer...” nas pesquisas do SharePoint **(Clique na imagem para aumentar a exibição)

Encontrando a base de dados de conhecimento das pessoas

Uma das ofertas novas mais interessantes é a capacidade de pesquisar pessoas com determinado conhecimento e especialidade. Isso permite aos usuários o acesso e a utilização da base de dados de conhecimento dos funcionários em toda a empresa – uma etapa importante na quebra de silos.

Para habilitar isso, é possível executar a indexação e a pesquisa em qualquer diretório do protocolo LDAP, incluindo as listas de distribuição do Active Directory® e os grupos de usuários do SharePoint. Na verdade, o MOSS não faz a pesquisa diretamente nos diretórios LDAP. Para habilitar a pesquisa de pessoas, as informações LDAP precisam ser importadas no MOSS. (As pesquisas também podem ser executadas em toda a infra-estrutura da empresa.)

Os resultados da pesquisa podem ser agrupados de acordo com uma “distância social” do indivíduo – ou seja, a distância de uma posição do usuário (provavelmente, um assistente de vendas não desejará efetuar uma chamada ao diretor financeiro) e interesses comuns. A Figura 3 mostra os resultados da pesquisa de pessoas.

Figura 3 Encontrando colegas com conhecimento relevante

Figura 3** Encontrando colegas com conhecimento relevante **(Clique na imagem para aumentar a exibição)

Pesquisando dados corporativos

O SharePoint também pode indexar vários tipos de dados corporativos. O que inclui aplicativos de linha de negócios (como aplicativos de RH, CRM, relatórios de despesa e assim por diante). Tradicionalmente, é difícil acessar esse tipo de dados fora da interface normal do aplicativo LOB, o que torna difícil para a maioria dos funcionários descobrir e usar qualquer um desses dados.

Mas, agora, a pesquisa do MOSS pode recuperar dados de qualquer aplicativo LOB, como um banco de dados relacional ou Lotus Notes, que pode ser acessado pelos serviços da Web ou ADO.NET. O mais especial nisso é que não há necessidade de código personalizado para gravação. Com o recurso Catálogo de Dados Corporativos, a obtenção desses dados corporativos é tão fácil quanto o acesso a qualquer documento ou site. O recurso Catálogo de Dados Corporativos pode ser simplesmente integrado ao gerenciamento de propriedades e escopos personalizados oferecidos pelo Centro de Pesquisa.

Retornando relevância

Obviamente, quaisquer recursos novos ofereceria pouco valor, se eles não tivessem resultados precisos. Felizmente, o MOSS fez alguns aprimoramentos expressivos na relevância. No entanto, antes de discutir esses aprimoramentos, é importante que você entenda o quanto a relevância na empresa se diferencia da relevância na Internet.

Talvez você se pergunte o motivo pelo qual as pesquisas de intranet não podem apenas usar as mesmas ferramentas (e, conseqüentemente, a mesma precisão) como as pesquisas da Internet. Simplificando, elas representam dois ambientes muito diferentes com muitas necessidades e requisitos distintos. Tais diferenças podem ser agrupadas em três categorias principais: segurança, estrutura e hierarquia.

A segurança se refere à natureza simples da Internet versus a empresa. Normalmente, os dados da Internet são acessíveis anonimamente; a indexação e a pesquisa não exigem autenticação ou remoção de segurança. Por outro lado, um ambiente empresarial deve seguir um modelo de segurança rígido, incluindo a filtragem dos resultados para que eles correspondam às permissões do pesquisador.

O impacto da estrutura tem a ver com densidade. A Internet é muito rica e extensa, com sites que se vinculam a outros sites para incrementarem seu conteúdo. Mas na empresa, os links normalmente são usados para navegação e a estrutura é bem menos densa.

O fator de hierarquia de sites está livremente relacionado com a estrutura de links. Normalmente, na Internet não há hierarquia para os sites e há poucos sites de nível superior. No entanto, as intranets da empresa geralmente são planejadas e hierárquicas por natureza. Mesmo quando uma empresa tem vários níveis principais da raiz, normalmente há apenas um portal principal para a organização.

Essas diferenças fundamentais alteram a forma como uma empresa pesquisa dados de índices de solução e retorna resultados. O MOSS 2007 visa atender melhor as diferentes necessidades da empresa. Ele tem um novo mecanismo de classificação, que foi desenvolvido usando a tecnologia existente combinada com o trabalho da equipe do Centro de Pesquisa da Microsoft e do MSN®. A relevância aumentou devido à criação de uma série de algoritmos de relevância, que reúne informações internas e externas sobre os documentos e os dados de linha de negócios sendo rastreados. Quando os dados da empresa são indexados, mais de 200 tipos de documentos são examinados e os algoritmos são aplicados para detectar o idioma, extrair os metadados e executar a análise de texto. Esses algoritmos novos, ajustados especificamente para atender às necessidades dos dados da empresa e dos aplicativos LOB, melhora consideravelmente a precisão dos resultados.

Diversas marcas de metadados são incluídas nos cálculos de relevância. Aqui estão alguns pontos a serem considerados:

  • Distância de clique Distância de navegação dos sites autoritativos (distâncias menores tendem a ser mais relevantes).
  • Texto-âncora Os hyperlinks atuam como anotações em seus destinos. Além disso, eles tendem a ser altamente descritivos.
  • Profundidade de URL Os URLs mais altos da hierarquia tendem a ser mais relevantes.
  • Correspondência de URL Corresponde diretamente ao texto das URLs.
  • Extração de metadados Extrai automaticamente títulos e autores do texto do documento, caso estejam ausentes.
  • Detecção automática de idioma Ajuda a criar preferência de resultados no seu idioma.
  • Biasing (desvio) do tipo de arquivo Determinados tipos de arquivos tendem a ser mais relevantes (por exemplo, os arquivos PPT geralmente são mais relevantes do que os arquivos XLS).
  • Análise de texto Classificação de texto tradicional baseada em fatores como termos de correspondência, freqüências dos termos e variantes de palavras.

Como a indexação funciona?

O MOSS 2007 fez importantes aprimoramentos na forma como o serviço de indexação funciona e como o conteúdo é gerenciado. Para os iniciantes, é possível especificar se as fontes de conteúdo são servidores SharePoint, sites, compartilhamentos de arquivos, pastas públicas do Exchange, bancos de dados Lotus Notes ou aplicativos LOB. A experiência administrativa de indexação geral foi otimizada, permitindo que você escolha livremente o que, como e quando indexar várias fontes de conteúdo. Ela é tratada por meio de regras de rastreamento, que permitem que você especifique caminhos a serem incluídos ou excluídos. Também é possível configurar como o rastreador seguirá os links do URL. Um registro interno oferece uma exibição abrangente do número de sites rastreados e como eles foram indexados.

O índice é semelhante à tecnologia de índice usada no Windows® Desktop Search. O índice é composto por dois componentes principais: um índice de conteúdo e um armazenamento de propriedades. Ele é uma forma extremamente eficiente para processar os dados. O índice de conteúdo inclui o texto real presente em arquivos, bem como um índice de palavras invertido associado encontrado no seu índice empresarial. O banco de dados do armazenamento de propriedade é essencial para o processamento dos resultados. O banco de dados do armazenamento de propriedade mantém todas as propriedades de metadados adicionais (autor, data de criação, tipo de documento e assim por diante) sobre todos os documentos do armazenamento. Estruturalmente, o armazenamento de propriedade consiste em uma tabela de propriedades e seus valores. Cada linha da tabela corresponde a um documento separado no índice de texto completo. O armazenamento de propriedade também mantém e aplica segurança de nível de documento coletada na indexação de um documento.

O processo de indexação e armazenamento é iniciado com o mecanismo de índice, responsável pelo rastreamento da fonte de conteúdo. O mecanismo começa o rastreamento após verificar se há um identificador de protocolo apropriado para ler as fontes de conteúdo. Após o identificador de protocolo correto ser carregado, ele e os IFilters extraem e filtram os itens da fonte de conteúdo. Um IFilter é um suplemento que habilita o mecanismo de índice a abrir, ler e indexar o conteúdo dos novos tipos de arquivo, que de outro modo não seria capaz de fazer a indexação integral. Os IFilters extraem o texto e os metadados de cada documento e passam o fluxo de volta para o mecanismo de índice.

As propriedades do documento são armazenadas no armazenamento de prioridades e o texto real do documento é colocado no índice de conteúdo. Assim que isso acontece, o mecanismo de índice remove palavras “de ruído”. O mecanismo também processa as informações usando separadores de palavras e lematizadores para simplificar os dados, permitindo uma melhor consulta. (Os separadores de palavras dividem o texto em palavras e frases. Os lematizadores geram formas flexionadas de uma determinada palavra.)

O mecanismo de índice usa propagação contínua, que permite que o índice seja criado quase que imediatamente. Com a propagação contínua, o índice continua a ser criado, mesmo que o processo de rastreamento se movimente pelas fontes de conteúdo. Esse aprimoramento permite resultados imediatos rápidos – um aprimoramento expressivo do SharePoint Portal Sever 2003, no qual amplos rastreamentos de conteúdo poderiam demorar dias e a indexação seria propagada apenas quando o rastreamento fosse concluído.

Como a consulta funciona?

Quando um usuário insere uma consulta ou um aplicativo personalizado chama o índice, o mecanismo de consulta começa o processamento da solicitação. Primeiro, ele passa a consulta por um separador de palavras específico ao idioma. Se o idioma não for identificado, será chamado um separador de palavras neutro. Após a consulta ser divida, o mecanismo passa as informações a um lematizador (se a lematização estiver habilitada) para processamento posterior. Esse processo de duas etapas aprimora a relevância e a eficácia dos resultados retornados pela consulta.

Se a consulta especificar informações sobre prioridade, o índice de conteúdo será verificado primeiro para correspondências emparelhadas com documentos no armazenamento de propriedade e as propriedades da consulta serão verificadas novamente para garantir a correspondência. O mecanismo de consulta usa um nível adicional de filtragem para remover resultados aos quais o usuário não possui permissão de acesso. Os resultados correspondentes são retornados em uma lista e ordenados de acordo com a relevância. A Figura 4 descreve como todos os componentes da indexação e da consulta se ajustam.

Figura 4 Arquitetura do ambiente de pesquisa empresarial do MOSS 2007

Figura 4** Arquitetura do ambiente de pesquisa empresarial do MOSS 2007 **(Clique na imagem para aumentar a exibição)

Gerenciamento aprimorado

Os administradores acharão fácil gerenciar o ambiente de pesquisa. Um conjunto aprimorado de ferramentas comuns para os usuários finais e os administradores ajudarem a reduzir a complexidade introduzida pelos diferentes pontos de conexão da plataforma. E o mecanismo de pesquisa é muito beneficiado pelo novo modelo de gerenciamento do MOSS 2007. (A Figura 5 mostra a página principal usada para modificação das configurações de pesquisa.)

Figura 5 Definindo as configurações de pesquisa

Figura 5** Definindo as configurações de pesquisa **(Clique na imagem para aumentar a exibição)

Os escopos, que permitem o controle de diferentes recursos de pesquisa, também foram aprimorados. Eles facilitam a pesquisa em uma fonte de conteúdo, permitindo principalmente o gerenciamento do índice em partes menores. No SharePoint Portal Server 2003, os escopos são conectados às fontes de conteúdo, o que os tornam menos flexíveis e um pouco difícil de serem gerenciados. No MOSS 2007, os escopos estão separados das fontes de conteúdo, oferecendo maior flexibilidade. É possível definir escopos com base em propriedades de conteúdo arbitrárias, como URL, tipo ou autor. Também é possível combinar escopos para diversas regras, por exemplo, todos os documentos técnicos de um autor específico.

Obviamente, se um administrador quiser melhorar o desempenho do mecanismo de pesquisa, uma das coisas mais importantes que ele pode fazer é entender o uso atual do índice. Uma das melhores adições ao conjunto de ferramentas administrativas é o relatório de consultas. A funcionalidade de geração de relatório de consultas prontas permite que você encontre informações rapidamente sobre tendências de volume da consulta, melhores consultas, taxas de cliques, consultas sem resultado e assim por diante. O relatório de consultas pode fornecer detalhes no nível do site e nos níveis do provedor de serviços principal. A Figura 6 mostra um exemplo de relatório. É possível exportar as informações para o Microsoft Excel® para análise posterior e para dinamização dos dados.

Figura 6 Relatório de consultas do MOSS 2007

Figura 6** Relatório de consultas do MOSS 2007 **(Clique na imagem para aumentar a exibição)

Segurança e privilégios

Como mencionei anteriormente, o mecanismo de pesquisa filtra os resultados, portanto, a lista que o usuário vê inclui apenas os documentos aos quais ele tem permissão de acesso. (No SharePoint Portal Server 2003, o usuário vê links para os quais talvez não tenha permissões adequadas para acessar.) Uma limitação relacionada à remoção de segurança é que o MOSS 2007 não remove com segurança os rastreamentos da Web. Não é possível remover os sites devido ao protocolo HTTP não conseguir ler as informações de controle de acesso. Além disso, o MOSS 2007 não permite que você remova com segurança o Catálogo de Dados Corporativos ou as Pesquisas de Pessoas.

O MOSS 2007 respeita as ACLs (listas de controle de acesso) existentes, garantindo a segurança dos documentos no índice. Isso é o que mais o diferencia das outras ferramentas de pesquisa. Diferentemente de outros mecanismos de pesquisa, que exigem que você use um arquivo de configuração para definir permissões nos arquivos manualmente, o MOSS 2007 permite continuar na sincronização com as permissões atuais.

O índice pode refletir alterações rapidamente na ACL para um único documento. Por exemplo, há uma planilha do Excel atualmente armazenada no índice e a ACL do documento é alterada para ser restritiva. Um administrador pode reindexar e rastrear apenas aquele documento e a remoção de segurança acontecerá imediatamente (e, se necessário, o documento poderá ser completamente removido do índice).

Além disso, os documentos individuais podem receber permissões exclusivas ou, então, podem ser definidos para herdar as configurações de permissão de uma biblioteca de documentos ou diretório pai. Isso torna o processo de seleção de grupos ou indivíduos que têm permissão para ver, editar e salvar documentos muito mais simples.

Também há aprimoramentos para autenticação e gerenciamento de logon único. Agora, o cache de credencial seguro é extensível, o que possibilita ao MOSS aceitar sistemas em cache de credencial de logon único de fontes de terceiros e complementos codificados personalizados. Além disso, agora a autenticação principal pode aceitar sistemas de terceiros. Esses dois aprimoramentos criam o novo modelo do provedor ASP.NET, que permite o uso de outros serviços de diretório.

Personalização

No MOSS 2007, há várias opções para modificação da interface do usuário. A interface do usuário pode ser personalizada com a maioria das ferramentas usadas para modificar sites. Também há novas ferramentas, como o Office SharePoint Designer, que ajuda a criar Páginas Mestras (que oferecem uma maneira fácil para criar um site com marca). A Figura 7 mostra uma página de resultados da pesquisa sendo editada.

Figura 7 Personalizando a aparência de uma página de resultados de pesquisa

Figura 7** Personalizando a aparência de uma página de resultados de pesquisa **(Clique na imagem para aumentar a exibição)

O MOSS 2007 pronto fornece duas guias para a interface do Centro de Pesquisa: Todos os sites e Pessoas. É possível simplesmente adicionar guias que refletem os diferentes tipos de informações pesquisados com mais freqüência pelos seus usuários. Por exemplo, você pode fornecer uma entrada direta em qualquer um dos seus aplicativos empresariais, bancos de dados ou, mesmo, serviços de diretório. Também é possível correlacionar essas guias aos escopos. Isso é útil para a criação de guias de pesquisa contextualizadas em um conteúdo específico. Observe que as edições somente pesquisa não oferecem suporte a essa personalização das guias de pesquisa.

Conclusão

Como você pôde ver, o MOSS 2007 fornece algumas melhorias novas muito atraentes para a funcionalidade de pesquisa empresarial, o que permite que os usuários sejam mais eficientes e produtivos. Para obter mais informações, consulte Microsoft Office SharePoint Server TechCenter (em inglês).

Matt Hester é apresentador da TechNet da equipe Microsoft Across America. Para ver a apresentação dele ao vivo, visite www.technetevents.com/mhester (em inglês). Confira o blog dele em blogs.technet.com/matthewms (em inglês).

© 2008 Microsoft Corporation e CMP Media, LLC. Todos os direitos reservados. A reprodução parcial ou completa sem autorização é proibida..