Como usar a tarefa Criação de Perfil de Dados (vídeo do SQL Server)

Aplica-se a: SQL Server 2008 Integration Services

Autores: Douglas Laudenschlager, Microsoft Corporation

Duração: 00:10:12

Tamanho: 8,96 MB

Tipo: arquivo WMV

Assistir a este vídeo

Tópicos da Ajuda relacionados:

Tarefa Criação de Perfil de Dados

Criando perfil de dados com o visualizador e a tarefa de criação de perfil de dados

Resumo do vídeo

Saiba como usar esta nova e eficiente tarefa no SQL Server 2008 para se familiarizar com um banco de dados desconhecido, ou para procurar problemas em dados existentes. Examine rapidamente todos os oito perfis que a tarefa pode computar.

Transcrição do vídeo

Olá. Meu nome é Douglas Laudenschlager, e trabalho na equipe de documentação do Microsoft SQL Server Integration Services.

Hoje veremos como você pode se familiarizar com um banco de dados desconhecido, ou procurar problemas em dados existentes, usando a tarefa Criação de Perfil de Dados, que é novidade no Integration Services do SQL Server 2008.

Você vai aprender a:

  • Configurar e executar a tarefa Criação de Perfil de Dados em um pacote do Integration Services.
  • Executar o Visualizador de Perfil de Dados autônomo para exibir a saída da tarefa.
  • Entender e analisar a saída da tarefa que aparece no Visualizador de Perfil de Dados.

Estamos aqui no Business Intelligence Development Studio, onde já criamos um novo projeto do Integration Services e abrimos o novo pacote no designer. Vamos localizar a tarefa Criação de Perfil de Dados entre os itens de Fluxo de Controle na barra de ferramentas, e arrastá-la para a superfície de design.

Agora, antes de configurarmos a tarefa em si, precisamos configurar os dois gerenciadores de conexões que a tarefa espera para sua entrada e saída. A tarefa Criação de Perfil de Dados utiliza a entrada de uma conexão ADO, então criaremos um novo gerenciador de conexões ADO.NET que aponte para o banco de dados de exemplo AdventureWorks. A tarefa Criação de Perfil de Dados usa apenas conexões ADO.NET e, nesta versão, ela cria perfis apenas de fontes de dados do Microsoft SQL Server. A tarefa Criação de Perfil de Dados envia sua saída para um arquivo no formato XML; portanto, também precisamos de um gerenciador de conexões de arquivo. Aqui configuramos nosso gerenciador de conexões de arquivo para substituir um arquivo de saída existente de uma execução anterior. Agora estamos preparados para configurar a tarefa Criação de Perfil de Dados.

Quando abrimos o editor da tarefa Criação de Perfil de Dados, nossa primeira tarefa é atribuir o gerenciador de conexões de arquivo que acabamos de criar como o destino da saída da tarefa. Como queremos substituir um arquivo existente, alteramos também o valor da propriedade OverwriteDestination de False para True.

Se examinarmos a página Solicitações de Perfil, veremos que existem oito tipos de perfis diferentes que a tarefa pode computar. Para muitos desses perfis, existem diversas opções que podem ser especificadas. Entretanto, todas essas opções farão mais sentido para você se examinarmos primeiro a saída de exemplo da tarefa Criação de Perfil de Dados. Pegaremos então um atalho.

Vamos voltar à guia Geral (General) e selecionar a opção Perfil Rápido (Quick Profile). O que o perfil rápido faz é executar até sete dos perfis disponíveis com opções padrão, em uma única tabela de nossa escolha. Para nossa demonstração, vamos selecionar a tabela Person.Address no banco de dados AdventureWorks, e selecionar todos os sete perfis que podemos executar.

Agora, a tarefa está configurada e pronta para uso. Como ela leva um minuto para ser executada, vamos pegar outro atalho e examinar a saída de uma execução anterior. Para isso, precisamos usar o Visualizador de Perfil de Dados, que é um aplicativo autônomo separado. Aqui eu apenas abri nosso arquivo de saída no Visualizador de Perfil de Dados. Vamos expandir a árvore no painel Perfis (Profiles), no lado esquerdo, para ver a estrutura de nossos dados e dos perfis que foram computados.

Antes de examinarmos atentamente a saída, vou falar um pouco sobre os painéis que você vê aqui na janela do Visualizador de Perfil de Dados. À esquerda da página Perfis (Profiles), você vê a estrutura dos seus dados e os perfis de dados que selecionou para execução. Na parte superior à direita, no painel Resultados (Results), você vê um resumo dos resultados do perfil, geralmente em uma única linha. No centro à direita, no painel Detalhes (Details), vemos detalhes dos dados que podem ser facilmente classificados; eles são apresentados em formato de texto e gráfico. E, se a fonte de dados na qual você executou o seu perfil ainda estiver disponível, os detalhes de cada conjunto de dados serão exibidos no painel detalhado na parte inferior à direita.

Agora, vamos examinar os perfis que estão disponíveis. A tarefa Criação de Perfil de Dados pode computar cinco perfis que examinam colunas individuais, e três perfis adicionais que examinam as relações entre colunas.

Para uma única coluna, o perfil mais simples de todos é o Perfil de Razão Nula de Coluna, que computa o percentual de nulos em uma determinada coluna, e pode nos ajudar a identificar valores nulos onde não deve haver nenhum. É óbvio que você não desejaria ter valores nulos em uma coluna Postal Code, e o resultado desse perfil nos informaria que, na tabela Address de AdventureWorks, não há valores nulos.

Você também pode computar um Perfil de Distribuição de Comprimento de Coluna, que mostra o comprimento mais curto e o mais longo de cadeias de caracteres de uma coluna. Esse perfil pode ajudar na identificação de valores inaceitáveis para cadeias de caracteres, que sejam mais curtos ou mais longos do que a coluna requer. Aqui podemos ver que as entradas não nulas para AddressLine2 em AdventureWorks variam de 1 a 28 caracteres de comprimento. O comprimento mais comum é de 5 caracteres e, se detalharmos, veremos que essas cadeias são, em geral, números de apartamento.

Podemos também computar um Perfil de Distribuição de Valor de Coluna, que nos informa, por exemplo, que, na coluna AddressLine2 em AdventureWorks, há 195 valores distintos. Isso poderá nos alertar se houver valores incorretos ou fora do intervalo; por exemplo, se você encontrou mais de 50 valores em uma tabela de pesquisa dos 50 estados americanos. Portanto, se essa coluna contém 195 valores distintos, por que vemos apenas um listado aqui no painel Detalhes (Details)? É porque as configurações padrão desse perfil retornam detalhes apenas para valores que representam mais de um décimo de 1% dos dados. Essa é uma das muitas opções que você pode definir ao configurar a tarefa.

O Perfil de Estatísticas de Coluna, que é computado para colunas numéricas e de data, mostra o valor mínimo, o valor máximo, a média e o desvio padrão para uma coluna numérica. Quando você examina as estatísticas de uma coluna de data, vê a data mais antiga e a mais recente no intervalo de datas. Mais uma vez, isso pode nos alertar para números ou datas fora do intervalo.

O perfil final que pode ser computado para uma coluna individual é o Perfil de Padrão de Coluna. Esse é o perfil mais incomum, que retorna um conjunto de expressões regulares que abrangem todos os valores da coluna. Você poderá usar essas expressões regulares em um aplicativo personalizado, para validar dados existentes ou para validar a entrada do usuário antes de os dados entrarem no banco de dados.

Agora, vamos examinar os perfis que analisam as relações entre colunas.

O Perfil-Chave de Candidato identifica colunas com um alto grau de exclusividade, que seriam candidatas a se tornar uma chave primária. Se houver violações da exclusividade, você as verá aqui. Vemos que não há violações, já que a exclusividade dessa chave já é imposta por uma restrição.

Não vemos o Perfil de Inclusão de Valor em nossa saída de exemplo porque não é executado pela opção Perfil Rápido (Quick Profile), mas ele examina as relações de chave estrangeira de forma semelhante à do Perfil-Chave de Candidato para relações de chave primária.

O Perfil de Dependência Funcional é um dos mais eficientes. Vamos dar uma olhada no exemplo de uma dependência funcional. Para um determinado CEP, você sempre esperaria um estado previsível e inalterável. No entanto, aqui nós vemos que ele é somente 99% verdadeiro em AdventureWorks, o que nos informa de imediato que temos alguns valores inválidos para StateProvinceID. Se examinarmos um dos CEPs que possui violações, poderemos detalhar para ver as linhas com o valor correto e as linhas com valor incorreto.

Neste vídeo, você aprendeu como pode se familiarizar com um banco de dados desconhecido, ou procurar problemas em dados existentes, usando a tarefa Criação de Perfil de Dados, que é novidade no Integration Services do SQL Server 2008.

Você também aprendeu a:

  • Configurar e executar a tarefa Criação de Perfil de Dados em um pacote do Integration Services.
  • Executar o Visualizador de Perfil de Dados autônomo para exibir a saída da tarefa.
  • Entender e analisar a saída da tarefa que aparece no Visualizador de Perfil de Dados.

Esperamos que você tenha aprendido funções novas e úteis neste vídeo. Depois de fechar este vídeo e retornar à página da Web, você encontrará outros vídeos do Integration Services disponíveis. Obrigado.