Tarefa Criação de Perfil de Dados

A tarefa Criação de perfil de dados computa diversos perfis que o ajudam a se familiarizar com uma fonte de dados e identificar problemas nos dados que foram corrigidos.

É possível usar a tarefa Criação de perfil de dados dentro de um pacote Integration Services para criar perfil de dados armazenado no SQL Server e identificar possíveis problemas com a qualidade dos dados.

ObservaçãoObservação

Este tópico descreve apenas os recursos e os requisitos da tarefa Criação de Perfil de Dados. Para saber como usar a tarefa Criação de Perfil de Dados, consulte a seção, Criando perfil de dados com o visualizador e a tarefa de criação de perfil de dados.

Observação importanteImportante

A tarefa Criação de perfil de dados funciona apenas com os dados armazenados no SQL Server 2000 ou em versões posteriores. Essa tarefa não funciona com fontes de dados de terceiros ou baseadas em arquivo.

Além disso, para executar um pacote que contém a tarefa Criação de Perfil de Dados, você deve usar uma conta que tem permissões de leitura/gravação, inclusive permissões CREATE TABLE, no banco de dados tempdb.

Após usar a tarefa para computar perfis de dados e salvá-los em um arquivo, você pode usar o Visualizador de Perfil de Dados autônomo para examinar a saída de perfil. O Visualizador de perfil de dados também suporta o recurso de extração de detalhes para ajudá-lo a entender problemas com a qualidade dos dados identificados no resultado do perfil. Para obter mais informações, consulte Exibindo perfil de saída no Visualizador de Perfil de Dados.

Observação importanteImportante

O arquivo de saída pode conter dados confidenciais sobre seu banco de dados e os dados contidos no banco de dados. Para obter sugestões sobre como tornar esse arquivo mais seguro, consulte Controlando o acesso aos arquivos usados por pacotes.

O recurso de busca detalhada que está disponível no Visualizador de Perfil de Dados envia consultas ao vivo à fonte de dados original.

Entendendo os perfis disponíveis

A tarefa Criação de perfil de dados pode computar oito perfis de dados diferentes. Cinco desses perfis analisam colunas individuais e os três restantes analisam diversas colunas ou relações entre colunas e tabelas.

Os cinco perfis a seguir analisam colunas individuais.

Perfis que analisam colunas individuais

Descrição

Perfil de distribuição de comprimento da coluna

Reporta todos os comprimentos de valores de cadeia de caracteres na coluna selecionada e a porcentagem de linhas na tabela que cada comprimento representa.

Este perfil o ajuda a identificar problemas em seus dados, como valores que não são válidos. Por exemplo, você cria o perfil de uma coluna com códigos de estados dos Estados Unidos que devem ter dois caracteres e descobre valores maiores que dois caracteres.

Perfil de razão nula de coluna

Informa a porcentagem de valores nulos na coluna selecionada.

Este perfil o ajuda a identificar problemas em seus dados, como uma razão alta de valores nulos inesperada em uma coluna. Por exemplo, você cria um perfil de uma coluna de CEP/Caixa Postal e descobre porcentagem muito alta de códigos ausentes.

Perfil de padrão de coluna

Informa um conjunto de expressões regulares que cobrem a porcentagem especificada de valores em uma coluna de cadeia de caracteres.

Este perfil o ajuda a identificar problemas em seus dados, como cadeias de caracteres que não são válidas. Este perfil também pode sugerir expressões regulares que podem ser usadas no futuro para validar novos valores. Por exemplo, um perfil de padrão de uma coluna CEP dos Estados Unidos pode produzir as expressões regulares: \d{5}-\d{4}, \d{5} e \d{9}. Se você vir outras expressões regulares, seus dados provavelmente conterão valores inválidos ou que estarão em um formato incorreto.

Perfil de estatísticas de coluna

Informa estatísticas como mínimo, máximo, média e desvio padrão para colunas numéricas, além de mínimo e máximo para colunas datetime.

Este perfil o ajuda a identificar problemas em seus dados, como datas inválidas. Por exemplo, você cria o perfil de uma coluna de datas históricas e descobre uma data de máximo que está no futuro.

Perfil de distribuição de valor da coluna

Reporta todos os valores distintos na coluna selecionada e a porcentagem de linhas na tabela que cada valor representa. Também pode informar valores que representam mais que uma porcentagem especificada de linhas na tabela.

Este perfil o ajuda a identificar problemas em seus dados, como um número incorreto ou valores distintos em uma coluna. Por exemplo, você cria o perfil de uma coluna que supostamente contém estados dos Estados Unidos e descobre mais de 50 valores distintos.

Os três perfis a seguir analisam diversas colunas ou relações entre colunas e tabelas.

Perfis que analisam diversas colunas

Descrição

Perfil-chave de candidato

Informa se uma coluna ou conjunto de colunas é uma chave, ou uma chave aproximada, para a tabela selecionada.

Este perfil também o ajuda a identificar problemas em seus dados, como valores duplicados em uma possível coluna chave.

Perfil de dependência funcional

Informa até que ponto os valores em uma coluna (a coluna dependente) dependem dos valores em outra coluna ou conjunto de colunas (a coluna determinante).

Este perfil também o ajuda a identificar problemas em seus dados, como valores inválidos. Por exemplo, você cria o perfil da dependência entre uma coluna que contém CEPs dos Estados Unidos e uma coluna que contém estados dos Estados Unidos. O mesmo CEP sempre deve ter o mesmo estado, mas o perfil descobre violações desta dependência.

Perfil de inclusão de valor

Computa a sobreposição nos valores entre duas colunas ou conjuntos de colunas. Este perfil pode determinar se uma coluna ou conjunto de colunas é apropriado para servir como uma chave estrangeira entre as tabelas selecionadas.

Este perfil também o ajuda a identificar problemas em seus dados, como valores inválidos. Por exemplo, você cria um perfil com a coluna ID_do_produto de uma tabela Vendas e descobre que a coluna contém valores não encontrados na coluna ID_do_produto da tabela Produtos.

Pré-requisitos para um perfil válido

Um perfil não é válido a menos que você selecione tabelas e colunas que não estejam vazias e as colunas contenham tipos de dados válidos para o perfil.

Tipos de dados válidos

Alguns dos perfis disponíveis têm importância apenas para determinados tipos de dados. Por exemplo, computar um perfil de padrão da coluna para uma coluna que contém valores numéricos ou datetime não tem importância. Portanto, esse perfil não é válido.

Perfil

Tipos de dados válidos*

ColumnStatisticsProfile

Colunas do tipo numérica ou tipo datetime (não mean e stddev para a coluna datetime)

ColumnNullRatioProfile

Todas as colunas**

ColumnValueDistributionProfile

Colunas do tipo integer, do tipo char e do tipo datetime

ColumnLengthDistributionProfile

Colunas do tipo char

ColumnPatternProfile

Colunas do tipo char

CandidateKeyProfile

Colunas do tipo integer, do tipo char e do tipo datetime

FunctionalDependencyProfile

Colunas do tipo integer, do tipo char e do tipo datetime

InclusionProfile

Colunas do tipo integer, do tipo char e do tipo datetime

* Na tabela anterior de tipos de dados válidos, os tiposinteger, char, datetime e numeric incluem os seguintes tipos de dados específicos:

     Entre os tipos de número inteiro estão bit, tinyint, smallint, inte bigint.

     Entre os tipos de caracteres estão char, nchar, varchar e nvarchar,, mas não estão varchar(max) e nvarchar(max).

     Entre os tipos de data e hora estão datetime, smalldatetime e timestamp.

     Entre os tipos numéricos estão integer (exceto bit), money, smallmoney, decimal, float, real e numeric.

** Os tipos image, text, xml, udt e variant não são suportados para perfis diferentes do Perfil de razão nula de coluna.

Tabelas e colunas válidas

Se a tabela ou coluna estiver vazia, a Criação de perfis de dados executará as seguintes ações:

  • Quando a tabela ou exibição selecionada estiver vazia, a tarefa de Criação de perfis de dados não computará nenhum perfil.

  • Quando todos os valores na coluna selecionada forem nulos, a tarefa de Criação de perfis de dados computará somente o perfil de razão nula da coluna. A tarefa não computa o perfil de Distribuição de comprimento da coluna, o perfil de Padrão da coluna, o perfil de Estatísticas da coluna ou o perfil de Distribuição de valor da coluna.

Recursos da tarefa de Criação de perfis de dados

A tarefa de Criação de perfis de dados tem as seguintes opções de configuração convenientes:

  • Colunas curinga   Ao configurar uma solicitação de perfil, a tarefa aceita o caractere curinga (*) no lugar do nome da coluna. Isto simplifica a configuração e facilita o descobrimento das características de dados pouco conhecidos. Quando a tarefa executar, ela criará perfis de toda coluna que tiver um tipo de dados apropriado.

  • Perfil Rápido É possível selecionar Perfil Rápido para configurar a tarefa rapidamente. Um Perfil Rápido cria um perfil de uma tabela ou exibição usando todos os perfis e configurações padrão.

Mensagens de log personalizadas disponíveis na tarefa Criação de Perfil de Dados

A tabela a seguir lista as entradas de log personalizadas para a tarefa Criação de Perfil de Dados. Para obter mais informações, consulte Implementando logs em pacotes e Mensagens personalizadas para log.

Entrada de log

Descrição

DataProfilingTaskTrace

Fornece informações descritivas sobre o status da tarefa. As mensagens incluem as seguintes informações:

  • Solicitações de processamento inicial

  • Início da consulta

  • Término da consulta

  • Concluir solicitação de computação

Entendendo a saída e seu esquema

A tarefa Criação de Perfil de Dados produz os perfis selecionados em XML que é estruturado de acordo com o esquema DataProfile.xsd. É possível especificar se a saída deste XML será salva em um arquivo ou em uma variável de pacote. Este esquema pode ser visto em https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Da página Web, você pode salvar uma cópia local do esquema. É possível visualizar a cópia local do esquema no Microsoft Visual Studio ou em outro editor de esquemas, em um editor XML, ou em um editor de texto como o Bloco de notas.

Com relação às informações sobre a qualidade de dados, o esquema pode ser útil para:

  • Trocar informações de qualidade de dados dentro e entre organizações.

  • Construir ferramentas personalizadas que trabalhem com informações de qualidade de dados.

O namespace de destino é identificado no esquema como https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Como usar a Saída no fluxo de trabalho condicional de um pacote

Os componentes de criação de perfil de dados, não incluem funcionalidade interna pronta para implementar lógica condicional no fluxo de trabalho do pacote Integration Services, com base na saída da tarefa de Criação de Perfil de Dados. Porém, você pode adicionar facilmente esta lógica, com uma quantidade mínima de programação, em uma tarefa de Script. Este código poderia efetuar uma consulta XPath contra a saída da XML e salvar o resultado em uma variável de pacote. Restrições de precedência que conectam a tarefa Script a tarefas subseqüentes, podem usar uma expressão para determinar o fluxo de trabalho. Por exemplo, a tarefa Script detecta que a porcentagem de valores nulos em uma coluna excede um certo limite. Quando esta condição for verdade, você poderia querer interromper o pacote e resolver o problema antes de continuar.

Configurando a tarefa de Criação de perfil de dados

Você configura a tarefa de Criação de perfil de dados usando o Editor de tarefa Criação de perfil de dados. O editor tem duas páginas:

Ícone do Integration Services (pequeno) Fique atualizado com o Integration Services

Para obter os mais recentes downloads, artigos, exemplos e vídeos da Microsoft, bem como soluções selecionadas da comunidade, visite a página Integration Services no MSDN ou TechNet:

Para receber uma notificação automática das atualizações, assine os feeds RSS disponíveis na página.

Histórico de alterações

Conteúdo atualizado

  • Adicionada uma observação sobre o envio de consultas ao vivo pelo recurso de busca detalhada à fonte de dados.

  • Adicionadas informações sobre as mensagens de log personalizadas que estão disponíveis.