Configurando a tarefa de criação de perfil de dados

Antes de examinar um perfil dos dados de origem, a primeira etapa é configurar e executar a tarefa Criação de Perfil de Dados. Você cria esta tarefa dentro de um pacote do Integration Services. Para configurar a tarefa Criação de Perfil de Dados, use o Editor da Tarefa Criação de Perfil de Dados. Este editor permite selecionar onde produzir os perfis e quais perfis devem ser calculados. Depois de configurar a tarefa, você executa o pacote para calcular os perfis de dados.

Observação importanteImportante

A tarefa Criação de perfil de dados funciona apenas com os dados armazenados no SQL Server 2000 ou em versões posteriores. Ela não funciona com fontes de dados de terceiros ou baseadas em arquivos.

Além disso, para executar um pacote que contém a tarefa Criação de Perfil de Dados, você deve usar uma conta que tenha permissões de leitura/gravação, inclusive permissões CREATE TABLE, no banco de dados tempdb.

Decidindo como usar a tarefa no pacote

A tarefa Criação de Perfil de Dados apenas configura os perfis e cria o arquivo de saída que contém os perfis calculados. Para revisar esse arquivo de saída, você deve usar o Visualizador de Perfil de Dados, um programa de visualização autônomo. Como é necessário exibir a saída separadamente, você deve usar a tarefa Criação de Perfil de Dados em um pacote que não contém outras tarefas.

No entanto, você não tem de usar a tarefa Criação de Perfil de Dados como a única do pacote. Se você quiser criar perfis de dados no fluxo de trabalho ou no fluxo de dados de um pacote mais complexo, deverá usar as seguintes opções:

  • Para implementar a lógica condicional baseada no arquivo de saída da tarefa, no fluxo de controle do pacote, coloque a tarefa Script após a tarefa Criação de Perfil de Dados. Dessa forma, você poderá usar essa tarefa Script para consultar o arquivo de saída.

  • Para criar perfis de dados no fluxo de dados depois que os dados tiverem sido carregados e transformados, é necessário salvar os dados alterados em uma tabela do SQL Server temporariamente. Em seguida, você poderá criar um perfil dos dados salvos.

Para obter mais informações, consulte Usando a tarefa Criação de Perfil de Dados no fluxo de trabalho de pacote.

Configurando uma saída de tarefa

Após a execução da tarefa Criação de Perfil de Dados em um pacote, você deve configurar a saída dos perfis que a tarefa computará. Para configurar a saída para os perfis, use a página Geral do Editor da Tarefa Criação de Perfil de Dados. Além de especificar o destino da saída, a página Geral também oferece a habilidade para executar um perfil rápido dos dados. Quando você seleciona Perfil Rápido, a tarefa Criação de Perfil de Dados cria o perfil de uma tabela ou exibição usando alguns ou todos os perfis padrão com suas configurações padrão.

Para obter mais informações, consulte Editor da tarefa Criação de Perfil de Dados (página Geral) e Formulário de Perfil Rápido de Tabela Única (tarefa Criação de Perfil de Dados).

Observação importanteImportante

O arquivo de saída pode conter dados confidenciais sobre seu banco de dados e os dados contidos no banco de dados. Para obter sugestões sobre como tornar esse arquivo mais seguro, consulte Controlando o acesso aos arquivos usados por pacotes.

Selecionando e configurando os perfis a serem calculados

Depois de configurar o arquivo de saída, você tem que selecionar os perfis de dados a serem calculados. A tarefa Criação de perfil de dados pode computar oito perfis de dados diferentes. Cinco desses perfis analisam colunas individuais e os três restantes analisam diversas colunas ou relações entre colunas e tabelas. Em uma tarefa Criação de Perfil de Dados simples, você pode calcular várias perfis para várias colunas ou combinações de colunas em várias tabelas ou exibições.

A tabela a seguir descreve os relatórios calculados por cada um desses perfis e os tipos de dados para os quais o perfil é válido.

Para calcular

Qual ajuda identificar

Use este perfil

Todos os comprimentos de valores de cadeia de caracteres na coluna selecionada e a porcentagem de linhas na tabela que cada comprimento representa.

Valores de cadeias de caracteres que não são válidos — Por exemplo, você cria o perfil de uma coluna que deve usar dois caracteres para códigos de estados nos Estados Unidos, mas descobre valores maiores que dois caracteres.

Distribuição de Comprimento de Coluna — Válida para uma coluna com um destes tipos de dados:

  • Tipos de dados de caracteres: char, nchar, varchar e nvarchar

Um conjunto de expressões regulares que cobrem a porcentagem especificada de valores em uma coluna de cadeia de caracteres.

Além disso para localizar expressões regulares que podem ser usadas no futuro para validar valores novos

Valores de cadeias de caracteres que não são válidos ou que não estão no formato correto — Por exemplo, um perfil de padrão de uma coluna CEP/Código Postal pode produzir as expressões regulares: \d{5}-\d{4}, \d{5} e \d{9}. Se a saída contém outras expressões regulares, os dados conterão valores inválidos ou que estarão em um formato incorreto.

Perfil de Padrão de Coluna — Válido para uma coluna com um destes tipos de dados:

  • Tipos de dados de caracteres: char, nchar, varchar e nvarchar

A porcentagem de valores nulos na coluna selecionada.

Razão alta de valores nulos inesperada em uma coluna—Por exemplo, você cria o perfil de uma coluna que deve conter CEPs dos Estados Unidos, mas descobre uma alta porcentagem inesperada de CEPs ausentes.

Razão Nula de Coluna — Válido para uma coluna com estes tipos de dados:

  • Qualquer tipo de dados. Isso inclui image, text, xml, tipos definidos pelo usuário e tipos de variável.

Estatísticas como mínimo, máximo, média e desvio padrão para colunas numéricas, além de mínimo e máximo para colunas datetime.

Valores numéricos e datas que não são válidos — Por exemplo, você cria o perfil de uma coluna de datas históricas e descobre uma data de máximo que está no futuro.

Perfil de Estatística de Coluna — Válido para uma coluna com um destes tipos de dados:

  • Tipos de dados numéricos: tipos Integer (exceto bit), money, smallmoney, decimal, float, real e numeric

  • Tipos de dados de data e hora: datetime, smalldatetime, timestamp, date, time, datetime2 e datetimeoffset

    ObservaçãoObservação
    No caso de uma coluna que tem um tipo de dados de data e hora, o perfil calcula apenas mínimo e máximo.

Todos os valores distintos na coluna selecionada e a porcentagem de linhas na tabela que cada valor representa. Ou, os valores que representam mais de uma porcentagem especificada na tabela.

Um número incorreto de valores distintos em uma coluna — Por exemplo, você cria o perfil de uma coluna que contém estados dos Estados Unidos e descobre mais de 50 valores distintos.

Distribuição de Valores de Coluna — Válida para uma coluna com um destes tipos de dados:

  • Tipos de dados numéricos: tipos Integer (exceto bit), money, smallmoney, decimal, float, real e numeric

  • Tipos de dados de caracteres: char, nchar, varchar e nvarchar

  • Tipos de dados de data e hora: datetime, smalldatetime, timestamp, date, time, datetime2 e datetimeoffset

Se uma coluna ou conjunto de colunas é uma chave, ou uma chave aproximada, para a tabela selecionada.

Valores duplicados em uma possível coluna chave — Por exemplo, você cria o perfil para as colunas Nome e Endereço em uma tabela Clientes e descobre valores duplicados em que as combinações de nome e endereço devem ser exclusivas.

Chave Candidata — Um perfil de várias colunas que informa se uma coluna ou um conjunto de colunas é apropriado para servir como uma chave para a tabela selecionada.

Válido para colunas com um destes tipos de dados:

  • Tipos de dados Integer: bit, tinyint, smallint, int e bigint

  • Tipos de dados de caracteres: char, nchar, varchar e nvarchar

  • Tipos de dados de data e hora: datetime, smalldatetime, timestamp, date, time, datetime2 e datetimeoffset

A extensão de valores em uma coluna (a coluna dependente) que dependem dos valores em uma outra coluna ou conjunto de colunas (a coluna determinante).

Valores que não são válidos em colunas dependentes — Por exemplo, você cria o perfil da dependência entre uma coluna que contém CEPs dos Estados Unidos e uma coluna que contém estados dos Estados Unidos. O mesmo CEP deve ter sempre o mesmo estado. Porém, o perfil descobre violações da dependência.

Dependência Funcional — Válido para colunas com um destes tipos de dados:

  • Tipos de dados Integer: bit, tinyint, smallint, int e bigint

  • Tipos de dados de caracteres: char, nchar, varchar e nvarchar

  • Tipos de dados de data e hora: datetime, smalldatetime, timestamp, date, time, datetime2 e datetimeoffset

Se uma coluna ou um conjunto de colunas é apropriado para servir como uma chave estrangeira entre as tabelas selecionadas.

Isto é, este perfil informa a sobreposição nos valores entre duas colunas ou dois conjuntos de colunas.

Valores que não são válidos — Por exemplo, você cria o perfil da coluna ID de Produto de uma tabela Vendas. O perfil descobre que a coluna contém valores que não são encontrados na coluna ID de Produto da tabela Produtos.

Inclusão de Valor — Válido para colunas com um destes tipos de dados:

  • Tipos de dados Integer: bit, tinyint, smallint, int e bigint

  • Tipo de dados de caracteres: char, nchar, varchar e nvarchar

  • Tipos de dados de data e hora: datetime, smalldatetime, timestamp, date, time, datetime2 e datetimeoffset

Para selecionar quais perfis devem ser calculados, use a página Solicitações de Perfil do Editor da Tarefa Criação de Perfil de Dados. Para obter mais informações, consulte Editor da tarefa Criação de Perfil de Dados (página Solicitações de Perfil).

Na página Solicitação de Perfil, você especifica também a origem de dados e configura os perfis de dados. Ao configurar a tarefa, pense nas seguintes informações:

  • Para simplificar a configuração e facilitar o descobrimento das características de dados pouco conhecidos, você pode usar o curinga, (*), no lugar do nome de uma coluna específica. Se você usar este curinga, a tarefa criará o perfil de todas as colunas que tiverem um tipo de dados apropriado, o que por sua vez poderá tornar o processamento mais lento.

  • Quando a tabela ou exibição selecionada estiver vazia, a tarefa de Criação de perfis de dados não computará nenhum perfil.

  • Quando todos os valores na coluna selecionada forem nulos, a tarefa Criação de Perfil de dados calculará somente o Perfil de Razão Nula da Coluna. Ela não calcula o Perfil de Distribuição de Comprimento de Coluna, o Perfil de Padrão de Coluna, o Perfil de Estatísticas de Coluna ou o Perfil de Distribuição de Valor de Coluna para a coluna vazia.

Cada um dos perfis de dados disponíveis tem as próprias opções de configuração. Para obter mais informações sobre essas opções, consulte os seguintes tópicos:

Executando o pacote que contém a tarefa Criação de Perfil de Dados

Depois de configurar a tarefa Criação de Perfil de Dados, você poderá executá-la. A tarefa, então, calculará os perfis de dados e produzirá essa informação em formato XML a um arquivo ou uma variável de pacote. A estrutura desse XML seguirá o esquema DataProfile.xsd. O esquema poderá ser aberto no Microsoft Visual Studio ou em outro editor de esquemas, em um editor XML ou em um editor de texto, como o Bloco de Notas. Esse esquema de informações de qualidade de dados pode ser útil para as seguintes finalidades:

  • Para trocar informações de qualidade de dados dentro e entre organizações.

  • Para criar ferramentas personalizadas que trabalhem com informações de qualidade de dados.

O namespace de destino é identificado no esquema como https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Próxima etapa

Exibindo perfil de saída no Visualizador de Perfil de Dados.

Ícone do Integration Services (pequeno) Fique atualizado com o Integration Services

Para obter os mais recentes downloads, artigos, exemplos e vídeos da Microsoft, bem como soluções selecionadas da comunidade, visite a página do Integration Services no MSDN ou TechNet:

Para receber uma notificação automática das atualizações, assine os feeds RSS disponíveis na página.