Tâche de profilage des données

La tâche de profilage des données calcule différents profils qui vous aident à vous familiariser avec une source de données et à identifier les problèmes à résoudre au niveau des données.

Vous pouvez utiliser la tâche de profilage des données à l'intérieur d'un package Integration Services pour profiler les données stockées dans SQL Server et pour identifier les problèmes potentiels de qualité des données.

Notes

Cette rubrique décrit uniquement le les fonctionnalités et les spécifications de la tâche de profilage des données. Pour connaître la procédure pas à pas d'utilisation de la tâche de profilage des données, consultez la section, Profilage des données avec la tâche de profilage des données et la visionneuse du profil des données.

Important

La tâche de profilage des données fonctionne uniquement avec les données stockées dans SQL Server 2000 ou versions ultérieures. Cette tâche ne fonctionne pas avec les sources de données tierces ou basées sur des fichiers.

En outre, pour exécuter un package qui contient la tâche de profilage des données, vous devez utiliser un compte qui dispose d'autorisations de lecture/écriture, notamment les autorisations CREATE TABLE, sur la base de données tempdb.

Après avoir utilisé la tâche pour calculer des profils de données et enregistrer ceux-ci dans un fichier, vous pouvez utiliser la visionneuse du profil des données autonome pour passer en revue la sortie du profil. La visionneuse du profil des données prend également en charge l'exploration vers le bas pour vous aider à comprendre les problèmes de qualité des données qui sont identifiés dans la sortie du profil. Pour plus d'informations, consultez Affichage de la sortie du profil dans la visionneuse du profil des données.

Important

Le fichier de sortie peut contenir des données sensibles qui concernent votre base de données et les données qu'elle contient. Pour obtenir des suggestions sur la manière de sécuriser davantage ce fichier, consultez Contrôle de l'accès aux fichiers utilisés par des packages.

La fonction d'exploration vers le bas, disponible dans la visionneuse du profil des données, envoie des requêtes actives à la source de données d'origine.

Présentation des profils disponibles

La tâche de profilage des données peut calculer huit profils de données différents. Cinq de ces profils analysent des colonnes individuelles, tandis que les trois autres analysent plusieurs colonnes ou les relations entre des colonnes et des tables.

Les cinq profils suivants analysent des colonnes individuelles.

Profils qui analysent des colonnes individuelles

Description

Profil de distribution de longueurs de colonne

Signale toutes les longueurs distinctes des valeurs de chaîne dans la colonne sélectionnée, ainsi que le pourcentage de lignes dans la table que chaque longueur représente.

Ce profil vous aide à identifier des problèmes dans vos données, tels que des valeurs non valides. Par exemple, vous profilez une colonne des codes des États américains, ceux-ci comportant deux caractères, et découvrez des valeurs excédant deux caractères.

Profil de ratio de colonne Null

Signale le pourcentage de valeurs Null dans la colonne sélectionnée.

Ce profil vous aide à identifier des problèmes dans vos données, tels qu'un ratio élevé inattendu de valeurs Null dans une colonne. Par exemple, vous profilez une colonne de codes postaux et découvrez un pourcentage élevé et inacceptable de codes manquants.

Profil de modèle de colonne

Signale un ensemble d'expressions régulières qui reflètent le pourcentage spécifié de valeurs dans une colonne de chaîne.

Ce profil vous aide à identifier des problèmes dans vos données, tels que des chaînes non valides. Il peut également suggérer des expressions régulières susceptibles d'être utilisées à l'avenir pour la validation de nouvelles valeurs. Par exemple, un profil de modèle d'une colonne de codes postaux américains peut générer les expressions régulières \d{5}-\d{4}, \d{5} et \d{9}. Si vous rencontrez d'autres expressions régulières, il est probable que vos données contiennent des valeurs non valides ou dans un format incorrect.

Profil de statistiques de colonnes

Signale des statistiques, telles que la valeur minimale, la valeur maximale, la moyenne et l'écart type pour des colonnes numériques, et la valeur minimale et la valeur maximale pour des colonnes datetime.

Ce profil vous aide à identifier des problèmes dans vos données, tels que des dates non valides. Par exemple, vous profilez une colonne de dates historiques et découvrez une date maximale qui n'est pas encore passée.

Profil de distribution de valeurs de colonne

Signale toutes les valeurs distinctes dans la colonne sélectionnée, ainsi que le pourcentage de lignes dans la table que chaque valeur représente. Peut également signaler des valeurs qui représentent plus qu'un pourcentage de lignes spécifié dans la table.

Ce profil vous aide à identifier des problèmes dans vos données, tels qu'un nombre incorrect de valeurs distinctes dans une colonne. Par exemple, vous profilez une colonne supposée contenir les États américains et découvrez plus de 50 valeurs distinctes.

Les trois profils suivants analysent plusieurs colonnes ou les relations entre des colonnes et des tables.

Profils qui analysent plusieurs colonnes

Description

Profil de clé candidate

Signale si une colonne ou un ensemble de colonnes est une clé, ou une clé approximative, pour la table sélectionnée.

Ce profil vous aide également à identifier des problèmes dans vos données, tels que des valeurs dupliquées dans une colonne clé potentielle.

Profil de dépendance fonctionnelle

Signale le degré de dépendance entre les valeurs d'une colonne (colonne dépendante) et celles d'une autre colonne ou d'un ensemble de colonnes (colonne déterminante).

Ce profil vous aide également à identifier des problèmes dans vos données, tels que des valeurs non valides. Par exemple, vous profilez la dépendance entre une colonne qui contient les codes postaux américains et une colonne qui contient les États américains. Le même code postal doit toujours être associé au même État, mais le profil détecte des violations de cette dépendance.

Profil d'inclusion de valeur

Calcule le chevauchement des valeurs entre deux colonnes ou ensembles de colonnes. Ce profil permet de déterminer si une colonne ou un ensemble de colonnes peut servir de clé étrangère entre les tables sélectionnées.

Ce profil vous aide également à identifier des problèmes dans vos données, tels que des valeurs non valides. Par exemple, vous profilez la colonne ProductID d'une table Sales et découvrez que la colonne contient des valeurs qui sont introuvables dans la colonne ProductID de la table Products.

Conditions requises pour obtenir un profil valide

Pour qu'un profil soit valide, vous devez sélectionner des tables et des colonnes qui ne sont pas vides, et les colonnes doivent contenir des types de données valides pour le profil.

Types de données valides

Certains des profils disponibles ne sont significatifs que pour certains types de données. Par exemple, le fait de calculer un profil de modèle de colonne pour une colonne qui contient des valeurs numériques ou datetime n'est pas significatif. Par conséquent, un tel profil n'est pas valide.

Profil

Types de données valides*

ColumnStatisticsProfile

Colonnes de type numérique ou de type datetime (mean et stddev ne sont pas disponibles pour une colonne datetime)

ColumnNullRatioProfile

Toutes les colonnes*

ColumnValueDistributionProfile

Colonnes de types integer, char et datetime

ColumnLengthDistributionProfile

Colonnes de type char

ColumnPatternProfile

Colonnes de type char

CandidateKeyProfile

Colonnes de types integer, char et datetime

FunctionalDependencyProfile

Colonnes de types integer, char et datetime

InclusionProfile

Colonnes de types integer, char et datetime

* Dans le tableau précédent des types de données valides, les types integer, char, datetime et numeric incluent les types de données spécifiques suivants :

     Les types d'entiers sont bit, tinyint, smallint, int et bigint.

     Les types de caractères incluent char, nchar, varchar et nvarchar,, mais pas varchar(max) et nvarchar(max).

     Les types de date et d'heure incluent datetime, smalldatetime et timestamp.

     Les types numériques incluent les types integer (sauf bit), money, smallmoney, decimal, float, real et numeric.

** Les types image, text, xml, udt et variant sont uniquement pris en charge pour le profil de ratio de colonne Null.

Tables et colonnes valides

Si la table ou colonne est vide, la tâche de profilage des données entreprend les actions suivantes :

  • Lorsque la table ou la vue sélectionnée est vide, la tâche de profilage des données ne calcule pas de profils.

  • Lorsque toutes les valeurs dans la colonne sélectionnée sont Null, la tâche de profilage des données calcule uniquement le profil de ratio de colonne Null. La tâche ne calcule pas les profils de distribution de longueurs de colonne, de modèle de colonne, de statistiques de colonnes ou de distribution de valeurs de colonne.

Fonctionnalités de la tâche de profilage des données

Pratiques, les options de configuration de la tâche de profilage des données sont les suivantes :

  • Colonnes génériques   Lorsque vous configurez une demande de profil, la tâche accepte le caractère générique (*) à la place d'un nom de colonne. Cela simplifie la configuration et facilite la découverte des caractéristiques de données inconnues. Lorsque la tâche s'exécute, elle profile chaque colonne ayant un type de données approprié.

  • Profil rapide   Vous pouvez sélectionner Profil rapide pour configurer la tâche rapidement. Un profil rapide profile une table ou une vue en utilisant tous les profils et paramètres par défaut.

Messages de journalisation personnalisés disponibles dans la tâche de profilage des données

Le tableau suivant répertorie les entrées de journal personnalisées pour la tâche de profilage des données. Pour plus d'informations, consultez Implémentation de la journalisation dans les packages et Messages personnalisés pour la journalisation.

Entrée du journal

Description

DataProfilingTaskTrace

Donne des informations détaillées sur l'état de la tâche. Les messages contiennent les informations suivantes :

  • Début de traitement des requêtes

  • Début de requête

  • Fin de requête

  • Fin du calcul de requête

Présentation de la sortie et de son schéma

La tâche de profilage des données génère en sortie les profils sélectionnés en langage XML structuré conformément au schéma DataProfile.xsd. Vous pouvez préciser si cette sortie XML doit être enregistrée dans un fichier ou dans une variable de package. Ce schéma est disponible en ligne à l'adresse https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Vous pouvez, à partir de la page Web, enregistrer une copie locale du schéma. Vous pouvez ensuite examiner la copie locale du schéma dans Microsoft Visual Studio ou un autre éditeur de schéma, dans un éditeur XML ou encore dans un éditeur de texte tel que le Bloc-notes.

Ce schéma pour les informations sur la qualité des données peut être utile pour :

  • échanger des informations sur la qualité des données au sein d'une organisation ou entre plusieurs organisations ;

  • construire des outils personnalisés qui fonctionnent avec les informations sur la qualité des données.

L'espace de noms cible est identifié dans le schéma comme suit : https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Utilisation de la sortie dans le flux de travail conditionnel d'un package

Les composants de profilage des données n'incluent pas de fonctionnalités intégrées pour implémenter la logique conditionnelle dans le flux de travail du package Integration Services basée sur la sortie de la tâche de profilage des données. Toutefois, vous pouvez ajouter facilement cette logique, avec un minimum de programmation, dans une tâche de script. Ce code effectuerait une requête XPath sur la sortie XML, puis enregistrerait le résultat dans une variable de package. Les contraintes de précédence qui connectent la tâche de script aux tâches suivantes peuvent utiliser une expression pour déterminer le flux de travail. Par exemple, la tâche de script détecte que le pourcentage de valeurs Null dans une colonne dépasse un certain seuil. Lorsque cette condition est remplie, vous pouvez interrompre le package et résoudre le problème avant de continuer.

Configuration de la tâche de profilage des données

Vous configurez la tâche de profilage des données en utilisant l'Éditeur de tâche de profilage de données. L'éditeur comprend deux pages :

Icône Integration Services (petite) Rester à jour avec Integration Services

Pour obtenir les derniers téléchargements, articles, exemples et vidéos de Microsoft, ainsi que des solutions sélectionnées par la communauté, visitez la page Integration Services sur MSDN ou TechNet :

Pour recevoir une notification automatique de ces mises à jour, abonnez-vous aux flux RSS disponibles sur la page.