Profilage des données avec la tâche de profilage des données et la visionneuse du profil des données

La tâche de profilage des données fournit des fonctionnalités de profilage de données à l'intérieur du processus d'extraction, de transformation et de chargement de données. Grâce à la tâche de profilage des données, vous pouvez bénéficier des avantages suivants :

  • Analyser les données sources plus efficacement

  • Mieux comprendre les données sources

  • Empêcher les problèmes de qualité des données avant qu'ils ne soient introduits dans l'entrepôt de données

Important

La tâche de profilage des données fonctionne uniquement avec les données stockées dans SQL Server 2000 ou versions ultérieures. Elle ne fonctionne pas avec les sources de données tierces ou basées sur des fichiers.

Qu'est-ce que le profilage des données ?

La qualité des données est cruciale dans toute entreprise. Compte tenu du fait que les systèmes analytiques et décisionnels des entreprises sont fondés sur leurs systèmes transactionnels, la fiabilité des indicateurs de performance clés et des prédictions d'exploration de données dépend entièrement de la validité des données sur lesquelles ils sont basés. Parallèlement à l'importance croissante des données valides dans la prise de décision en entreprise, le processus de validation de ces données est de plus en plus complexe. Les données affluent constamment dans l'entreprise, en provenance de systèmes et de sources variés et d'un grand nombre d'utilisateurs.

Les mesures de la qualité des données peuvent être difficiles à mettre en place car elles sont spécifiques au domaine ou à l'application. Une approche commune à la définition de la qualité des données est le profilage des données.

Un profil de données est une collection de statistiques agrégées sur les données qui peut regrouper, par exemple :

  • le nombre de lignes dans la table Customer ;

  • le nombre de valeurs distinctes dans la colonne State ;

  • le nombre de valeurs Null ou manquantes dans la colonne Zip ;

  • la distribution des valeurs dans la colonne City ;

  • la puissance de la dépendance fonctionnelle de la colonne State sur la colonne Zip (en d'autres termes, un État américain doit toujours être le même pour une valeur de code postal donnée).

Les statistiques fournies par un profil de données vous donnent les informations nécessaires pour minimiser de manière efficace les problèmes de qualité qui peuvent résulter de l'utilisation des données sources.

Fonctionnement du profilage des données dans Integration Services

Dans Integration Services, le processus de profilage des données comprend les étapes suivantes :

  • Étape 1 : Configuration de la tâche de profilage des données
    La tâche de profilage des données vous permet de configurer les profils à calculer. Vous exécutez ensuite le package qui contient la tâche de profilage des données pour calculer les profils. La tâche enregistre la sortie du profil au format XML dans un fichier ou une variable de package.

    Pour plus d'informations, consultez Configuration de la tâche de profilage des données.

  • Étape 2 : Vérification des profils calculés par la tâche de profilage des données
    Pour examiner les profils de données calculés par la tâche de profilage des données, vous envoyez la sortie à un fichier, puis vous utilisez la visionneuse du profil des données. Cette visionneuse est un utilitaire autonome qui affiche la sortie du profil, sous forme d'informations résumées et détaillées, avec en option une fonction d'exploration vers le bas.

    Pour plus d'informations, consultez Affichage de la sortie du profil dans la visionneuse du profil des données.

Ajout de la logique conditionnelle au flux de travail de profilage des données

La tâche de profilage des données n'inclut pas de fonctionnalités intégrées vous permettant d'utiliser la logique conditionnelle pour connecter cette tâche aux tâches en aval basées sur la sortie du profil. Toutefois, vous pouvez ajouter facilement cette logique, avec un minimum de programmation, dans une tâche de script. Par exemple, vous pouvez définir une tâche de script qui effectue une requête XPath sur le fichier de sortie de la tâche de profilage des données. La requête peut déterminer si le pourcentage de valeurs NULL dans une colonne particulière dépasse un certain seuil. Si tel est le cas, vous pouvez interrompre le package et résoudre le problème dans les données sources avant de continuer. Pour plus d'informations, consultez Utilisation de la tâche de profilage des données dans le flux de travail du package.

Icône Integration Services (petite) Rester à jour avec Integration Services

Pour obtenir les derniers téléchargements, articles, exemples et vidéos de Microsoft, ainsi que des solutions sélectionnées par la communauté, visitez la page Integration Services sur MSDN ou TechNet :

Pour recevoir une notification automatique de ces mises à jour, abonnez-vous aux flux RSS disponibles sur la page.