Procédure : utiliser la tâche de profilage des données (Vidéo liée à SQL Server)

S'applique à : SQL Server 2008 Integration Services

Auteur : Douglas Laudenschlager, Microsoft Corporation

Durée : 10 min 12 s

Taille : 8,96 Mo

Type : fichier WMV

Regarder cette vidéo

Rubriques d'aide connexes :

Tâche de profilage des données

Profilage des données avec la tâche de profilage des données et la visionneuse du profil des données

Résumé de la vidéo

Cette vidéo explique comment utiliser cette nouvelle tâche performante de SQL Server 2008 pour vous familiariser avec une base de données que vous ne connaissez pas ou pour détecter des problèmes dans les données existantes. Les huit profils que la tâche peut calculer sont brièvement abordés.

Transcription de la vidéo

Bonjour. Je m'appelle Douglas Laudenschlager et je fais partie de l'équipe chargée de la documentation de Microsoft SQL Server Integration Services.

Nous allons aujourd'hui nous pencher sur la tâche de profilage des données, une nouveauté du service Integration Services de SQL Server 2008, qui vous permet de vous familiariser avec une base de données que vous ne connaissez pas ou de détecter des problèmes dans les données existantes.

Vous allez apprendre à :

  • configurer et exécuter la tâche de profilage des données dans un package Integration Services ;
  • exécuter la visionneuse du profil des données autonome pour afficher la sortie de la tâche ;
  • analyser la sortie de la tâche qui s'affiche dans la visionneuse du profil des données.

Nous voyons ici la fenêtre de Business Intelligence Development Studio ; nous avons déjà créé un projet Integration Services et ouvert le nouveau package dans le concepteur. Nous allons identifier la tâche de profilage des données parmi les éléments de flux de contrôle dans la boîte à outils, puis nous allons la faire glisser vers l'aire de conception.

Avant de configurer la tâche proprement dite, nous devons configurer les deux gestionnaires de connexions que la tâche attend pour son entrée et sa sortie. La tâche de profilage des données prend son entrée à partir d'une connexion ADO. Nous allons donc créer un nouveau gestionnaire de connexions ADO.NET qui pointe vers l'exemple de base de données AdventureWorks. La tâche de profilage des données utilise exclusivement des connexions ADO.NET, et dans cette version, elle calcule des profils uniquement pour des sources de données Microsoft SQL Server. La tâche de profilage des données écrit sa sortie dans un fichier au format XML. Par conséquent, nous devons également utiliser un gestionnaire de connexions de fichiers. Nous configurons ici notre gestionnaire de connexions de fichiers pour remplacer un fichier de sortie créé lors d'une exécution précédente. Nous pouvons maintenant commencer à configurer la tâche de profilage des données.

Lorsque nous ouvrons l'éditeur de la tâche de profilage des données, la première chose que nous devons faire, c'est spécifier le gestionnaire de connexions de fichiers que nous venons de créer comme destination de la sortie de la tâche. Comme nous voulons remplacer un fichier existant, nous devons également changer la valeur de la propriété OverwriteDestination ; nous remplaçons False par True.

Si nous examinons la page Demandes de profil, nous constatons que la tâche peut calculer huit types de profil. Pour la plupart d'entre eux, vous avez la possibilité de spécifier un grand nombre d'options. Cependant, vous comprendrez mieux ces options si nous étudions d'abord un exemple de sortie de la tâche de profilage des données. Nous allons passer directement à cet exemple.

Revenons à l'onglet Général (General) et choisissons l'option Profil rapide (Quick Profile). Cette option Profil rapide nous permet d'exécuter jusqu'à sept des profils disponibles avec leurs options par défaut sur une table de notre choix. Pour notre démonstration, nous allons sélectionner la table Person.Address dans la base de données AdventureWorks, puis les sept profils que nous pouvons exécuter.

La tâche est maintenant configurée et nous pouvons l'exécuter. Comme l'exécution de la tâche dure une minute, nous allons sauter cette étape et examiner directement la sortie générée lors d'une exécution précédente. Pour examiner ce fichier de sortie, nous devons utiliser la visionneuse du profil des données, qui est une application autonome. Je viens d'ouvrir notre fichier de sortie dans la visionneuse du profil des données. Développons l'arborescence dans le volet Profils (Profiles) situé dans la partie gauche de l'écran pour afficher la structure de nos données et les profils qui ont été calculés.

Avant d'étudier la sortie plus en détail, examinons les volets qui s'affichent ici dans la fenêtre Visionneuse du profil des données. Dans partie gauche de la page Profils (Profiles), vous voyez la structure de vos données et les profils sélectionnés que vous souhaitez calculer. En haut à droite, dans le volet de résultats (Results), vous voyez un récapitulatif des résultats du profil, généralement sur une seule ligne. Au centre, dans le volet d'informations (Details), vous voyez des détails supplémentaires que vous pouvez facilement trier et qui sont présentés sous forme de graphique et sous forme de texte. De plus, si la source de données que vous avez utilisée pour calculer votre profil est toujours disponible, les informations détaillées de chaque groupe de données s'affichent dans le volet d'exploration situé au bas de la fenêtre.

Examinons maintenant les différents profils disponibles. La tâche de profilage des données peut calculer cinq profils qui examinent des colonnes spécifiques et trois profils supplémentaires qui analysent les relations entre des colonnes.

Pour une colonne, le profil le plus simple est le profil de ratio Null de la colonne, qui calcule le pourcentage de valeurs Null dans une colonne donnée et qui vous permet d'identifier la présence de valeurs Null à des emplacements inappropriés. Bien entendu, une colonne PostalCode ne doit pas inclure de valeur Null, et le résultat de ce profil nous indique que dans la table Address dans AdventureWorks, il n'y a effectivement aucune valeur Null.

Vous pouvez également calculer un profil de distribution de longueurs de colonne, qui affiche les longueurs minimale et maximale des chaînes d'une colonne. Ce profil vous permet d'identifier les valeurs de chaîne non valides comportant un nombre de caractères supérieur ou inférieur au nombre de caractères autorisé dans la colonne. Nous voyons ici que les entrées non nulles de la colonne AddressLine2 dans AdventureWorks comportent entre 1 et 28 caractères. La longueur la plus fréquente est 5 caractères, et si nous examinons les données dans le volet d'exploration, nous constatons que ce sont en général de numéros d'appartement.

Nous pouvons également calculer un profil de distribution de valeurs de colonne, qui nous indique, par exemple, que dans la colonne AddressLine2 dans AdventureWorks, il existe 195 valeurs distinctes. Ce profil permet de détecter des valeurs incorrectes ou en dehors des plages autorisées ; par exemple, si vous aviez trouvé plus de 50 valeurs dans une table de correspondance des 50 États américains. Si cette colonne contient 195 valeurs distinctes, pourquoi est-ce qu'on ne voit qu'une seule colonne dans le volet d'informations (Details) ? C'est parce que les paramètres par défaut pour ce profil retournent des informations détaillées uniquement pour les valeurs qui représentent plus d'un dixième de 1 % des données. C'est une des nombreuses options que vous pouvez définir lorsque vous configurez la tâche.

Le profil de statistiques de colonnes, qui est calculé pour les colonnes numériques et de date, indique les valeurs minimale et maximale, ainsi que l'écart moyen et l'écart type pour une colonne contenant des chiffres. Lorsque vous observez les statistiques de colonnes d'une colonne de date, vous voyez la date la plus ancienne et la date la plus récente de la plage de dates. Ici encore, ce profil permet de détecter les chiffres ou les dates en dehors des plages autorisées.

Le dernier profil pouvant être calculé pour une colonne est le profil de motif de colonne. C'est un profil plus inhabituel qui retourne un jeu d'expressions régulières couvrant toutes les valeurs de la colonne. Vous pouvez prendre ces expressions régulières et les utiliser dans une application personnalisée pour valider des données existantes ou pour valider l'entrée de l'utilisateur avant l'insertion des données dans la base de données.

Examinons maintenant les profils qui analysent les relations entre des colonnes.

Le profil de clé candidate identifie les colonnes dont les valeurs présentent un fort degré d'unicité et qui peuvent être retenues comme clé primaire. Si l'unicité de la clé n'est pas respectée, ce profil l'indique. Bien entendu, il n'existe aucune violation ici puisque l'unicité de cette clé est déjà appliquée par une contrainte.

Nous n'utilisons pas le profil d'inclusion de valeur ici dans notre exemple de sortie parce qu'il n'est pas exécuté par l'option Profil rapide (Quick Profile), mais il analyse les relations de clé étrangère de la même manière que le profil de clé candidate analyse les relations de clé primaire.

Le profil de dépendance fonctionnelle est l'un des plus performants. Examinons un exemple de dépendance fonctionnelle. Pour une colonne PostalCode, les valeurs State ou Province devraient toujours être prévisibles et constantes. Cependant, nous constatons dans notre sortie que ceci est vrai uniquement à 99 % dans AdventureWorks. Nous sommes donc immédiatement informés qu'il existe des valeurs non valides pour StateProvinceID. Si nous prenons l'un des codes postaux comportant des violations, nous pouvons utiliser le volet d'exploration pour voir les lignes comportant des valeurs correctes et les lignes comportant des valeurs incorrectes.

Dans cette vidéo, vous avez appris à vous familiariser avec une base de données que vous ne connaissez pas ou à détecter des problèmes dans les données existantes à l'aide de la tâche de profilage des données, une nouveauté du service Integration Services de SQL Server 2008.

Vous avez également appris à :

  • configurer et exécuter la tâche de profilage des données dans un package Integration Services ;
  • exécuter la visionneuse du profil des données autonome pour afficher la sortie de la tâche ;
  • analyser la sortie de la tâche qui s'affiche dans la visionneuse du profil des données.

Nous espérons que cette vidéo vous a permis d'acquérir de nouvelles connaissances ainsi que des compétences qui vous seront utiles. Une fois que vous aurez fermé cette vidéo et que vous reviendrez à la page Web, vous aurez la possibilité de regarder d'autres vidéos liées à Integration Services. Merci.