Profilage des données et notifications dans DQS

S’applique à :SQL Server

Le profilage des données dans Data Quality Services (DQS) est le processus d’analyse des données dans une source de données existante et l’affichage de statistiques sur les données dans les activités DQS. Il vous fournit des mesures automatisées de la qualité des données. Le profilage DQS est intégré à la gestion des connaissances DQS et aux projets de qualité des données. c’est dynamique et réglable. Le profilage a deux objectifs importants : d'abord vous guider au cours des processus de qualité des données et prendre en charge les décisions et, ensuite, évaluer l'efficacité des processus. Le processus de profilage DQS présente les avantages suivants :

  • Le profilage fournit un aperçu de la qualité des données sources et vous aide à identifier des problèmes de qualité des données.

  • Le profilage évalue l'efficacité des processus de qualité des données et vous guide dans la découverte des connaissances, le nettoyage des données, la stratégie de correspondance et le travail de correspondance.

  • Le profilage vous présente les informations les plus pertinentes au moment le plus approprié.

  • Le processus de profilage génère des notifications qui mettent en évidence des statistiques ou des événements importants susceptibles de mériter une action. Dans de nombreux cas, les notifications DQS indiquent une condition et recommandent la mesure que vous pouvez prendre pour remédier à cette condition.

Le profilage vous permet d'utiliser Data Quality Services non seulement pour la découverte des connaissances, le nettoyage et la correspondance, mais aussi en tant qu'outil d'analyse. Vous pouvez créer une base de connaissances pour l'analyse et exécutez la découverte des connaissances à l'aide de cette base de connaissances pour déterminer à partir des statistiques de profilage si la base de connaissances répond à vos besoins de découverte, nettoyage et correspondance.

Fonctionnement du profilage

Le profilage ne mesure pas la qualité de la base de connaissances. Il mesure la qualité des données sources. Le profilage vous fournit des statistiques qui indiquent l’effet de l’opération spécifique que vous effectuez dans la gestion des connaissances ou un projet de qualité des données sur vos données sources. Le profilage est toujours dans le contexte de l’activité spécifique que vous effectuez. Vous pouvez cliquer sur l’onglet profilage dans un écran pour afficher les données de profilage sans quitter l’étape de l’activité que vous effectuez. La table de profilage est remplie en temps réel lorsque le processus est effectué, ce qui vous permet d’évaluer les tâches de qualité des données à mesure que vous les effectuez. Vous pouvez déterminer si les données sources sont meilleures après le nettoyage ou la déduplication, et dans quelle mesure.

Tous les numéros de profilage font référence au nombre d’apparences d’une valeur et, dans de nombreux cas, font référence au pourcentage du total, à l’exception des métriques d’unicité. Les mesures d'unicité font référence au nombre absolu de valeurs, quel que soit le nombre d'apparitions de ces valeurs.

Le profilage fait partie de la solution pilotée par la connaissance DQS. Il fournit des informations sur une base de connaissances, la correspondance ou le processus de nettoyage de données basé sur le mappage entre les champs de sources de données et les domaines de base de connaissances. Vous ne profilez qu’une fois le mappage terminé ; aucun profilage n’est effectué pendant l’étape de mappage d’une activité. Le profilage est toujours joint à une activité. Le processus de profilage est effectué sur les données mappées aux domaines, et non sur les données des domaines. Elle est intégrée aux étapes suivantes des activités :

  • Étapes Découvrir et Gérer les valeurs du domaine de l'activité de découverte des connaissances

  • Étapes Nettoyer et Gérer et afficher les résultats de l'activité de nettoyage

  • Étapes Stratégie de correspondance et Résultats de correspondance de l'activité de stratégie de correspondance

  • Étapes Correspondance et Exporter de l'activité de correspondance

DQS ne fournit pas de statistiques de profilage pour l’activité Gestion du domaine.

Profilage des données par activité

Le profilage DQS utilise des dimensions standard de qualité des données pour représenter la qualité des données : exhaustivité (dans quelle mesure les données sont présentes), précision (dans quelle mesure les données peuvent être utilisées pour l'usage prévu) et unicité (dans quelle mesure différentes valeurs représentent différentes entités). Par défaut, les valeurs NULL et vides sont considérées comme manquantes ou réduisent le pourcentage d’exhaustivité ; Toutefois, vous pouvez également définir d’autres valeurs pour qu’elles soient équivalentes à NULL, auquel cas elles seront également considérées comme manquantes.

Le profilage vous fournit les statistiques nécessaires pour évaluer vos processus, mais vous devez interpréter les statistiques. Saisissez la signification de ce que le profilage indique en examinant les statistiques colonne par colonne.

Les activités DQS ont différents ensembles de statistiques de profilage, comme suit :

  • Seule l'activité de nettoyage a des statistiques de profilage pour la précision (en pourcentage par domaine). La précision est affectée par la validité, la cohérence, les erreurs de syntaxe et les règles de domaine.

  • Seule l'activité de nettoyage a des statistiques de profilage pour les termes corrects, corrigés et suggérés dans la source, et les valeurs corrigées et suggérées par domaine (à la fois nombre et pourcentage).

  • Les activités de nettoyage et de découverte des connaissances ont des statistiques de profilage pour la validité (nettoyage par enregistrement, découverte des connaissances par enregistrement et domaine). La stratégie de correspondance et les activités correspondantes n’ont pas de statistiques pour la validité.

  • L’activité de nettoyage n’a pas de statistiques de profilage pour l’unicité. Les activités de découverte des connaissances, de stratégie de correspondance et de correspondance ont des statistiques de profilage pour l'unicité en nombre et pourcentage pour la source et par domaine.

Pour plus d’informations sur les statistiques de profilage spécifiques relatives à une activité, consultez les sections profilage des articles suivants :

Profilage des données dans l'analyse des activités

Les informations de profilage pour les activités de découverte des connaissances, de stratégie de correspondance, de correspondance et de nettoyage sont disponibles non seulement dans les pages d’activité du client de qualité des données, mais également disponibles dans la surveillance des activités. L'analyse des activités vous fournit une vue d'ensemble des activités en cours et passées. Outre les propriétés et les processus de calcul connexes des activités, vous pouvez afficher les informations de profilage générées pour chaque activité à un emplacement. Vous sélectionnez une activité dans la table des activités pour afficher les résultats de profilage dans une table ci-dessous. Vous pouvez également exporter les résultats de profilage. Pour plus d’informations, consultez DQS Administration.

Notifications

En plus de collecter et d'afficher des statistiques et des mesures importantes par le profilage, DQS génère des notifications (si l'option est activée) pour indiquer lorsque vous pouvez prendre une mesure en fonction des statistiques de profilage affichées. DQS utilise des notifications pour mettre en évidence des faits importants sur la source de données et montrer l’efficacité de l’activité actuelle par rapport à l’objectif pour lequel elle a été exécutée. Les notifications fournissent des conseils et des recommandations qui indiquent une condition et comment vous pouvez améliorer une activité de découverte des connaissances, nettoyage des données ou correspondance de données.

Une notification DQS est utilisée pour soulever une question qui peut vous intéresser, ou pour résoudre un problème potentiel. Si vous agissez sur la notification dépend de sa pertinence à vos fins. Par exemple, supposons que DQS publie une notification lorsque le nettoyage de données ne produit aucune valeur corrigée ni suggérée alors que l'exhaustivité et la précision sont toutes deux de 100 %. Cette notification indique que l'exécution de l'activité peut ne pas être nécessaire. Toutefois, il vous appartient de choisir d'exécuter l'activité.

Une notification est indiquée par une info-bulle avec un point d’exclamation dans l’onglet Profilage . Les statistiques associées à la notification sont en rouge pour indiquer la justification statistique de la notification.

Vous pouvez activer (par défaut) ou désactiver les notifications dans l'onglet Paramètres généraux de la section Administration de la page d'accueil de Data Quality Client. Lorsque la notification est désactivée, les info-bulles ne sont pas affichées et les statistiques ne sont pas en rouge. Il n’existe aucune amélioration significative des performances en désactivant les notifications. Le profilage est toujours opérationnel si vous désactivez les notifications.

Pour obtenir des conditions spécifiques associées aux notifications pour une activité, consultez les articles suivants :

Description de la tâche Article
Explique comment activer ou désactiver les notifications dans DQS. Activer ou désactiver les notifications de profilage dans DQS