Options Demande de profil de modèle de colonne (tâche de profilage des données)

Utilisez le volet Propriétés de la demande de la page Demandes de profil pour définir les options de la Demande de profil de modèle de colonne sélectionnée dans le volet Demandes. Un profil de modèle de colonne signale un ensemble d'expressions régulières qui reflètent le pourcentage spécifié des valeurs dans une colonne de chaîne. Ce profil peut vous aider à identifier des problèmes dans vos données, tels que les chaînes non valides, et peut suggérer des expressions régulières susceptibles d'être utilisées à l'avenir pour la validation de nouvelles valeurs. Par exemple, le profil de modèle d'une colonne États-Unis/Codes postaux peut générer les expressions régulières \d{5}-\d{4}, \d{5} et \d{9}. Si vous rencontrez d'autres expressions régulières, il est probable que vos données contiennent des valeurs qui ne sont pas valides ou utilisent un format incorrect.

Notes

Les options décrites dans cette rubrique apparaissent sur la page Demandes de profil de l'Éditeur de tâche de profilage de données. Pour plus d'informations sur cette page de l'éditeur, consultez Éditeur de tâche de profilage de données (Page Demandes de profil).

Pour plus d'informations sur l'utilisation de la tâche de profilage de données, consultez Configuration de la tâche de profilage des données. Pour plus d'informations sur l'utilisation de la Visionneuse du profil des données pour analyser le résultat de la tâche de profilage de données, consultez Affichage de la sortie du profil dans la visionneuse du profil des données.

Fonctionnement de l'utilisation des séparateurs et des symboles

Avant de calculer les modèles d'une Demande de profil de modèle de colonne, la tâche de profilage des données marque les données sous forme de jetons. Autrement dit, elle sépare les valeurs de chaîne en unités plus petites appelées « jetons ». Pour séparer les chaînes en jetons, la tâche se base sur les séparateurs et les symboles que vous spécifiez pour les propriétés Delimiters et Symbols :

  • Séparateurs   Par défaut, la liste des séparateurs contient les caractères suivants : espace, tabulation horizontale (\t), nouvelle ligne (\n) et retour chariot (\r). Vous pouvez définir d'autres séparateurs mais vous ne pouvez pas supprimer les séparateurs par défaut.

  • Symboles   Par défaut, la liste des symboles contient les caractères suivants : ,.;:-"'`~=&/\@!?()<>[]{}|#*^%. Par exemple, si les symboles sont "()-", la valeur "(425) 123-4567" est marquée sous forme de jeton de la manière suivante : ["(", "425", ")", "123", "-", "4567", ")"].

Un caractère ne peut pas être à la fois un séparateur et un symbole.

Tous les séparateurs sont normalisés en un espace unique dans le cadre du processus de création de jetons tandis que les symboles sont conservés.

Fonctionnement de l'utilisation de la table des balises

Vous pouvez éventuellement regrouper des jetons associés au moyen d'une balise unique en stockant les balises et les termes associés dans une table spéciale que vous créez dans une base de données SQL Server. La table des balises doit être composée de deux colonnes de chaîne, l'une appelée « Balise », l'autre « Terme ». Ces colonnes peuvent être de type char, nchar, varchar ou nvarchar, mais pas text ou ntext. Vous pouvez fusionner plusieurs balises et leurs termes correspondants dans une seule et unique table. Une demande de profil de modèle de colonne peut utiliser une seule table des balises. Vous pouvez recourir à un gestionnaire de connexions ADO.NET pour vous connecter à la table des balises. La table des balises peut donc être stockée dans une autre base de données ou sur un autre serveur que les données sources.

Par exemple, vous pouvez regrouper les valeurs « East », « West », « North » et « South » susceptibles d'apparaître dans des adresses postales en utilisant la balise unique « Direction ». Un exemple de cette table des balises est proposé ci-dessous.

Balise

Terme

Direction

East

Direction

West

Direction

North

Direction

South

Vous pouvez éventuellement utiliser une autre balise pour regrouper les différents mots qui expriment la notion de « rue » (Street) dans les adresses postales :

Balise

Terme

Street

Street

Street

Avenue

Street

Place

Street

Way

D'après cette combinaison de balises, le modèle obtenu pour une adresse postale peut se présenter de la manière suivante :

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

Notes

L'utilisation d'une table des balises diminue les performances de la tâche de profilage des données. N'utilisez pas plus de 10 balises ou plus de 100 termes par balise.

Le même terme peut appartenir à plusieurs balises.

Options Propriétés de la demande

Pour une demande de profil de modèle de colonne, le volet Propriétés de la demande affiche les groupes d'options suivants :

  • Données, qui incluent les options TableOrView et Column

  • Général

  • Options

Options de données

  • ConnectionManager
    Sélectionnez le gestionnaire de connexions ADO.NET existant qui utilise le fournisseur de données .NET pour SQL Server (SqlClient) afin de se connecter à la base de données SQL Server qui contient la table ou la vue à profiler.

  • TableOrView
    Sélectionnez la table ou la vue existante qui contient la colonne à profiler.

    Pour plus d'informations, consultez la section « Options TableorView » dans cette rubrique.

  • Colonne
    Sélectionnez la colonne existante à profiler. Sélectionnez (*) pour profiler toutes les colonnes.

    Pour plus d'informations, consultez la section « Options de colonne » dans cette rubrique.

Options TableOrView

  • Schéma
    Spécifie le schéma auquel la table sélectionnée appartient. Cette option est en lecture seule.

  • Table
    Affiche le nom de la table sélectionnée. Cette option est en lecture seule.

Options de colonne

  • IsWildCard
    Spécifie si le caractère générique (*) a été sélectionné. Cette option a la valeur True si vous avez sélectionné (*) pour profiler toutes les colonnes. Sa valeur est False si vous avez sélectionné une colonne spécifique à profiler. Cette option est en lecture seule.

  • ColumnName
    Affiche le nom de la colonne sélectionnée. Cette option est vide si vous avez sélectionné (*) pour profiler toutes les colonnes. Cette option est en lecture seule.

  • StringCompareOptions
    Cette option ne s'applique pas au profil de modèle de colonne.

Options générales

  • RequestID
    Tapez un nom descriptif pour identifier cette demande de profil. En règle générale, il n'est pas nécessaire de modifier la valeur générée automatiquement.

Options

  • MaxNumberOfPatterns
    Spécifiez le nombre maximal de modèles que vous souhaitez calculer à l'aide du profil. La valeur par défaut de cette option est 10. La valeur maximale est 100.

  • PercentageDataCoverageDesired
    Spécifiez le pourcentage des données que vous souhaitez refléter avec les modèles calculés. La valeur par défaut de cette option est 95 (pourcent).

  • CaseSensitive
    Indiquez si les modèles doivent respecter la casse. La valeur par défaut de cette option est False.

  • Séparateurs
    Répertoriez les caractères à traiter en tant qu'équivalents des espaces entre les mots lorsque vous marquez du texte sous forme de jetons. Par défaut, la liste des séparateurs contient les caractères suivants : espace, tabulation horizontale (\t), nouvelle ligne (\n) et retour chariot (\r). Vous pouvez définir d'autres séparateurs mais vous ne pouvez pas supprimer les séparateurs par défaut.

    Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation des séparateurs et des symboles » plus haut dans cette rubrique.

  • Symboles
    Répertoriez les symboles à conserver dans le cadre des modèles. Les exemples peuvent inclure « / » pour les dates, « : » pour les heures et « @ » pour les adresses de messagerie. Par défaut, la liste des symboles contient les caractères suivants : ,.;:-"'`~=&/\@!?()<>[]{}|#*^%.

    Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation des séparateurs et des symboles » plus haut dans cette rubrique.

  • TagTableConnectionManager
    Sélectionnez le gestionnaire de connexions ADO.NET existant qui utilise le fournisseur de données .NET pour SQL Server (SqlClient) afin de se connecter à la base de données SQL Server qui contient la table des balises.

    Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation de la table des balises » plus haut dans cette rubrique.

  • TagTableName
    Sélectionnez la table des balises existante qui doit être composée de deux colonnes de chaîne intitulées Balise et Terme.

    Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation de la table des balises » plus haut dans cette rubrique.