Options Demande de profil de dépendance fonctionnelle (tâche de profilage des données)

Utilisez le volet Propriétés de la demande de la page Demandes de profil pour définir les options de la Demande de profil de dépendance fonctionnelle sélectionnée dans le volet Demandes. Un profil de dépendance fonctionnelle indique le degré de dépendance entre les valeurs d'une colonne (colonne dépendante) et celles d'une autre colonne ou d'un ensemble de colonnes (colonne déterminante). Ce profil peut également vous aider à identifier les problèmes dans vos données, tels que les valeurs non valides. Par exemple, vous profilez la dépendance entre une colonne Code postal et une colonne des états des États-Unis. Dans ce profil, la même colonne Code postal doit toujours afficher le même état mais le profil détecte des violations de la dépendance.

Notes

Les options décrites dans cette rubrique apparaissent sur la page Demandes de profil de l'Éditeur de tâche de profilage de données. Pour plus d'informations sur cette page de l'éditeur, consultez Éditeur de tâche de profilage de données (Page Demandes de profil).

Pour plus d'informations sur l'utilisation de la tâche de profilage de données, consultez Configuration de la tâche de profilage des données. Pour plus d'informations sur l'utilisation de la Visionneuse du profil des données pour analyser le résultat de la tâche de profilage de données, consultez Affichage de la sortie du profil dans la visionneuse du profil des données.

Fonctionnement du processus de sélection des colonnes déterminantes et dépendantes

Une demande de profil de dépendance fonctionnelle calcule le degré avec lequel la colonne ou l'ensemble de colonnes déterminantes (spécifié dans la propriété DeterminantColumns) détermine la valeur de la colonne dépendante (spécifiée dans la propriété DependentColumn). Par exemple, une colonne des états États-Unis doit fonctionnellement dépendre d'une colonne États-Unis/Code postal. Autrement dit, si la colonne Code postal (colonne déterminante) est 98052, l'état (colonne dépendante) doit toujours être Washington.

Du côté déterminant, vous pouvez spécifier une colonne ou un ensemble de colonnes dans la propriété DeterminantColumns. Par exemple, imaginez une table qui contient des colonnes A, B, et C. Vous effectuez les sélections suivantes pour la propriété DeterminantColumns :

  • Lorsque vous sélectionnez le caractère générique (*), la tâche de profilage des données teste chaque colonne en tant que côté déterminant de la dépendance.

  • Lorsque vous sélectionnez le caractère générique (*) et une ou plusieurs autres colonnes, la tâche de profilage des données teste chaque combinaison de colonnes en tant que côté déterminant de la dépendance. Par exemple, imaginez une table composée des colonnes A, B et C. Si vous spécifiez (*) et la colonne C comme valeur de la propriété DeterminantColumns, la tâche de profilage des données teste les combinaisons (A, C) et (B, C) en tant que côté déterminant de la dépendance.

Du côté dépendant, vous pouvez spécifier une colonne unique ou le caractère générique (*) dans la propriété DependentColumn. Lorsque vous sélectionnez le caractère générique (*), la tâche de profilage des données teste la colonne ou l'ensemble de colonnes du côté déterminant avec chaque colonne.

Notes

Si vous sélectionnez le caractère générique (*), cette option risque d'aboutir à un grand nombre de calculs et de diminuer les performances de la tâche. En revanche, si la tâche détecte un sous-ensemble qui respecte le seuil défini pour une dépendance fonctionnelle, la tâche ne procède pas à l'analyse des combinaisons supplémentaires. Par exemple, dans l'exemple de table décrit ci-dessus, si la tâche détermine que la colonne C est une colonne déterminante, la tâche ne poursuit pas l'analyse des candidats composites.

Options Propriétés de la demande

Pour une demande de profil de dépendance fonctionnelle, le volet Propriétés de la demande affiche les groupes d'options suivants :

  • Données, qui incluent les options DeterminantColumns et DependentColumn

  • Général

  • Options

Options de données

  • ConnectionManager
    Sélectionnez le gestionnaire de connexions ADO.NET existant qui utilise le fournisseur de données .NET pour SQL Server (SqlClient) afin de se connecter à la base de données SQL Server qui contient la table ou la vue à profiler.

  • TableOrView
    Sélectionnez la table ou la vue existante à profiler.

  • DeterminantColumns
    Sélectionnez la colonne ou l'ensemble de colonnes déterminantes, à savoir la colonne ou l'ensemble de colonnes dont les valeurs déterminent la valeur de la colonne dépendante.

    Pour plus d'informations, consultez les sections, « Fonctionnement du processus de sélection des colonnes déterminantes et dépendantes » et « Options DeterminantColumns et DependentColumn » dans cette rubrique.

  • DependentColumn
    Sélectionnez la colonne dépendante, c'est-à-dire la colonne dont la valeur est déterminée par la valeur de la colonne ou de l'ensemble de colonnes du côté déterminant.

    Pour plus d'informations, consultez les sections, « Fonctionnement du processus de sélection des colonnes déterminantes et dépendantes » et « Options DeterminantColumns et DependentColumn » dans cette rubrique.

Options DeterminantColumns et DependentColumn

Les options suivantes sont proposées pour chaque colonne sélectionnée à des fins de profilage dans DeterminantColumns et dans DependentColumn.

Pour plus d'informations, consultez la section « Fonctionnement du processus de sélection des colonnes déterminantes et dépendantes » plus haut dans cette rubrique.

  • IsWildCard
    Spécifie si le caractère générique (*) a été sélectionné. Cette option a la valeur True si vous avez sélectionné (*) pour profiler toutes les colonnes. Sa valeur est False si vous avez sélectionné une colonne spécifique à profiler. Cette option est en lecture seule.

  • ColumnName
    Affiche le nom de la colonne sélectionnée. Cette option est vide si vous avez sélectionné (*) pour profiler toutes les colonnes. Cette option est en lecture seule.

  • StringCompareOptions
    Sélectionnez les options de comparaison des valeurs de chaîne. Cette propriété dispose des options répertoriées dans le tableau suivant. La valeur par défaut de cette option est Par défaut.

    Notes

    Lorsque vous utilisez le caractère générique (*) pour ColumnName, l'option CompareOptions est en lecture seule et est définie avec le paramètre Par défaut.

    Valeur

    Description

    Par défaut

    Trie et compare des données d'après le classement de la colonne dans la table source.

    BinarySort

    Trie et compare les données en fonction des modèles binaires définis pour chaque caractère. L'ordre de tri binaire respecte la casse et les accents. Il s'agit aussi de l'ordre de tri le plus rapide.

    DictionarySort

    Trie et compare des données d'après les règles de tri et de comparaison telles que définies dans les dictionnaires de la langue ou de l'alphabet associé.

    Si vous sélectionnez DictionarySort, vous pouvez également sélectionner toutes les combinaisons d'options répertoriées dans le tableau suivant. Par défaut, aucune de ces options supplémentaires n'est sélectionnée.

    Valeur

    Description

    IgnoreCase

    Indique si la comparaison fait la distinction entre les lettres majuscules et minuscules. Si cette option est définie, la comparaison de chaînes ignore la casse. Par exemple, « ABC » est alors identique à « abc ».

    IgnoreNonSpace

    Indique si la comparaison fait la distinction entre les caractères avec espace et les signes diacritiques. Si cette option est définie, la comparaison ignore les signes diacritiques. Par exemple, « å » est identique à « a ».

    IgnoreKanaType

    Indique si la comparaison fait la distinction entre les deux types de caractères japonais Kana : Hiragana et Katakana. Si cette option est définie, la comparaison de chaînes ignore le type Kana.

    IgnoreWidth

    Indique si la comparaison fait la distinction entre un caractère sur un octet et le même caractère représenté sur deux octets. Si cette option est définie, la comparaison de chaînes traite les représentations sur un octet et sur deux octets du même caractère comme étant identiques.

Options générales

  • RequestID
    Tapez un nom descriptif pour identifier cette demande de profil. En règle générale, il n'est pas nécessaire de modifier la valeur générée automatiquement.

Options

  • ThresholdSetting
    Spécifiez le paramètre de seuil. La valeur par défaut de cette propriété est Spécifié.

    Valeur

    Description

    Aucun

    Aucun seuil n'est spécifié. La puissance de la dépendance fonctionnelle est précisée, quelle que soit sa valeur.

    Spécifié

    Utilisez le seuil spécifié dans FDStrengthThreshold. La puissance de la dépendance fonctionnelle est précisée uniquement si elle est supérieure au seuil.

    Exact

    Aucun seuil n'est spécifié. La puissance de la dépendance fonctionnelle est précisée uniquement si la dépendance fonctionnelle entre les colonnes sélectionnées est exacte.

  • FDStrengthThreshold
    Spécifiez le seuil (au moyen d'une valeur comprise entre 0 et 1) au-dessus duquel la puissance de la dépendance fonctionnelle doit être précisée. La valeur par défaut de cette propriété est 0,95. Cette option est activée uniquement lorsque Spécifié est sélectionné comme valeur ThresholdSetting.

  • MaxNumberOfViolations
    Spécifiez le nombre maximal de violations de dépendance fonctionnelle à signaler dans la sortie. La valeur par défaut de cette propriété est 100. Cette option est désactivée lorsque Exact est sélectionné en tant que valeur ThresholdSetting.