Procédure : identifier des lignes de données semblables à l'aide de la transformation de regroupement probable

Article
12/15/2008

Pour ajouter et configurer une transformation de regroupement probable, le package doit déjà inclure au moins une tâche de flux de données et une source.

Pour implémenter une transformation de regroupement probable dans un flux de données

Dans Business Intelligence Development Studio, ouvrez le projet Integration Services qui contient le package souhaité.
Dans l'Explorateur de solutions, double-cliquez sur le package pour l'ouvrir.
Cliquez sur l'onglet Flux de données puis, à partir de la Boîte à outils, faites glisser la transformation de regroupement probable sur la surface de dessin.
Connectez la transformation de regroupement probable au flux de données en faisant glisser le connecteur (la flèche verte ou rouge) à partir de la source de données ou d'une transformation précédente vers la transformation de regroupement probable.
Double-cliquez sur la transformation de regroupement probable.
Dans la boîte de dialogue Éditeur de transformation de regroupement probable, sous l'onglet Gestionnaire de connexions, sélectionnez un gestionnaire de connexions OLE DB qui établit une connexion à une base de données SQL Server 2005.

Remarque :

La transformation requiert une connexion à une base de données SQL Server 2005 pour permettre la création de tables et d'index temporaires.
Cliquez sur l'onglet Colonnes et, dans la liste Colonnes d'entrée disponibles, activez la case à cocher des colonnes d'entrée à utiliser pour identifier des lignes semblables dans le dataset.

Remarque :
La transformation requiert une connexion à une base de données SQL Server 2005 pour permettre la création de tables et d'index temporaires.

Activez la case à cocher dans la colonne Transfert direct pour identifier les colonnes d'entrée comme devant être transférées directement vers la sortie de transformation. Les colonnes à transfert direct ne sont pas incluses dans le processus d'identification des lignes dupliquées.

Remarque :
Les colonnes d'entrée utilisées pour le regroupement sont sélectionnées automatiquement comme colonnes à transfert direct et elles ne peuvent pas être désélectionnées tant qu'elles sont utilisées pour le regroupement.

Mettez éventuellement à jour les noms des colonnes de sortie dans la colonne Alias de sortie.
Mettez éventuellement à jour les noms des colonnes nettoyées dans la colonne Alias de sortiede groupe.

Remarque :

Les noms par défaut des colonnes sont les noms des colonnes d'entrée avec un suffixe « _clean ».
Mettez éventuellement à jour le type de correspondance à utiliser dans la colonne Type de correspondance.

Remarque :

Au moins une colonne doit utiliser la correspondance approximative.
Spécifiez les colonnes de niveau de similarité minimale dans la colonne Similarité minimale. La valeur doit être comprise entre 0 et 1. Plus la valeur est proche de 1, plus les valeurs des colonnes d'entrée doivent être similaires pour former un groupe. Une similarité minimale de 1 indique une correspondance exacte.
Mettez éventuellement à jour les noms des colonnes de similarité dans la colonne Alias de sortie de similarité.
Pour spécifier la gestion des nombres dans les valeurs de données, mettez à jour les valeurs dans la colonne Chiffres.
Pour spécifier la manière dont la transformation compare les données de chaîne dans une colonne, modifiez la sélection par défaut des options de comparaison dans la colonne Indicateurs de comparaison.
Cliquez sur l'onglet Avancé pour modifier les noms des colonnes que la transformation ajoute à la sortie pour l'identificateur de ligne unique (_key_in), l'identificateur de ligne dupliquée (_key_out) et la valeur de similarité (_score).
Ajustez éventuellement le seuil de similarité en déplaçant le curseur.
Désactivez éventuellement les cases à cocher de séparateurs de jetons pour ignorer les séparateurs dans les données.
Cliquez sur OK.
Pour enregistrer le package mis à jour, cliquez sur Enregistrer les éléments sélectionnés dans le menu Fichier.

Remarque :
Les noms par défaut des colonnes sont les noms des colonnes d'entrée avec un suffixe « _clean ».

Remarque :
Au moins une colonne doit utiliser la correspondance approximative.

Voir aussi

Procédure : identifier des lignes de données semblables à l'aide de la transformation de regroupement probable

Pour implémenter une transformation de regroupement probable dans un flux de données

Voir aussi

Concepts

Autres ressources

Aide et Informations

Ressources supplémentaires