Transformation d'extraction de terme

Article
12/15/2008

La transformation d'extraction de terme extrait des termes à partir de texte d'une colonne d'entrée de transformation, puis écrit les termes dans une colonne de sortie de transformation. La transformation fonctionne uniquement avec du texte en langue anglaise et utilise uniquement son propre dictionnaire d'anglais et ses propres informations linguistiques.

Vous pouvez utiliser la transformation d'extraction de terme pour découvrir le contenu d'un dataset. Par exemple, du texte contenant des messages électroniques peut fournir des commentaires utiles sur des produits ; vous pourriez donc utiliser la transformation d'extraction de terme pour extraire les rubriques de discussion dans les messages et ainsi analyser les commentaires.

La transformation d'extraction de terme peut extraire uniquement des noms, uniquement des expressions nominales, ou les deux. Un nom est un nom unique ; une expression nominale est constituée d'au moins deux mots, dont l'un est un nom et l'autre un nom ou un adjectif. Par exemple, si la transformation utilise l'option « uniquement les noms », elle extrait des termes tels que bicycle et landscape ; si elle utilise l'option « uniquement les expressions nominales », elle extrait des termes tels que new blue bicycle, bicycle helmet et boxed bicycles.

Les articles et les pronoms ne sont pas extraits. Par exemple, la transformation d'extraction de terme extrait le terme bicycle à partir du texte the bicycle, my bicycle et that bicycle.

La transformation d'extraction de terme normalise les mots de sorte que les versions commençant par une majuscule et par une minuscule ne soient pas traitées comme des termes différents. Par exemple, dans le texte You see many bicycles in Seattle et Bicycles are blue, bicycles et Bicycles sont reconnus comme le même terme et la transformation conserve uniquement bicycle. Les noms propres et les mots non répertoriés dans le dictionnaire interne ne sont pas normalisés.

La transformation d'extraction de terme réduit les noms à leur racine afin d'extraire uniquement le singulier d'un nom. Par exemple, la transformation extrait man de men, mouse de mice et bicycle de bicycles. La transformation utilise son dictionnaire pour obtenir la racine des noms. Les gérondifs sont traités comme des noms s'ils sont présents dans le dictionnaire.

La transformation d'extraction de terme ne peut fonctionner qu'avec du texte d'une colonne dont le type de données est DT_WSTR ou DT_NTEXT. Si une colonne contient du texte mais n'a pas l'un de ces types de données, la transformation de conversion de données peut être utilisée pour ajouter une colonne avec le type de données DT_WSTR ou DT_NTEXT au flux de données et copier les valeurs de colonne dans la nouvelle colonne. La sortie de la transformation de conversion de données peut ensuite être utilisée comme entrée de la transformation d'extraction de terme. Pour plus d'informations, consultez Transformation de conversion de données.

La transformation d'extraction de terme génère un score pour chaque terme extrait. Ce score peut être une valeur TFIDF ou la fréquence brute, autrement dit le nombre de fois que le terme normalisé apparaît dans l'entrée. Dans les deux cas, le score est représenté par un nombre réel supérieur à 0. Par exemple, le score TFIDF peut avoir la valeur 0,5 et la fréquence peut être égale à 1,0 ou 2,0.

Éventuellement, la transformation d'extraction de terme peut faire référence à une colonne de table qui contient des termes d'exclusion, à savoir des termes qui doivent être ignorés par la transformation lors de l'extraction de termes à partir d'un dataset. Cela est utile lorsqu'un ensemble de termes a déjà été identifié comme sans importance dans un secteur d'activité ou une industrie particulière, en général parce qu'ils apparaissent à une fréquence tellement élevée qu'ils en deviennent des mots non significatifs. Par exemple, lors de l'extraction de termes à partir d'un dataset qui contient des informations de support clientèle sur une marque de véhicules spécifique, le nom de la marque peut être exclu car il sera mentionné trop fréquemment pour être significatif. Par conséquent, les valeurs de la liste d'exclusion doivent être personnalisées en fonction du dataset avec lequel vous travaillez.

Lorsque vous ajoutez un terme à la liste d'exclusion, tous les termes—mots ou expressions nominales—qui contiennent le terme sont également exclus. Par exemple, si la liste d'exclusion comprend le mot isolé données, tous les termes qui contiennent ce mot, tels que données, exploration de données, intégrité des données et validation des données sont également exclus. Si vous souhaitez exclure uniquement des termes composés qui contiennent le mot données, vous devez les ajouter explicitement à la liste d'exclusion. Par exemple, si vous souhaitez extraire les incidences de données tout en excluant validation des données, vous ajoutez validation des données à la liste d'exclusion et vérifiez que le terme données est supprimé de celle-ci.

La table de référence doit être une table d'une base de données SQL Server 2000, SQL Server 2005 ou Access ou d'une feuille de calcul Excel. La transformation d'extraction de terme utilise une connexion OLE DB distincte pour se connecter à la table de référence. Pour plus d'informations, consultez Gestionnaire de connexions OLE DB.

La transformation d'extraction de terme fonctionne entièrement en mode de mise en cache préalable. Au moment de l'exécution, elle lit les termes d'exclusion à partir de la table de référence et les stocke dans sa mémoire privée avant de traiter des lignes d'entrée de transformation.

Si les termes extraits sont écrits dans une table, ils peuvent être utilisés par d'autres transformations de recherche telles que les transformations de recherche, de recherche de terme et de recherche floue.

La sortie de la transformation d'extraction de terme contient deux colonnes. Une colonne contient les termes extraits, tandis que l'autre contient le score. Les noms par défaut des colonnes sont Term et Score. La colonne de texte de l'entrée pouvant contenir plusieurs termes, la sortie de la transformation d'extraction de terme possède généralement plus de lignes que l'entrée.

La transformation d'extraction de terme utilise des algorithmes et des modèles statistiques internes pour générer ses résultats. Vous devrez peut-être exécuter la transformation d'extraction de terme à plusieurs reprises et examiner les résultats afin de configurer la transformation de sorte qu'elle génère le type de résultats le mieux adapté à votre solution d'exploration de texte.

La transformation d'extraction de terme possède une entrée régulière, une sortie et une sortie d'erreur.

Extraction de termes à partir de texte

Pour extraire des termes à partir de texte, la transformation d'extraction de terme effectue les tâches suivantes.

Création de jetons de texte

Tout d'abord, la transformation d'extraction de terme identifie les mots en exécutant les tâches suivantes :

Séparation du texte en mots à l'aide d'espaces, de sauts de lignes et d'autres terminateurs de langue anglaise. Par exemple, les signes de ponctuation tels que ? et : sont des caractères de séparation de mots.
Préservation des mots connectés par des tirets ou des traits de soulignement. Par exemple, les mots copy-protected et read-only demeurent un mot unique.
Conservation des acronymes incluant des points. Par exemple, A.B.C Company serait divisé en ABC et Company.
Fractionnement des mots avec caractères spéciaux. Par exemple, le mot date/time est extrait comme date et time, (bicycle) comme bicycle et C# est traité comme C. Les caractères spéciaux sont ignorés et ne peuvent pas être lexicalisés.
Reconnaissance des cas dans lesquels certains caractères spéciaux (tels que l'apostrophe) ne doivent pas fractionner les mots. Par exemple, le mot bicycle's n'est pas fractionné en deux mots et génère le terme unique bicycle (nom).
Fractionnement des expressions temporelles, des expressions monétaires, des adresses de messagerie et des adresses postales. Par exemple, la date January 31, 2004 est fractionnée en trois jetons : January, 31 et 2004.

Balisage des mots

Ensuite, la transformation d'extraction de terme effectue un balisage des mots selon l'une des catégories grammaticales suivantes :

Nom au singulier. Par exemple, bicycle et potato.
Nom au pluriel. Par exemple, bicycles et potatoes. Tous les noms au pluriel qui ne sont pas lemmatisés sont soumis à l'extraction de la racine.
Nom propre au singulier. Par exemple, April et Peter.
Nom propre au pluriel. Par exemple, Aprils et Peters. Pour qu'un nom propre soit soumis à l'extraction de la racine, il doit faire partie du lexique interne, qui est limité aux mots anglais standard.
Adjectif. Par exemple, blue.
Adjectif comparatif qui compare deux choses. Par exemple, higher et taller.
Adjectif superlatif qui identifie une chose comme ayant une qualité supérieure ou inférieure au niveau d'au moins deux autres choses. Par exemple, highest et tallest.
Nombre. Par exemple, 62 et 2004.

Les mots qui n'appartiennent pas à ces catégories grammaticales sont ignorés. Par exemple, les verbes et les pronoms sont ignorés.

Remarque :
Le balisage des catégories grammaticales étant basé sur un modèle statistique, il peut ne pas être totalement exact.

Si la transformation d'extraction de terme est configurée de façon à extraire uniquement les noms, seuls les mots balisés comme des noms ou des noms propres au singulier ou au pluriel sont extraits.

Si la transformation d'extraction de terme est configurée de façon à extraire uniquement les expressions nominales, les mots balisés comme noms, noms propres, adjectifs et nombres peuvent être combinés pour composer une expression nominale, mais la phrase doit inclure au moins un mot balisé en tant que nom ou nom propre au singulier ou au pluriel. Par exemple, l'expression nominale highest mountain combine un mot balisé comme adjectif superlatif (highest) et un mot balisé comme nom (mountain).

Si la transformation d'extraction de terme est configurée de façon à extraire à la fois les noms et les expressions nominales, les règles relatives aux noms et aux expressions nominales sont applicables. Par exemple, la transformation extrait bicycle et beautiful blue bicycle à partir du texte many beautiful blue bicycles.

Remarque :
Les termes extraits demeurent sujets au seuil de fréquence et à la longueur de terme maximale utilisés par la transformation.

Extraction des racines de mots

Ensuite, comme le montrent les exemples suivants, la transformation d'extraction de terme réduit les mots à leur forme présente dans le dictionnaire, à l'aide de son dictionnaire interne.

Suppression du s des noms. Par exemple, bicycles devient bicycle.
Suppression du es des noms. Par exemple, stories devient story.
Récupération du singulier des noms irréguliers à partir du dictionnaire. Par exemple, geese devient goose.

Normalisation des mots

La transformation d'extraction de terme normalise les termes qui commencent par une majuscule uniquement à cause de leur position dans la phrase et les remplace par leur forme minuscule. Par exemple, dans les phrases Dogs chase balls et Mountain paths are steep, Dogs et Mountain seraient normalisés en tant que dog et mountain.

Utilisation de la normalisation sensible à la casse

La transformation d'extraction de terme peut être configurée de façon à considérer les mots en majuscules et en minuscules comme des termes distincts ou comme des variantes différentes du même terme.

Si la transformation est configurée de manière à reconnaître des différences de casse, des termes tels que Method et method sont extraits comme deux termes différents. Les mots commençant par une majuscule qui ne sont pas le premier mot d'une phrase ne sont jamais normalisés et sont balisés comme noms propres.
Si la transformation est configurée de manière à ne pas faire de distinction de casse, des termes tels que Method et method sont reconnus comme des variantes d'un même terme. La liste de termes extraits peut inclure Method ou method, selon le terme apparu en premier dans le dataset d'entrée. Si le terme Method commence par une majuscule uniquement car il s'agit du premier mot d'une phrase, il est extrait sous sa forme normalisée.

Limites de mots et de phrases

La transformation d'extraction de terme sépare le texte en phrases en utilisant les caractères suivants comme limites de phrases :

Caractères de sauts de ligne ASCII 0x0d (retour chariot) et 0x0a (saut de ligne). Pour que ce caractère soit utilisé comme limite de phrase, il doit y avoir deux caractères de saut de ligne ou plus sur une ligne.
Traits d'union (–). Pour que ce caractère soit utilisé comme limite de phrase, les caractères situés immédiatement à gauche et à droite du trait d'union ne doivent pas être des lettres.
Caractère de soulignement (_). Pour que ce caractère soit utilisé comme limite de phrase, les caractères situés immédiatement à gauche et à droite du trait d'union ne doivent pas être des lettres.
Tous les caractères Unicode inférieurs ou égaux à 0x19, ou supérieurs ou égaux à 0x7b.
Combinaison de nombres, signes de ponctuation et caractères alphabétiques. Par exemple, A23B#99 renvoie le terme A23B.
Caractères %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “ et ‘.

Remarque :

Les acronymes incluant un ou plusieurs points (.) ne sont pas divisés en plusieurs phrases.

Remarque :
Les acronymes incluant un ou plusieurs points (.) ne sont pas divisés en plusieurs phrases.

La transformation d'extraction de terme fractionne ensuite la phrase en mots à l'aide des limites de mots suivantes :

Espace
Tabulation
ASCII 0x0d (retour chariot)

ASCII 0x0a (saut de ligne)

Remarque :
Si une apostrophe se trouve dans un mot qui constitue une contraction, tel que we're ou it's, le mot est scindé au niveau de l'apostrophe ; autrement, les lettres qui suivent l'apostrophe sont supprimées. Par exemple, we're est divisé en we et 're, tandis que bicycle's devient bicycle.

Configuration de la transformation d'extraction de terme

Vous pouvez définir les propriétés par le biais du concepteur SSIS ou par programme.

Pour plus d'informations sur les propriétés que vous pouvez définir dans la boîte de dialogue Éditeur de transformation d'extraction de terme, cliquez sur l'une des rubriques suivantes :

Pour plus d'informations sur les propriétés que vous pouvez définir dans la boîte de dialogue Éditeur avancé ou par programme, cliquez sur l'une des rubriques suivantes :

Pour plus d'informations sur la façon de définir des propriétés, cliquez sur l'une des rubriques suivantes :

Voir aussi

Concepts

Transformation de recherche de terme
Transformation de recherche floue
Transformation de recherche
Création du flux de données d'un package
Transformations Integration Services

Aide et Informations

Assistance sur SQL Server 2005