Types de contenu (Exploration de données)

Dans Microsoft SQL Server Analysis Services, définissez à la fois le type de données physique d'une colonne dans une structure d'exploration de données et un type de contenu logique qui spécifie la façon dont la colonne est utilisée dans un modèle.

  • Le type de données détermine la façon dont les algorithmes traitent les données dans ces colonnes lorsque vous créez des modèles d'exploration de données. La définition du type de données d'une colonne donne les informations d'algorithme relatives au type de données des colonnes, ainsi que la façon de traiter les données. Chaque type de données dans Analysis Services prend en charge un ou plusieurs types de contenu pour l'exploration de données.

  • Le type de contenu décrit le comportement des valeurs que contient la colonne. Par exemple, si les valeurs de données d'une colonne sont susceptibles de se répéter selon un intervalle de temps spécifique, tel que les jours de la semaine, définissez le type de contenu de cette colonne comme étant cyclique.

Certains algorithmes nécessitent des types de données et/ou des types de contenu spécifiques pour pouvoir fonctionner correctement. Par exemple, l'algorithme MNB (Microsoft Naive Bayes) ne peut pas utiliser de colonnes continues en tant qu'entrée, ni prédire de valeurs continues. Par conséquent, ces colonnes doivent être exclues du modèle ou discrétisées. Certains types de contenu, tels que la Key Sequence, sont utilisés uniquement par un algorithme spécifique. Pour une liste des algorithmes et des types de contenu dont la prise en charge est compatible, consultez Algorithmes d'exploration de données (Analysis Services - Exploration de données).

La liste suivante décrit les types de contenu utilisés dans l'exploration de données et répertorie les types de données qui prennent en charge chacun de ces types.

Discret

Le terme Discret signifie que la colonne contient un nombre fini de valeurs sans spectre entre les valeurs. Une colonne Sexe (homme/femme) est un exemple classique de colonne d'attributs discrète, en ce sens que les données représentent un nombre spécifique de catégories. Si la colonne contient du texte, la valeur discrete est affectée automatiquement au type. Cependant, si la colonne contient des valeurs discrètes portant des étiquettes numériques (par exemple, dans une colonne Sexe, Homme peut avoir la valeur 0 et Femme la valeur 1) vous devrez peut-être remplacer le type de contenu continu par discret.

Même si les valeurs utilisées pour la colonne discrète sont numériques, le calcul de valeurs fractionnaires est impossible. Les indicatifs téléphoniques sont un bon exemple de données discrètes numériques, mais qui ne doivent pas être utilisées pour les calculs. De plus, les valeurs dans une colonne d'attributs discrète ne peuvent pas impliquer un classement, même si les valeurs sont numériques.

Le type de contenu Discrete peut être appliqué aux colonnes de tous les types de données d'exploration de données.

Continu

Le terme continu signifie que la colonne contient des valeurs qui représentent des données numériques sur une échelle qui autorise des valeurs temporaires. À la différence d'une colonne discrète, qui représente des données finies et dénombrables, une colonne continue représente des mesures évolutives et les données peuvent contenir un nombre infini de valeurs fractionnaires. Une colonne de températures est un exemple de colonne d'attributs continue.

Lorsqu'une colonne contient les données numériques continues, et que vous savez comment les données doivent être distribuées, vous pouvez potentiellement améliorer l'exactitude de l'analyse en spécifiant la distribution attendue des valeurs. Vous spécifiez la distribution des colonnes au niveau de la structure d'exploration de données. Par conséquent, le paramètre s'applique à tous les modèles basés sur la structure. Pour plus d'informations, consultez Distributions de colonnes (exploration de données).

Le type de contenu Continuous peut être appliqué aux colonnes des types de données suivants : Date, Double et Long.

Discrétisé

La discrétisation est le processus consistant à mettre les valeurs d'un jeu continu de données dans des compartiments afin d'obtenir un nombre limité de valeurs possibles. Seules des données numériques peuvent être discrétisées.

Par conséquent, le type de données discrétisé (Discretized) indique que la colonne contient des valeurs qui représentent des groupes, ou compartiments, de valeurs dérivés d'une colonne continue. Les compartiments sont traités comme des valeurs discrètes et ordonnées.

Vous pouvez discrétiser vos données manuellement pour vérifier que vous obtenez bien les compartiments désirés, ou vous pouvez utiliser les méthodes de discrétisation fournies dans SQL Server Analysis Services. Certains algorithmes effectuent automatiquement la discrétisation. Pour plus d'informations, consultez Modifier la discrétisation d'une colonne dans un modèle d'exploration de données.

Le type de contenu Discretized peut être appliqué aux colonnes des types de données suivants : Date, Double, Long et Text.

Key

Le type de contenu clé (Key) signifie que la colonne identifie de façon unique une ligne. Dans une table de cas, la colonne clé est généralement un identificateur numérique ou texte. Lorsque vous attribuez la valeur key au type de contenu, vous indiquez que la colonne doit uniquement servir au suivi des enregistrements, et non à des fins d'analyse.

Les tables imbriquées ont également des clés, mais l'utilisation de la clé de table imbriquée diffère quelque peu. Vous attribuez la valeur key au type de contenu dans une table imbriquée si la colonne est l'attribut à analyser. Les valeurs dans la clé de table imbriquée doivent être uniques pour chaque cas, mais il peut y avoir des doublons sur tout le jeu de cas.

Par exemple, si vous analysez les produits qu'achètent les clients, vous attribuez la valeur key au type de contenu de la colonne CustomerID dans la table de cas et de la colonne PurchasedProducts dans la table imbriquée.

[!REMARQUE]

Les tables imbriquées sont uniquement disponibles si vous utilisez les données d'une source de données externe ayant été définie comme une vue de source de données Analysis Services.

Ce type de contenu est pris en charge par les types de données suivants : Date, Double, Long et Text.

Séquence clé

Le type de contenu séquence clé (key sequence) ne peut être utilisé que dans des modèles Sequence Clustering. En attribuant la valeur key sequence au type de contenu, vous indiquez que la colonne contient des valeurs qui représentent une séquence d'événements. Les valeurs sont ordonnées, mais elles n'ont pas besoin d'être séparées par une distance égale.

Ce type de contenu est pris en charge par les types de données suivants : Double, Long, Text et Date.

Temps clé

Le type de contenu temps clé (key time) ne peut être utilisé que dans les modèles de série chronologique. En attribuant la valeur key time au type de contenu, vous indiquez que les valeurs sont ordonnées et qu'elles représentent une échelle de temps.

Ce type de contenu peut être appliqué aux colonnes des types de données suivants : Long, Date et Date.

Table

Le type de contenu table indique que la colonne contient une autre table de données, comprenant une ou plusieurs colonnes et une ou plusieurs lignes. Pour toute ligne particulière de la table de cas, cette colonne peut contenir plusieurs valeurs qui sont toutes associées à l'enregistrement de cas parent. Par exemple, si la table de cas principale contient une liste de clients, vous pouvez avoir plusieurs colonnes qui contiennent des tables imbriquées, telles qu'une colonne ProductsPurchased dans laquelle la table imbriquée répertorie les produits précédemment achetés par ce client, et une colonne Hobbies qui répertorie les centres d'intérêt du client.

Le type de données de cette colonne est toujours Table.

Cyclique

Le type de contenu cyclique (cyclical) signifie que la colonne contient des valeurs qui représentent un jeu ordonné cyclique. Par exemple, les jours numérotés de la semaine constituent un jeu ordonné cyclique car le jour numéro un suit le jour numéro sept.

Les colonnes cycliques sont considérées comme ordonnées et discrètes en termes de type de contenu.

Ce type de contenu peut être appliqué aux colonnes de tous les types de données dans Analysis Services à l'exception de table et Boolean. Toutefois, la plupart des algorithmes considèrent les valeurs cycliques comme des valeurs discrètes et n'effectuent pas de traitement spécial.

Ordonné

Le type de contenu ordonné (Ordered) indique également que la colonne contient des valeurs définissant une séquence ou un ordre. Toutefois, dans ce type de contenu, les valeurs utilisées pour le classement n'impliquent aucune relation de distance ou de grandeur entre les valeurs du jeu. Par exemple, si une colonne d'attributs ordonnée contient des informations sur des niveaux de compétence classés de un à cinq, ceci n'implique pas une relation de distance entre les niveaux de compétence ; un niveau de compétence de valeur cinq n'est pas forcément cinq fois meilleur qu'un niveau de compétence de valeur un.

Les colonnes d'attributs ordonnées sont considérées comme contenant des valeurs discrètes.

Ce type de contenu peut être appliqué à tous les types d'exploration de données dans Analysis Services. Toutefois, la plupart des algorithmes considèrent les valeurs ordonnées comme des valeurs discrètes et n'effectuent pas de traitement spécial.

Classifié

En plus des types de contenu susmentionnés qui sont couramment utilisés avec tous les modèles, vous pouvez utiliser des colonnes classifiées pour définir les types de contenu de certains types de données. Pour plus d'informations sur les colonnes classifiées, consultez Colonnes classifiées (exploration de données).

Voir aussi

Tâches

Modifier les propriétés d'une structure d'exploration de données

Référence

Types de contenu (DMX)

Types de données (DMX)

Concepts

Types de données (Exploration de données)

Colonnes de structure d'exploration de données