Structures d'exploration de données (Analysis Services – exploration de données)

La structure d'exploration de données définit les données à partir desquelles les modèles d'exploration de données sont construits : elle spécifie la vue de source de données, le nombre et le type de colonnes, ainsi qu'une partition facultative en jeux d'apprentissage et en jeux de test. Une structure d'exploration de données individuelle peut prendre en charge plusieurs modèles d'exploration de données qui partagent le même domaine. Le diagramme suivant illustre la relation de la structure d'exploration de données par rapport à la source de données et à ses modèles d'exploration de données constitutifs.

Traitement des données : source à structure à modèle

La structure d'exploration de données dans le diagramme repose sur une source de données qui contient plusieurs tables ou vues, jointes dans le champ CustomerID. Une table contient des informations sur les clients, telles que la région géographique, l’âge, le revenu et le genre, alors que la table imbriquée connexe contient plusieurs lignes d'informations supplémentaires sur chaque client, telles que les produits achetés par le client. Le diagramme montre que plusieurs modèles peuvent être construits sur une même structure d'exploration de données, et que ces modèles peuvent utiliser des colonnes différentes de la structure.

Modèle 1    Utilise CustomerID, Income, Age, Region, et filtre les données sur Region.

Modèle 2     Utilise CustomerID, Income, Age, Region, et filtre les données sur Age.

Modèle 3    Utilise CustomerID, Age, Gender et la table imbriquée, sans filtre.

Comme les modèles utilisent des colonnes différentes pour l'entrée et comme deux des modèles limitent également les données utilisées dans le modèle en appliquant un filtre, les modèles peuvent avoir des résultats très différents bien qu'ils soient basés sur les mêmes données. Notez que la colonne CustomerID est requise dans tous les modèles parce que c'est la seule colonne disponible qui peut être utilisée comme clé de cas.

Cette section explique l'architecture de base des structures d'exploration de données. Pour plus d'informations sur la façon de créer, gérer, modifier ou afficher des structures d'exploration de données, consultez Gestion des structures et modèles d'exploration de données.

Définition de structures d'exploration de données

La configuration d'une structure d'exploration de données inclut les étapes suivantes :

  • définition d'une source de données ;

  • sélection des colonnes de la structure et définition d'une clé ;

  • partitionnement des données sources dans un jeu d'apprentissage et un jeu de test facultatif ;

  • traitement de la structure.

Sources de données des structures d'exploration de données

Lorsque vous définissez une structure d'exploration de données, vous utilisez des colonnes qui sont disponibles dans une vue de source de données existante. Une vue de source de données vous permet d'associer plusieurs sources de données et de les utiliser comme une source unique dans la structure ou le modèle d'exploration de données créés. Les sources de données d'origine ne sont pas visibles pour les applications clientes.

Pour plus d'informations sur les vues des sources de données, consultez Vues de source de données (Analysis Services - Données multidimensionnelles).

Si vous construisez plusieurs modèles d'exploration de données à partir de la même structure d'exploration de données, les modèles peuvent utiliser des colonnes différentes de la structure et les utiliser de différentes façons. Par exemple, vous pouvez créer une structure unique, puis construire à partir d'elle des modèles d'arbre de décision et de clustering distincts, chaque modèle utilisant des colonnes différentes et prévoyant des attributs différents.

La structure d'exploration de données stocke uniquement les liaisons aux données de source. Vous pouvez également créer une structure d'exploration de données sans la lier à une source de données spécifique en utilisant l'instruction DMX CREATE MINING STRUCTURE (DMX).

Colonnes de structure d'exploration de données

Les blocs de construction de la structure d'exploration de données sont les colonnes de structure d'exploration de données qui décrivent les données que contient la source de données. Ces colonnes contiennent des informations dont le type de données, le type de contenu et le mode de distribution des données. La structure d'exploration de données ne contient pas d'informations sur la façon dont les colonnes sont utilisées pour un modèle d'exploration de données spécifique, ni sur le type d'algorithme utilisé pour générer un modèle ; ces informations sont définies dans le modèle d'exploration de données lui-même.

Une structure d'exploration de données peut également contenir des tables imbriquées. Une table imbriquée représente une relation un-à-plusieurs entre l'entité d'un cas et les attributs qui lui sont associés. Par exemple, si les informations décrivant le client se trouvent dans une table et que les achats du client se trouvent dans une autre table, vous pouvez utiliser des tables imbriquées pour combiner les informations dans un seul cas. L'identificateur du client est alors l'entité tandis que les achats sont les attributs associés. Pour plus d'informations sur les circonstances dans lesquelles il convient d'utiliser des tables imbriquées, consultez Tables imbriquées (Analysis Services - Exploration de données).

Pour créer un modèle d'exploration de données dans Business Intelligence Development Studio, vous devez créer au préalable une structure d'exploration de données. L'Assistant Exploration de données vous guide tout au long du processus de création d’une structure d'exploration de données, de choix des données et d’ajout d’un modèle d’exploration de données.

Si vous créez un modèle d’exploration de données avec les extensions DMX (Data Mining Extensions), vous pouvez spécifier le modèle et les colonnes qu’il contient pour que DMX crée automatiquement la structure d’exploration de données requise. Pour plus d'informations, consultez CREATE MINING MODEL (DMX).

Pour plus d'informations, consultez Colonnes de structure d'exploration de données.

Données d'apprentissage et de test

Lorsque vous définissez les données d'une structure d'exploration de données, vous pouvez également spécifier que certaines données soient utilisées pour l'apprentissage et d'autres pour les tests. Par conséquent, il n'est plus nécessaire de partitionner vos données avant de créer une structure d'exploration de données. Vous pouvez spécifier qu'un certain pourcentage des données soit réservé pour les tests et le reste utilisé pour l'apprentissage, ou vous pouvez spécifier un certain nombre de cas à utiliser comme jeu de données de test. Les informations de partition sont mises en cache avec la structure d'exploration de données ; par conséquent, le même jeu de test peut être utilisé avec tous les modèles qui sont basés sur cette structure.

Pour plus d'informations, consultez Partitionnement des données en jeux d'apprentissage et jeux de test (Analysis Services – Exploration de données).

Activation de l'extraction

Vous pouvez ajouter des colonnes à la structure d'exploration de données même si vous n'envisagez pas d'utiliser la colonne dans un modèle d'exploration de données spécifique. Si vous ne spécifiez pas d'utilisation pour la colonne, celle-ci est ignorée pour l'analyse et la prédiction. Toutefois, elle peut encore être utilisée dans les requêtes avec l'activation de l'extraction sur le modèle d'exploration de données. Par exemple, si vous possédez les autorisations appropriées, vous pouvez extraire des données à partir d'un résultat donné dans un modèle d'exploration de données pour récupérer des informations détaillées sur les cas du nœud et même accéder aux colonnes de structure qui n'étaient pas utilisées dans le modèle.

Pour plus d'informations, consultez Utilisation de l'extraction sur les modèles et les structures d'exploration de données (Analysis Services - Exploration de données).

Traitement des structures d'exploration de données

Une structure d'exploration de données est un simple conteneur de métadonnées tant qu'elle n'est pas traitée. Lorsque vous traitez une structure d'exploration de données, Analysis Services crée un cache qui stocke des statistiques sur les données, ainsi que des informations sur la manière dont les attributs continus sont discrétisés et toute autre information qui sera utilisée ultérieurement par les modèles d’exploration de données. Le modèle d'exploration de données ne stocke pas de données, mais répertorie les informations du cache. Par conséquent, lorsque vous traitez un modèle d’exploration de données, le cache de la structure doit être disponible. Si ce n’est pas le cas, la structure doit être retraitée avant que le modèle puisse être construit.

Si vous ne voulez pas mettre ces données en cache, vous pouvez modifier la propriété CacheMode de la structure d’exploration de données en ClearAfterProcessing. Cela détruira le cache lorsque tous les modèles auront été traités. La définition de la propriété CacheMode sur ClearAfterProcessing désactivera l’extraction dans le modèle d’exploration de données.

Tant que les données mises en cache sont disponibles, la structure d'exploration de données n'a pas besoin d'être traitée de nouveau lors de l’ajout d’un nouveau modèle d'exploration de données dans la structure ; vous pouvez traiter le modèle uniquement. Pour plus d'informations, consultez Traitement des objets d'exploration de données.

Affichage des structures d'exploration de données

Vous ne pouvez pas utiliser de visionneuses pour parcourir les données dans une structure d'exploration de données. Toutefois, dans Business Intelligence Development Studio, vous pouvez utiliser l'onglet Structure d'exploration de données du Concepteur de modèle d'exploration de données pour afficher les colonnes de structure et leurs définitions. Pour plus d'informations, consultez Concepteur d'exploration de données.

Si vous souhaitez consulter les données de la structure d'exploration de données, vous pouvez créer des requêtes à l'aide des extensions DMX. Par exemple, l'instruction SELECT * FROM <structure>.CASES renvoie toutes les données incluses dans la structure d'exploration de données. Pour extraire ces informations, la structure d'exploration de données doit avoir été traitée, et les résultats du traitement doivent être mis en cache.

L'instruction SELECT * FROM <model>.CASES renvoie les mêmes colonnes, mais uniquement pour les cas inclus dans le modèle en question. Pour plus d'informations, consultez SELECT FROM <structure>.CASES et SELECT FROM <modèle>.CASES (DMX).

Utilisation des modèles d'exploration de données avec les structures d'exploration de données

Un modèle d'exploration de données applique un algorithme de modèle d'exploration de données aux données qui sont représentées par une structure d'exploration de données. Un modèle d'exploration de données est un objet appartenant à une certaine structure d'exploration de données, et il hérite de toutes les valeurs des propriétés définies par la structure d'exploration de données. Le modèle peut utiliser toutes les colonnes que contient la structure d'exploration de données ou seulement un sous-ensemble de ces colonnes. Vous pouvez ajouter plusieurs copies d'une colonne de structure à une structure. Vous pouvez également ajouter plusieurs copies d'une colonne de structure à un modèle, puis assigner des noms différents, ou alias, à chaque colonne de structure dans le modèle. Pour plus d'informations sur l'utilisation d'alias dans les colonnes de structure, consultez Procédure : créer un alias pour une colonne du modèle et Définition des propriétés sur un modèle d'exploration de données.

Pour plus d'informations sur l'architecture des modèles d'exploration de données, consultez Modèles d'exploration de données (Analysis Services - Exploration de données).