Assistant Exploration de données (Analysis Services - Exploration de données)

L'Assistant Exploration de données inclus dans Microsoft SQL Server Analysis Services démarre chaque fois que vous ajoutez une nouvelle structure d'exploration de données à un projet d'exploration de données. Il vous permet de définir de nouvelles structures d'exploration de données et choisit les sources de données que vous utiliserez pour l'exploration de données. Il peut également partitionner les données de la structure d'exploration de données en jeux d'apprentissage et de test, et vous permet d'ajouter un modèle d'exploration de données initial pour chaque structure.

Le contenu d'une structure d'exploration de données est dérivé d'une vue de source de données ou d'un cube existant. Vous pouvez choisir les colonnes à inclure dans la structure d'exploration de données. Tous les modèles basés sur cette structure peuvent utiliser ces colonnes. Vous pouvez permettre aux utilisateurs d'un modèle d'exploration de données d'explorer ses résultats pour afficher des colonnes supplémentaires de la structure d'exploration de données qui n'étaient pas incluses dans le modèle d'exploration de données lui-même.

Lorsque vous créez une structure et un modèle d'exploration de données à l'aide de l'Assistant Exploration de données, vous devez prendre les décisions suivantes :

  • Vous devez indiquer si la structure et les modèles d'exploration de données doivent être générés à partir d'une base de données relationnelle ou à partir d'un cube existant d'une base de données OLAP.

  • Vous devez indiquer le volume de données à utiliser pour l'apprentissage et le volume à réserver pour le test. Lorsque vous partitionnez une structure d'exploration de données en jeux de données d'apprentissage et de test, tous les modèles basés sur cette structure peuvent utiliser le jeu de test en question.

  • Vous devez indiquer les colonnes ou attributs à utiliser pour la prédiction et les colonnes ou attributs à utiliser comme entrée pour l'analyse. Chaque structure doit également contenir une clé qui identifie de façon unique un enregistrement de cas.

  • Vous devez spécifier l'algorithme à utiliser. Les algorithmes fournis dans SQL Server Analysis Services ont des caractéristiques différentes et produisent des résultats différents. Vous pouvez créer plusieurs modèles en utilisant différents algorithmes, ou bien modifier les paramètres des algorithmes pour créer différents modèles. .

L'Assistant Exploration de données fournit des fonctionnalités pour vous aider à prendre ces décisions :

  • pages de l'Assistant dans lesquelles vous définissez l'ensemble de cas. Vous pouvez choisir des tables de cas et des tables imbriquées à partir d'une source de données relationnelle, ou bien choisir une source de données OLAP, sélectionner la clé de cas et les colonnes de niveau de cas, puis définir éventuellement des filtres sur le cube ;

  • boîtes de dialogue qui analysent les données des colonnes et recommandent une utilisation pour les colonnes ;

  • détection automatique des types de contenus et de données des colonnes ;

  • découpage automatique du cube, si votre modèle d'exploration de données est basé sur une source de données OLAP.

Lorsque vous avez terminé toutes les étapes de l'Assistant Exploration de données, vous utilisez le Concepteur d'exploration de données pour modifier la structure et les modèles d'exploration de données, voir la précision du modèle, afficher les caractéristiques de la structure et des modèles ou effectuer des prédictions à l'aide des modèles.

Pour plus d'informations :Concepteur d'exploration de données

Utilisation de l'Assistant Exploration de données

Pour démarrer l'Assistant Exploration de données, ajoutez une nouvelle structure d'exploration de données dans un projet Analysis Services en utilisant l'Explorateur de solutions ou le menu Projet dans Business Intelligence Development Studio.

L'Assistant Exploration de données a deux branches, selon que votre source de données est relationnelle ou dans un cube :

  • Modèles d'exploration de données relationnels

  • Modèles d'exploration de données OLAP

Notes

Vous n'avez pas besoin d'avoir un cube ou une base de données OLAP pour effectuer l'exploration de données. Sauf si vos données sont déjà stockées dans un cube, ou si vous voulez explorer des dimensions OLAP ou les résultats de calculs ou d'agrégations OLAP, nous vous recommandons d'utiliser une table relationnelle ou une source de données pour l'exploration de données.

Modèles d'exploration de données relationnels

Lorsque vous créez un modèle d'exploration de données à partir d'une source de données relationnelles dans Analysis Services, vous commencez par spécifier dans l'Assistant Exploration de données que vous voulez utiliser une base de données relationnelle existante pour définir la structure du modèle. Vous avez également la possibilité de créer la structure d'exploration de données seulement ou de créer la structure et un modèle d'exploration de données associé. Si vous choisissez de créer un modèle d'exploration de données, vous devez spécifier la technique d'exploration de données à utiliser, en sélectionnant l'algorithme le plus approprié au type d'analyse d'exploration de données que vous voulez.

Pour plus d'informations :Algorithmes d'exploration de données (Analysis Services – exploration de données)

Spécification des types de vues de source de données et de tables

Les étapes suivantes de l'Assistant consistent à sélectionner la vue de source de données spécifique à utiliser pour définir la structure d'exploration de données et pour spécifier une table de cas. La table de cas sera utilisée pour l'apprentissage du modèle d'exploration de données et éventuellement aussi pour le test. Vous pouvez également spécifier une table imbriquée.

La sélection de la table de cas est une décision importante. La table de cas doit contenir les entités que vous voulez analyser, par exemple les clients et leurs données démographiques. La table imbriquée contient généralement des informations supplémentaires sur les entités de la table de cas, telles que les transactions effectuées par le client ou les attributs ayant une relation plusieurs-à-un avec l'entité. Par exemple, une table imbriquée jointe à la table de cas Customers peut inclure une liste de produits que chaque client a achetés ou une liste de passe-temps. Pour plus d'informations :Tables imbriquées (Analysis Services - Exploration de données)

Spécification de l'utilisation des colonnes

Une fois que vous avez spécifié la table de cas et les tables imbriquées, vous devez déterminer le type d'utilisation de chaque colonne dans les tables à inclure dans la structure d'exploration de données. Si vous ne spécifiez pas de type d'utilisation pour une colonne, celle-ci ne sera pas incluse dans la structure d'exploration de données.

Les colonnes d'exploration de données peuvent être de quatre types : Key, Input, Predictable ou une combinaison d'input et de predictable. Les colonnes clés contiennent un identificateur unique pour chaque ligne d'une table. Certains modèles d'exploration de données, tels que ceux basés sur les algorithmes MSC (Microsoft Sequence Clustering) ou MTS (Microsoft Time Series), peuvent contenir plusieurs colonnes de clés. Toutefois, ces multiples clés ne sont pas des clés composées au sens relationnel ; elles doivent être sélectionnées pour prendre en charge l'analyse de série chronologique et Sequence Clustering. Pour plus d'informations, consultez Algorithme MTS (Microsoft Time Series) ou Algorithme MSC (Microsoft Sequence Clustering).

Les colonnes d'entrée fournissent les informations à partir desquelles les prévisions sont effectuées. Les colonnes prédictibles contiennent les informations que vous tentez de prévoir dans le modèle d'exploration de données.

Par exemple, une série de tables peuvent contenir les ID des clients, des informations démographiques et la somme d'argent que chaque client dépense dans un magasin spécifique. L'ID de client identifie de manière unique le client et lie également la table de cas aux tables imbriquées ; par conséquent, vous pouvez utiliser cet ID de client comme colonne de clé. Vous pouvez utiliser des colonnes sélectionnées à partir des informations démographiques comme colonnes d'entrée et la colonne qui indique la somme d'argent dépensée par chaque client comme colonne prédictible. Vous pouvez alors générer un modèle d'exploration de données qui relie les données démographiques à la somme d'argent dépensée par un client dans un magasin. Vous pouvez utiliser ce modèle comme base pour un marketing ciblé.

L'Assistant Exploration de données fournit la fonctionnalité Suggérer, qui est activée lorsque vous sélectionnez une colonne prédictible. Les datasets contiennent souvent plus de colonnes que nécessaire pour générer un modèle d'exploration de données. La fonctionnalité Suggérer calcule un score compris entre 0 et 1, qui décrit la relation entre chaque colonne du jeu de données et la colonne prédictible. En fonction de ce score, la fonctionnalité suggère les colonnes à utiliser comme entrée pour le modèle d'exploration de données. Si vous utilisez la fonctionnalité Suggérer, vous pouvez utiliser les colonnes suggérées, modifier les choix pour les adapter à vos besoins ou ignorer les suggestions.

Spécification des types de contenus et de données

Une fois que vous avez sélectionné une ou plusieurs colonnes prédictibles et colonnes d'entrée, vous pouvez spécifier les types de contenu et de données pour chaque colonne.

Pour plus d'informations :Types de données (Exploration de données), Types de contenu (Exploration de données)

Fractionner les données en jeux d'apprentissage et jeux de test

La dernière étape de l'Assistant consiste à partitionner vos données en jeux d'apprentissage et de test. La possibilité d'exclure une partie des données pour le test est une nouveauté de SQL Server 2008 et fournit un mécanisme facile à utiliser pour garantir qu'un jeu cohérent de données de test est disponible pour une utilisation avec tous les modèles d'exploration de données associés à la nouvelle structure d'exploration de données.

Vous pouvez spécifier qu'un certain pourcentage de données doit servir au test, tout le reste devant être utilisé pour l'apprentissage. Vous pouvez également spécifier le nombre de cas à utiliser pour le test. La définition de la partition est stockée avec la structure d'exploration de données, de sorte que lorsque vous créez un nouveau modèle basé sur la structure, le jeu de données de test est disponible pour évaluer la précision du modèle.

Pour plus d'informations :Validation des modèles d'exploration de données (Analysis Services - Exploration de données), Partitionnement des données en jeux d'apprentissage et jeux de test (Analysis Services – Exploration de données)

Fin de l'Assistant

La dernière étape de l'Assistant consiste à nommer la structure d'exploration de données et le modèle d'exploration de données associé. Si vous sélectionnez Accepter l'extraction, la fonctionnalité d'extraction est activée dans le modèle. Cela permet aux utilisateurs qui disposent des autorisations appropriées d'explorer les données sources utilisées pour générer le modèle.

Pour plus d'informations :Utilisation de l'extraction sur les modèles et les structures d'exploration de données (Analysis Services - Exploration de données)

Retour en haut

Modèles d'exploration de données OLAP

Lorsque vous générez un modèle d'exploration de données multidimensionnel à partir d'une source de données OLAP dans Analysis Services, vous commencez par spécifier dans l'Assistant Exploration de données que vous voulez utiliser un cube existant pour définir la structure du modèle. Vous avez la possibilité de créer la structure d'exploration de données seulement ou de créer la structure plus un modèle d'exploration de données associé. Si vous choisissez de créer un modèle d'exploration de données, vous devez spécifier la technique d'exploration de données à utiliser, en sélectionnant l'algorithme le plus approprié à votre problème professionnel.

Pour plus d'informations :Algorithmes d'exploration de données (Analysis Services – exploration de données)

Spécification de la source de données et de la clé de cas

Ensuite, vous sélectionnez la dimension de cube à utiliser comme source de données pour définir la structure d'exploration de données. Vous sélectionnez alors un attribut à utiliser comme clé, ou clé de cas, du modèle d'exploration de données.

Notes

Le modèle d'exploration de données OLAP que vous générez et le cube source que vous utilisez pour créer le modèle doivent figurer dans la même base de données Analysis Services.

Spécification des colonnes de niveau de cas et de l'utilisation des colonnes

Une fois que vous avez sélectionné une clé de cas, les attributs et les mesures associés à cette clé sont affichés dans une arborescence à la page suivante de l'Assistant. Dans cette liste, vous sélectionnez les attributs et les mesures à utiliser comme colonnes de la structure. Ces colonnes sont appelées colonnes de niveau de cas. Comme dans le cas d'un modèle relationnel, vous devez également spécifier la manière dont chaque colonne doit être utilisée dans la structure, ce que vous pouvez faire à la page suivante de l'Assistant. Les colonnes peuvent être des colonnes clé, d'entrée, prédictibles, d'entrée et prédictibles, ou non sélectionnées.

Ajout de tables imbriquées

La partie OLAP de l'Assistant Exploration de données inclut une option permettant d'ajouter des tables imbriquées dans la structure du modèle d'exploration de données. À la page Spécifier l'utilisation des colonnes du modèle d'exploration de données de l'Assistant, cliquez sur Ajouter des tables imbriquées pour afficher une boîte de dialogue distincte qui vous guidera dans la procédure permettant d'ajouter des tables imbriquées. Seuls les groupes de mesures qui s'appliquent à la dimension sont affichés. Sélectionnez un groupe de mesures qui contient la clé étrangère de la dimension de cas. Ensuite, spécifiez l'utilisation de chaque colonne du groupe de mesures, colonne d'entrée ou colonne prédictible. L'Assistant ajoute alors la table imbriquée à la table de cas. Le nom par défaut de la table imbriquée correspond au nom de la dimension imbriquée, mais vous pouvez renommer la table imbriquée et ses colonnes. Pour plus d'informations :Tables imbriquées (Analysis Services - Exploration de données)

Spécification des types de contenus et de données

Une fois que vous avez sélectionné une ou plusieurs colonnes prédictibles et colonnes d'entrée, vous pouvez spécifier les types de contenu et de données pour chaque colonne.

Pour plus d'informations :Types de données (Exploration de données), Types de contenu (Exploration de données)

Découpage en tranches du cube source

Dans la partie OLAP de l'Assistant, vous pouvez limiter la portée de votre modèle d'exploration de données en découpant en tranches le cube source avant d'effectuer l'apprentissage du modèle d'exploration de données. Le découpage du cube est similaire à l'ajout d'une clause WHERE dans une instruction SQL. Par exemple, si un cube contient des informations sur l'achat de produits, vous pouvez limiter un attribut d'âge à plus de 30, une colonne de genre à féminin uniquement et une date d'achat à après mars 2000. De cette manière, vous pouvez limiter le modèle à une femme de plus de 30 ans qui a acheté un produit après mars 2000.

Fractionner les données en jeux d'apprentissage et jeux de test

La dernière étape de l'Assistant consiste à partitionner les données disponibles dans le cube en jeux d'apprentissage et de test. La définition de la partition est stockée avec la structure d'exploration de données, de sorte que lorsque vous créez un nouveau modèle basé sur la structure, le jeu de données de test est disponible pour évaluer la précision du modèle.

Pour plus d'informations :Validation des modèles d'exploration de données (Analysis Services - Exploration de données), Partitionnement des données en jeux d'apprentissage et jeux de test (Analysis Services – Exploration de données)

Fin de l'Assistant

La dernière étape de l'Assistant consiste à nommer la structure d'exploration de données et le modèle d'exploration de données associé. Si vous sélectionnez Accepter l'extraction, la fonctionnalité d'extraction est activée dans le modèle. Cela permet aux utilisateurs qui disposent des autorisations appropriées d'explorer les données sources utilisées pour générer le modèle. Vous pouvez aussi spécifier si vous voulez ajouter une nouvelle dimension au cube source se basant sur le modèle d'exploration de données ou créer un nouveau cube à partir du modèle d'exploration de données.

Pour plus d'informations :Utilisation de l'extraction sur les modèles et les structures d'exploration de données (Analysis Services - Exploration de données)

Retour en haut