Assistant Exploration de données (Analysis Services - Exploration de données)

Article
07/30/2013

L'Assistant Exploration de données inclus dans Microsoft SQL Server Analysis Services démarre chaque fois que vous ajoutez une nouvelle structure d'exploration de données à un projet d'exploration de données. L'Assistant vous permet de choisir une source de données et de configurer une vue de source de données qui définit les données à utiliser pour l'analyse, puis vous aide à créer un modèle.

Pendant la dernière phase de l'Assistant, vous pouvez éventuellement diviser vos données en jeux d'apprentissage et de test, et activer certaines fonctionnalités telles que l'extraction.

Démarrage de l'Assistant Exploration de données

Pour utiliser l'Assistant Exploration de données, vous devez avoir ouvert une solution dans Outils de données SQL Server (SSDT) qui contient au moins un exploration de données ou un projet OLAP.

Si votre solution est prête pour l'exploration de données, vous pouvez simplement cliquer avec le bouton droit sur le nœud Structures d'exploration de données dans l'Explorateur du solutions, puis sélectionner Nouvelle structure d'exploration de données pour démarrer l'Assistant.
Si votre solution ne contient aucun projet existant, vous pouvez ajouter un nouveau projet d'exploration de données. Dans le menu Fichier, sélectionnez Nouveau, puis Projet. Veillez à sélectionner le modèle Analysis Services Multidimensional and Data Mining Project.
Vous pouvez également utiliser l'Assistant Importation d'Analysis Services pour obtenir des métadonnées d'une solution d'exploration de données existante. Toutefois, vous ne pouvez pas sélectionner les différents objets à importer ; l'ensemble de la base de données est importé, y compris tout cube, toute vue de source de données, etc. Notez également que la nouvelle solution créée par l'intermédiaire de l'importation est automatiquement configurée pour utiliser la base de données par défaut locale. Vous devrez peut-être la remplacer par une autre instance avant de pouvoir traiter ou parcourir les objets, et si vous effectuez l'importation à partir d'une version antérieure d'Analysis Services, vous devrez peut-être mettre à jour les références aux fournisseurs.

Vous allez ensuite créer la structure d'exploration de données et un modèle d'exploration de données associé. Vous pouvez également créer uniquement la structure d'exploration de données et ajouter des modèles ultérieurement, mais le plus simple est généralement de créer un modèle de test en premier.

Modèles d'exploration de données relationnels etmodèles d'exploration de données OLAP

L'option importante suivante que vous avez est d'utiliser une source de données relationnelles ou de baser votre modèle sur des données multidimensionnelles (OLAP).

À ce stade, l'Assistant Exploration de données se divise en deux branches, selon que votre source de données est relationnelle ou dans un cube. Tout le reste excepté le processus de sélection des données est identique (le choix de l'algorithme, la capacité à ajouter un ensemble de données d'exclusion, etc.), mais la sélection de données de cube est un peu plus complexe que d'utiliser des données relationnelles. (Vous obtenez également des options supplémentaires à la fin si vous créez un modèle basé sur un cube.)

Consultez les rubriques suivantes pour une procédure pas-à-pas de chaque option plus en détail :

Créer une structure d'exploration de données relationnelle
Vous guide dans les décisions à prendre lors de la création d'un modèle d'exploration de données relationnel.
Créer une structure d'exploration de données OLAP
Décrit les options supplémentaires et les sélections à effectuer lors de la sélection de données à partir d'un cube OLAP.

[!REMARQUE]

Vous n'avez pas besoin d'avoir un cube ou une base de données OLAP pour effectuer l'exploration de données. Sauf si vos données sont déjà stockées dans un cube, ou si vous voulez explorer des dimensions OLAP ou les résultats de calculs ou d'agrégations OLAP, nous vous recommandons d'utiliser une table relationnelle ou une source de données pour l'exploration de données.

Choix d'un algorithme

Vous devez ensuite décider de l'algorithme à utiliser lors du traitement de vos données. Cette décision peut être difficile à prendre. Chaque algorithme fourni dans Analysis Services a des fonctionnalités différentes et produit des résultats différents. Vous pouvez donc faire des essais et tenter différents modèles avant de déterminer celui qui est le plus approprié pour vos données et votre problème d'entreprise. Pour obtenir une explication des tâches pour lesquelles chaque algorithme est le plus approprié, consultez la rubrique suivante :

Algorithmes d'exploration de données (Analysis Services - Exploration de données)

Là encore, vous pouvez créer plusieurs modèles en utilisant différents algorithmes, ou bien modifier les paramètres des algorithmes pour créer différents modèles. Vous n'êtes pas bloqué dans votre choix de l'algorithme, et il est conseillé de créer différents modèles sur les mêmes données.

Définir les données utilisées pour la modélisation

En plus de choisir les données d'une source, vous devez spécifier laquelle des tables de la vue de source de données contient les données de cas. La table de cas sera utilisée pour l'apprentissage du modèle d'exploration de données, et en tant que telle, elle doit contenir les entités que vous voulez analyser : par exemple, les clients et leurs informations démographiques. Chaque cas doit être unique, et doit être identifiable par une clé de cas.

En plus de spécifier la table de cas, vous pouvez inclure des tables imbriquées dans vos données. Une table imbriquée contient généralement des informations supplémentaires sur les entités de la table de cas, telles que les transactions effectuées par le client ou les attributs ayant une relation plusieurs-à-un avec l'entité. Par exemple, une table imbriquée jointe à la table de cas Customers peut inclure une liste de produits que chaque client a achetés. Dans un modèle qui analyse le trafic sur un site Web, la table imbriquée peut inclure les séquences de pages que l'utilisateur a visitées. Pour plus d'informations, consultez Tables imbriquées (Analysis Services - Exploration de données)

Fonctionnalités supplémentaires

Pour vous aider à choisir les bonnes données, et à configurer correctement les sources de données, l'Assistant Exploration de données fournit les fonctionnalités supplémentaires suivantes :

Détection automatique des types de données : l'Assistant examinera l'unicité et la distribution de valeurs de colonnes, puis recommandera le meilleur type de données, et proposera un type d'utilisation pour les données. Vous pouvez remplacer ces suggestions en sélectionnant des valeurs dans une liste.
Suggestions pour les variables : vous pouvez cliquer sur une boîte de dialogue et démarrer un analyseur qui calcule les corrélations entre les colonnes incluses dans le modèle, et qui détermine si des colonnes sont des prédicteurs probables de l'attribut de résultats, étant donné la configuration du modèle jusqu'à présent. Vous pouvez remplacer ces suggestions en tapant des valeurs différentes.
Sélection des fonctionnalités : la plupart des algorithmes détecteront automatiquement les colonnes qui sont de bons prédicteurs et les utiliseront de préférence. Dans les colonnes qui contiennent trop de valeurs, la sélection des fonctionnalités sera appliquée, afin de réduire la cardinalité des données et d'améliorer des chances de trouver un modèle explicite. Vous pouvez affecter le comportement de sélection des fonctionnalités à l'aide de paramètres de modèle.
Découpage automatique de cube en tranches : si votre modèle d'exploration de données repose sur une source de données OLAP, la possibilité de découper le modèle en tranches à l'aide d'attributs de cube est automatiquement fournie. Cela est pratique pour créer des modèles basés sur des sous-ensembles de données de cube.

Fin de l'Assistant

La dernière étape de l'Assistant consiste à nommer la structure d'exploration de données et le modèle d'exploration de données associé. Selon le type de modèle que vous avez créés, vous pouvez également disposer des options importantes suivantes :

Si vous sélectionnez Accepter l'extraction, la possibilité d'effectuer une extraction est activée dans le modèle. Avec l'extraction, les utilisateurs qui disposent des autorisations appropriées peuvent explorer les données sources utilisées pour générer le modèle.
Si vous créez un modèle OLAP, vous pouvez sélectionner les options Créer un nouveau cube d'exploration de données ou Créer une dimension d'exploration de données. Ces deux options facilitent le parcours du modèle terminé et l'extraction des données sous-jacentes.

Lorsque vous avez terminé toutes les étapes de l'Assistant Exploration de données, vous utilisez le Concepteur d'exploration de données pour modifier la structure et les modèles d'exploration de données, voir la précision du modèle, afficher les caractéristiques de la structure et des modèles ou effectuer des prédictions à l'aide des modèles.

Retour au début