Concepts d'exploration de données

Article
12/15/2008

L'exploration de données est fréquemment définie comme « le processus d'extraction d'informations valides, authentiques et utilisables à partir de bases de données de grande taille ». En d'autres termes, l'exploration de données dégage les modèles et les tendances existant dans les données. Ces modèles et tendances peuvent être collectés ensemble et définis en tant que modèle d'exploration de données. Les modèles d'exploration de données peuvent être appliqués à des scénarios d'entreprise spécifiques, tels que :

prévision des ventes ;
ciblage de publipostages vers des clients spécifiques ;
détermination des produits susceptibles d'être vendus ensemble ;
identification de séquences dans l'ordre d'ajout de produits à un panier.

Il est important de comprendre que la construction d'un modèle d'exploration de données fait partie d'un processus plus vaste qui va de la définition du problème de base que le modèle va résoudre au déploiement du modèle dans un environnement de travail. Ce processus peut être défini à l'aide des six étapes de base suivantes :

Définition du problème
Préparation des données
Exploration des données
Création des modèles
Exploration et validation des modèles
Déploiement et mise à jour des modèles

Le diagramme suivant décrit les relations entre chacune des étapes du processus et les technologies Microsoft SQL Server 2005 que vous pouvez utiliser pour effectuer chaque étape.

Étapes clés dans le processus d'exploration de données

Bien que le processus illustré dans le diagramme soit circulaire, chaque étape ne mène pas nécessairement directement à l'étape suivante. La création d'un modèle d'exploration de données est un processus dynamique et itératif. En effet, après avoir exploré les données, vous pouvez décider que les données sont insuffisantes pour créer les modèles d'exploration de données appropriés et devoir, par conséquent, chercher des données supplémentaires. Vous pouvez générer plusieurs modèles, mais vous rendre compte qu'ils ne résolvent pas le problème posé lorsque vous avez défini le problème et que vous devez par conséquent redéfinir le problème. Vous pouvez également devoir mettre à jour les modèles une fois qu'ils ont été déployés parce que vous disposez de données supplémentaires. Il est par conséquent important de comprendre que la création d'un modèle d'exploration de données est un processus et que chaque étape du processus peut être répétée autant de fois que nécessaire pour créer un bon modèle.

SQL Server 2005 fournit un environnement intégré pour la création et l'utilisation des modèles d'exploration de données, appelé Business Intelligence Development Studio. Cet environnement comprend des algorithmes d'exploration de données et des outils qui vous permettent facilement d'élaborer une solution complète pour une grande variété de projets. Pour plus d'informations sur l'utilisation de BI Development Studio, consultez Développement de solutions et de projets Analysis Services.

Pour plus d'informations sur l'application des outils SQL Server aux scénarios d'entreprise mentionnés plus haut dans ce document, consultez Didacticiel sur l'exploration de données.

Définition du problème

La première étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à définir clairement le problème d'entreprise.

Première étape d'exploration de données : définition du problème

Cette étape inclut l'analyse des besoins de l'entreprise, la définition de l'étendue du problème, la définition des métriques d'évaluation du modèle et la définition de l'objectif final du projet d'exploration de données. Ces tâches peuvent être traduites par des questions, telles que :

Que recherchez-vous ?
Quel attribut du jeu de données souhaitez-vous prédire ?
Quels types de relations tentez-vous de trouver ?
Souhaitez-vous effectuer des prédictions à partir du modèle d'exploration de données ou seulement rechercher des tendances et associations intéressantes ?
Comment sont distribuées les données ?
Comment sont associées les colonnes ou, s'il y a plusieurs tables, comment sont associées les tables ?

Pour répondre à ces questions, il peut être nécessaire de procéder à une étude de disponibilité des données afin d'analyser les besoins des utilisateurs de l'entreprise en fonction des données disponibles. Si les données ne répondent pas aux besoins des utilisateurs, il vous faudra peut-être redéfinir le projet.

Préparation des données

La deuxième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à consolider et à nettoyer les données identifiées à l'étape Définition du problème.

Deuxième étape d'exploration de données : préparation des données

Microsoft SQL Server 2005 Integration Services (SSIS) contient tous les outils dont vous avez besoin pour exécuter cette étape, y compris des transformations pour automatiser le nettoyage et la consolidation des données.

Les données peuvent être dispersées à travers toute l'entreprise et stockées dans des formats différents ou bien contenir des incohérences, telles que des entrées erronées ou manquantes. Par exemple, les données peuvent indiquer qu'un client a acheté un produit avant même d'être né ou qu'une cliente fait régulièrement des achats dans un magasin se trouvant à 3 000 kilomètres de chez elle. Avant de commencer à créer des modèles, vous devez corriger ces problèmes. En règle générale, vous travaillez avec un très grand jeu de données et vous ne pouvez donc pas vérifier chaque transaction. Par conséquent, vous devez utiliser une forme d'automation, par exemple dans Integration Services, pour explorer les données et trouver les incohérences.

Exploration des données

La troisième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à explorer les données préparées.

Troisième étape d'exploration de données : exploration des données

Vous devez comprendre les données afin de prendre les décisions appropriées lors de la création des modèles. Les techniques d'exploration comprennent le calcul des valeurs minimales et maximales, le calcul des écarts moyens et types, et l'examen de la distribution des données. Après avoir exploré les données, vous pouvez décider si le jeu de données contient des données erronées, puis élaborer une stratégie pour corriger les problèmes.

Le Concepteur de vues de sources de données de BI Development Studio contient plusieurs outils que vous pouvez utiliser pour explorer les données.

Création des modèles

La quatrième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à générer les modèles d'exploration de données.

Quatrième étape d'exploration de données : création de modèles d'exploration de données

Avant de créer un modèle, vous devez séparer de façon aléatoire les données préparées entre un jeu de données d'apprentissage et un jeu de données de test. Le jeu de données d'apprentissage sert à générer le modèle tandis que le jeu de données de test sert à vérifier la précision du modèle en créant des requêtes de prédictions. Vous pouvez utiliser la Transformation de l'échantillonnage du pourcentage dans Integration Services pour diviser le jeu de données.

Vous allez utiliser les connaissances acquises à l'étape Exploration des données pour vous aider à définir et à créer un modèle d'exploration de données. En règle générale, un modèle contient des colonnes d'entrée, une colonne d'identification et une colonne prévisible. Vous pouvez ensuite définir ces colonnes dans un nouveau modèle en utilisant le langage DMX (Data Mining Extensions) ou l'Assistant Exploration de données de BI Development Studio. Pour plus d'informations sur l'utilisation de DMX, consultez Guide de référence du langage DMX (Data Mining Extensions). Pour plus d'informations sur l'utilisation de l'Assistant Exploration de données, consultez Assistant Exploration de données.

Après avoir défini la structure du modèle d'exploration de données, vous devez traiter le modèle en remplissant la structure vide avec les tendances décrivant le modèle. C'est ce que l'on appelle l'apprentissage du modèle. Les tendances sont repérées en appliquant un algorithme mathématique aux données d'origine. SQL Server 2005 contient un algorithme différent pour chaque type de modèle proposé. Vous pouvez utiliser des paramètres pour ajuster chaque algorithme.

Un modèle d'exploration de données est défini par un objet de structure d'exploration de données, un objet de modèle d'exploration de données et un algorithme d'exploration de données.

Pour plus d'informations :Structures d'exploration de données (Analysis Services), Algorithmes d'exploration de données

Microsoft SQL Server 2005 Analysis Services (SSAS) comprend les algorithmes suivants :

Exploration et validation des modèles

La cinquième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à explorer les modèles que vous avez créés et à tester leur efficacité.

Cinquième étape d'exploration de données : validation de modèles d'exploration de données

Vous n'avez aucun intérêt à déployer un modèle dans un environnement de production sans avoir tout d'abord vérifié si ce modèle fonctionne bien. De plus, vous pouvez avoir créé plusieurs modèles et vous devez déterminer lequel est le plus efficace. Si aucun des modèles créés à l'étape Création des modèles ne fonctionne bien, vous devrez peut-être revenir à une étape antérieure du processus, soit en redéfinissant le problème, soit en analysant de nouveau les données du jeu de données d'origine.

Vous pouvez explorer les tendances et les modèles trouvés par l'algorithme en utilisant les Visionneuses du Concepteur d'exploration de données de BI Development Studio. Vous pouvez également tester la qualité des prédictions créées par les modèles à l'aide des outils du Concepteur, tels que le graphique de courbes d'élévation et la matrice de classification. Ces outils nécessitent les données de test que vous avez séparées du jeu de données d'origine dans l'étape de création des modèles.

Pour plus d'informations :Affichage d'un modèle d'exploration de données, Validation des modèles d'exploration de données, Graphique de courbes d'élévation, Matrice de classification

Déploiement et mise à jour des modèles

La dernière étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à déployer les modèles les plus efficaces dans un environnement de production.

Sixième étape d'exploration de données : déploiement de modèles d'exploration de données

Une fois que les modèles d'exploration de données sont déployés dans un environnement de production, vous pouvez effectuer de nombreuses tâches selon vos besoins. Voici quelques-unes des tâches que vous pouvez effectuer :

Utiliser les modèles pour créer des prédictions qui peuvent ensuite servir à prendre des décisions. SQL Server vous fournit le langage DMX que vous pouvez utiliser pour créer des requêtes de prédictions et le Générateur de requêtes de prédictions pour vous aider à créer les requêtes.
Incorporer la fonctionnalité d'exploration de données directement dans une application. Vous pouvez inclure des objets AMO (Analysis Management Objects) ou un assembly contenant un jeu d'objets qui peuvent être utilisés par votre application pour créer, modifier, traiter et supprimer des structures d'exploration de données et des modèles d'exploration de données. Vous pouvez aussi envoyer directement des messages XML for Analysis (XMLA) à une instance d'Analysis Services.
Utiliser Integration Services pour créer un package dans lequel un modèle d'exploration de données est utilisé pour répartir intelligemment les données entrantes dans plusieurs tables. Par exemple, si une base de données est continuellement mise à jour avec des noms de clients potentiels, vous pouvez utiliser un modèle d'exploration de données avec Integration Services pour séparer les données entrantes en deux catégories : clients susceptibles d'acheter un produit et clients susceptibles de ne pas acheter un produit.
Créer un rapport permettant aux utilisateurs d'effectuer directement des requêtes sur un modèle d'exploration de données existant.

La mise à jour du modèle fait partie de la stratégie de déploiement. Au fur et à mesure que de nouvelles données arrivent dans l'entreprise, vous devez traiter à nouveau les modèles afin d'améliorer leur efficacité.

Pour plus d'informations :Traitement dans Analysis Services, Création de requêtes de prédictions DMX, Guide de référence du langage DMX (Data Mining Extensions), Analysis Services Administration Programming (SSAS)

Voir aussi

Concepts d'exploration de données

Définition du problème

Préparation des données

Exploration des données

Création des modèles

Exploration et validation des modèles

Déploiement et mise à jour des modèles

Voir aussi

Concepts

Autres ressources

Aide et Informations

Ressources supplémentaires