Concepts d'exploration de données (Analysis Services - Exploration de données)

L'exploration de données est un processus de recherche d'informations utilisables à partir de jeux de données de grande taille. L'exploration de données utilise l’analyse mathématique pour dégager les motifs et les tendances existant dans les données. En général, ces motifs ne peuvent pas être trouvés par l’exploration de données traditionnelle parce que les relations sont trop complexes ou parce que la quantité de données est trop importante.

Ces motifs et tendances peuvent être collectés et définis en tant que modèle d'exploration de données. Les modèles d'exploration de données peuvent être appliqués à des scénarios d'entreprise spécifiques, tels que :

  • prévision des ventes ;

  • ciblage de publipostages vers des clients spécifiques ;

  • détermination des produits susceptibles d'être vendus ensemble ;

  • identification de séquences dans l'ordre d'ajout de produits à un panier.

La création d'un modèle d'exploration de données fait partie d'un processus plus vaste qui va de la pose de questions sur les données et la création d’un modèle afin de répondre à ces questions au déploiement du modèle dans un environnement de travail. Ce processus peut être défini à l'aide des six étapes de base suivantes :

  1. Définition du problème

  2. Préparation des données

  3. Exploration des données

  4. Création des modèles

  5. Exploration et validation des modèles

  6. Déploiement et mise à jour des modèles

Le diagramme suivant décrit les relations entre chacune des étapes du processus et les technologies MicrosoftSQL Server 2008 que vous pouvez utiliser pour effectuer chaque étape.

Étapes clés du processus d'exploration de données

Bien que le processus illustré dans le diagramme soit circulaire, chaque étape ne mène pas nécessairement directement à l'étape suivante. La création d'un modèle d'exploration de données est un processus dynamique et itératif. En effet, après avoir exploré les données, vous pouvez juger que les données sont insuffisantes pour créer les modèles d'exploration de données appropriés et devoir, par conséquent, rechercher des données supplémentaires. Vous pouvez également générer plusieurs modèles, puis vous rendre compte qu'ils ne résolvent pas correctement le problème que vous avez défini et devoir par conséquent redéfinir le problème. Vous devrez peut-être également mettre à jour les modèles une fois qu'ils ont été déployés parce que vous disposez de données supplémentaires. Il est possible que chaque étape du processus doive être répétée de nombreuses fois pour créer un modèle correct.

SQL Server 2008 fournit un environnement intégré pour la création et l'utilisation des modèles d'exploration de données, appelé Business Intelligence Development Studio. Cet environnement comprend des algorithmes et des outils d'exploration de données qui permettent d'élaborer facilement une solution complète pour divers projets. Pour plus d'informations sur l'utilisation de BI Development Studio, consultez Développement et implémentation à l'aide de Business Intelligence Development Studio.

Après avoir créé une solution d'exploration de données, vous pouvez la conserver et la parcourir en utilisant SQL Server Management Studio. Pour plus d'informations, consultez Gestion des structures et modèles d'exploration de données.

Pour consulter un exemple montrant comment les outils SQL Server peuvent être appliqués à un scénario d’entreprise, consultez le Didacticiel sur l'exploration de données de base.

Définition du problème

La première étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à définir clairement le problème d'entreprise et à envisager une solution pour y remédier.

Première étape d'exploration de données : définition du problème

Cette étape inclut l'analyse des besoins de l'entreprise, la définition de l'étendue du problème, la détermination des mesures d'évaluation du modèle et la définition des objectifs spécifiques du projet d'exploration de données. Ces tâches peuvent être traduites par des questions, telles que :

  • Que recherchez-vous ? Quels types de relations essayez-vous de trouver ?

  • Le problème que vous essayez de résoudre reflète-t-il les stratégies ou processus de l'entreprise ?

  • Souhaitez-vous effectuer des prédictions à partir du modèle d'exploration de données ou seulement rechercher des associations et motifs intéressants ?

  • Quel attribut du jeu de données souhaitez-vous prédire ?

  • Comment sont associées les colonnes ? S'il y a plusieurs tables, comment sont-elles associées ?

  • Comment sont distribuées les données ? Les données sont-elles saisonnières ? Les données représentent-elles précisément les processus de l’entreprise ?

Pour répondre à ces questions, il peut être nécessaire de procéder à une étude de disponibilité des données afin d'analyser les besoins des utilisateurs de l'entreprise en fonction des données disponibles. Si les données ne répondent pas aux besoins des utilisateurs, il vous faudra peut-être redéfinir le projet.

Vous devez également considérer les manières avec lesquelles les résultats du modèle peuvent être intégrés aux indicateurs de performance clés utilisés pour mesurer la progression de l'entreprise.

Préparation des données

La deuxième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à consolider et à nettoyer les données identifiées à l'étape Définition du problème.

Deuxième étape d'exploration de données : préparation des données

Les données peuvent être dispersées dans une entreprise et stockées dans des formats différents ou bien contenir des incohérences, telles que des entrées incorrectes ou manquantes. Par exemple, les données peuvent indiquer qu'un client a acheté un produit avant sa mise sur le marché, ou qu'une cliente fait régulièrement des achats dans un magasin se trouvant à 3 000 kilomètres de chez elle.

Le nettoyage de données ne se limite pas à la suppression des données incorrectes, mais il inclut également la recherche des corrélations cachées dans les données, l'identification des sources des données les plus précises et la détermination des colonnes les plus appropriées à des fins d'analyse. Est-ce que vous devez utiliser par exemple, la date d'expédition ou la date d'ordre ? Est-ce que le meilleur facteur d’influence des ventes est la quantité, le prix total ou le prix escompté ? Des données incomplètes ou incorrectes et des entrées qui apparaissent séparées, mais qui sont en fait étroitement liées, peuvent influencer les résultats du modèle de manières inattendues. Par conséquent, avant de générer des modèles d'exploration de données, vous devez identifier ces problèmes et déterminer comment les résoudre.

En règle générale, vous utilisez un jeu de données de grande taille et vous ne pouvez donc pas vérifier chaque transaction. Vous devez par conséquent utiliser une forme d'automatisation, telle que dans Integration Services, pour explorer les données et rechercher les incohérences. MicrosoftSQL Server 2008 Integration Services (SSIS) contient tous les outils dont vous avez besoin pour cette étape, y compris les transformations visant à automatiser la consolidation et le nettoyage des données. Pour plus d'informations, consultez Integration Services dans Business Intelligence Development Studio.

Il est important de noter qu’il n’est pas nécessaire de stocker les données utilisées pour l'exploration de données dans un cube de traitement analytique en ligne (OLAP), ou même dans une base de données relationnelle, bien que vous puissiez utiliser ces deux supports comme sources de données. Vous pouvez effectuer l'exploration de données à l'aide de n’importe quelle source de données définie comme source de données Analysis Services. Il peut s’agir de fichiers texte, de classeurs Excel ou de données provenant d'autres fournisseurs externes. Pour plus d'informations, consultez Définition de sources de données (Analysis Services).

Exploration des données

La troisième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à explorer les données préparées.

Troisième étape d'exploration de données : exploration des données

Vous devez vous familiariser avec les données afin de prendre les décisions appropriées lors de la création des modèles d’exploration. Les techniques d'exploration comprennent le calcul des valeurs minimales et maximales, le calcul des écarts moyens et types, et l'examen de la distribution des données. Par exemple, vous pouvez déterminer en examinant les valeurs maximales, minimales et moyennes que les données ne sont pas représentatives de vos clients ou de vos processus d’entreprise, et que vous devez par conséquent obtenir des données plus équilibrées ou examiner les hypothèses sur lesquelles reposent vos attentes. Les écarts types et autres valeurs de distribution peuvent fournir des informations utiles sur la stabilité et la précision des résultats. Un grand écart type peut indiquer que l'ajout de données supplémentaires est susceptible d’améliorer le modèle. Les données qui se différencient fortement d'une distribution standard peuvent être faussées ou représenter l’image exacte d'un problème vécu, mais elles permettent difficilement d’ajuster un modèle en fonction des données.

En explorant les données selon la manière dont vous abordez le problème d’entreprise, vous pouvez voir si le jeu de données contient des données défectueuses, puis élaborer une stratégie visant à résoudre les problèmes ou avoir une meilleure compréhension des comportements propres à votre entreprise.

Le Concepteur de vues de sources de données de BI Development Studio contient plusieurs outils que vous pouvez utiliser pour explorer les données. Pour plus d'informations, consultez Conception de vues de source de données (Analysis Services) ou Exploration des données dans une vue de source de données (Analysis Services).

De plus, lorsque vous créez un modèle, Analysis Services crée automatiquement des résumés statistiques des données contenues dans le modèle, que vous pouvez interroger pour les utiliser dans des rapports ou une autre analyse. Pour plus d'informations, consultez Interrogation de modèles d'exploration de données (Analysis Services - Exploration de données).

Création des modèles

La quatrième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à générer le ou les modèles d'exploration de données. Vous allez utiliser les connaissances acquises à l'étape Exploration des données pour définir et créer les modèles.

Quatrième étape d'exploration de données : création de modèles d'exploration de données

Vous définissez les données que vous souhaitez utiliser en créant une structure d'exploration de données. La structure d'exploration de données définit la source de données, mais ne contient pas de données tant qu’elle ne fait pas l’objet d’un traitement. Lorsque vous traitez la structure d'exploration de données, Analysis Services génère des agrégats et d'autres informations statistiques qui peuvent être utilisés pour l'analyse. Ces informations peuvent être utilisées par n'importe quel modèle d’exploration de données basé sur la structure. Pour plus d'informations sur l'association des structures d’exploration de données avec les modèles d'exploration de données, consultez Architecture logique (Analysis Services - Exploration de données).

Avant d’être traité, un modèle d'exploration de données n’est qu’un conteneur spécifiant les colonnes utilisées pour l'entrée, l'attribut prédit et les paramètres indiquant à l'algorithme comment traiter les données. Le traitement d'un modèle est également appelé apprentissage. L’apprentissage fait référence au processus visant à appliquer un algorithme mathématique spécifique aux données de la structure pour extraire des motifs. Les motifs trouvés dans le processus d’apprentissage dépendent de la sélection des données d'apprentissage, de l'algorithme choisi et de la manière dont vous avez configuré cet algorithme. SQL Server 2008 contient de nombreux algorithmes différents, chacun étant adapté à un type de tâche différent et créant un type de modèle différent. Pour obtenir la liste des algorithmes disponibles dans SQL Server 2008, consultez Algorithmes d'exploration de données (Analysis Services – exploration de données).

Vous pouvez également utiliser des paramètres pour ajuster chaque algorithme et appliquer des filtres aux données d'apprentissage pour utiliser uniquement un sous-ensemble des données, créant ainsi des résultats différents. Une fois les données transférées dans le modèle, l'objet du modèle d'exploration de données contient des résumés et des motifs qui peuvent être interrogés ou utilisés à des fins de prédiction.

Vous pouvez définir un nouveau modèle en utilisant l'Assistant Exploration de données de BI Development Studio ou le langage DMX (Data Mining Extensions). Pour plus d'informations sur l'utilisation de l'Assistant Exploration de données, consultez Assistant Exploration de données (Analysis Services - Exploration de données). Pour plus d'informations sur l'utilisation de DMX, consultez Guide de référence du langage DMX (Data Mining Extensions).

Il est important de se rappeler qu’à chaque modification des données, vous devez mettre à jour la structure et le modèle d'exploration de données. Lorsque vous mettez à jour une structure d'exploration de données en la retraitant, Analysis Services extrait les données de la source, y compris toutes les nouvelles données si la source est mise à jour dynamiquement, et remplit à nouveau la structure d'exploration de données. Si certains de vos modèles sont basés sur la structure, vous pouvez choisir de les mettre à jour, ce qui signifie qu’ils seront reformés sur les nouvelles données, ou vous pouvez les conserver en l’état. Pour plus d'informations, consultez Traitement des objets d'exploration de données.

Exploration et validation des modèles

La cinquième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à explorer les modèles d’exploration de données créés et à tester leur efficacité.

Cinquième étape d'exploration de données : validation des modèles d'exploration de données

Avant de déployer un modèle dans un environnement de production, vous voudrez vérifier si ce modèle fonctionne bien. De plus, lorsque vous générez un modèle, vous créez généralement plusieurs modèles avec des configurations différentes et testez tous les modèles pour déterminer lequel produit les meilleurs résultats par rapport à votre problème et vos données.

Analysis Services fournit des outils qui permettent de séparer vos données en jeux de données d’apprentissage et en jeux de données de test afin d’évaluer correctement la performance de tous les modèles sur les mêmes données. Le jeu de données d'apprentissage sert à générer le modèle tandis que le jeu de données de test sert à vérifier la précision du modèle en créant des requêtes de prédictions. Dans SQL Server 2008 Analysis Services, ce partitionnement peut être effectué automatiquement lorsque le modèle d'exploration de données est généré. Pour plus d'informations, consultez Validation des modèles d'exploration de données (Analysis Services - Exploration de données).

Vous pouvez explorer les tendances et les motifs trouvés par les algorithmes en utilisant les visionneuses du Concepteur d'exploration de données de BI Development Studio. Pour plus d'informations, consultez Affichage d'un modèle d'exploration de données. Vous pouvez également tester la qualité des prédictions créées par les modèles à l'aide des outils du Concepteur, tels que le graphique de courbes d'élévation et la matrice de classification. Pour vérifier si le modèle est spécifique à vos données ou s’il peut être utilisé pour faire des inférences générales, vous pouvez utiliser la technique statistique appelée validation croisée pour créer automatiquement des sous-ensembles de données et tester le modèle avec chaque sous-ensemble. Pour plus d'informations, consultez Validation des modèles d'exploration de données (Analysis Services - Exploration de données).

Si aucun des modèles créés à l'étape Création des modèles ne fonctionne bien, vous devrez peut-être revenir à une étape antérieure du processus et redéfinir le problème ou analyser de nouveau les données du jeu de données d'origine.

Déploiement et mise à jour des modèles

La dernière étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à déployer les modèles les plus efficaces dans un environnement de production.

Sixième étape d'exploration de données : déploiement des modèles d'exploration de données

Une fois que les modèles d'exploration de données sont déployés dans un environnement de production, vous pouvez effectuer de nombreuses tâches selon vos besoins. Voici quelques-unes des tâches que vous pouvez effectuer :

  • Utiliser les modèles pour créer des prédictions qui peuvent ensuite servir à prendre des décisions. SQL Server fournit le langage DMX que vous pouvez utiliser pour créer des requêtes de prédictions et le Générateur de requêtes de prédiction pour vous aider à créer ces requêtes. Pour plus d'informations, consultez Guide de référence du langage DMX (Data Mining Extensions).

  • Créer des requêtes de contenu pour extraire des statistiques, des règles ou des formules du modèle. Pour plus d'informations, consultez Interrogation de modèles d'exploration de données (Analysis Services - Exploration de données).

  • Incorporer la fonctionnalité d'exploration de données directement dans une application. Vous pouvez inclure des objets AMO (Analysis Management Objects) contenant un jeu d'objets qui peuvent être utilisés par votre application pour créer, modifier, traiter et supprimer des structures et des modèles d'exploration de données. Vous pouvez aussi envoyer directement des messages XML for Analysis (XMLA) à une instance d'Analysis Services. Pour plus d'informations, consultez Développement (Analysis Services - Exploration de données).

  • Utiliser Integration Services pour créer un package dans lequel un modèle d'exploration de données est utilisé pour répartir intelligemment les données entrantes dans plusieurs tables. Par exemple, si une base de données est continuellement mise à jour avec des noms de clients potentiels, vous pouvez utiliser un modèle d'exploration de données avec Integration Services pour séparer les données entrantes en deux catégories : clients susceptibles d'acheter un produit et clients susceptibles de ne pas acheter un produit. Pour plus d'informations, consultez Utilisations courantes d'Integration Services.

  • Créer un rapport permettant aux utilisateurs d'effectuer directement des requêtes sur un modèle d'exploration de données existant. Pour plus d'informations, consultez Reporting Services dans Business Intelligence Development Studio.

  • Mettre à jour les modèles après l'examen et l’analyse. Toute mise à jour requiert un retraitement des modèles. Pour plus d'informations, consultez Traitement des structures et des modèles (Analysis Services - Exploration de données).

  • Mettre à jour les modèles dynamiquement lorsque des données supplémentaires entrent dans l'entreprise et apporter des modifications constantes pour améliorer l'efficacité de la solution doivent faire partie de la stratégie de déploiement. Pour plus d'informations, consultez Gestion des structures et modèles d'exploration de données.