Architecture logique (Analysis Services - Exploration de données)

L'exploration de données est un processus qui implique l'interaction de plusieurs composants.

  • Vous accédez aux sources de données dans une base de données SQL Server ou à toute autre source de données à utiliser pour l’apprentissage, le test ou les prédictions.

  • Vous définissez des structures et des modèles d'exploration de données à l'aide de Outils de données SQL Server (SSDT) ou Visual Studio.

  • Vous gérez des objets d'exploration de données et créez des prédictions ainsi que des requêtes avec SQL Server Management Studio.

  • Lorsque la solution est complète, vous pouvez la déployer sur une instance d'Analysis Services.

Le processus de création de ces objets de solution a déjà été décrit. Pour plus d'informations, consultez Solutions d'exploration de données.

Les sections suivantes décrivent l'architecture logique des objets d'une solution d'exploration de données.

Données issues d'une source d'exploration de données

Structures d'exploration de données

Modèles d'exploration de données

Objets d'exploration de données personnalisés

Données issues d'une source d'exploration de données

Les données utilisées dans l'exploration de données ne sont pas stockées dans la solution d'exploration de données ; seules les liaisons sont stockées. Les données peuvent résider dans une base de données créée dans une version précédente de SQL Server, un système CRM, ou même un fichier plat. Lors de l'apprentissage de la structure ou du modèle par traitement, un résumé statistiques des données est créé et stocké dans un cache qui peut être rendu persistant pour une utilisation dans des opérations ultérieures, ou supprimé après le traitement. Pour plus d'informations, consultez Structures d'exploration de données (Analysis Services – exploration de données).

Vous combinez des données disparates dans l'objet de vue de source de données Analysis Services, qui fournit une couche d'abstraction sur votre source de données. Vous pouvez spécifier des jointures entre les tables ou ajouter des tables qui ont une relation plusieurs-à-un pour créer des colonnes de table imbriquée. La définition de ces objets, la source de données et la vue de source de données, est stockée dans la solution avec les extensions de fichier, *.ds et *.dsv. Pour plus d'informations sur la création et l’utilisation des vues de sources de données et des sources de données Analysis Services, consultez Types de sources de données pris en charge (SSAS Multidimensionnel).

Vous pouvez également définir et modifier des sources de données et des vues de source de données en utilisant AMO ou XMLA. Pour plus d'informations sur l'utilisation de ces objets par programme, consultez Vue d'ensemble de l'architecture logique (Analysis Services - données multidimensionnelles).

Retour au début

Structures d'exploration de données

Une structure d'exploration de données est un conteneur de données logiques qui définit le domaine de données à partir duquel les modèles d'exploration de données sont créés. Une structure d'exploration de données unique peut prendre en charge plusieurs modèles d'exploration de données.

Lorsque vous devez utiliser les données de la solution d'exploration de données, Analysis Services les lit à partir de la source et génère un cache d'agrégats et d'autres informations. Par défaut ce cache est persistant afin que les données d'apprentissage puissent être réutilisées pour prendre en charge les modèles supplémentaires. Si vous devez supprimer le cache, donnez à la propriété CacheMode sur l'objet de structure d'exploration de données la valeur ClearAfterProcessing. Pour plus d'informations, consultez Classes d'exploration de données AMO.

SQL Server 2012 Analysis Services (SSAS) permet également de séparer vos données en données d’apprentissage et en données de test afin de tester vos modèles d'exploration de données sur un jeu de données représentatif, sélectionné aléatoirement. Les données ne sont pas réellement stockées séparément ; en revanche, les données de cas dans le cache de la structure sont identifiées par une propriété qui indique si ce cas particulier est utilisé pour l'apprentissage ou pour le test. Si le cache est supprimé, ces informations ne peuvent pas être récupérées.

Pour plus d'informations, consultez Structures d'exploration de données (Analysis Services – exploration de données).

Une structure d'exploration de données peut contenir des tables imbriquées. Une table imbriquée fournit des détails supplémentaires sur le cas modélisé dans la table de données primaire. Pour plus d'informations, consultez Tables imbriquées (Analysis Services - Exploration de données)

Retour au début

Modèles d'exploration de données

Avant le traitement, un modèle d'exploration de données n'est qu'une combinaison de propriétés de métadonnées. Ces propriétés spécifient une structure d'exploration de données, un algorithme d'exploration de données ainsi qu’une collection définie de paramétrages et de paramètres de filtre qui affectent les données utilisées et leur mode de traitement. Pour plus d'informations, consultez Modèles d'exploration de données (Analysis Services - Exploration de données).

Lorsque vous traitez le modèle, les données d'apprentissage qui étaient stockées dans le cache de la structure d'exploration de données sont utilisées pour générer des schémas, basés sur les propriétés statistiques des données et sur l'heuristique définie par l'algorithme et ses paramètres. C'est ce que l'on appelle l'apprentissage du modèle.

Le résultat de l'apprentissage est un jeu de données de synthèse, contenu dans le contenu de modèle, qui décrit les schémas trouvés et fournit les règles selon lesquelles les prédictions sont générées. Pour plus d'informations, consultez Contenu du modèle d'exploration de données (Analysis Services - Exploration de données).

Dans certains cas, la structure logique du modèle peut également être exportée dans un fichier qui représente des formules de modèle et des liaisons de données conformément à un format standard, le langage PMML (Predictive Modeling Markup Language). Cette structure logique peut être importée dans d'autres systèmes qui utilisent PMML et le modèle ainsi décrit peut ensuite être utilisé pour la prédiction. Pour plus d'informations, consultez Présentation de l'instruction Select (DMX).

Retour au début

Objets d'exploration de données personnalisés

D'autres objets que vous utilisez dans le contexte d'un projet d'exploration de données, tels que les graphiques d'analyse de précision ou des requêtes de prédiction, ne sont pas conservés dans la solution, mais peuvent faire l'objet d'un script à l'aide d'ASSL ou être générés à l'aide d'AMO.

En outre, vous pouvez étendre les services et les fonctionnalités disponibles sur une instance d'Analysis Services en ajoutant ces objets personnalisés :

  • Assemblys personnalisés
    Les assemblys .NET peuvent être définis à l'aide du langage compatible CLR ou COM, puis enregistrés avec une instance de SQL Server. Les fichiers d'assemblys sont chargés à partir de l'emplacement défini par l'application et une copie est enregistrée avec les données, dans le serveur. La copie du fichier d'assembly est utilisée pour charger l'assembly chaque fois que le service est démarré.

    Pour plus d'informations, consultez Gestion des assemblys de modèles multidimensionnels.

  • Procédures stockées personnalisées
    L'exploration de données d'Analysis Services prend en charge l'utilisation de procédures stockées pour utiliser des objets d'exploration de données. Vous pouvez créer vos propres procédures stockées pour étendre les fonctionnalités et utiliser plus facilement les données retournées par des requêtes de prédiction et des requêtes de contenu.

    Définition de procédures stockées

    Les procédures stockées suivantes sont prises en charge pour être utilisées dans les validations croisées.

    Procédures stockées d'exploration de données (Analysis Services - Exploration de données)

    En outre, Analysis Services contient de nombreuses procédures stockées système qui sont utilisées en interne pour l'exploration de données. Bien que les procédures stockées système sont réservées à un usage interne, elles peuvent s'avérer d'utiles raccourcis. Microsoft se réserve le droit de modifier ces procédures stockées si nécessaire ; par conséquent, dans un environnement de production, nous vous recommandons de créer des requêtes avec DMX, AMO, ou XMLA.

  • Algorithmes de plug-in personnalisés
    Analysis Services fournit un mécanisme pour créer vos propres algorithmes, puis ajouter les algorithmes sous forme de nouveau service d'exploration de données à l'instance de serveur.

    Analysis Services utilise ces interfaces COM pour communiquer avec les algorithmes de plug-in. Pour en savoir plus sur la manière d'implémenter de nouveaux algorithmes, consultez Algorithmes de plug-in.

    Vous devez inscrire chaque nouveau algorithme avant de pouvoir l'utiliser. Pour inscrire un algorithme, ajoutez les métadonnées requises pour les algorithmes dans le fichier .ini de l'instance d'Analysis Services. Vous devez ajouter les informations à chaque instance dans laquelle vous envisagez d'utiliser le nouvel algorithme. Après avoir ajouté l'algorithme, vous pouvez redémarrer l'instance, puis utilisez l'ensemble de lignes de schéma MINING_SERVICES pour afficher le nouvel algorithme, y compris les options et les fournisseurs que l'algorithme prend en charge.

Retour au début

Voir aussi

Référence

Guide de référence du langage DMX (Data Mining Extensions)

Concepts

Traitement des objets de modèles multidimensionnels