Personnaliser les modèles et les structures d'exploration de données

 

S’applique à : SQL Server 2016

Après avoir sélectionné un algorithme qui répond aux besoins de votre entreprise, vous pouvez personnaliser le modèle d'exploration de données de plusieurs façons pour éventuellement améliorer les résultats.

  • Utilisez des colonnes de données différentes dans le modèle ou modifiez l'utilisation, le type de contenu ou la méthode de discrétisation pour les colonnes.

  • Créez des filtres sur le modèle d'exploration de données pour limiter les données utilisées dans l'apprentissage du modèle.

  • Modifiez l'algorithme utilisé pour analyser les données.

  • Définissez les paramètres d'algorithme pour contrôler les seuils, les fractionnements d'arborescence et d'autres conditions importantes.

Cette rubrique décrit ces options.

Les décisions que vous prenez concernant les colonnes de données à utiliser dans le modèle et la façon d'utiliser et de traiter ces données affectent considérablement les résultats de l'analyse. Les rubriques suivantes fournissent des informations vous permettant de comprendre ces choix.

Utilisation de la sélection des fonctionnalités

La plupart des algorithmes d'exploration de données dans Analysis Services utilise un processus appelé sélection des fonctionnalités pour sélectionner uniquement les attributs les plus utiles pour l'ajout à un modèle. Le fait de réduire le nombre de colonnes et d'attributs peut améliorer les performances et la qualité du modèle. Les méthodes de sélection de fonctionnalités qui sont disponibles diffèrent en fonction de l'algorithme que vous choisissez.

Sélection des fonctionnalités (exploration de données).

Modification de l'utilisation

Vous pouvez modifier les colonnes incluses dans un modèle d'exploration de données et la façon dont chaque colonne est utilisée. Si vous n'obtenez pas les résultats attendus, vous devez référencer les colonnes vous avez utilisées comme entrée et vous demander si les colonnes sont un choix adéquat et si vous pouvez faire quelque chose pour améliorer la gestion des données, notamment :

  • Identifier des variables catégorielles étiquetées par erreur en tant que nombres.

  • Ajouter des catégories pour réduire le nombre d'attributs et permettre de trouver des corrélations plus facilement.

  • Modifier la façon dont les nombres sont placés dans un conteneur ou discrétisés.

  • Supprimer des colonnes qui possèdent de nombreuses valeurs uniques ou qui sont des données de référence réelles inutiles pour l'analyse, telles qu'une adresse ou un deuxième prénom.

Il n'est pas nécessaire de supprimer physiquement les colonnes de la structure d'exploration de données ; vous pouvez simplement marquer la colonne comme Ignorer. La colonne est supprimée du modèle d'exploration de données, mais elle peut encore être utilisée par d'autres modèles d'exploration de données dans la structure, ou référencée dans une requête d'extraction.

Créer des alias pour des colonnes du modèle

Lorsque Analysis Services crée le modèle d'exploration de données, il utilise les mêmes noms de colonnes que ceux de la structure d'exploration de données. Vous pouvez ajouter un alias à toute colonne du modèle d'exploration de données. Cela peut simplifier la compréhension du contenu ou de l'utilisation des colonnes, ou permettre de raccourcir les noms afin de simplifier la création de requêtes. Les alias sont également utiles lorsque vous souhaitez créer une copie d'une colonne et lui donner un nom descriptif.

Vous pouvez créer un alias en modifiant la propriété Name de la colonne du modèle d'exploration de données. Analysis Services continue à utiliser le nom d'origine comme ID de la colonne et la nouvelle valeur que vous tapez pour Nom devient l'alias de colonne et apparaît dans la grille dans les parenthèses situées à côté de l'utilisation de colonne.

alias sur des colonnes du modèle d'exploration de données

Le graphique illustre des modèles connexes qui ont plusieurs copies d'une colonne de structure d'exploration de données, tous en rapport avec le Revenu. Chaque copie de la colonne de structure a été discrétisée d'une manière différente. Les modèles du diagramme utilisent chacun une colonne différente de la structure d’exploration de données ; toutefois, pour simplifier la comparaison des colonnes des différents modèles, la colonne dans chaque modèle a été renommée [Revenus].

Ajout de filtres

Vous pouvez ajouter un filtre à un modèle d'exploration de données. Un filtre est un ensemble de conditions WHERE qui restreignent les données dans les cas de modèles à un certain sous-ensemble. Le filtre est utilisé lors de la formation du modèle et peut éventuellement être utilisé lorsque vous testez le modèle ou créez des graphiques d'analyse de précision.

En ajoutant des filtres, vous pouvez réutiliser des structures d'exploration de données mais aussi créer des modèles basés sur des sous-ensembles de données très différents. vous pouvez aussi simplement utiliser des filtres pour éliminer certaines lignes et améliorer la qualité de l'analyse.

Pour plus d’informations, consultez Filtres pour les modèles d’exploration de données (Analysis Services - Exploration de données).

Bien que les nouveaux modèles ajoutés à une structure d'exploration de données partagent le même jeu de données, vous pouvez obtenir des résultats différents en utilisant un algorithme différent (si les données le prennent en charge), ou en modifiant les paramètres de l'algorithme. Vous pouvez également définir des indicateurs de modélisation.

Le choix de l'algorithme détermine le type de résultats que vous obtiendrez. Pour obtenir des informations générales sur le fonctionnement d’un algorithme spécifique, ou sur les scénarios professionnels où l’utilisation d’un algorithme particulier vous serait profitable, consultez Algorithmes d’exploration de données (Analysis Services – Exploration de données).

Consultez la rubrique de références techniques pour chaque algorithme pour obtenir une description des exigences et des restrictions, ainsi que des informations détaillées sur les personnalisations prises en charge par chaque algorithme.

Algorithme MDT (Microsoft Decision Trees)Algorithme MTS (Microsoft Time Series)
Algorithme de gestion de clusters MicrosoftAlgorithme MNN (Microsoft Neural Network)
Algorithme MNB (Microsoft Naive Bayes)Algorithme MLR (Microsoft Logistic Regression)
Algorithme Microsoft AssociationAlgorithme MLR (Microsoft Linear Regression)
Algorithme MSC (Microsoft Sequence Clustering)

Chaque algorithme prend en charge des paramètres que vous pouvez utiliser pour personnaliser le comportement de l'algorithme et optimiser les résultats de votre modèle. Pour obtenir une description de l'utilisation de chaque paramètre, consultez les rubriques suivantes :

La rubrique relative à chaque type d'algorithme répertorie également les fonctions de prédiction qui peuvent être utilisées avec les modèles basés sur cet algorithme.

Nom de la propriétéS'applique à
AUTO_DETECT_PERIODICITYRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
CLUSTER_COUNTRéférences techniques relatives à l'algorithme de gestion de clusters Microsoft

 Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
CLUSTER_SEEDRéférences techniques relatives à l'algorithme de gestion de clusters Microsoft
CLUSTERING_METHODRéférences techniques relatives à l'algorithme de gestion de clusters Microsoft
COMPLEXITY_PENALTYRéférences techniques relatives à l'algorithme MDT (Microsoft Decision Trees)

 Références techniques relatives à l'algorithme MTS (Microsoft Time Series)
FORCE_REGRESSORRéférences techniques relatives à l'algorithme MDT (Microsoft Decision Trees)

 Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression)

 Indicateurs de modélisation (exploration de données)
FORECAST_METHODRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
HIDDEN_NODE_RATIOMicrosoft Neural Network Algorithm Technical Reference
HISTORIC_MODEL_COUNTRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
HISTORICAL_MODEL_GAPRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
HOLDOUT_PERCENTAGERéférences techniques relatives à l'algorithme MLR (Microsoft Logistic Regression)

 Microsoft Neural Network Algorithm Technical Reference

Remarque : ce paramètre est différent de la valeur du pourcentage de données d’exclusion qui s’applique à une structure d’exploration de données.
HOLDOUT_SEEDRéférences techniques relatives à l'algorithme MLR (Microsoft Logistic Regression)

 Microsoft Neural Network Algorithm Technical Reference

Remarque : ce paramètre est différent de la valeur de départ de données d’exclusion qui s’applique à une structure d’exploration de données.
INSTABILITY_SENSITIVITYRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
MAXIMUM_INPUT_ATTRIBUTESRéférences techniques relatives à l'algorithme de gestion de clusters Microsoft

 Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees)

 Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression)

 Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes)

 Microsoft Neural Network Algorithm Technical Reference

 Références techniques relatives à l'algorithme MLR (Microsoft Logistic Regression)
MAXIMUM_ITEMSET_COUNTRéférences techniques relatives à l'algorithme Microsoft Association
MAXIMUM_ITEMSET_SIZERéférences techniques relatives à l'algorithme Microsoft Association
MAXIMUM_OUTPUT_ATTRIBUTESRéférences techniques relatives à l'algorithme MDT (Microsoft Decision Trees)

 Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression)

 Références techniques relatives à l'algorithme MLR (Microsoft Logistic Regression)

 Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes)

 Microsoft Neural Network Algorithm Technical Reference
MAXIMUM_SEQUENCE_STATESRéférences techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
MAXIMUM_SERIES_VALUERéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
MAXIMUM_STATESRéférences techniques relatives à l'algorithme de gestion de clusters Microsoft

 Microsoft Neural Network Algorithm Technical Reference

 Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
MAXIMUM_SUPPORTRéférences techniques relatives à l'algorithme Microsoft Association
MINIMUM_IMPORTANCERéférences techniques relatives à l'algorithme Microsoft Association
MINIMUM_ITEMSET_SIZERéférences techniques relatives à l'algorithme Microsoft Association
MINIMUM_DEPENDENCY_PROBABILITYRéférences techniques relatives à l'algorithme MNB (Microsoft Naive Bayes)
MINIMUM_PROBABILITYRéférences techniques relatives à l'algorithme Microsoft Association
MINIMUM_SERIES_VALUERéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
MINIMUM_SUPPORTRéférences techniques relatives à l'algorithme Microsoft Association

 Références techniques relatives à l'algorithme de gestion de clusters Microsoft

 Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees)

 Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)

 Références techniques relatives à l'algorithme MTS (Microsoft Time Series)
MISSING_VALUE_SUBSTITUTIONRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
MODELLING_CARDINALITYRéférences techniques relatives à l'algorithme de gestion de clusters Microsoft
PERIODICITY_HINTRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
PREDICTION_SMOOTHINGRéférences techniques relatives à l'algorithme MTS (Microsoft Time Series)
SAMPLE_SIZERéférences techniques relatives à l'algorithme de gestion de clusters Microsoft

 Références techniques relatives à l'algorithme MLR (Microsoft Logistic Regression)

 Microsoft Neural Network Algorithm Technical Reference
SCORE_METHODRéférences techniques relatives à l'algorithme MDT (Microsoft Decision Trees)
SPLIT_METHODRéférences techniques relatives à l'algorithme MDT (Microsoft Decision Trees)
STOPPING_TOLERANCERéférences techniques relatives à l'algorithme de gestion de clusters Microsoft

Algorithmes d’exploration de données (Analysis Services – Exploration de données)
Architecture physique (Analysis Services - Exploration de données)

Ajouts de la communauté

AJOUTER
Afficher: