ClusterDistance (DMX)
S’applique à :SQL Server Analysis Services
La fonction ClusterDistance retourne la distance du cas d’entrée par rapport au cluster spécifié ou, si aucun cluster n’est spécifié, la distance du cas d’entrée par rapport au cluster le plus probable.
Syntaxe
ClusterDistance([<ClusterID expression>])
S'applique à
Cette fonction ne peut être utilisée que si le modèle d'exploration de données sous-jacent prend en charge le clustering. La fonction peut être utilisée avec n'importe quel type de modèle de clustering (EM, K-Means, etc.), mais les résultats diffèrent selon l'algorithme.
Type de retour
Valeur scalaire.
Notes
La fonction ClusterDistance retourne la distance entre le cas d’entrée et le cluster qui a la probabilité la plus élevée pour ce cas d’entrée.
En cas de clustering K-Means, puisque les cas ne peuvent appartenir qu'à un seul cluster, avec un poids d'appartenance de 1, la distance de cluster est toujours 0. Toutefois, dans le cas de K-Means, chaque cluster est supposé avoir un centroïde. Vous pouvez obtenir la valeur du centroïde en interrogeant ou en parcourant la table imbriquée NODE_DISTRIBUTION dans le contenu du modèle d'exploration de données. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering (Analysis Services - Exploration de données).
Dans le cas de la méthode de clustering EM, tous les points à l'intérieur du cluster sont considérés comme ayant la même probabilité ; il n'ya donc pas, par définition, de centroïde pour le cluster par conception. La valeur clusterDistance entre un cas particulier et un cluster N particulier est calculée comme suit :
ClusterDistance(N) =1-(membershipWeight(N))
Ou :
ClusterDistance(N) =1-ClusterProbability (N))
Fonctions de prédiction connexes
Analysis Services fournit les fonctions supplémentaires suivantes pour interroger les modèles clustering :
Utilisez la fonction Cluster (DMX) pour retourner le cluster le plus probable.
Utilisez la fonction ClusterProbability (DMX) pour obtenir la probabilité qu’un cas appartienne à un cluster particulier. Cette valeur est l'inverse de la distance de cluster.
Utilisez la fonction PredictHistogram (DMX) pour renvoyer un histogramme de la probabilité que le cas d’entrée existe dans chacun des clusters du modèle.
Utilisez la fonction PredictCaseLikelihood (DMX) pour renvoyer une mesure de 0 à 1 qui indique la probabilité d’existence d’un cas d’entrée compte tenu du modèle appris par l’algorithme.
Exemple 1 : obtention de la distance de cluster au cluster le plus probable
L'exemple suivant retourne la distance séparant le cas spécifié du cluster auquel il est le plus susceptible d'appartenir.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Résultats de l'exemple :
Expression |
---|
0.0477390930705145 |
Pour déterminer de quel cluster il s'agit, vous pouvez substituer Cluster
à ClusterDistance
dans l'exemple précédent.
Résultats de l'exemple :
$CLUSTER |
---|
Cluster 6 |
Exemple 2 : obtention de la distance à un cluster spécifié
La syntaxe suivante utilise l'ensemble de lignes du schéma Content du modèle d'exploration de données pour retourner la liste des ID et légendes de nœud des clusters du modèle. Vous pouvez ensuite utiliser le nœud légende comme argument d’identificateur de cluster dans la fonction ClusterDistance.
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
Résultats de l'exemple :
NODE_UNIQUE_NAME | NODE_CAPTION |
---|---|
001 | Cluster 1 |
002 | Cluster 2 |
L'exemple de syntaxe suivant retourne la distance séparant le cas spécifié du cluster appelé Cluster 2.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Résultats de l'exemple :
Cluster 2 Distance |
---|
0.97008209236394 |
Voir aussi
Cluster (DMX)
Fonctions DMX (Data Mining Extensions)
Fonctions (DMX)
Contenu du modèle d'exploration de données pour les modèles de clustering (Analysis Services - Exploration de données)
Commentaires
https://aka.ms/ContentUserFeedback.
Coming soon: Throughout 2024 we will be phasing out GitHub Issues as the feedback mechanism for content and replacing it with a new feedback system. For more information see:Envoyer et afficher des commentaires pour