ClusterDistance (DMX)

S’applique à :SQL Server Analysis Services

La fonction ClusterDistance retourne la distance du cas d’entrée par rapport au cluster spécifié ou, si aucun cluster n’est spécifié, la distance du cas d’entrée par rapport au cluster le plus probable.

Syntaxe

  
ClusterDistance([<ClusterID expression>])  

S'applique à

Cette fonction ne peut être utilisée que si le modèle d'exploration de données sous-jacent prend en charge le clustering. La fonction peut être utilisée avec n'importe quel type de modèle de clustering (EM, K-Means, etc.), mais les résultats diffèrent selon l'algorithme.

Type de retour

Valeur scalaire.

Notes

La fonction ClusterDistance retourne la distance entre le cas d’entrée et le cluster qui a la probabilité la plus élevée pour ce cas d’entrée.

En cas de clustering K-Means, puisque les cas ne peuvent appartenir qu'à un seul cluster, avec un poids d'appartenance de 1, la distance de cluster est toujours 0. Toutefois, dans le cas de K-Means, chaque cluster est supposé avoir un centroïde. Vous pouvez obtenir la valeur du centroïde en interrogeant ou en parcourant la table imbriquée NODE_DISTRIBUTION dans le contenu du modèle d'exploration de données. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering (Analysis Services - Exploration de données).

Dans le cas de la méthode de clustering EM, tous les points à l'intérieur du cluster sont considérés comme ayant la même probabilité ; il n'ya donc pas, par définition, de centroïde pour le cluster par conception. La valeur clusterDistance entre un cas particulier et un cluster N particulier est calculée comme suit :

ClusterDistance(N) =1-(membershipWeight(N))

Ou :

ClusterDistance(N) =1-ClusterProbability (N))

Analysis Services fournit les fonctions supplémentaires suivantes pour interroger les modèles clustering :

  • Utilisez la fonction Cluster (DMX) pour retourner le cluster le plus probable.

  • Utilisez la fonction ClusterProbability (DMX) pour obtenir la probabilité qu’un cas appartienne à un cluster particulier. Cette valeur est l'inverse de la distance de cluster.

  • Utilisez la fonction PredictHistogram (DMX) pour renvoyer un histogramme de la probabilité que le cas d’entrée existe dans chacun des clusters du modèle.

  • Utilisez la fonction PredictCaseLikelihood (DMX) pour renvoyer une mesure de 0 à 1 qui indique la probabilité d’existence d’un cas d’entrée compte tenu du modèle appris par l’algorithme.

Exemple 1 : obtention de la distance de cluster au cluster le plus probable

L'exemple suivant retourne la distance séparant le cas spécifié du cluster auquel il est le plus susceptible d'appartenir.

SELECT  
    ClusterDistance()  
FROM  
    [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Résultats de l'exemple :

Expression
0.0477390930705145

Pour déterminer de quel cluster il s'agit, vous pouvez substituer Cluster à ClusterDistance dans l'exemple précédent.

Résultats de l'exemple :

$CLUSTER
Cluster 6

Exemple 2 : obtention de la distance à un cluster spécifié

La syntaxe suivante utilise l'ensemble de lignes du schéma Content du modèle d'exploration de données pour retourner la liste des ID et légendes de nœud des clusters du modèle. Vous pouvez ensuite utiliser le nœud légende comme argument d’identificateur de cluster dans la fonction ClusterDistance.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION   
FROM <model>.CONTENT   
WHERE NODE_TYPE = 5  

Résultats de l'exemple :

NODE_UNIQUE_NAME NODE_CAPTION
001 Cluster 1
002 Cluster 2

L'exemple de syntaxe suivant retourne la distance séparant le cas spécifié du cluster appelé Cluster 2.

SELECT  
    ClusterDistance('Cluster 2')  
AS [Cluster 2 Distance]  
FROM [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Résultats de l'exemple :

Cluster 2 Distance
0.97008209236394

Voir aussi

Cluster (DMX)
Fonctions DMX (Data Mining Extensions)
Fonctions (DMX)
Contenu du modèle d'exploration de données pour les modèles de clustering (Analysis Services - Exploration de données)