ClusterDistance (DMX)

La fonction ClusterDistance retourne la distance séparant le cas d'entrée du cluster spécifié ou, si aucun cluster n'est indiqué, la distance séparant le cas d'entrée du cluster le plus probable.

Syntaxe

ClusterDistance([<ClusterID expression>])

S'applique à

Cette fonction ne peut être utilisée que si le modèle d'exploration de données sous-jacent prend en charge le clustering. La fonction peut être utilisée avec n'importe quel type de modèle de clustering (EM, K-Means, etc.), mais les résultats diffèrent selon l'algorithme.

Type de retour

Valeur scalaire

Notes

La fonction ClusterDistance retourne la distance entre le cas d'entrée et le cluster qui a la probabilité la plus élevée pour celui-ci.

En cas de clustering K-Means, puisque les cas ne peuvent appartenir qu'à un seul cluster, avec un poids d'appartenance de 1, la distance de cluster est toujours 0. Toutefois, dans le cas de K-Means, chaque cluster est supposé avoir un centroïde. Vous pouvez obtenir la valeur du centroïde en interrogeant ou en parcourant la table imbriquée NODE_DISTRIBUTION dans le contenu du modèle d'exploration de données. Pour plus d'informations, consultez Contenu du modèle d'exploration de données pour les modèles de clustering (Analysis Services - Exploration de données).

Dans le cas de la méthode de clustering EM, tous les points à l'intérieur du cluster sont considérés comme ayant la même probabilité ; il n'ya donc pas, par définition, de centroïde pour le cluster par conception. La valeur de ClusterDistance entre un cas particulier et un cluster particulier N est calculée comme suit :

ClusterDistance(N) =1–(membershipWeight(N))

Ou :

ClusterDistance(N) =1–ClusterProbability (N))

Fonctions de prédiction connexes

Analysis Services fournit les fonctions supplémentaires suivantes permettant d'interroger des modèles de clustering :

  • Utilisez la fonction Cluster (DMX) pour retourner le cluster le plus probable.

  • Utilisez la fonction ClusterProbability (DMX) pour obtenir la probabilité qu'un cas appartienne à un cluster spécifique. Cette valeur est l'inverse de la distance de cluster.

  • Utilisez la fonction PredictHistogram (DMX) pour retourner un histogramme de la probabilité d'existence du cas d'entrée dans chacun des clusters du modèle.

  • Utilisez la fonction PredictCaseLikelihood (DMX) pour retourner une mesure comprise entre 0 et 1 qui indique la probabilité d'existence d'un cas d'entrée compte tenu du modèle appris par l'algorithme.

Exemple 1 : obtention de la distance de cluster au cluster le plus probable

L'exemple suivant retourne la distance séparant le cas spécifié du cluster auquel il est le plus susceptible d'appartenir.

SELECT
    ClusterDistance()
FROM
    [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Résultats de l'exemple :

Expression

0.0477390930705145

Pour déterminer de quel cluster il s'agit, vous pouvez substituer Cluster à ClusterDistance dans l'exemple précédent.

Résultats de l'exemple :

$CLUSTER

Cluster 6

Exemple 2 : obtention de la distance à un cluster spécifié

La syntaxe suivante utilise l'ensemble de lignes du schéma Content du modèle d'exploration de données pour retourner la liste des ID et légendes de nœud des clusters du modèle. Vous pouvez ensuite utiliser la légende du nœud comme argument identificateur de cluster dans la fonction ClusterDistance.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION 
FROM <model>.CONTENT 
WHERE NODE_TYPE = 5

Résultats de l'exemple :

NODE_UNIQUE_NAME

NODE_CAPTION

001

Cluster 1

002

Cluster 2

L'exemple de syntaxe suivant retourne la distance séparant le cas spécifié du cluster appelé Cluster 2.

SELECT
    ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Résultats de l'exemple :

Cluster 2 Distance

0.97008209236394