Artículo
03/30/2012

ClusterDistance (DMX)

La función ClusterDistance devuelve la distancia del caso de entrada con relación al clúster especificado o, si no hay especificado ninguno, la distancia del caso de entrada del clúster más probable.

Sintaxis

ClusterDistance([<ClusterID expression>])

Se aplica a

Esta función sólo se puede utilizar si el modelo de minería de datos subyacente admite la agrupación en clústeres. La función se puede utilizar con cualquier tipo de modelo de agrupación en clústeres (EM, mediana-K, etc.), pero los resultados difieren según el algoritmo.

Tipo devuelto

Valor escalar.

Comentarios

La función ClusterDistance devuelve la distancia entre el caso de entrada y el clúster que tiene la mayor probabilidad para ese caso de entrada.

En el caso de la agrupación en clústeres mediana-k, dado que cualquier caso puede pertenecer a un único clúster, con un peso de pertenencia de 1.0, la distancia del clúster siempre es 0. Sin embargo, se supone que con mediana-k, cada clúster tiene un centroide. Puede obtener el valor del centroide consultando o examinando la tabla anidada NODE_DISTRIBUTION en el contenido del modelo de minería de datos. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos).

En el caso del método de agrupación en clúster EM predeterminado, todos los puntos dentro del clúster se consideran igualmente probables; por consiguiente, por diseño no hay centroide para el clúster. El valor de ClusterDistance entre un caso en particular y un clúster N determinado se calcula de la forma siguiente:

ClusterDistance(N) =1–(membershipWeight(N))

O bien:

ClusterDistance(N) =1–ClusterProbability (N))

Funciones de predicción relacionadas

Analysis Services proporciona las funciones adicionales siguientes para consultar los modelos de agrupación en clúster:

Utilice la función Cluster (DMX) para devolver el clúster más probable.
Utilice la función ClusterProbability (DMX) para obtener la probabilidad de que un caso pertenezca a un clúster determinado. Este valor actúa como la inversa de la distancia del clúster.
Utilice la función PredictHistogram (DMX) para devolver un histograma de la probabilidad del caso de entrada que existe en cada uno de los clústeres del modelo.
Utilice la función PredictCaseLikelihood (DMX) para devolver una medida de 0 a 1 que indica la probabilidad de que exista un caso de entrada, considerando el modelo aprendido por el algoritmo.

Ejemplo 1: obtener la distancia de clúster para el clúster más probable

En el ejemplo siguiente se devuelve la distancia del caso especificado para el clúster al que es más probable que el caso pertenezca.

SELECT
    ClusterDistance()
FROM
    [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Resultados del ejemplo:

Expresión
0.0477390930705145

Para averiguar qué clúster es este, puede sustituir Cluster por ClusterDistance en el ejemplo anterior.

Resultados del ejemplo:

$CLUSTER
Cluster 6

Ejemplo 2: obtener la distancia a un clúster especificado

La siguiente sintaxis usa el conjunto de filas de esquema del contenido del modelo de minería de datos para devolver la lista de identificadores de nodo y títulos de nodo para los clústeres que existen en el modelo de minería de datos. A continuación, puede utilizar el título de nodo como el argumento de identificador de clúster en la función ClusterDistance.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION 
FROM <model>.CONTENT 
WHERE NODE_TYPE = 5

Resultados del ejemplo:

NODE_UNIQUE_NAME	NODE_CAPTION
001	Cluster 1
002	Cluster 2

El ejemplo de sintaxis siguiente devuelve la distancia del caso especificado desde el clúster con la etiqueta Cluster 2.

SELECT
    ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Resultados del ejemplo: