Статья
04/01/2012

ClusterDistance (расширения интеллектуального анализа данных)

Функция ClusterDistance возвращает расстояние входного варианта от указанного кластера, а если кластер не указан — расстояние входного варианта от наиболее вероятного кластера.

Синтаксис

ClusterDistance([<ClusterID expression>])

Область применения

Эту функцию можно использовать только в случае, если базовая модель интеллектуального анализа данных поддерживает кластеризацию. Эту функцию можно использовать с любой моделью кластеризации (максимизация ожиданий, K-среднее и т. д.), но полученные результаты будут зависеть от алгоритма.

Тип возвращаемых данных

Скалярное значение.

Замечания

Функция ClusterDistance возвращает расстояние между входным вариантом и кластером, имеющим для данного входного варианта наибольшую вероятность.

В случае кластеризации методом К-средних любой вариант может принадлежать только к одному кластеру с весом членства, равным 1,0, и расстоянием от кластера, всегда равным 0. Однако при использовании метода К-средних предполагается, что каждый кластер имеет центроид. Значение центроида можно получить, выполнив запрос или просмотрев вложенную таблицу NODE_DISTRIBUTION в содержимом модели интеллектуального анализа данных. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных).

Но если используется применяемый по умолчанию метод кластеризации, называемый методом максимизации ожидания (EM), все точки внутри кластера рассматриваются как равновероятные, так что центроид в кластере отсутствует. Значение расстояния ClusterDistance между конкретным вариантом и конкретным кластером N рассчитывается следующим образом:

ClusterDistance(N) =1–(membershipWeight(N))

или:

ClusterDistance(N) =1–ClusterProbability (N))

Связанные прогнозирующие функции

Службы Службы Analysis Services имеют следующие дополнительные функции для запросов к моделям кластеризации.

Для возврата наиболее подходящего кластера используется функция Cluster (расширения интеллектуального анализа данных).
Для определения вероятности того, что тот или иной вариант принадлежит к данному кластеру, используется функция ClusterProbability. Это значение является обратным для расстояния от кластера.
Функция PredictHistogram используется для возврата гистограммы вероятности того, что в каждом кластере модели существует входной вариант.
Функция PredictCaseLikelihood (расширения интеллектуального анализа данных) используется для возврата меры в диапазоне от 0 до 1, указывающей на вероятность того, что входной вариант существует, учитывая модель, обученную этим алгоритмом.

Пример 1. Вычисление расстояния до наиболее вероятного кластера

В следующем примере возвращается расстояние от указанного варианта до кластера, к которому вариант принадлежит с наибольшей вероятностью.

SELECT
    ClusterDistance()
FROM
    [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Образец результатов:

Expression
0.0477390930705145

Чтобы выяснить, какой это кластер, можно заменить в предыдущем образце функцию ClusterDistance на Cluster.

Образец результатов:

$CLUSTER
Cluster 6

Пример 2. Получение расстояния до указанного кластера

Следующий синтаксис использует набор строк схемы содержимого модели интеллектуального анализа данных для возврата списка идентификаторов узла и заголовков узла для кластеров в модели интеллектуального анализа. Далее заголовок узла можно использовать в качестве аргумента идентификатора кластера в функции ClusterDistance.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION 
FROM <model>.CONTENT 
WHERE NODE_TYPE = 5

Образец результатов:

NODE_UNIQUE_NAME	NODE_CAPTION
001	Cluster 1
002	Cluster 2

Следующая синтаксическая конструкция возвращает расстояние до указанного варианта от кластера, обозначенного как Cluster 2.

SELECT
    ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Образец результатов: