PredictCaseLikelihood (расширения интеллектуального анализа данных)

Эта функция возвращает правдоподобие того, что входной вариант попадет в существующую модель. Используется только с моделями кластеризации.

Синтаксис

PredictCaseLikelihood([NORMALIZED|NONNORMALIZED])

Аргументы

  • NORMALIZED
    Возвращаемое значение содержит отношение вероятности варианта в рамках модели к вероятности нахождения варианта вне модели.

  • NONNORMALIZED
    Возвращаемое значение содержит необработанное значение вероятности варианта, представляющее собой произведение вероятностей атрибутов варианта.

Область применения

Модели, строящиеся при помощи алгоритмов кластеризации (Microsoft) и кластеризации последовательностей (Microsoft).

Тип возвращаемых данных

Число с плавающей запятой двойной точности в диапазоне от 0 до 1. Число, более близкое к 1, обозначает большую вероятность вхождения варианта в модель; число, близкое к 0, обозначает меньшую вероятность вхождения варианта в модель.

Замечания

По умолчанию нормализуется результат функции PredictCaseLikelihood. Нормализованные значения, как правило, более эффективны, поскольку в варианте увеличивается число атрибутов и разница между необработанными вероятностями двух вариантов существенно уменьшается.

Следующее уравнение используется для вычисления нормализованных значений при заданных x и y:

  • x = вероятность варианта на основе модели кластеризации;

  • y = вероятность граничного варианта, вычисленная как логарифм правдоподобия варианта на основе подсчета количества обучающих вариантов.

  • Z = Exp( log(x) – Log(Y))

Нормализованная величина = (z/ (1+z))

Примеры

В следующем примере возвращается правдоподобие вхождения указанного варианта в модель кластеризации, основанную на базе данных Adventure Works DW.

SELECT
  PredictCaseLikelihood() AS Default_Likelihood,
  PredictCaseLikelihood(NORMALIZED) AS Normalized_Likelihood,
  PredictCaseLikelihood(NONNORMALIZED) AS Raw_Likelihood,
FROM
  [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
  '2-5 Miles' AS [Commute Distance],
  'Graduate Degree' AS [Education],
  0 AS [Number Cars Owned],
  0 AS [Number Children At Home]) AS t

Ожидаемый результат.

Default_Likelihood

Normalized_Likelihood

Raw_Likelihood

6.30672792729321E-08

6.30672792729321E-08

9.5824454056846E-48

Разница между результатами демонстрирует влияние нормализации. Необработанное значение CaseLikelihood предполагает вероятность варианта, равную 20 процентам, тогда как после нормализации результатов становится очевидно, что правдоподобие этого варианта очень мало.