Статья
04/01/2012

Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных)

В этом разделе описано содержимое модели интеллектуального анализа данных, характерное для моделей, в которых используется упрощенный алгоритм Байеса (Майкрософт). Объяснение способов интерпретации статистики и описание структуры, общей для всех типов моделей, а также общие определения терминов, связанных с содержимым моделей интеллектуального анализа данных, см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Основные сведения о структуре модели упрощенного алгоритма Байеса

Модель упрощенного алгоритма Байеса состоит из одного родительского узла, который представляет модель и ее метаданные, и нескольких независимых деревьев, расположенных под родительским узлом и представляющих выбранные прогнозируемые атрибуты. Помимо деревьев для атрибутов, каждая модель содержит один узел граничной статистики (NODE_TYPE = 26), в котором приведена описательная статистика по набору обучающих вариантов. Дополнительные сведения см. в разделе Данные в узле граничной статистики.

Для каждого прогнозируемого атрибута со значением модель формирует дерево, содержащее сведения, которые описывают, как различные входные столбцы влияют на результат по данному прогнозируемому значению. Каждое дерево содержит прогнозируемый атрибут и его значение (NODE_TYPE = 9), а затем ряд узлов, представляющих входные атрибуты (NODE_TYPE = 10). Поскольку входные атрибуты обычно имеют несколько значений, каждый входной атрибут (NODE_TYPE = 10) может иметь несколько дочерних узлов (NODE_TYPE = 11), каждый из которых соответствует определенному состоянию атрибута.

Примечание
Поскольку модель упрощенного алгоритма Байеса не поддерживает непрерывные типы данных, все значения входных столбцов считаются дискретными или дискретизированными. Можно задать способ дискретизации значения. Дополнительные сведения см. в разделе Как изменить дискретизацию столбца в модели интеллектуального анализа данных.

Поскольку модель упрощенного алгоритма Байеса не поддерживает непрерывные типы данных, все значения входных столбцов считаются дискретными или дискретизированными. Можно задать способ дискретизации значения. Дополнительные сведения см. в разделе Как изменить дискретизацию столбца в модели интеллектуального анализа данных.

структура содержимого для моделей упрощенного алгоритма Байеса

Содержимое модели упрощенного алгоритма Байеса

В этом разделе представлено подробное описание с примерами только для тех столбцов модели интеллектуального анализа данных, которые имеют отношение к моделям упрощенного алгоритма Байеса.

Сведения о столбцах общего назначения в наборе строк схемы, таких как MODEL_CATALOG и MODEL_NAME, которые здесь не описаны, а также объяснение терминологии моделей интеллектуального анализа данных, см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

MODEL_CATALOG
Имя базы данных, в которой хранится модель.
MODEL_NAME
Имя модели.
ATTRIBUTE_NAME
Имена атрибутов, соответствующих этому узлу.

Узел модели Имя прогнозируемого атрибута.

Граничная статистика Неприменимо

**Прогнозируемый атрибут**  Имя прогнозируемого атрибута.

**Входной атрибут**   Имя входного атрибута.

**Состояние входного атрибута**   Только имя входного атрибута. Чтобы получить состояние, используйте столбец MSOLAP_NODE_SHORT_CAPTION.

NODE_NAME
Имя узла.

Этот столбец содержит то же значение, что и NODE_UNIQUE_NAME.

Дополнительные сведения о правилах выбора имен для узлов см. в разделе Использование имен и идентификаторов узлов.
NODE_UNIQUE_NAME
Уникальное имя узла. Уникальные имена присваиваются в соответствии с правилом, по которому имя должно содержать сведения о связях между узлами. Дополнительные сведения о правилах выбора имен для узлов см. в разделе Использование имен и идентификаторов узлов.

NODE_TYPE
Выходными данными модели упрощенного алгоритма Байеса являются узлы следующих типов.

Идентификатор типа узла	Описание
26 (NaiveBayesMarginalStatNode)	Содержит статистику, описывающую весь набор обучающих вариантов для модели.
9 (прогнозируемый атрибут)	Содержит имя прогнозируемого атрибута.
10 (входной атрибут)	Содержит имя столбца входного атрибута и дочерние узлы, содержащие значения этого атрибута.
11 (состояние входного атрибута)	Содержит значения или дискретизированные значения всех входных атрибутов, связанных с заданным выходным атрибутом.

NODE_CAPTION
Метка или заголовок, связанный с узлом. Это свойство используется главным образом для отображения.

Корневой элемент модели Пусто

Граничная статистика Пусто

**Прогнозируемый атрибут**  Имя прогнозируемого атрибута.

**Входной атрибут**   Имя прогнозируемого атрибута и текущего входного атрибута. Например:

Bike Buyer -\> Age

**Состояние входного атрибута**   Имя прогнозируемого атрибута и текущего входного атрибута, а также значение входного атрибута. Например:

Bike Buyer -\> Age = Missing

CHILDREN_CARDINALITY
Количество имеющихся у узла потомков.

Корневой элемент модели Количество прогнозируемых атрибутов в модели плюс 1 для узла граничной статистики.

Граничная статистика По определению не имеет потомков.

Прогнозируемый атрибут Количество входных атрибутов, связанных с текущим прогнозируемым атрибутом.

**Входной атрибут**   Количество дискретных или дискретизированных значений для текущего входного атрибута.

**Состояние входного атрибута**   Значение всегда равно 0.

PARENT_UNIQUE_NAME
Уникальное имя родительского узла. Дополнительные сведения о связи между родительскими и дочерними узлами см. в разделе Использование имен и идентификаторов узлов.
NODE_DESCRIPTION
Значение совпадает с заголовком узла.
NODE_RULE
XML-представление заголовка узла.
MARGINAL_RULE
Значение совпадает с правилом узла.
NODE_PROBABILITY
Вероятность, связанная с этим узлом.

Корневой элемент модели Значение всегда равно 0.

Граничная статистика Значение всегда равно 0.

Прогнозируемый атрибут Значение всегда равно 1.

**Входной атрибут** Значение всегда равно 1.

**Состояние входного атрибута**   Десятичное число, представляющее вероятность текущего значения. Значения для всех состояний входного атрибута, имеющих входной атрибут общим родителем, в сумме составляют 1.

MARGINAL_PROBABILITY
Значение совпадает с вероятностью узла.
NODE_DISTRIBUTION
Таблица, содержащая гистограмму вероятности для узла. Дополнительные сведения см. в разделе Таблица NODE_DISTRIBUTION.
NODE_SUPPORT
Количество вариантов, входящих в несущее множество этого узла.

Корневой элемент модели Количество всех вариантов в обучающих данных.

Граничная статистика Значение всегда равно 0.

Прогнозируемый атрибут Количество всех вариантов в обучающих данных.

**Входной атрибут**   Количество всех вариантов в обучающих данных.

**Состояние входного атрибута**   Количество вариантов в обучающих данных, которые содержат только это выбранное значение.

MSOLAP_MODEL_COLUMN
Метка, используемая для отображения. Значение обычно совпадает с ATTRIBUTE_NAME.
MSOLAP_NODE_SCORE
Представляет важность атрибута или значения в модели.

Корневой элемент модели Значение всегда равно 0.

Граничная статистика Значение всегда равно 0.

Прогнозируемый атрибут Значение всегда равно 0.

**Входной атрибут**   Оценка интересности для текущего входного атрибута относительно текущего прогнозируемого атрибута.

**Состояние входного атрибута**   Значение всегда равно 0.

MSOLAP_NODE_SHORT_CAPTION
Текстовая строка, представляющая имя или значение столбца.

Корневой элемент модели Пусто

Граничная статистика Пусто

**Прогнозируемый атрибут**  Имя прогнозируемого атрибута.

**Входной атрибут**   Имя входного атрибута.

**Состояние входного атрибута**   Значение или дискретизированное значение входного атрибута.

Использование имен и идентификаторов узлов

Система именования узлов в модели упрощенного алгоритма Байеса передает дополнительные сведения о типе узла, что делает более наглядными связи между данными в модели. В следующей таблице показаны стандартные идентификаторы, назначаемые различным типам узлов.

Тип узла	Стандартный идентификатор узла
Корневой элемент модели (1)	Значение всегда равно 0.
Узел граничной статистики (26)	Произвольное значение идентификатора.
Прогнозируемый атрибут (9)	Шестнадцатеричное число, начинающееся с 10000000 Пример: 100000001, 10000000b
Входной атрибут (10)	Шестнадцатеричное число из двух частей, первая из которых всегда равна 20000000, а вторая начинается с шестнадцатеричного идентификатора связанного прогнозируемого атрибута. Пример: 20000000b00000000 В этом случае связанный прогнозируемый атрибут имеет идентификатор 10000000b.
Состояние входного атрибута (11)	Шестнадцатеричное число из трех частей, первая из которых всегда равна 30000000, вторая начинается с шестнадцатеричного идентификатора связанного прогнозируемого атрибута, а третья представляет идентификатор значения. Пример: 30000000b00000000200000000 В этом случае связанный прогнозируемый атрибут имеет идентификатор 10000000b.

С помощью идентификаторов можно связать входные атрибуты и состояния с прогнозируемым атрибутом. Например, следующий запрос возвращает имена и заголовки для узлов, которые представляют возможные сочетания входных и прогнозируемых атрибутов для модели TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

Ожидаемый результат:

NODE_NAME	NODE_CAPTION
20000000000000001	Bike Buyer -> Commute Distance
20000000000000002	Bike Buyer -> English Education
20000000000000003	Bike Buyer -> English Occupation
20000000000000009	Bike Buyer -> Marital Status
2000000000000000a	Bike Buyer -> Number Children At Home
2000000000000000b	Bike Buyer -> Region
2000000000000000c	Bike Buyer -> Total Children

Затем можно использовать идентификаторы родительских узлов, чтобы получить дочерние узлы. Следующий запрос возвращает узлы, содержащие значения для атрибута Marital Status, а также вероятность каждого узла.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'

Примечание
Имя столбца PARENT_UNIQUE_NAME необходимо заключить в квадратные скобки, чтобы отличить его от зарезервированного ключевого слова с тем же именем.

Ожидаемый результат:

NODE_NAME	NODE_CAPTION	NODE_PROBABILITY
3000000000000000900000000	Bike Buyer -> Marital Status = Missing	0
3000000000000000900000001	Bike Buyer -> Marital Status = S	0.457504004
3000000000000000900000002	Bike Buyer -> Marital Status = M	0.542495996

Таблица NODE_DISTRIBUTION

Столбец вложенной таблицы NODE_DISTRIBUTION обычно содержит статистику о распределении значений в узле. В модели упрощенного алгоритма Байеса эта таблица заполняется только для следующих узлов.

Тип узла	Содержимое вложенной таблицы
Корневой элемент модели (1)	Пусто.
Узел граничной статистики (24)	Содержит сводные данные по всем прогнозируемым атрибутам и входным атрибутам во всем наборе обучающих данных.
Прогнозируемый атрибут (9)	Пусто.
Входной атрибут (10)	Пусто.
Состояние входного атрибута (11)	Содержит статистику, описывающую распределение значений в обучающих данных для данного сочетания прогнозируемого значения и значения входного атрибута.

Идентификаторы или заголовки узлов можно использовать, чтобы получить увеличенный уровень детализации данных. Например, следующий запрос возвращает определенные столбцы из таблицы NODE_DISTRIBUTION только для тех узлов входных атрибутов, которые связаны со значением 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

Ожидаемый результат:

NODE_CAPTION	t.ATTRIBUTE_NAME	t.ATTRIBUTE_VALUE	t.SUPPORT	t.PROBABILITY	t.VALUETYPE
Bike Buyer -> Marital Status = S	Bike Buyer	Отсутствует	0	0	1
Bike Buyer -> Marital Status = S	Bike Buyer	0	3783	0.472934117	4
Bike Buyer -> Marital Status = S	Bike Buyer	1	4216	0.527065883	4

В этих результатах значение столбца SUPPORT сообщает число клиентов с указанным семейным положением, которые приобрели велосипед. Столбец PROBABILITY содержит вероятность каждого значения атрибута, рассчитанную только для этого узла. Общие определения терминов, используемых в таблице NODE_DISTRIBUTION, см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Данные в узле граничной статистики

В модели упрощенного алгоритма Байеса вложенная таблица для узла граничной статистики содержит распределение значений для всего набора обучающих данных. Например, в следующей таблице содержится частичный список статистических данных из вложенной таблицы NODE_DISTRIBUTION для модели TM_NaiveBayes.

ATTRIBUTE_NAME	ATTRIBUTE_VALUE	SUPPORT	PROBABILITY	VALUETYPE
Bike Buyer	Отсутствует	0	0	1
Bike Buyer	0	8869	0.507263784	4
Bike Buyer	1	8615	0.492736216	4
Marital Status	Отсутствует	0	0	1
Marital Status	S	7999	0.457504004	4
Marital Status	M	9485	0.542495996	4
Всего детей	Отсутствует	0	0	1
Всего детей	0	4865	0.278254404	4
Всего детей	3	2093	0.119709449	4
Всего детей	1	3406	0.19480668	4

В результат включен столбец Bike Buyer, поскольку узел граничной статистики всегда содержит описание прогнозируемого атрибута и его возможные значения. Все остальные упомянутые столбцы представляют входные атрибуты вместе со значениями, использованными в модели. Значения могут быть только отсутствующими, дискретными или дискретизированными.

В модели упрощенного алгоритма Байеса не могут присутствовать непрерывные атрибуты, и поэтому все числовые данные представляются как дискретные (VALUE_TYPE = 4) либо дискретизированные (VALUE_TYPE = 5).

Значение Missing (VALUE_TYPE = 1) добавляется к каждому входному и выходному атрибуту, представляя возможные значения, которые не присутствовали в обучающих данных. Важно различать строку «missing» и значение Missing по умолчанию. Дополнительные сведения см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).