Статья
04/01/2012

Алгоритм дерева принятия решений (Майкрософт)

Алгоритм дерева принятия решений (Майкрософт) представляет собой алгоритм регрессии и алгоритм классификации, предоставляемый службами Microsoft SQL Server Службы Analysis Services для использования в прогнозирующем моделировании как дискретных, так и непрерывных атрибутов.

Для дискретных атрибутов алгоритм осуществляет прогнозирования на основе связи между входными столбцами в наборе данных. Он использует значения этих столбцов (известные как состояния) для прогнозирования состояний столбца, который обозначается как прогнозируемый. Алгоритм идентифицирует входные столбцы, которые коррелированы с прогнозируемым столбцом. Например, в сценарии для прогнозирования того, какие заказчики, скорее всего, приобретут велосипед, если девять из десяти молодых заказчиков покупают велосипед, но только двое из более старших заказчиков делают это, то алгоритм заключает, что возраст является хорошим прогнозом приобретения велосипеда. Дерево решений осуществляет прогнозирование на основе этой тенденции в направлении конкретного результата.

Для непрерывных атрибутов алгоритм использует линейную регрессию для определения места разбиения дерева решений.

Если несколько столбцов установлены как прогнозируемые или если входные данные содержат вложенную таблицу, которая задана как прогнозируемая, то алгоритм строит отдельное дерево решений для каждого прогнозируемого столбца

Пример

Отделу маркетинга компании Adventure Works Cycles нужно идентифицировать характеристики предыдущих заказчиков, которые могут указывать на высокую вероятность приобретения этими заказчиками продукта в будущем. В базе данных База данных AdventureWorks2008R2 хранятся демографические данные, описывающие предыдущих заказчиков. Используя алгоритм дерева принятия решений (Майкрософт) для анализа этих данных, маркетинговый отдел может построить модель, которая прогнозирует, будет ли конкретный заказчик покупать продукты, на основании состояний известных столбцов, содержащих данные об этом заказчике, например демографические данные и сведения о покупках в прошлом.

Принцип работы алгоритма

Алгоритм дерева принятия решений (Майкрософт) строит модель интеллектуального анализа данных путем создания ряда разбиений в дереве. Эти разбиения представлены как узлы. Алгоритм добавляет узел к модели каждый раз, когда выясняется, что входной столбец имеет значительную корреляцию с прогнозируемым столбцом. Способ, которым алгоритм определяет разбиение, отличается в зависимости от того, прогнозирует ли он непрерывный столбец или дискретный столбец.

Алгоритм дерева принятия решений Майкрософт использует выбор компонентов для руководства набором наиболее полезных атрибутов. Выбор компонентов используется всеми алгоритмами интеллектуального анализа данных служб Службы Analysis Services для увеличения производительности и качества анализа. Выбор компонентов играет важную роль в предотвращении использования процессорного времени малозначительными атрибутами. Если при разработке модели интеллектуального анализа данных в нее было добавлено слишком много входных или прогнозируемых атрибутов, то ее обработка может занять очень много времени или даже привести к нехватке памяти. В методы, определяющие необходимость в разбиении дерева, входят стандартные для отраслей метрики для энтропии и Байесовых сетей. Дополнительные сведения о методах, используемых для выбора полезных атрибутов, а затем для создания рейтингов и для ранжирования атрибутов, см. в разделе Выбор характеристик в интеллектуальном анализе данных.

Одной из часто встречающихся проблем в моделях интеллектуального анализа данных является чрезмерная чувствительность к небольшим различиям в обучающих данных; в таких случаях модель называется чрезмерно оснащенной или чрезмерно обученной. Чрезмерно оснащенную модель нельзя свести к другим наборам данных. Во избежание чрезмерного оснащения определенного набора данных, в алгоритме дерева принятия решений (Майкрософт) используются методики контроля роста дерева. Более подробное описание работы алгоритма дерева принятия решений Майкрософт см. в разделе Технический справочник по алгоритму дерева принятия решений (Майкрософт).

Прогнозирование дискретных столбцов

Способ, которым алгоритм дерева принятия решений (Майкрософт) строит дерево для дискретного прогнозируемого столбца, можно продемонстрировать с использованием гистограммы. На следующей диаграмме показана гистограмма, на которой построен прогнозируемый столбец «Покупатели велосипедов» в сравнении с входным столбцом «Возраст». Гистограмма «Б» показывает, что возраст человека помогает определить, купит ли этот человек велосипед.

Гистограмма из алгоритма дерева принятия решений (Майкрософт)

Корреляция, показанная на диаграмме, приведет к тому, что алгоритм дерева принятия решений (Майкрософт) создаст новый узел в модели.

Узел дерева принятия решений

Добавление алгоритмом новых узлов к модели приводит к созданию древовидной структуры. Верхний узел дерева описывает разбиение прогнозируемого столбца для всех заказчиков. При продолжении роста модели алгоритм рассматривает все столбцы.

Прогнозирование непрерывных столбцов

Когда алгоритм дерева принятия решений (Майкрософт) строит дерево, основанное на непрерывном прогнозируемом столбце, каждый узел содержит регрессионную формулу. Разбиение осуществляется в точке нелинейности в этой регрессионной формуле. Например, рассмотрим следующую диаграмму.

Линии множественной регрессии, показывающие нелинейность

Диаграмма содержит данные, которые можно моделировать либо используя одиночную линию, либо используя две соединенные линии. Однако одиночная линия не обеспечит надлежащего представления данных. Вместо этого при использовании двух линий модель обеспечит гораздо более точное приближение данных. Точка соединения этих двух линий является точкой нелинейности и представляет собой точку, в которой разобьется узел в модели дерева решений. Например, узел, соответствующий точке нелинейности на предыдущем графике, может быть представлен следующей диаграммой. Эти два уравнения представляют регрессионные уравнения для этих двух линий.

Уравнение, представляющее точку нелинейности

Данные, необходимые для моделей дерева принятия решений

При подготовке данных для использования в модели дерева принятия решений необходимо понимать требования определенных алгоритмов (например, необходимое количество данных и метод использования данных).

Далее приводятся требования для моделей временных рядов.

Единственный столбец key столбец В каждой модели должен содержаться один числовой или текстовый столбец, уникально определяющий каждую запись. Составные ключи не допускаются.
Прогнозируемый столбец Необходимо наличие по крайней мере одного прогнозируемого столбца. В модель можно включить несколько прогнозируемых атрибутов; они могут иметь различные типы (числовые или дискретные). Однако с увеличением количества прогнозируемых атрибутов увеличивается и время обработки.
Входные столбцы Необходимо наличие входных столбцов, которые могут быть дискретными или непрерывными. Увеличение числа входных атрибутов влияет на время обработки.

Более подробные сведения о типах содержимого и о типах данных, поддерживаемых моделями дерева принятия решений, см. в разделе требований — Технический справочник по алгоритму дерева принятия решений (Майкрософт).

Просмотр модели дерева принятия решений

Чтобы исследовать модель, можно использовать средство просмотра деревьев (Майкрософт). Если в модели формируется несколько деревьев, то можно выделить одно из них, и средство просмотра отобразит разбиение категоризации вариантов для каждого прогнозируемого атрибута. Также можно осуществить просмотр взаимодействия между деревьями с помощью средства просмотра сети зависимостей. Дополнительные сведения см. в разделе Просмотр модели интеллектуального анализа данных с помощью средства просмотра деревьев (Майкрософт).

Если необходимо получить более подробные сведения о любой ветке или узле в дереве, то модель также можно просматривать с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). В модели хранится следующее содержимое: распространения для всех значений в каждом узле, вероятности на каждом уровне дерева и формулы регрессии для непрерывных атрибутов. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обработки модели результаты хранятся в виде набора закономерностей и статистики, которые можно использовать для исследования связей или для выполнения прогнозов.

Примеры запросов, применимых в модели дерева принятия решений, см. в разделе Запрос модели дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных).

Общие сведения о создании запросов к моделям интеллектуального анализа данных см. в разделе Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Замечания

Поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP и создание измерений интеллектуального анализа данных.