Статья
04/01/2012

Упрощенный алгоритм Байеса (Майкрософт)

Упрощенный алгоритм Байеса (Майкрософт) является алгоритмом классификации, предоставляемым службами Microsoft SQL Server Службы Analysis Services для использования в прогнозирующем моделировании. Название «упрощенный алгоритм Байеса» следует из того факта, что алгоритм использует теорему Байеса, но не учитывает зависимости, которые могут существовать, и поэтому считается упрощенным.

Данный алгоритм требует меньшего количества вычислений, чем другие алгоритмы Microsoft, и является полезным для быстрого формирования моделей интеллектуального анализа для обнаружения отношений между входными и прогнозируемыми столбцами. Этот алгоритм можно использовать для первоначального исследования данных, а затем применять результаты для создания дополнительных моделей интеллектуального анализа с другими алгоритмами, требующими большего количества вычислений и являющимися более точными.

Пример

В рамках постоянной стратегии продвижения отдел маркетинга компании Adventure Works Cycle решил разослать листовки потенциальным клиентам. Чтобы снизить себестоимость, было принято решение рассылать листовки только тем клиентам, которые, вероятно, ответят. Компания хранит в базе данных демографические данные и сведения об ответах на предыдущие рассылки. Необходимо использовать эти данные для определения возможности применения таких демографических показателей, как возраст и место проживания, для прогнозирования ответа на рекламную кампанию путем сравнения потенциальных клиентов с клиентами, которые обладают подобными характеристиками и которые осуществляли покупки в компании в прошлом. Необходимо определить различия между теми клиентами, которые купили велосипед, и теми, которые не купили.

Используя упрощенный алгоритм Байеса Microsoft, отдел маркетинга может быстро спрогнозировать результат для конкретного профиля клиентов и определить, какие клиенты с наибольшей вероятностью ответят на листовки. Используя средство просмотра упрощенного алгоритма Байеса (Майкрософт) в среде Business Intelligence Development Studio, они могут визуально исследовать, какие конкретные входные столбцы способствуют положительному ответу на листовки.

Принцип работы алгоритма

Упрощенный алгоритм Байеса (Майкрософт) рассчитывает вероятность состояния каждого входного столбца при каждом возможном состоянии прогнозируемого столбца. Можно использовать средство просмотра упрощенного алгоритма Байеса (Майкрософт) в среде Business Intelligence Development Studio, чтобы просмотреть визуальное представление распределения алгоритмом состояния, как показано на следующем графике.

Упрощенное байесово распределение состояний

Средство просмотра упрощенного алгоритма Байеса (Майкрософт) содержит список всех входных столбцов в наборе данных и показывает, как распределены состояния каждого из столбцов при каждом состоянии прогнозируемого столбца. С помощью этого представления можно определить входные столбцы, которые важны для разграничения состояний прогнозируемого столбца. Например, если расстояние от дома до работы клиента (показано здесь в столбце «Commute Distance»), составляет от одной до двух миль, то клиент приобретет велосипед с вероятностью 0,387 и не приобретет с вероятностью 0,287. В данном примере алгоритм использует числовые данные, полученные из характеристик клиентов, например расстояния до работы, для прогнозирования того, купит ли клиент велосипед. Дополнительные сведения об использовании средства просмотра упрощенного алгоритма Байеса (Microsoft) см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра упрощенных алгоритмов Байеса (Майкрософт).

Данные, необходимые для моделей упрощенного алгоритма Байеса

При подготовке данных, предназначенных для использования в обучении модели упрощенного алгоритма Байеса, следует учитывать требования алгоритма, в том числе необходимый объем данных и способ их использования.

Далее приводятся требования для модели упрощенного алгоритма Байеса.

Единичный ключевой столбец Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Применение составных ключей не допускается.
Входные столбцы В модели упрощенного алгоритма Байеса все столбцы должны быть дискретными или дискретизированными. Дополнительные сведения о дискретизации столбцов см. в разделе Методы дискретизации (Интеллектуальный анализ данных). Для модели упрощенного алгоритма Байеса важно обеспечить независимость входных атрибутов друг от друга.
По крайней мере один прогнозируемый столбец Прогнозируемый атрибут должен содержать дискретные или дискретизированные значения. Значения прогнозируемого столбца можно рассматривать как входные данные, и часто так и поступают, чтобы выявить связи между столбцами.

Просмотр модели

Для просмотра модели используется средство просмотра упрощенного алгоритма Байеса (Майкрософт). Средство просмотра показывает, как входные атрибуты связаны с прогнозируемым атрибутом. Также приводится подробный профиль каждого кластера, список атрибутов, отличающих кластер от остальных, и характеристики всего набора данных для обучения. Дополнительные сведения см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра упрощенных алгоритмов Байеса (Майкрософт).

Чтобы получить более подробные сведения, модель можно просмотреть в средстве, описанном в разделе Средство просмотра деревьев содержимого общего вида (Майкрософт) (конструктор интеллектуального анализа данных). Дополнительные сведения о типе данных, хранимых в модели, см. в разделе Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных).

Составление прогнозов

После обучения модели результаты хранятся в виде набора закономерностей, которые можно исследовать или делать на их основе прогнозы.

Можно создавать запросы, возвращающие прогнозы о связи новых данных с прогнозируемым атрибутом, или получать статистику, описывающую взаимосвязи, обнаруженные моделью.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных). Примеры использования запросов с моделью упрощенного алгоритма Байеса см. в разделе Запрос модели упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных).

Примечания

Поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Не поддерживается создание измерений интеллектуального анализа данных.
Поддерживается использование моделей интеллектуального анализа OLAP.