Технический справочник по упрощенному алгоритму Байеса (Майкрософт)

Упрощенный алгоритм Байеса (Майкрософт) является алгоритмом классификации, предоставляемым службами Microsoft SQL Server Службы Analysis Services для использования в прогнозирующем моделировании. Этот алгоритм вычисляет условную вероятность между входными и прогнозируемыми столбцами и предполагает, что столбцы являются независимыми. Из-за этого предположения о независимости алгоритм и называется упрощенным алгоритмом Байеса.

Реализация упрощенного алгоритма Байеса (Майкрософт)

Данный алгоритм требует меньшего количества вычислений, чем другие алгоритмы Майкрософт, и является полезным для быстрого формирования моделей интеллектуального анализа данных для обнаружения отношений между входными и прогнозируемыми столбцами. Алгоритм учитывает все пары значений входного атрибута и выходного атрибута.

Описание математических свойств теоремы Байеса выходит за рамки данной документации; дополнительные сведения см. в статье Группы исследований Майкрософт под названием Обучаемые байесовские сети: Сочетание знаний и статистических данных.

Описание уточнения вероятностей во всех моделях для учета возможных отсутствующих величин см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).

Выбор характеристик

Упрощенный алгоритм Байеса (Майкрософт) проводит автоматический выбор характеристик для уменьшения количества значений, учитываемых при построении модели. Дополнительные сведения см. в разделе Выбор характеристик в интеллектуальном анализе данных.

Алгоритм

Метод анализа

Комментарии

Упрощенный алгоритм Байеса

Энтропия Шеннона

Алгоритм Байеса с априорной оценкой K2

Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию)

В упрощенном алгоритме Байеса допускается применение только дискретных или дискретизированных атрибутов, поэтому в нем не может использоваться оценка интересности.

Алгоритм разработан для минимизации времени обработки; он эффективно отбирает атрибуты с наибольшей важностью. Однако данные, используемые алгоритмом, можно контролировать, изменяя следующие параметры.

  • Для ограничения количества входных значений следует уменьшить параметр MAXIMUM_INPUT_ATTRIBUTES.

  • Для ограничения количества атрибутов, анализируемых моделью, следует уменьшить параметр MAXIMUM_OUTPUT_ATTRIBUTES.

  • Для ограничения количества значений, учитываемых для каждого атрибута, следует уменьшить параметр MINIMUM_STATES.

Настройка упрощенного алгоритма Байеса

Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на поведение, производительность и точность получающейся в результате модели интеллектуального анализа. Можно также изменять способ обработки данных в модели, устанавливая на столбцах флаги модели или устанавливая флаги на структуре интеллектуального анализа данных, чтобы задать способы обработки отсутствующих значений столбцов и значений, равных NULL.

Задание параметров алгоритма

Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на производительность и точность получающейся в результате модели интеллектуального анализа данных. В следующей таблице содержатся описания всех параметров.

  • MAXIMUM_INPUT_ATTRIBUTES
    Указывает максимальное количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора характеристик. Установка этого значения равным 0 отключает выбор характеристик для входных атрибутов.

    Значение по умолчанию равно 255.

  • MAXIMUM_OUTPUT_ATTRIBUTES
    Задает максимальное количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора характеристик. Установка этого значения равным 0 отключает выбор характеристик для выходных атрибутов.

    Значение по умолчанию равно 255.

  • MINIMUM_DEPENDENCY_PROBABILITY
    Задает минимальную вероятность зависимости между входными и выходными атрибутами. Это значение используется для ограничения размера содержимого, формируемого алгоритмом. Для этого свойства можно задать значение от 0 до 1. Чем больше значения, тем меньше количество атрибутов в содержимом модели.

    Значение по умолчанию равно 0,5.

  • MAXIMUM_STATES
    Указывает максимальное количество состояний атрибутов, поддерживаемое алгоритмом. Если количество состояний атрибутов превышает максимально возможное количество состояний, то алгоритм использует наиболее частые состояния атрибутов и считает остальные состояния отсутствующими.

    Значение по умолчанию равно 100.

Флаги моделирования

Алгоритм деревьев решений (Майкрософт) поддерживает следующие флаги модели. Чтобы задать порядок обработки в ходе анализа значений в каждом столбце, во время создания структуры или модели интеллектуального анализа данных определяются флаги модели. Дополнительные сведения см. в разделе Флаги моделирования (интеллектуальный анализ данных).

Флаг модели

Описание

MODEL_EXISTENCE_ONLY

Столбец будет обрабатываться так, как будто у него два возможных состояния: отсутствует и присутствует. NULL означает отсутствие значения.

Применяется к столбцу модели интеллектуального анализа данных.

NOT NULL

Указывает, что столбец не может принимать значение NULL. Если службы Analysis Services в ходе обучения модели обнаружат значение NULL, возникает ошибка.

Применяется к столбцу структуры интеллектуального анализа данных.

Требования

Древовидная модель упрощенного алгоритма Байеса должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Непрерывные атрибуты не допускаются; если в данных содержатся непрерывные числовые данные, они будут пропущены или дискретизированы.

Входные и прогнозируемые столбцы

Упрощенный алгоритм Байеса (Майкрософт) поддерживает определенные входные столбцы данных и прогнозируемые столбцы, которые перечислены ниже в таблице. Дополнительные сведения о значении типов содержимого в применении к модели интеллектуального анализа данных см. в разделе Типы содержимого (интеллектуальный анализ данных).

Столбец

Типы содержимого

Входной атрибут

Cyclical, Discrete, Discretized, Key, Table и Ordered

Прогнозируемый атрибут

Cyclical, Discrete, Discretized, Table и Ordered

ПримечаниеПримечание

Типы содержимого Cyclical и Ordered поддерживаются, но алгоритм обрабатывает их как дискретные величины и не производит их особой обработки.