Статья
04/01/2012

Алгоритм логистической регрессии (Майкрософт)

Алгоритм логистической регрессии (Майкрософт) является вариантом алгоритма нейронной сети (Майкрософт). Логистическая регрессия является известным статистическим методом, применяемым для моделирования двоичных результатов типа «да-нет».

Алгоритм логистической регрессии весьма гибок, принимает входные данные любого рода и поддерживает несколько различных аналитических задач.

Использование демографических данных для составления прогнозов о результатах, например оценка риска некоторого заболевания.
Исследование и взвешивание факторов, влияющих на результат. Например, поиск факторов, побуждающих клиентов совершить повторное посещение магазина.
Классификация документов, электронной почты и других объектов, имеющих множество атрибутов.

Пример

Рассмотрим группу людей, имеющих сходные демографические данные и покупающих продукты в компании Adventure Works. Путем моделирования данных, связанных с определенным результатом, например приобретением выбранного продукта, можно увидеть, как демографические данные влияют на вероятность приобретения целевого продукта тем или иным клиентом.

Принцип работы алгоритма

Логистическая регрессия является известным статистическим методом для определения влияния нескольких факторов на логическую пару результатов. В реализации Майкрософт для моделирования связей между входными и выходными атрибутами применяется видоизмененная нейронная сеть. Измеряется вклад каждого входного атрибута, и в законченной модели различные входы снабжаются весовыми коэффициентами. Название «логистическая регрессия» отражает тот факт, что кривая данных сжимается путем применения логистического преобразования, чтобы снизить эффект экстремальных значений. Дополнительные сведения о реализации и способах доработки алгоритма см. в разделе Технический справочник по алгоритму логистической регрессии (Майкрософт).

Данные, необходимые для моделей логистической регрессии

При подготовке данных, предназначенных для использования в обучении модели логистической регрессии, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных и к методу их использования.

К модели логистической регрессии предъявляются следующие требования.

Единичный ключевой столбец Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Применение составных ключей не допускается.

Входные столбцы Каждая модель должна содержать по меньшей мере один входной столбец, содержащий значения, которые используются как коэффициенты в анализе. Количество входных столбцов не ограничено, но, в зависимости от количества значений в каждом столбце, добавление столбцов может привести к увеличению времени на обучение модели.

По крайней мере один прогнозируемый столбец Модель должна содержать по меньшей мере один прогнозируемый столбец любого типа данных, в том числе непрерывного числового типа данных. Значения в прогнозируемом столбце могут рассматриваться как входные данные модели, либо можно указать, что эти значения используются только для прогноза. Вложенные таблицы не допускаются для прогнозируемых столбцов, но могут использоваться в качестве входных данных.

Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями логистической регрессии, см. в подразделе «Требования» раздела Технический справочник по алгоритму логистической регрессии (Майкрософт).

Просмотр модели логистической регрессии

Для просмотра модели можно использовать средство просмотра нейронных сетей (Майкрософт) или средство просмотра деревьев содержимого общего вида (Майкрософт).

Когда модель просматривается с помощью средства просмотра нейронных сетей (Майкрософт), службы Analysis Services показывают факторы, влияющие на тот или иной результат, сортируя их в порядке важности. Можно выбрать атрибут и значения для сравнения. Дополнительные сведения см. в разделе Просмотр модели интеллектуального анализа при помощи средства просмотра нейронных сетей (Microsoft).

Чтобы получить более подробные сведения, можно просмотреть модель с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). Содержимое модели логистической регрессии включает граничный узел, где показаны все входные данные, используемые в модели, и подсети для прогнозируемых атрибутов. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей логистической регрессии (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели можно создавать запросы к содержимому модели, чтобы получить коэффициенты регрессии и другие данные, либо использовать модели для составления прогнозов.

Общие сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Примеры запросов к модели логистической регрессии см. в разделе Запрос модели кластеризации (службы Analysis Services — интеллектуальный анализ данных).

Примечания

Не поддерживается детализация. Это объясняется тем, что структура узлов в модели интеллектуального анализа данных не обязательно однозначно соответствует базовым данным.
Не поддерживается создание измерений интеллектуального анализа данных.
Поддерживается использование моделей интеллектуального анализа OLAP.
Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.