Выбор характеристик в интеллектуальном анализе данных

Выбор характеристик является обязательным для любого продукта интеллектуального анализа данных. Причина в том, что при построении модели интеллектуального анализа данных, набор данных часто содержит больше информации, чем необходимо для построения модели. Например, в наборе данных может содержаться 500 столбцов, описывающих характеристики клиентов, но, возможно, только 50 из них используются для построения определенной модели. Если сохранить ненужные столбцы при построении модели, для ее обучения потребуется больше ресурсов ЦП и памяти, а для завершения модели – больше пространства хранения.

Даже при наличии больших ресурсов ненужные столбцы, как правило, удаляются, поскольку они могут снизить качество обнаруженных закономерностей по следующим причинам.

  • Некоторые столбцы содержат зашумленные или избыточные данные. Из-за наличия шума затрудняется задача обнаружения значимых шаблонов в данных.

  • Чтобы можно было обнаруживать более качественные шаблоны, для большинства алгоритмов интеллектуального анализа данных требуется намного более крупный набор данных для обучения на многомерном наборе данных. Но в некоторых приложениях интеллектуального анализа данных объем обучающих данных весьма мал.

Выбор характеристик помогает решить проблему наличия слишком большого количества данных, имеющих небольшую ценность, или наличия слишком малого количества данных, имеющих высокую ценность.

Выбор характеристик при интеллектуальном анализе данных служб Analysis Services

Обычно выбор характеристик работает методом вычисления оценки для каждого атрибута, после чего осуществляется выбор только тех атрибутов, которые имеют наилучшие оценки. Предусмотрена возможность корректировать пороговые значения для верхних оценок. Выбор характеристик всегда выполняется до обучения модели, чтобы автоматически выбрать те атрибуты в наборе данных, которые с наибольшей вероятностью могут быть использованы в модели.

Службы Службы Analysis Services предоставляют несколько методов для выбора характеристик. Точный метод для выбора атрибутов с наибольшей ценностью зависит от алгоритма, использованного в модели, и параметров, заданных для модели. Выбор характеристик применяется к входным данным, прогнозируемым атрибутам или состояниям в столбце. Только атрибуты и состояния, выбранные алгоритмом, включаются в процесс построения модели и могут использоваться для прогноза. Прогнозируемые столбцы, пропускаемые выбором характеристик, используются для прогнозирования, но прогнозы основываются только на глобальной статистике, представленной в модели.

ПримечаниеПримечание

Выбор характеристик затрагивает только те столбцы, которые используются в модели, и не влияет на хранилище структуры интеллектуального анализа данных. Столбцы, которые исключены из модели интеллектуального анализа данных, все еще остаются доступными в структуре, а данные в столбцах структуры интеллектуального анализа данных становятся кэшированными.

Определение методов выбора характеристик

Существует много способов реализации выбора характеристик, в зависимости от типа данных, с которыми приходится работать, и от алгоритма, выбранного для анализа. В составе служб SQL Server Analysis Services предусмотрено несколько популярных и широко известных методов оценки атрибутов. Метод, применяемый в любом алгоритме или наборе данных, зависит от типов данных и использования столбцов.

Для ранжирования и сортировки атрибутов в столбцах, которые содержат недвоичные непрерывные числовые данные, используется оценка интересность.

Для столбцов, содержащих дискретные и дискретизированные данные, можно выбрать оценки энтропии Шеннона и две оценки Байеса; однако если модель содержит непрерывные столбцы, то для определения применимости всех входных столбцов используется оценка интересности, гарантирующая согласованность.

В этом разделе приведено описание каждого метода выбора характеристик.

Оценка интересности

Характеристика представляет интерес, если она предоставляет полезный фрагмент информации. Поскольку определение того, какая информация является полезной, зависит от конкретного сценария, в индустрии интеллектуального анализа данных разработаны различные способы измерения интересности. Например, новизна может оказаться интересной при обнаружении выбросов, но способность различать между собой тесно связанные элементы или распознавать веса может оказаться в большей степени интересной для классификации.

Мера интересности, которая используется в службах SQL Server Analysis Services, основана на энтропии, а это означает, что атрибуты со случайными распределениями имеют более высокую энтропию и менее значительный прирост информации, поэтому являются менее интересными. Энтропия, относящаяся к любому конкретному атрибуту, сравнивается с энтропией всех других атрибутов следующим образом:

Интересность(Атрибут) = - (m - Энтропия(Атрибут)) * (m - Энтропия(Атрибут)).

Под главной энтропией, или m, подразумевается энтропия всего набора характеристик. Вычитая энтропию целевого атрибута из главной энтропии, можно оценить, сколько информации предоставляет атрибут.

Эта оценка используется по умолчанию каждый раз, когда столбец содержит недвоичные непрерывные числовые данные.

Энтропия Шеннона

Энтропия Шеннона используется для измерения неопределенности случайной переменной по отношению к конкретному результату. Например, энтропия броска монеты может быть представлена как функция вероятности выпадения орла.

В службах Analysis Services используется следующая формула для вычисления энтропии Шеннона:

H(X) = -∑ P(xi) log(P(xi))

Этот метод вычисления показателя доступен для дискретных и дискретизированных атрибутов.

Алгоритм Байеса с априорной оценкой K2

В службах Analysis Services предусмотрены две оценки выбора характеристик, которые основаны на байесовских сетях. Байесовская сеть представляет собой ориентированный или ациклический граф состояний и переходов между состояниями; это означает, что некоторые состояния всегда предшествуют текущему состоянию, некоторые состояния следуют за ним, а граф не повторяется и не содержит циклов. По определению, байесовские сети обеспечивают использование априорных знаний. Но остается вопрос о том, какие предыдущие состояния должны использоваться при вычислении вероятностей последующих состояний, который важен с точки зрения проектирования, производительности и точности алгоритма.

Купером и Херсковицем был разработан алгоритм K2 для обучения на основе байесовской сети, который часто используется в интеллектуальном анализе данных. Он является масштабируемым и позволяет анализировать многочисленные переменные, но требует упорядочения переменных, используемых в качестве входных. Дополнительные сведения см. в статье Чикеринга, Гейгера и Хекермана Обучаемые байесовские сети.

Этот метод вычисления показателя доступен для дискретных и дискретизированных атрибутов.

Эквивалент Дирихле метода Байеса с однородной априорной оценкой

В оценке с помощью эквивалента Дирихле метода Байеса (BDE) также используется байесовский анализ для оценки сети на основе заданного набора данных. Метод оценки BDE был разработан Хекерманом и основан на методе BD, разработанном Купером и Херсковицем. Распределение Дирихле представляет собой мультиноминальное распределение, которое описывает условную вероятность каждой переменной в сети и имеет много свойств, полезных для обучения.

В методе, представляющем собой эквивалент Дирихле метода Байеса с однородной априорной оценкой (BDEU), предполагается наличие частного случая распределения Дирихле, в котором используется математическая константа для создания постоянного или равномерного распределения априорных состояний. В оценке BDE предполагается также эквивалентность правдоподобия, а это означает, что не следует ожидать, будто применяемые данные позволят различать эквивалентные структуры. Иными словами, если оценка для выражения If A Then B является такой же, что и оценка для выражения If B Then A, то соответствующие структуры нельзя различить на основе применяемых данных, поэтому не может быть сделан вывод о причинной обусловленности.

Дополнительные сведения о байесовских сетях и о реализации указанных методов оценки см. в статье Обучаемые байесовские сети.

Методы выбора характеристик, используемые в алгоритмах служб Analysis Services

В следующей таблице перечислены алгоритмы, которые обеспечивают выбор характеристик, методы выбора характеристик, используемые в алгоритме, а также параметры, задаваемые в целях управления поведением при выборе характеристик.

Алгоритм

Метод анализа

Комментарии

Упрощенный алгоритм Байеса

Энтропия Шеннона

Алгоритм Байеса с априорной оценкой K2

Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию)

В упрощенном алгоритме Байеса (Майкрософт) допускается применение только дискретных или дискретизированных атрибутов, поэтому в нем не может использоваться оценка интересности.

Дополнительные сведения об этом алгоритме см. в разделе Технический справочник по упрощенному алгоритму Байеса (Майкрософт).

Дерево принятия решений

Оценка интересности

Энтропия Шеннона

Алгоритм Байеса с априорной оценкой K2

Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию)

Если какие-либо столбцы содержат недвоичные непрерывные значения, то оценка интересности используется для всех столбцов в целях обеспечения согласованности. В противном случае используется метод выбора характеристик по умолчанию или метод, указанный при создании модели.

Дополнительные сведения об этом алгоритме см. в разделе Технический справочник по алгоритму дерева принятия решений (Майкрософт).

Нейронная сеть

Оценка интересности

Энтропия Шеннона

Алгоритм Байеса с априорной оценкой K2

Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию)

В алгоритме нейронных сетей (Майкрософт) могут применяться оба метода при условии, что данные содержат непрерывные столбцы.

Дополнительные сведения об этом алгоритме см. в разделе Технический справочник по алгоритму нейронной сети (Майкрософт).

Логистическая регрессия

Оценка интересности

Энтропия Шеннона

Алгоритм Байеса с априорной оценкой K2

Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию)

Хотя алгоритм логистической регрессии (Майкрософт) основан на алгоритме нейронной сети (Майкрософт), нельзя настроить модели логистической регрессии для управления поведением при выборе характеристик; поэтому по умолчанию выбор характеристик всегда выполняется методом, наиболее подходящим для атрибута.

Если все атрибуты являются дискретными или дискретизированными, то по умолчанию используется эквивалент Дирихле метода Байеса с однородной априорной оценкой (BDEU).

Дополнительные сведения об этом алгоритме см. в разделе Технический справочник по алгоритму логистической регрессии (Майкрософт).

Кластеризация

Оценка интересности

Алгоритм кластеризации (Майкрософт) может использовать дискретные или дискретизированные данные. Но поскольку оценка каждого атрибута вычисляется как расстояние и представляется числом из непрерывного ряда чисел, должна использоваться оценка интересности.

Дополнительные сведения об этом алгоритме см. в разделе Технический справочник по алгоритму кластеризации (Майкрософт).

Линейная регрессия

Оценка интересности

В алгоритме линейной регрессии (Майкрософт) применяется только оценка интересности, поскольку этот алгоритм поддерживает лишь непрерывные столбцы.

Дополнительные сведения об этом алгоритме см. в разделе Технический справочник по алгоритму линейной регрессии (Майкрософт).

Правила взаимосвязей

Кластеризация последовательностей

Не используется

Выбор характеристик не запускается с этими алгоритмами.

Тем не менее, можно управлять поведением алгоритма и, при необходимости, уменьшить размер входных данных, задавая значения параметров MINIMUM_SUPPORT и MINIMUM_PROBABILIITY.

Дополнительные сведения см. в разделах Технический справочник по алгоритму взаимосвязей (Майкрософт) и Технический справочник по алгоритму кластеризации последовательностей (Майкрософт) (службы Analysis Services — интеллектуальный анализ данных).

Временной ряд

Не используется

Выбор характеристик не применяется к моделям временных рядов.

Дополнительные сведения об этом алгоритме см. в разделе Технический справочник по алгоритму временных рядов (Майкрософт).

Управление поведением при выборе характеристик

Алгоритмы, поддерживающие выбор характеристик, позволяют управлять активностью выбора характеристик с помощью следующих параметров. В каждом алгоритме имеется заданное по умолчанию значение допустимого количества входов, кроме того, предоставляется возможность переопределить это значение по умолчанию и указать количество атрибутов.

MAXIMUM_INPUT_ATTRIBUTES

Если в модели содержится больше столбцов, чем задано в параметре MAXIMUM_INPUT_ATTRIBUTES, то алгоритм будет пропускать любые столбцы, не представляющие интереса с точки зрения выполненных им вычислений.

MAXIMUM_OUTPUT_ATTRIBUTES

Аналогичным образом, если в модели содержится больше прогнозируемых столбцов, чем задано в параметре MAXIMUM_OUTPUT_ATTRIBUTES, то алгоритм будет пропускать любые столбцы, не представляющие интереса с точки зрения выполненных им вычислений.

MAXIMUM_STATES

Если в модели содержится больше объектов, чем задано в параметре MAXIMUM_STATES, то наименее популярные состояния будут сводиться в одну группу и считаться отсутствующими. Если значение любого из данных параметров равно 0, то выбор характеристик отключается, что влияет на время обработки и производительность.