Настройка структуры и моделей интеллектуального анализа данных

Статья
07/30/2013

После выбора алгоритма в соответствии с задачами организации, можно выполнить индивидуальную настройку модели, что может повысить эффективность результатов. Настройка выполняется следующими способами.

Использование в модели других столбцов данных либо изменение режима использования, типа содержимого или метода дискретизации для столбцов.
Создание в модели интеллектуального анализа данных фильтров, ограничивающих данные, используемые в обучении модели.
Изменение алгоритма, используемого для анализа данных.
Задание параметров алгоритма, управляющих пороговыми значениями, разбиением деревьев и другими важными условиями.

Эти способы описаны в данном разделе.

Изменение данных, используемых моделью

На результаты анализа сильно влияют принимаемые решения о выборе столбцов данных для использования в модели, а также о способах их использования и обработки. В следующих разделах приводятся сведения, которые помогут принять такие решения.

Выбор компонентов

В большинстве алгоритмов интеллектуального анализа данных в службах Analysis Services используется процесс выбора компонентов, чтобы выбрать для добавления к модели только наиболее полезные атрибуты. Сокращение числа столбцов и атрибутов может повысить производительность и точность работы модели. Доступные методы выбора компонентов зависят от выбранного алгоритма.

Выбор компонентов (интеллектуальный анализ данных).

Изменение порядка использования

Можно изменить список столбцов, включаемых в модель интеллектуального анализа данных, и порядок использования каждого столбца. Если результаты не соответствуют ожиданиям, следует изучить столбцы, использованные в качестве входных данных, и оценить удачность выбора этих столбцов. Затем выясните, что можно сделать для улучшения обработки данных (любые из следующих операций).

Определение категориальных переменных, которые были ошибочно помечены как числа.
Добавление категорий для сокращения числа атрибутов и упрощения поиска корреляций.
Изменение порядка сегментирования или дискретизации чисел.
Удаление столбцов с большим числом уникальных значений или столбцов, содержащих эталонные данные (адреса, отчества и т. п.), бесполезные для анализа.

Столбцы не нужно физически удалять из структуры интеллектуального анализа данных. Можно просто установить для столбца значение Пропустить. Столбец будет удален из модели интеллектуального анализа данных, но при этом сохранится возможность использовать его в других моделях интеллектуального анализа данных из структуры и ссылаться на него в запросах детализации.

Создание псевдонимов для столбцов модели

Когда службы Analysis Services создают модель интеллектуального анализа данных, они используют те же имена столбцов, что существуют в структуре интеллектуального анализа данных. Для любого столбца из модели интеллектуального анализа данных можно добавить псевдоним. Это может упростить понимание содержимого столбца или его использования. Также можно сократить имя, чтобы было удобнее создавать запросы. Псевдонимы также удобны при создании копии столбца с заданием для нее описательного имени.

Псевдоним создается путем изменения свойства Name для столбца модели интеллектуального анализа данных. В службах Analysis Services продолжается использование исходного имени в качестве идентификатора столбца, а новое значение, введенное для свойства Имя, становится псевдонимом столбца. В сетке псевдоним отображается в круглых скобках рядом со столбцом.

псевдонимы для столбцов модели интеллектуального анализа данных

На диаграмме показаны связанные модели, в которых присутствуют несколько копий столбца структуры интеллектуального анализа данных, относящегося к прибыли. Каждая копия столбца структуры была дискретизирована различными способами. В моделях на диаграмме используются разные столбцы из структуры интеллектуального анализа данных, однако для удобства сравнения столбцов между моделями имя столбца в каждой модели было изменено на [Прибыль].

Добавление фильтров

К модели интеллектуального анализа данных можно также добавить фильтр. Фильтр — это набор условий WHERE, который ограничивает данные в вариантах моделей определенным подмножеством. Фильтр используется при обучении модели. Дополнительно он может использоваться при проверке модели или при создании диаграмм точности.

Добавляя фильтры, можно многократно использовать структуры интеллектуального анализа данных, создавая модели на основе совершенно различных подмножеств данных. Кроме того, с помощью фильтров можно просто исключать определенные строки, повышая качество анализа.

Дополнительные сведения см. в разделе Фильтры для моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Изменение алгоритма

Хотя новые модели, добавляемые в структуру интеллектуального анализа данных, используют один и тот же набор данных, можно получить другие результаты, используя другой алгоритм (если он поддерживается данными) или изменяя параметры алгоритма. Также можно задавать флаги модели.

Выбор алгоритма определяет тип получаемых результатов. Общие сведения о работе определенных алгоритмов и о бизнес-сценариях, в которых наиболее эффективно будет использоваться какой-либо алгоритм, см. в разделе Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Описание требований и ограничений, а также подробные сведения о возможностях настройки, поддерживаемых каждым алгоритмом, см. в разделах технического справочника, посвященных каждому алгоритму.

Алгоритм дерева принятия решений (Майкрософт)	Алгоритм временных рядов (Майкрософт)
Алгоритм кластеризации (Майкрософт)	Алгоритм нейронной сети (Майкрософт)
Упрощенный алгоритм Байеса (Майкрософт)	Алгоритм логистической регрессии (Майкрософт)
Алгоритм взаимосвязей (Майкрософт)	Алгоритм линейной регрессии (Майкрософт)
Алгоритм кластеризации последовательностей (Майкрософт)

Настройка параметров алгоритмов

Каждый алгоритм поддерживает параметры, которые используются для настройки его режима работы и точной фильтрации результатов модели. Описание использования каждого параметра см. в следующих разделах.

В разделе для каждого типа алгоритма также приведены прогнозирующие функции, которые можно использовать с моделями, основанными на данном алгоритме.

AUTO_DETECT_PERIODICITY

Технический справочник по алгоритму временных рядов (Майкрософт)

CLUSTER_COUNT

Технический справочник по алгоритму кластеризации (Майкрософт)

Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)

CLUSTER_SEED

Технический справочник по алгоритму кластеризации (Майкрософт)

CLUSTERING_METHOD

Технический справочник по алгоритму кластеризации (Майкрософт)

COMPLEXITY_PENALTY

Технический справочник по алгоритму дерева принятия решений (Майкрософт)

Технический справочник по алгоритму временных рядов (Майкрософт)

FORCE_REGRESSOR

Технический справочник по алгоритму дерева принятия решений (Майкрософт)

Технический справочник по алгоритму линейной регрессии (Майкрософт)

Флаги моделирования (интеллектуальный анализ данных)

FORECAST_METHOD

Технический справочник по алгоритму временных рядов (Майкрософт)

HIDDEN_NODE_RATIO

Технический справочник по алгоритму нейронной сети (Майкрософт)

HISTORIC_MODEL_COUNT

Технический справочник по алгоритму временных рядов (Майкрософт)

HISTORICAL_MODEL_GAP

Технический справочник по алгоритму временных рядов (Майкрософт)

HOLDOUT_PERCENTAGE

Технический справочник по алгоритму логистической регрессии (Майкрософт)

Технический справочник по алгоритму нейронной сети (Майкрософт)

Примечание
Этот параметр отличается от значения процентной доли контрольных данных, которое применяется к структуре интеллектуального анализа данных.

HOLDOUT_SEED

Технический справочник по алгоритму логистической регрессии (Майкрософт)

Технический справочник по алгоритму нейронной сети (Майкрософт)

Примечание
Этот параметр отличается от начального контрольного значения, которое применяется к структуре интеллектуального анализа данных.

INSTABILITY_SENSITIVITY

Технический справочник по алгоритму временных рядов (Майкрософт)

MAXIMUM_INPUT_ATTRIBUTES

Технический справочник по алгоритму кластеризации (Майкрософт)

Технический справочник по алгоритму дерева принятия решений (Майкрософт)

Технический справочник по алгоритму линейной регрессии (Майкрософт)

Технический справочник по упрощенному алгоритму Байеса (Майкрософт)

Технический справочник по алгоритму нейронной сети (Майкрософт)

Технический справочник по алгоритму логистической регрессии (Майкрософт)

MAXIMUM_ITEMSET_COUNT

Технический справочник по алгоритму взаимосвязей (Майкрософт)

MAXIMUM_ITEMSET_SIZE