Основные понятия интеллектуального анализа данных

Интеллектуальный анализ данных часто описывается как процесс извлечения допустимых, достоверных данных и данных с быстрым доступом из крупных баз данных. Другими словами, интеллектуальный анализ извлекает шаблоны и тренды, существующие в данных. Такие шаблоны и тренды могут быть собраны воедино и определены как модель интеллектуального анализа данных. Модели интеллектуального анализа данных могут применяться к конкретным бизнес-сценариям, а именно:

  • прогнозирование продаж;
  • почтовая рассылка определенным клиентам;
  • определение продуктов, которые с высокой долей вероятности могут быть проданы вместе;
  • выявление последовательностей в том порядке, в котором клиенты добавляют продукты в корзину для покупок.

Важно понимать, что построение модели интеллектуального анализа данных является составной частью более масштабного процесса, который включает в себя все этапы, начиная с определения базовой проблемы, которую модель будет решать, до развертывания модели в рабочей среде. Данный процесс может быть задан при помощи следующих шести базовых шагов:

  1. Постановка задачи
  2. Подготовка данных
  3. Просмотр данных
  4. Построение моделей
  5. Исследование и проверка моделей
  6. Развертывание и обновление моделей

На следующей диаграмме представлены связи между всеми шагами процесса и технологии Microsoft SQL Server 2005, которые можно использовать для выполнения каждого шага.

Основные этапы процесса интеллектуального анализа данных

Хотя процесс, иллюстрируемый при помощи диаграммы, носит циклический характер, каждый шаг не обязательно ведет напрямую к следующему шагу. Создание модели интеллектуального анализа данных представляет собой динамический итеративный процесс. Выполнив обзор данных, пользователь может обнаружить, что существующих данных недостаточно для создания требуемых моделей интеллектуального анализа данных, что, соответственно, ведет к необходимости поиска дополнительных данных. Можно разработать несколько моделей и понять, что они не решают сформулированной задачи. Следовательно, требуется изменение характеристик задачи. Может возникнуть необходимость в обновлении уже развернутых моделей за счет новых поступивших данных. Таким образом, важно понимать, что создание модели интеллектуального анализа данных является процессом и что каждый шаг такого процесса может быть повторен столько раз, сколько необходимо для создания эффективной модели.

SQL Server 2005 представляет интегрированную среду для создания и работы с моделями интеллектуального анализа данных, известную как среда Business Intelligence Development Studio. Данная среда включает алгоритмы интеллектуального анализа данных и средства, облегчающие разработку исчерпывающего решения, применимого в рамках самых разных проектов. Дополнительные сведения об использовании среды BI Development Studio см. в разделе Разработка решений и проектов служб Analysis Services.

Дополнительные сведения о применении средств SQL Server в отношении бизнес-сценариев, перечисленных ранее в данном разделе, см. в разделе Учебник по интеллектуальному анализу данных.

Постановка задачи

Первым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является четкое определение бизнес-задачи.

Первый этап интеллектуального анализа данных: определение проблемы

Этот шаг включает анализ бизнес-требований, определение масштаба проблемы, метрик, по которым будет выполняться оценка модели, а также определение конечной цели проекта интеллектуального анализа данных. Эти задачи можно сформулировать в виде следующих вопросов:

  • Что необходимо найти?
  • Какой атрибут набора данных необходимо предсказать?
  • Какие типы связей необходимо найти?
  • Надо ли делать прогнозы на основании модели интеллектуального анализа данных или просто найти интересующие шаблоны и связи?
  • Каким образом распределяются данные?
  • Как связаны столбцы, а в случае с несколькими таблицами — как связаны таблицы?

Чтобы ответить на эти вопросы, возможно, потребуется исследовать уровень доступности данных, изучить потребности пользователей в отношении доступных данных. Если данные не поддерживают потребности пользователей, то может возникнуть необходимость в изменении определения проекта.

Подготовка данных

Вторым шагом процесса интеллектуального анализа данных, как видно из следующей диаграммы, является объединение и очистка данных, определенных во время шага Постановка задачи.

Второй этап интеллектуального анализа данных: подготовка данных

Службы Microsoft SQL Server 2005 Integration Services (SSIS) содержат все средства, необходимые для завершения данного шага, включая преобразования для очистки и объединения данных.

Данные могут находиться в разных частях компании и храниться в различных форматах или содержать такие ошибки согласования, как дефектные или отсутствующие записи. Например, согласно данным может оказаться, что клиент купил продукт еще до своего рождения или регулярно делает покупки в магазине, расположенном за 2000 километров от дома. Прежде чем перейти к разработке моделей, необходимо устранить эти несоответствия. Обычно пользователь работает с очень большим набором данных и не может просмотреть каждую транзакцию. Следовательно, для просмотра данных и выявления несогласованности в них необходимо использовать какой-либо вид автоматизации, например тот, который имеется в службах Integration Services.

Просмотр данных

Третьим шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является просмотр подготовленных данных.

Третий этап интеллектуального анализа данных: изучение данных

Для принятия правильных решений при создании моделей необходимо понимать данные. Методы исследования данных включают в себя расчет минимальных и максимальных значений, расчет средних и стандартных отклонений и изучение распределения данных. После исследования данных можно определить, содержит ли набор данных дефектные данные или нет, а затем разработать стратегию по устранению несоответствий.

Конструктор представлений источников данных в среде BI Development Studio содержит несколько средств, которые можно использовать для просмотра данных.

Построение моделей

Четвертым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является построение моделей интеллектуального анализа данных.

Четвертый этап интеллектуального анализа данных: построение моделей интеллектуального анализа данных

Прежде чем построить модель, необходимо случайным образом разделить подготовленные данные в отдельные наборы обучающих и контрольных данных. Набор обучающих данных используется для построения модели, а контрольный набор данных — для проверки точности модели путем создания прогнозирующих запросов. Чтобы разделить набор данных, можно использовать Преобразование «Процентная выборка» в службах Integration Services.

Знания, полученные при выполнении шага Просмотр данных, помогут определить и создать модель интеллектуального анализа данных. Обычно модель содержит входные столбцы, идентифицирующий столбец и прогнозируемый столбец. Данные столбцы можно затем определить в новой модели при помощи языка расширений интеллектуального анализа данных или мастера интеллектуального анализа данных в среде BI Development Studio. Дополнительные сведения об использовании языка расширений интеллектуального анализа данных см. в разделе Справочник по расширениям интеллектуального анализа данных. Дополнительные сведения об использовании мастера интеллектуального анализа данных см. в разделе Мастер интеллектуального анализа данных.

После определения структуры модели интеллектуального анализа данных выполняется ее обработка и наполнение пустой структуры шаблонами, описывающими модель. Данный процесс известен как обучение модели. Шаблоны выявляются путем применения в отношении исходных данных математического алгоритма. SQL Server 2005 содержит отдельный алгоритм для каждого типа модели, доступной для построения. Для настройки каждого алгоритма можно использовать параметры.

Модель интеллектуального анализа данных определяется объектом структуры интеллектуального анализа данных, объектом модели интеллектуального анализа данных и алгоритмом интеллектуального анализа данных.

Дополнительные сведения см. в разделах Структуры интеллектуального анализа данных (службы Analysis Services), Алгоритмы интеллектуального анализа данных

Службы Microsoft SQL Server 2005 Analysis Services (SSAS) содержат следующие алгоритмы:

Исследование и проверка моделей

Пятым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является исследование построенных моделей и проверка их эффективности.

Пятый этап интеллектуального анализа данных: проверка моделей интеллектуального анализа данных

Прежде чем развернуть модель в рабочей среде, необходимо проверить эффективность работы модели. Кроме того, возможно, было создано несколько моделей, и необходимо выяснить, какая из них наиболее эффективна. Если ни одна из моделей, созданных при выполнении шага Построение моделей, не обладает нужной эффективностью, может возникнуть необходимость вернуться к предыдущему шагу процесса и либо изменить постановку задачи, либо выполнить повторное изучение данных в исходном наборе данных.

Тренды и шаблоны, обнаруживаемые алгоритмами, можно исследовать при помощи средств просмотра в конструкторе интеллектуального анализа данных в среде BI Development Studio. Точность прогнозов, создаваемых моделями, можно проверить при помощи таких средств конструктора, как диаграмма точности предсказаний и матрица классификации. Для этих средств требуются контрольные данные, выделенные из исходного набора данных во время выполнения шага построения модели.

Дополнительные сведения см. в разделах Просмотр модели интеллектуального анализа данных, Проверка моделей интеллектуального анализа данных, Диаграмма точности предсказаний, Матрица классификации

Развертывание и обновление моделей

Последним шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является развертывание в рабочей среде наиболее эффективных моделей.

Шестой этап интеллектуального анализа данных: развертывание моделей интеллектуального анализа данных

После развертывания в рабочей среде моделей интеллектуального анализа данных можно выполнять множество различных задач, соответствующих потребностям пользователя. Ниже перечислены некоторые задачи, доступные для выполнения:

  • Используйте модели для создания прогнозов, которые затем могут быть использованы для принятия бизнес-решений. SQL Server предоставляет язык расширений интеллектуального анализа данных, который можно использовать для создания прогнозирующих запросов, и построитель прогнозирующих запросов для помощи в построении запросов.
  • Внедрение функций интеллектуального анализа данных непосредственно в приложение. Можно включать объекты AMO или сборку, содержащую набор объектов, которые выбранное приложение может использовать для создания, изменения, обработки и удаления структур и моделей интеллектуального анализа данных. Или же можно отправлять XML для аналитики (XMLA) напрямую в экземпляр служб Analysis Services.
  • Используйте службы Integration Services для создания пакета, в котором модель интеллектуального анализа данных используется для интеллектуального распределения входящих данных по разным таблицам. Например, при постоянном обновлении базы данных за счет включения потенциальных клиентов модель интеллектуального анализа данных может использоваться совместно со службами Integration Services для разделения входящих данных на клиентов, которые с высокой долей вероятности купят продукт, и клиентов, которые с высокой долей вероятности не купят продукт.
  • Создайте отчет, который позволяет пользователям формировать прямой запрос в соответствии с текущей моделью интеллектуального анализа данных.

Обновление модели является составной частью стратегии развертывания. По мере получения организацией все большего объема данных возникает необходимость повторной обработки моделей с целью улучшения их эффективности.

Дополнительные сведения см. в разделах Обработка средствами служб Analysis Services, Создание прогнозирующих запросов расширений интеллектуального анализа данных, Справочник по расширениям интеллектуального анализа данных, Analysis Services Administration Programming (SSAS)

См. также

Основные понятия

Работа с интеллектуальным анализом данных
Использование средств интеллектуального анализа данных

Другие ресурсы

Основные понятия служб Analysis Services

Справка и поддержка

Получение помощи по SQL Server 2005