Учебник по расширениям интеллектуального анализа данных «Покупатель велосипеда»

Статья
12/15/2008

Изменения: 15 сентября 2007 г.

С помощью данного учебника вы научитесь создавать, обучать и исследовать модели интеллектуального анализа данных при помощи языка запросов расширений интеллектуального анализа данных (DMX). Затем создаются прогнозы на основе моделей интеллектуального анализа данных, которые позволяют определить, купит ли заказчик велосипед.

Модели интеллектуального анализа данных будут созданы на основе данных, содержащихся в образце базы данных AdventureWorksDW, в которой содержатся данные вымышленной компании Adventure Works Cycles. Компания Adventure Works Cycles является большой транснациональной производственной организацией. Компания изготавливает и продает велосипеды из металла и композитных материалов в Северной Америке, а также на европейском и азиатском рынках. Хотя основное производство расположено в городе Ботель, штат Вашингтон, и имеет 290 служащих, существует несколько региональных групп продаж, расположенных на территории международных рынков сбыта. Дополнительные сведения об образце базы данных AdventureWorksDW см. в разделе Образец хранилища данных AdventureWorks.

Сценарий учебника

Компания Adventure Works Cycles расширила анализ данных путем создания приложения, которое использует возможности интеллектуального анализа данных. Целью этого пользовательского приложения является обеспечение следующих возможностей.

В качестве входных данных принять особые характеристики потенциального заказчика и предсказать, купит ли этот заказчик велосипед.
В качестве входных данных принять список потенциальных заказчиков, а также их характеристики, и предсказать, купит ли кто-нибудь из заказчиков велосипед.

В первом случае данные о заказчике предоставляются на регистрационной странице заказчика, а во втором случае список заказчиков предоставляется отделом маркетинга компании Adventure Works Cycles.

Кроме того, маркетинговому отделу потребовалась возможность группировки существующих заказчиков по категориям на основе таких характеристик, как место жительства, количество детей, расстояние до работы. Возможно, эти группы могли бы помочь выявить особые категории заказчиков. Для этого потребуется дополнительная модель интеллектуального анализа данных.

Microsoft Службы Microsoft SQL Server 2005 Analysis Services (SSAS) предоставляют ряд средств, которые применяются для решения таких задач.

Язык DMX-запросов
Алгоритм дерева принятия решений (Майкрософт) и Алгоритм кластеризации (Microsoft)
Редактор запросов в среде SQL Server Management Studio.

Расширения интеллектуального анализа данных представляют собой язык запросов, предоставляемый службами Analysis Services и используемый для создания моделей интеллектуального анализа данных и работы с ними. Алгоритм дерева принятия решений Майкрософт создает модели, которые можно использовать, чтобы предсказать, купит ли кто-либо велосипед. Результирующая модель принимает в качестве входных данных отдельного заказчика или таблицу заказчиков. Алгоритм кластеризации Майкрософт может сформировать группы заказчиков на основе общих характеристик. Целью этого учебника является предоставление сценариев расширений интеллектуального анализа данных, которые используются в пользовательском приложении.

Дополнительные сведения см. в разделеРабота с интеллектуальным анализом данных

Структура и модели интеллектуального анализа данных

Перед созданием инструкций для расширения интеллектуального анализа данных важно понять, какие основные объекты служб Analysis Services используются для создания моделей интеллектуального анализа данных. Структура интеллектуального анализа — это структура данных, определяющая домен данных, на основе которого строятся модели интеллектуального анализа. Одна структура интеллектуального анализа может содержать несколько моделей интеллектуального анализа данных, совместно использующих один домен. Модель интеллектуального анализа данных применяет алгоритм интеллектуального анализа к данным, представленным структурой интеллектуального анализа данных.

Строительными блоками структуры интеллектуального анализа являются столбцы, которые описывают данные, содержащиеся в источнике данных. Эти столбцы содержат такие сведения, как тип данных, тип содержимого и способы распределения данных.

Модели интеллектуального анализа данных должны включать ключевой столбец, описанный в структуре интеллектуального анализа данных, а также набор оставшихся столбцов. Модель интеллектуального анализа данных определяет использование каждого столбца и определяет алгоритм, используемый для создания этой модели. Например, в расширении интеллектуального анализа данных можно указать столбец в качестве ключевого или столбца типа PREDICT. Если столбец не указан, он считается входным столбцом.

В расширении интеллектуального анализа данных существует два способа создания моделей интеллектуального анализа данных. Можно либо создать структуру интеллектуального анализа данных и связанную модель интеллектуального анализа данных вместе, используя инструкцию CREATE MINING MODEL, либо сначала создать структуру интеллектуального анализа данных, используя инструкцию CREATE MINING STRUCTURE, а затем добавить к структуре модель интеллектуального анализа данных, используя инструкцию ALTER STRUCTURE. Эти методы описаны ниже.

CREATE MINING MODEL
Эта инструкция используется для одновременного создания структуры интеллектуального анализа данных и связанной с ней модели интеллектуального анализа данных с одним и тем же именем. К имени модели интеллектуального анализа данных добавляется слово «Структура», чтобы отличить ее от структуры интеллектуального анализа данных. Эта инструкция полезна, если создается структура интеллектуального анализа данных, которая будет содержать только одну модель интеллектуального анализа данных.

Дополнительные сведения см. в разделе CREATE MINING MODEL (расширения интеллектуального анализа данных).

ALTER MINING STRUCTURE
Эта инструкция используется для добавления модели интеллектуального анализа данных к уже существующей на сервере структуре интеллектуального анализа данных. Эта инструкция полезна, если нужно создать структуру интеллектуального анализа данных, которая будет содержать несколько различных моделей интеллектуального анализа данных. Есть несколько причин, почему может понадобиться добавить несколько моделей интеллектуального анализа данных в структуру интеллектуального анализа данных. Например, можно создать несколько моделей интеллектуального анализа данных, которые используют разные алгоритмы, чтобы выяснить, какая модель лучше всего работает с конкретными данными. При помощи одного и того же алгоритма можно создать несколько различных моделей и установить для них различные настройки определенного параметра, чтобы выяснить, какое значение параметра является наилучшим.

Дополнительные сведения см. в разделе ALTER MINING STRUCTURE (расширения интеллектуального анализа данных).

В этом учебнике создается структура интеллектуального анализа данных, которая содержит несколько моделей, поэтому в учебнике используется второй метод.

Дополнительные сведения см. в следующих разделах.

Справочник по расширениям интеллектуального анализа данных, Основные сведения об инструкции SELECT (расширения интеллектуального анализа данных), Прогнозирующие запросы (расширения интеллектуального анализа данных)

Новые знания

Учебник содержит следующие занятия.

Занятие 1. Создание структуры интеллектуального анализа данных для покупателя велосипеда
На этом занятии вы научитесь использовать инструкцию CREATE для создания структур интеллектуального анализа данных.

Занятие 2. Добавление моделей интеллектуального анализа к структуре интеллектуального анализа «Покупатель велосипеда»
На этом занятии вы научитесь использовать инструкцию ALTER для добавления моделей интеллектуального анализа данных в структуру интеллектуального анализа данных.

Занятие 3. Обработка структуры интеллектуального анализа данных «Покупатель велосипеда»
На этом занятии вы научитесь использовать инструкцию INSERT INTO для обработки структур интеллектуального анализа данных и связанных с ними моделей интеллектуального анализа данных.

Занятие 4. Просмотр моделей интеллектуального анализа данных для покупателя велосипеда
На этом занятии рассматривается использование инструкции SELECT для изучения содержимого моделей интеллектуального анализа данных.

Занятие 5: Выполнение прогнозирующих запросов
На этом занятии вы научитесь использовать инструкцию PREDICTION JOIN для создания прогнозов по моделям интеллектуального анализа данных.

Требования

Перед тем как выполнять задания, убедитесь, что установлены следующие компоненты:

Microsoft SQL Server 2005
Microsoft SQL Server 2005 Analysis Services (SSAS)
База данных AdventureWorks, которая входит в состав SQL Server 2005. В целях повышения безопасности образцы баз данных по умолчанию не установлены. Дополнительные сведения об установке образцов баз данных см. в разделе Использование программы установки для установки образца базы данных AdventureWorks и других примеров.

Примечание.
При просмотре учебников рекомендуется добавить на панель инструментов средства просмотра документов кнопки Следующий раздел и Предыдущий раздел. Дополнительные сведения см. в разделе Добавление в справку кнопок «Далее» и «Назад».

При просмотре учебников рекомендуется добавить на панель инструментов средства просмотра документов кнопки Следующий раздел и Предыдущий раздел. Дополнительные сведения см. в разделе Добавление в справку кнопок «Далее» и «Назад».

См. также

Учебник по расширениям интеллектуального анализа данных «Покупатель велосипеда»

Сценарий учебника

Структура и модели интеллектуального анализа данных

Новые знания

Требования

См. также

Основные понятия

Другие ресурсы

Справка и поддержка

Дополнительные ресурсы