Занятие 1. Создание структуры интеллектуального анализа данных для покупателя велосипеда

На этом занятии вы создадите структуры интеллектуального анализа данных, которая позволяет предсказать, купит ли потенциальный клиент Adventure Works Cycles велосипед. Если вы не знакомы со структурами интеллектуального анализа и их ролью в исследовании данных, см. раздел Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Структура интеллектуального анализа данных для покупателя велосипеда, которая будет создана на этом занятии, поддерживает добавление моделей интеллектуального анализа данных на основе Алгоритм кластеризации (Майкрософт)Алгоритм дерева принятия решений (Майкрософт). На следующих занятиях вы будете использовать кластерные модели интеллектуального анализа данных для исследования других способов группирования клиентов и будете использовать модели интеллектуального анализа данных дерева решений для предсказания, купит ли потенциальный клиент велосипед.

Инструкция CREATE MINING STRUCTURE

Чтобы создать структуру интеллектуального анализа данных используется инструкция CREATE MINING STRUCTURE (расширения интеллектуального анализа данных). Код инструкции можно разбить на следующие части:

  • Присвоение структуре имени.

  • Определение ключевого столбца.

  • Определение столбцов интеллектуального анализа данных.

  • Определение необязательного набора проверочных данных.

В следующем фрагменте показан общий пример инструкции CREATE MINING STRUCTURE:

CREATE MINING STRUCTURE [<mining structure name>]
(
    <key column>,
    <mining structure columns>
) 
WITH HOLDOUT (<holdout specifier>)

Первая строчка кода определяет имя структуры:

CREATE MINING STRUCTURE [<mining structure name>]

Дополнительные сведения о присвоении имен объектам в расширениях интеллектуального анализа данных см. в разделе Идентификаторы (расширения интеллектуального анализа данных).

Следующая строка кода определяет ключевой столбец структуры интеллектуального анализа данных, уникально определяющий сущность в исходных данных:

<key column>,

В созданной структуре интеллектуального анализа данных идентификатор клиента, CustomerKey, определяет некоторую сущность в исходных данных.

В следующей строке кода определяются столбцы интеллектуального анализа, используемые моделями интеллектуального анализа, связанными со структурой интеллектуального анализа:

<mining structure columns>

Можно воспользоваться функцией DESCRETIZE внутри <столбцов структуры интеллектуального анализа данных>, чтобы выполнить дискретизацию столбцов с непрерывными данными, используя следующий синтаксис:

DISCRETIZE(<method>,<number of buckets>)

Дополнительные сведения о дискретизации столбцов см. в разделе Методы дискретизации (Интеллектуальный анализ данных). Дополнительные сведения о типах столбцов структуры интеллектуального анализа данных, которые можно определить, см. в разделе Столбцы структуры интеллектуального анализа данных.

В последней строке кода определяется необязательная секция в структуре интеллектуального анализа данных:

WITH HOLDOUT (<holdout specifier>)

Можно определить некоторую часть данных как предназначенную для проверки моделей интеллектуального анализа данных, относящихся к этой структуре, после чего оставшиеся данные применяются для обучения моделей. По умолчанию службы Службы Analysis Services создают набор проверочных данных, который содержит 30 процентов всех данных варианта. Будет добавлена спецификация, согласно которой набор проверочных данных должен содержать 30 процентов вариантов, вплоть до максимального количества, равного 1000 вариант. Если 30 процентов вариантов меньше 1000, набор проверочных данных будет содержать это меньшее количество.

Задачи занятия

На этом занятии будут выполняться следующие задачи:

  • Создание нового пустого запроса.

  • Изменение запроса, чтобы создать структуру интеллектуального анализа данных.

  • Выполнение запроса.

Создание запроса

На первом этапе необходимо подключиться к экземпляру служб Службы Analysis Services и создать новый DMX-запрос в среде Среда SQL Server Management Studio.

Создание нового DMX-запроса в среде SQL Server Management Studio

  1. Откройте среду Среда SQL Server Management Studio.

  2. В диалоговом окне Соединение с сервером в списке Тип сервера выберите Службы Analysis Services. В поле Имя сервера введите LocalHost или введите имя экземпляра Службы Analysis Services, с которым нужно соединиться. Щелкните Соединить.

  3. В обозревателе объектов щелкните правой кнопкой мыши экземпляр служб Службы Analysis Services, укажите пункт Создать запрос и выберите пункт DMX, чтобы открыть диалоговое окно Редактор запросов и создать новый, пустой запрос.

Изменение запроса

Следующим шагом будет изменение инструкции CREATE MINING STRUCTURE, описанной выше, чтобы создать структуру интеллектуального анализа данных для покупателя велосипеда.

Настройка инструкции CREATE MINING STRUCTURE

  1. В редакторе запросов скопируйте общий пример инструкции CREATE MINING STRUCTURE в пустое окно запроса.

  2. Вместо:

    [<mining structure>] 
    

    вставьте:

    [Bike Buyer]
    
  3. Вместо:

    <key column> 
    

    вставьте:

    CustomerKey LONG KEY
    
  4. Вместо:

    <mining structure columns> 
    

    используйте

       [Age] LONG DISCRETIZED(Automatic,10),
       [Bike Buyer] LONG DISCRETE,
       [Commute Distance] TEXT DISCRETE,
       [Education] TEXT DISCRETE,
       [Gender] TEXT DISCRETE,
       [House Owner Flag] TEXT DISCRETE,
       [Marital Status] TEXT DISCRETE,
       [Number Cars Owned] LONG DISCRETE,
       [Number Children At Home] LONG DISCRETE,
       [Occupation] TEXT DISCRETE,
       [Region] TEXT DISCRETE,
       [Total Children]LONG DISCRETE,
       [Yearly Income] DOUBLE CONTINUOUS
    
  5. Вместо:

    WITH HOLDOUT (holdout specifier>)
    

    используйте

    WITH HOLDOUT (30 PERCENT or 1000 CASES)
    

    Полная инструкция создания структуры интеллектуального анализа данных должна выглядеть так:

    CREATE MINING STRUCTURE [Bike Buyer]
    (
       [Customer Key] LONG KEY,
       [Age]LONG DISCRETIZED(Automatic,10),
       [Bike Buyer] LONG DISCRETE,
       [Commute Distance] TEXT DISCRETE,
       [Education] TEXT DISCRETE,
       [Gender] TEXT DISCRETE,
       [House Owner Flag] TEXT DISCRETE,
       [Marital Status] TEXT DISCRETE,
       [Number Cars Owned]LONG DISCRETE,
       [Number Children At Home]LONG DISCRETE,
       [Occupation] TEXT DISCRETE,
       [Region] TEXT DISCRETE,
       [Total Children]LONG DISCRETE,
       [Yearly Income] DOUBLE CONTINUOUS
    )
    WITH HOLDOUT (30 PERCENT or 1000 CASES)
    
  6. В меню Файл выберите Сохранить DMXQuery1.dmx как.

  7. В диалоговом окне Сохранить как укажите расположение соответствующей папки и назовите файл Bike Buyer Structure.dmx.

Выполнение запроса

На последнем шаге нужно выполнить запрос. После создания и сохранения запроса его необходимо выполнить. Это означает, что должна быть запущена инструкция для создания на сервере структуры интеллектуального анализа. Дополнительные сведения о выполнении запросов в редакторе запросов см. в разделе Окно «Редактор запросов компонента Database Engine в среде SQL Server Management Studio».

Выполнение запроса

  • На панели инструментов в редакторе запросов щелкните Выполнить.

    Состояние запроса после завершения выполнения инструкции отображается на вкладке Сообщения в нижней части редактора запросов. Сообщение должно выглядеть следующим образом:

    Executing the query 
    Execution complete
    

    Новая структура с именем Bike Buyer теперь существует на сервере.

На следующем занятии вы добавите модели интеллектуального анализа данных в только что созданную структуру.