CREATE MINING MODEL (расширения интеллектуального анализа данных)

Статья
12/15/2008

Позволяет создать в базе данных новую модель и структуру интеллектуального анализа данных. Модель можно создать либо путем определения новой модели в инструкции, либо с помощью языка разметки моделей прогнозов (Predictive Model Markup Language, PMML). Второй параметр рекомендуется использовать только опытным пользователям.

Имя структуры интеллектуального анализа данных формируется путем добавления строки "_structure" к имени модели, что гарантирует несовпадение имени структуры и модели.

Чтобы создать модель интеллектуального анализа данных для существующей структуры интеллектуального анализа данных, используется инструкция ALTER MINING STRUCTURE (расширения интеллектуального анализа данных).

Синтаксис

CREATE [SESSION] MINING MODEL <model>
(
    [(<column definition list>)]
)
USING <algorithm> [(<parameter list>)] [WITH DRILLTHROUGH]
CREATE MINING MODEL <model> FROM PMML <xml string>

Аргументы

model
Уникальное имя модели.

column definition list
Список определений столбцов с разделителями-запятыми.

algorithm
Имя поставщика интеллектуального анализа данных, определенное поставщиком.

parameter list
Необязательный. Список параметров, определенных поставщиком для алгоритма, с разделителями-запятыми.

XML string
(Для опытных пользователей.) Модель, закодированная на языке XML (PMML). Строка должна быть заключена в одиночные кавычки (').

Замечания

Предложение SESSION позволяет создать модель интеллектуального анализа данных, автоматически удаляемую с сервера при закрытии соединения или превышении времени ожидания для сеанса. Модели интеллектуального анализа данных сеансового типа (SESSION) полезны тем, что пользователю не требуется быть администратором базы данных, и место на диске используется только при открытом соединении.

Предложение WITH DRILLTHROUGH включает детализацию новой модели интеллектуального анализа данных. Включить детализацию можно только при создании модели.

Инструкция CREATE MINING MODEL позволяет создать новую модель интеллектуального анализа данных на основе списка определений столбцов, алгоритма и списка параметров алгоритма.

Список определений столбца

Структура модели, использующей список определений столбца, определяется путем включения следующих данных в каждый столбец:

Имя (обязательно)
Тип данных (обязательно)
Распространение
Список флагов моделирования
Тип содержимого (обязательно)
Запрос на прогнозирование, указывающий алгоритму на необходимость прогнозирования данного столбца и определяемый предложением PREDICT или PREDICT_ONLY.
Связь со столбцом атрибутов (обязательна, только если применима), определяемая предложением RELATED TO

Чтобы определить один столбец, используйте следующий синтаксис для списка определений столбцов:

<column name>    <data type>    [<Distribution>]    [<Modeling Flags>]    <Content Type>    [<prediction>]    [<column relationship>]

Чтобы определить столбец вложенной таблицы, используйте следующий синтаксис списка определений столбцов:

<column name>    TABLE    [<prediction>] ( <non-table column definition list> )

Для определения столбца можно использовать не более одного предложения каждого типа, за исключением флагов моделирования. Для любого столбца можно задать несколько флагов моделирования.

Список типов данных, типов содержимого, распределений столбцов и флагов моделирования, используемых при определении столбца, см. в следующих разделах.

К инструкции можно добавить предложение, описывающее связь между двумя столбцами. Службы Analysis Services поддерживают использование следующего предложения <column relationship>.

RELATED TO
Эта форма указывает на иерархию значений. Назначением столбца RELATED TO может быть ключевой столбец вложенной таблицы, столбец с дискретными значениями из строки вариантов или какой-либо другой столбец с предложением RELATED TO, указывающим на более глубокий уровень иерархии.

Для описания использования прогнозирующего столбца используйте прогнозирующее предложение. В следующей таблице приводится описание двух возможных предложений.

Предложение <prediction>	Описание
PREDICT	Этот столбец может быть спрогнозирован моделью и может включаться во входные варианты для прогноза значений других прогнозируемых столбцов.
PREDICT_ONLY	Данный столбец может быть спрогнозирован с помощью модели, однако его нельзя использовать во входных вариантах для вычисления значений других прогнозируемых столбцов.

Список определений параметров

Список параметров может использоваться для настройки производительности и функциональности модели интеллектуального анализа данных. Синтаксис списка параметров следующий:

[<parameter> = <value>, <parameter> = <value>,…]

Список параметров, связанных с каждым алгоритмом, см. в разделе Алгоритмы интеллектуального анализа данных.

Пример упрощенного алгоритма Байеса

В следующем примере для создания новой модели интеллектуального анализа данных используется упрощенный алгоритм Байеса Microsoft. Столбец Bike Buyer определяется как прогнозируемый атрибут.

CREATE MINING MODEL [NBSample]
(
    CustomerKey LONG KEY, 
    Gender TEXT DISCRETE,
    [Number Cars Owned] LONG DISCRETE,
    [Bike Buyer] LONG DISCRETE PREDICT
)
Using Microsoft_Naive_Bayes

Пример модели взаимосвязей

В следующем примере для создания новой модели интеллектуального анализа данных используется алгоритм взаимосвязей Microsoft. Преимуществом инструкции является возможность вложения таблицы внутри определения модели с помощью табличного столбца. Модель изменяется с помощью параметров Minimum_Probability и Minimum_Support.

CREATE MINING MODEL MyAssociationModel (
    OrderNumber TEXT KEY,
    [Products] TABLE PREDICT (
        [Model] TEXT KEY
    )
)
Using Microsoft_Association_Rules (Minimum_Probability = 0.1, Minimum_Support = 0.01)

Пример кластеризации последовательностей

В следующем примере для создания новой модели интеллектуального анализа данных используется алгоритм кластеризации последовательностей Microsoft. Чтобы определить модель, используются два ключа. Ключ Order Number задает отдельные заказы. Ключ Line Number задает последовательность добавления пунктов в заказ.

CREATE MINING MODEL BuyingSequence (
    [Order Number] TEXT KEY,
    [Products] TABLE (
        [Line Number] LONG KEY SEQUENCE,
        [Model] TEXT DISCRETE PREDICT
)
)
Using Microsoft_Sequence_Clustering

Пример алгоритма временных рядов

В следующем примере для создания новой модели интеллектуального анализа данных используется алгоритм временных рядов Microsoft. Так как модель временной последовательности может содержать несколько ключей, то и TimeIndex, и ModelRegion назначаются ключевыми столбцами. В этом примере предполагается периодичность данных в 12 месяцев, поэтому значение параметра PERIODICITY_HINT равно 12.

Примечание.
Параметр PERIODICITY_HINT должен быть указан с помощью фигурных скобок "{}".

CREATE MINING MODEL SalesForcast (
        TimeIndex LONG KEY TIME,
        ModelRegion TEXT KEY,
        Amount LONG CONTINUOUS PREDICT,
        Quantity LONG CONTINUOUS PREDICT
)
Using Microsoft_Time_Series (PERIODICITY_HINT = '{12}')

См. также

Справочник

Инструкции определения расширений интеллектуального анализа данных
Инструкции управления данными расширений интеллектуального анализа данных
Справка по инструкции расширений интеллектуального анализа данных

Справка и поддержка

Получение помощи по SQL Server 2005