CREATE MINING STRUCTURE (расширения интеллектуального анализа данных)

Область применения: SQL Server Analysis Services

Создает в базе данных новую структуру интеллектуального анализа данных и при необходимости определяет обучающую и проверочную секции. После создания структуры интеллектуального анализа данных можно использовать инструкцию ALTER MINING STRUCTURE (DMX) для добавления моделей в структуру интеллектуального анализа данных.

Синтаксис

  
CREATE [SESSION] MINING STRUCTURE <structure>  
(  
    [(<column definition list>)]  
)  
[WITH HOLDOUT (<holdout-specifier> [OR <holdout-specifier>])]  
[REPEATABLE(<holdout seed>)]  
<holdout-specifier>::=  <holdout-maxpercent> PERCENT | <holdout-maxcases> CASES  

Аргументы

Структура
Уникальное имя структуры.

Список определений столбцов
Список определений столбцов с разделителями-запятыми.

holdout-maxpercent
Целое число от 1 до 100, которое показывает процентную долю данных, выделяемых для проверки.

удержание—maxcases
Целое число, показывающее максимальное число вариантов, используемых для проверки.

Если указанное максимальное число вариантов больше числа входных вариантов, для проверки будут использованы все варианты и отобразится соответствующее предупреждение.

Заметка

Если указаны как процентная доля, так и максимальное число вариантов, применяется меньшее из ограничений.

Начальное значение удержания
Целое число, которое используется как начальное значение при начале секционирования данных.

Если оно равно 0, в качестве начального значения используется хэш идентификатора структуры интеллектуального анализа данных.

Заметка

Чтобы гарантировать возможность повторного создания секции, необходимо указать начальное значение.

По умолчанию: REPEATABLE(0)

Замечания

Пользователь определяет структуру интеллектуального анализа данных, указывая список столбцов, при необходимости задавая иерархические связи между столбцами, а также при необходимости выполняя секционирование структуры интеллектуального анализа данных на обучающий и проверочный наборы данных.

Необязательное ключевое слово SESSION показывает, что структура является временной и ее можно использовать только в течение текущего сеанса. После завершения сеанса структура и любые модели на ее основе удаляются. Чтобы создать временные структуры и модели интеллектуального анализа данных, необходимо сначала задать свойство базы данных AllowSessionMiningModels. Дополнительные сведения см. в статье Data Mining Properties.

Список определений столбца

Определить структуру интеллектуального анализа данных можно путем включения в список определений каждого столбца следующих сведений.

  • имя (обязательно);

  • Тип данных (обязательно)

  • Распределение

  • Список флагов моделирования

  • Тип содержимого (обязательно)

  • Связь со столбцом атрибутов (обязательна, только если применима), определяемая предложением RELATED TO

Чтобы определить один столбец, используйте следующий синтаксис для списка определений столбца.

<column name>    <data type>    [<Distribution>]    [<Modeling Flags>]    <Content Type>    [<column relationship>]  

Чтобы определить столбец вложенной таблицы, используйте следующий синтаксис для списка определений столбца:

<column name>    TABLE    ( <column definition list> )  

Сведения о типах данных, типах содержимого, распределениях столбцов и флагах моделирования, используемых для определения столбца структуры, приведены в следующих разделах.

Для столбца можно определить несколько значений флагов модели. Однако каждому столбцу может соответствовать только один тип содержимого и тип данных.

Связи столбцов

К любому определению столбца можно добавить предложение, описывающее связь между двумя столбцами. Службы Analysis Services поддерживают использование следующего <предложения связи> столбцов.

СВЯЗАННЫЕ С
Показывает иерархию значений. Назначением столбца RELATED TO может быть ключевой столбец вложенной таблицы, столбец с дискретными значениями из строки вариантов или какой-либо другой столбец с предложением RELATED TO, указывающим на более глубокий уровень иерархии.

Контрольные параметры

Если указываются контрольные параметры, создается секция данных структуры. Указанный объем контрольных данных резервируется для проверки, а оставшиеся данные используются для обучения. По умолчанию при создании структуры интеллектуального анализа данных с помощью SQL Server Data Tools (SSDT) создается раздел удержания, содержащий 30 процентов данных тестирования и 70 процентов обучающих данных. Дополнительные сведения см. в статье Training and Testing Data Sets.

При создании структуры интеллектуального анализа данных с помощью расширений интеллектуального анализа данных необходимо вручную указать на необходимость создания контрольной секции.

Заметка

Инструкция ALTER MINING STRUCTURE не поддерживает удержание.

Можно указать до трех контрольных параметров. Если указано как максимальное число контрольных вариантов, так и процентное соотношение контрольных данных, процент вариантов будет резервироваться до тех пор, пока не будет достигнуто максимальное число вариантов. Вы указываете процент удержания в виде целого числа, за которым следует ключевое слово PERCENT, и укажите максимальное число случаев в виде целого числа, за которым следует ключевое слово CASES. Условия можно сочетать в любом порядке, как показано в следующих примерах:

WITH HOLDOUT (20 PERCENT)   
WITH HOLDOUT (2000 CASES)   
WITH HOLDOUT (20 PERCENT OR 2000 CASES)   
WITH HOLDOUT (2000 CASES OR 20 PERCENT)  

Начальное контрольное значение управляет начальной точкой процесса, который в случайном порядке связывает варианты либо с обучающим набором, либо с набором проверочных данных. Указание начального контрольного значения обеспечивает возможность воспроизвести секцию. Если не указать начальное значение удержания, службы Analysis Services использует имя структуры интеллектуального анализа данных для создания начального значения. Если структура будет переименована, начальное значение также изменится. Параметр начального контрольного значения можно использовать вместе с одним или обоими другими контрольными параметрами.

Заметка

Так как данные секции кэшируются с данными обучения, чтобы использовать удержание, необходимо убедиться, что для свойства CacheMode структуры интеллектуального анализа данных задано значение KeepTrainingData. Это параметр по умолчанию в службах Analysis Services для новых структур интеллектуального анализа данных. Изменение свойства CacheMode на ClearTrainingCases в существующей структуре интеллектуального анализа данных, содержащей секцию удержания, не повлияет на модели интеллектуального анализа данных, которые были обработаны. Однако если MiningStructureCacheMode не задано значение KeepTrainingData, параметры удержания не будут влиять. Это означает, что все исходные данные будут использованы для обучения, а проверочный набор будет недоступен. Определение секции кэшируется в структуре. Если очистить кэш обучающих вариантов, также будет удален кэш проверочных данных и определение контрольного набора.

Примеры

В следующих примерах показано создание структуры интеллектуального анализа данных с контрольными данными с помощью расширений интеллектуального анализа данных.

Пример 1. Добавление структуры без набора обучения

В следующем примере создается структура интеллектуального анализа данных с именем New Mailing, при этом не создаются связанные с ней модели интеллектуального анализа данных или контрольные данные. Сведения о добавлении модели интеллектуального анализа данных в структуру см. в разделе ALTER MINING STRUCTURE (DMX).

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)  

Пример 2. Указание процента удержания и начального значения

Приведенное ниже предложение можно добавлять после списка определений столбцов, чтобы оно определяло набор данных, который можно использовать для проверки всех моделей интеллектуального анализа данных в рамках структуры интеллектуального анализа данных. Следующая инструкция создает проверочный набор, состоящий из 25 % общего числа входных вариантов, без ограничения максимального числа вариантов. В качестве начального значения при создании секции используется число 5 000. После указания начального значения эти же варианты будут выбираться для тестового набора каждый раз при обработке структуры интеллектуального анализа данных (при условии, что базовые данные не изменятся).

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)   
WITH HOLDOUT(25 PERCENT) REPEATABLE(5000)  

Пример 3. Указание процента удержания и максимального числа случаев

Следующее предложение создает проверочный набор, состоящий из 25% общего числа входных вариантов либо из 2000 вариантов — в зависимости от того, что меньше. Поскольку в качестве начального значения указан 0, начальное значение (для начала выборки из входных вариантов) создается на основе имени структуры интеллектуального анализа данных.

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)   
WITH HOLDOUT(25 PERCENT OR 2000 CASES) REPEATABLE(0)  

См. также

Инструкции определения данных расширений интеллектуального анализа данных (DMX)
Инструкции по обработке данных расширения интеллектуального анализа данных (DMX)
Справочник по расширениям интеллектуального анализа данных (DMX)