Статья
04/01/2012

CREATE MINING STRUCTURE (расширения интеллектуального анализа данных)

Создает в базе данных новую структуру интеллектуального анализа данных и при необходимости определяет обучающую и проверочную секции. После создания структуры интеллектуального анализа данных можно добавлять в нее модели с помощью инструкции ALTER MINING STRUCTURE (расширения интеллектуального анализа данных).

Синтаксис

CREATE [SESSION] MINING STRUCTURE <structure>
(
    [(<column definition list>)]
)
[WITH HOLDOUT (<holdout-specifier> [OR <holdout-specifier>])]
[REPEATABLE(<holdout seed>)]
<holdout-specifier>::=  <holdout-maxpercent> PERCENT | <holdout-maxcases> CASES

Аргументы

structure
Уникальное имя структуры.
column definition list
Список определений столбцов с разделителями-запятыми.
holdout-maxpercent
Целое число от 1 до 100, которое показывает процентную долю данных, выделяемых для проверки.

holdout-maxcases
Целое число, показывающее максимальное число вариантов, используемых для проверки.

Если указанное максимальное число вариантов больше числа входных вариантов, для проверки будут использованы все варианты и отобразится соответствующее предупреждение.

Примечание
Если указаны как процентная доля, так и максимальное число вариантов, применяется меньшее из ограничений.

holdout seed
Целое число, которое используется как начальное значение при начале секционирования данных.

Если оно равно 0, в качестве начального значения используется хэш идентификатора структуры интеллектуального анализа данных.

Примечание
Чтобы гарантировать возможность повторного создания секции, необходимо указать начальное значение.

По умолчанию: REPEATABLE(0).

Замечания

Пользователь определяет структуру интеллектуального анализа данных, указывая список столбцов, при необходимости задавая иерархические связи между столбцами, а также при необходимости выполняя секционирование структуры интеллектуального анализа данных на обучающий и проверочный наборы данных.

Необязательное ключевое слово SESSION показывает, что структура является временной и ее можно использовать только в течение текущего сеанса. После завершения сеанса структура и любые модели на ее основе удаляются. Чтобы создать временные структуры и модели интеллектуального анализа данных, необходимо сначала задать свойство базы данных AllowSessionMiningModels. Дополнительные сведения см. в разделе Свойства интеллектуального анализа данных.

Список определений столбцов

Определить структуру интеллектуального анализа данных можно путем включения в список определений каждого столбца следующих сведений.

Имя (обязательно)
Тип данных (обязательно)
Распространение
Список флагов моделирования
Тип содержимого (обязательно)
Связь со столбцом атрибутов (обязательна, только если применима), определяемая предложением RELATED TO

Чтобы определить один столбец, используйте следующий синтаксис для списка определений столбца:

<column name>    <data type>    [<Distribution>]    [<Modeling Flags>]    <Content Type>    [<column relationship>]

Чтобы определить столбец вложенной таблицы, используйте следующий синтаксис для списка определений столбца:

<column name>    TABLE    ( <column definition list> )

Сведения о типах данных, типах содержимого, распределениях столбцов и флагах моделирования, используемых для определения столбца структуры, приведены в следующих разделах.

Для столбца можно определить несколько значений флагов модели. Однако каждому столбцу может соответствовать только один тип содержимого и тип данных.

Связи столбцов

К любому определению столбца можно добавить предложение, описывающее связь между двумя столбцами. Службы Службы Analysis Services поддерживают использование следующего предложения <связи столбцов>.

RELATED TO
Показывает иерархию значений. Назначением столбца RELATED TO может быть ключевой столбец вложенной таблицы, столбец с дискретными значениями из строки вариантов или какой-либо другой столбец с предложением RELATED TO, указывающим на более глубокий уровень иерархии.

Контрольные параметры

Если указываются контрольные параметры, создается секция данных структуры. Указанный объем контрольных данных резервируется для проверки, а оставшиеся данные используются для обучения. По умолчанию, если структура интеллектуального анализа данных создается с помощью среды Business Intelligence Development Studio, создается контрольная секция, которая содержит 30% проверочных данных и 70% обучающих данных. Дополнительные сведения см. в разделе Секционирование данных на обучающий и проверочный наборы данных (службы Analysis Services — интеллектуальный анализ данных).

При создании структуры интеллектуального анализа данных с помощью расширений интеллектуального анализа данных необходимо вручную указать на необходимость создания контрольной секции.

Примечание
Инструкция ALTER MINING STRUCTURE не поддерживает контрольные данные.

Можно указать до трех контрольных параметров. Если указано как максимальное число контрольных вариантов, так и процентное соотношение контрольных данных, процент вариантов будет резервироваться до тех пор, пока не будет достигнуто максимальное число вариантов. Процентная доля контрольных данных указывается целым числом, за которым следует ключевое слово PERCENT. Максимальное число вариантов задается целым числом, за которым следует ключевое слово CASES. Условия можно сочетать в любом порядке, как показано в следующих примерах:

WITH HOLDOUT (20 PERCENT) 
WITH HOLDOUT (2000 CASES) 
WITH HOLDOUT (20 PERCENT OR 2000 CASES) 
WITH HOLDOUT (2000 CASES OR 20 PERCENT)

Начальное контрольное значение управляет начальной точкой процесса, который в случайном порядке связывает варианты либо с обучающим набором, либо с набором проверочных данных. Указание начального контрольного значения обеспечивает возможность воспроизвести секцию. Если начальное контрольное значение не указано, службы Службы Analysis Services используют для его создания имя структуры интеллектуального анализа данных. Если структура будет переименована, начальное значение также изменится. Параметр начального контрольного значения можно использовать вместе с одним или обоими другими контрольными параметрами.

Примечание
Сведения о секции кэшируются с обучающими данными, поэтому, чтобы использовать контрольные данные, необходимо убедиться, что свойство CacheMode структуры интеллектуального анализа данных имеет значение KeepTrainingData. Это параметр по умолчанию для новых структур интеллектуального анализа данных служб Службы Analysis Services. Изменение значения свойства CacheMode на ClearTrainingCases в существующей структуре интеллектуального анализа данных, содержащей контрольную секцию, не повлияет на обработанные модели интеллектуального анализа данных. Однако, если свойство MiningStructureCacheMode имеет значение, отличное от KeepTrainingData, контрольные параметры не подействуют. Это означает, что все исходные данные будут использованы для обучения, а проверочный набор будет недоступен. Определение секции кэшируется в структуре. Если очистить кэш обучающих вариантов, также будет удален кэш проверочных данных и определение контрольного набора.

Сведения о секции кэшируются с обучающими данными, поэтому, чтобы использовать контрольные данные, необходимо убедиться, что свойство CacheMode структуры интеллектуального анализа данных имеет значение KeepTrainingData. Это параметр по умолчанию для новых структур интеллектуального анализа данных служб Службы Analysis Services. Изменение значения свойства CacheMode на ClearTrainingCases в существующей структуре интеллектуального анализа данных, содержащей контрольную секцию, не повлияет на обработанные модели интеллектуального анализа данных. Однако, если свойство MiningStructureCacheMode имеет значение, отличное от KeepTrainingData, контрольные параметры не подействуют. Это означает, что все исходные данные будут использованы для обучения, а проверочный набор будет недоступен. Определение секции кэшируется в структуре. Если очистить кэш обучающих вариантов, также будет удален кэш проверочных данных и определение контрольного набора.

Примеры

В следующих примерах показано создание структуры интеллектуального анализа данных с контрольными данными с помощью расширений интеллектуального анализа данных.

Пример 1. Добавление структуры без набора обучающих данных

В следующем примере создается структура интеллектуального анализа данных с именем New Mailing, при этом не создаются связанные с ней модели интеллектуального анализа данных или контрольные данные. Дополнительные сведения о добавлении модели к структуре интеллектуального анализа данных см. в разделе ALTER MINING STRUCTURE (расширения интеллектуального анализа данных).

CREATE MINING STRUCTURE [New Mailing]
(
    CustomerKey LONG KEY, 
    Gender TEXT DISCRETE,
    [Number Cars Owned] LONG DISCRETE,
    [Bike Buyer] LONG DISCRETE 
)

Пример 2. Указание процентной доли контрольных данных и начального значения

Приведенное ниже предложение можно добавлять после списка определений столбцов, чтобы оно определяло набор данных, который можно использовать для проверки всех моделей интеллектуального анализа данных в рамках структуры интеллектуального анализа данных. Следующая инструкция создает проверочный набор, состоящий из 25 % общего числа входных вариантов, без ограничения максимального числа вариантов. В качестве начального значения при создании секции используется число 5 000. После указания начального значения эти же варианты будут выбираться для тестового набора каждый раз при обработке структуры интеллектуального анализа данных (при условии, что базовые данные не изменятся).

CREATE MINING STRUCTURE [New Mailing]
(
    CustomerKey LONG KEY, 
    Gender TEXT DISCRETE,
    [Number Cars Owned] LONG DISCRETE,
    [Bike Buyer] LONG DISCRETE 
) 
WITH HOLDOUT(25 PERCENT) REPEATABLE(5000)

Пример 3. Указание процентной доли контрольных данных и максимального числа вариантов

Следующее предложение создает проверочный набор, состоящий из 25% общего числа входных вариантов либо из 2000 вариантов — в зависимости от того, что меньше. Поскольку в качестве начального значения указан 0, начальное значение (для начала выборки из входных вариантов) создается на основе имени структуры интеллектуального анализа данных.

CREATE MINING STRUCTURE [New Mailing]
(
    CustomerKey LONG KEY, 
    Gender TEXT DISCRETE,
    [Number Cars Owned] LONG DISCRETE,
    [Bike Buyer] LONG DISCRETE 
) 
WITH HOLDOUT(25 PERCENT OR 2000 CASES) REPEATABLE(0)

См. также

Справочник

Инструкции определения расширений интеллектуального анализа данных

Инструкции управления данными расширений интеллектуального анализа данных

Справка по инструкции расширений интеллектуального анализа данных

Поделиться через