Типы содержимого (интеллектуальный анализ данных)

В службах Microsoft SQL Server Службы Analysis Services можно определять как физический тип данных для столбца в структуре интеллектуального анализа данных, так и логический тип содержимого для столбца (при использовании его в модели).

Тип данных определяет то, как алгоритмы обрабатывают данные в столбцах при создании моделей интеллектуального анализа данных. Тип данных, определенный для столбца, дает алгоритму сведения о типе данных в столбцах и о методе их обработки. Каждый тип данных в службах Службы Analysis Services поддерживает один или более типов содержимого для интеллектуального анализа данных.

Тип содержимого описывает поведение содержимого столбцов. Например, если содержимое столбцов повторяется с некоторой периодичностью, например дни недели, можно выбрать тип Cyclical.

Некоторые алгоритмы для правильной работы требуют конкретных типов данных и типов содержимого. Например, упрощенный алгоритм Байеса (Майкрософт) не в состоянии использовать непрерывные столбцы на входе или не может прогнозировать непрерывные значения. Некоторые типы содержимого, например Key Sequence, используются только определенными алгоритмами. Список алгоритмов и поддерживаемых каждым из них типов содержимого см. в разделе Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Следующий список содержит типы содержимого, используемого в интеллектуальном анализе данных, и типы данных, которые их поддерживают.

Дискретный

Под словом дискретный подразумевается, что столбец содержит конечное количество значений, между которыми нет континуума. Например, столбец с обозначением пола представляет собой типичный столбец для дискретного атрибута, в котором данные представляют конкретное количество категорий.

Из того, что значения содержатся в столбце с дискретным атрибутом, следует, что к этим значениям не применимо упорядочение, даже если значения являются числовыми. Более того, даже если значения, используемые для заполнения дискретного столбца, являются числовыми, не предусмотрена возможность вычисления дробных значений. Хорошим примером дискретных числовых данных являются междугородние телефонные коды.

Тип содержимого Discrete поддерживается всеми типами данных интеллектуального анализа данных.

Непрерывный

Непрерывный означает, что в этом столбце содержатся значения, которые представляют числовые данные в масштабе, допускающем применение промежуточных значений. В отличие от дискретного столбца, содержащего конечные, счетные данные, непрерывный столбец представляет данные измерений и может содержать бесконечное количество дробных значений. Примером столбца непрерывного атрибута может служить столбец с данными о температуре.

Если в столбце содержатся непрерывные числовые данные, а пользователь знает, как должны быть распределены данные, то потенциально можно увеличить точность анализа, указав ожидаемое распределение значений. Распределение столбцов можно указать на уровне структуры интеллектуального анализа данных. Следовательно, данный параметр применим ко всем моделям, основанным на структуре. Дополнительные сведения см. в разделе Распределения столбцов (интеллектуальный анализ данных).

Тип содержимого Continuous поддерживается следующими типами данных: Date, Double и Long.

Дискретизированный

Дискретизация — это процесс распределения значений непрерывного набора данных по сегментам так, чтобы получилось ограниченное число допустимых значений. Дискретизировать можно только числовые данные.

Следовательно, дискретизированный тип содержимого показывает, что столбец содержит значения, представляющие группы или сегменты значений, полученных из непрерывного столбца. Сегменты воспринимаются как упорядоченные дискретные значения.

Дискретизацию данных можно провести вручную, чтобы получить необходимые сегменты, либо можно использовать методы дискретизации, предоставляемые службами SQL Server Analysis Services. В некоторых алгоритмах дискретизация выполняется автоматически. Дополнительные сведения см. в разделе Как изменить дискретизацию столбца в модели интеллектуального анализа данных.

Тип содержимого Discretized поддерживается следующими типами данных: Date, Double, Long и Text.

Ключ

Тип содержимого ключ означает, что столбец уникально определяет строку. В таблице вариантов ключевым столбцом, как правило, является столбец с числовым или текстовым идентификатором. Тип содержимого key указывает, что этот столбец должен использоваться не для анализа, а лишь для отслеживания записей.

Вложенные таблицы также имеют ключи, но ключ вложенной таблицы предназначен для других целей. Если столбец вложенной таблицы представляет собой атрибут, который должен быть проанализирован, то для него следует определить тип содержимого key. Значения в ключе вложенной таблицы должны быть уникальными для каждого варианта, но во всем множестве вариантов могут быть повторяющиеся значения.

Например, если анализируются продукты, приобретенные клиентами, то для столбца CustomerID в таблице вариантов нужно задать тип содержимого key и задать тип содержимого key для столбца PurchasedProducts во вложенной таблице.

ПримечаниеПримечание

Вложенные таблицы становятся доступными, только если используются данные из внешнего источника данных, который был определен как представление источника данных для служб Analysis Services.

Данный тип содержимого поддерживается следующими типами данных: Date, Double, Long и Text.

Последовательность ключа

Тип содержимого key sequence может применяться только в моделях кластеризации последовательностей. Если задан тип содержимого key sequence, значит, столбец содержит значения, представляющие последовательность событий. Значения упорядочены, но не должны обязательно находиться на одинаковом расстоянии друг от друга.

Данный тип содержимого поддерживается следующими типами данных: Double, Long, Text и Date.

Ключевой столбец времени

Тип содержимого ключ времени может применяться только в моделях временных рядов. Если задан тип содержимого key time, то это означает, что значения упорядочены и представляют временную шкалу.

Данный тип содержимого поддерживается следующими типами данных: Double, Long и Date.

Таблица

Тип содержимого таблица указывает, что столбец содержит другую таблицу данных с одним или несколькими столбцами и одной или несколькими строками. Применительно к любой конкретной строке в таблице вариантов этот столбец может содержать несколько значений, причем все они связаны с записью родительского варианта. Например, если основная таблица вариантов содержит список клиентов, то можно предусмотреть несколько столбцов, содержащих вложенные таблицы, например, столбец ProductsPurchased, в котором вложенная таблица перечисляет продукты, приобретенные этим клиентом в прошлом, а столбец Hobbies содержит перечень увлечений клиента.

Типом данных этого столбца всегда является Table.

Циклический

Тип содержимого циклический означает, что в столбце содержатся значения, представляющие циклический упорядоченный набор. Например, циклическим упорядоченным набором являются пронумерованные дни недели, поскольку день с номером 1 следует за днем с номером 7.

Циклические столбцы атрибутов считаются упорядоченными и дискретными в терминах типов содержимого.

Данный тип содержимого поддерживается всеми типами данных интеллектуального анализа данных в службах Службы Analysis Services. Однако большинство алгоритмов обрабатывает циклические значения как дискретные и не выполняет особой обработки.

Упорядоченный

Тип содержимого упорядоченный также означает, что столбец содержит значения, определяющие последовательность или порядок. Однако в данном типе содержимого значения, используемые для упорядочивания, не подразумевают наличия никаких связей (по дистанции или по силе) между значениями в наборе. Например, если упорядоченный столбец атрибутов содержит сведения об уровне квалификации по шкале от 1 до 5, он не несет сведений о разнице между уровнями квалификации; уровень 5 не обязательно в пять раз лучше уровня 1.

Упорядоченные столбцы атрибутов считаются дискретными в терминах типов содержимого.

Данный тип содержимого поддерживается всеми типами данных интеллектуального анализа данных в службах Службы Analysis Services. Однако большинство алгоритмов обрабатывает упорядоченные значения как дискретные и не выполняет особой обработки.

Классифицированные типы данных

Выше были описаны типы содержимого, широко применяемые во всех моделях, но, кроме них, для данных некоторых типов могут использоваться классифицированные столбцы, позволяющие определять типы содержимого. Дополнительные сведения о классификационных столбцах см. в разделе Классифицированные столбцы (интеллектуальный анализ данных).