Статья
09/28/2010

Алгоритм кластеризации последовательностей (Майкрософт)

Алгоритм кластеризации последовательностей (Майкрософт) представляет собой алгоритм анализа последовательностей, предоставляемый службами MicrosoftSQL ServerAnalysis Services. Этот алгоритм можно использовать для просмотра данных, содержащих события, которые могут быть связаны следующими путями, иначе именуемыми последовательностями. Алгоритм находит самые распространенные последовательности, выполняя группирование или кластеризацию идентичных последовательностей. Рассмотрим несколько примеров последовательностей.

Данные, описывающие пути, которые создаются, когда пользователи просматривают веб-узел, переходя по его страницам.
Данные, которые описывают порядок, в котором клиент добавляет в корзину товары, выбранные в интернет-магазине.

Этот алгоритм во многом напоминает алгоритм кластеризации (Майкрософт). Однако вместо поиска кластеров вариантов, содержащих похожие атрибуты, алгоритм кластеризации последовательностей (Майкрософт) находит кластеры вариантов, содержащие похожие пути в последовательности.

Пример

Веб-узел Adventure Works собирает сведения о страницах, посещаемых пользователями узла, и о порядке посещения страниц. Поскольку компания предоставляет возможность заказа через Интернет, клиентам необходимо зарегистрироваться на узле. Благодаря этому с каждым щелчком мыши клиента компания получает сведения о действиях, выполняемых клиентским профилем. Применив в отношении таких данных алгоритм кластеризации последовательностей (Майкрософт), компания может найти группы или кластеры клиентов, для которых характерны похожие закономерности или последовательности щелчков. Затем компания может использовать эти кластеры для анализа перемещения пользователей в рамках веб-узла, определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.

Принцип работы алгоритма

Алгоритм кластеризации последовательностей (Майкрософт) — это гибридный алгоритм, сочетающий методы кластеризации с анализом марковских цепей для определения кластеров и их последовательностей. Одной из особенностей алгоритма кластеризации последовательностей (Майкрософт) является то, что он использует данные последовательностей. Такие данные обычно представляют ряд событий или переходов между состояниями в наборе данных, например ряд приобретений продуктов или щелчков мышью на веб-узле для конкретного пользователя. Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями в наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует данные последовательностей в качестве входных данных для EM-метода кластеризации.

Подробное описание реализации алгоритма см. в разделе Технический справочник по алгоритму кластеризации последовательностей (Майкрософт).

Данные, необходимые для моделей кластеризации последовательностей

При подготовке данных, предназначенных для использования в обучении модели кластеризации последовательностей, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных и к методу их использования.

К модели кластеризации последовательностей предъявляются следующие требования.

Единственный столбец key Модели кластеризации последовательностей необходим ключ, идентифицирующий записи.
Столбец последовательности Для данных последовательности модель должна иметь вложенную таблицу, содержащую столбец идентификатора последовательности. Идентификатор последовательности может иметь любой подлежащий сортировке тип данных. Например, можно использовать идентификатор веб-страницы, целое число или текстовую строку с условием, что столбец определяет события в последовательности. Для каждой последовательности допускается только один идентификатор, а в каждой модели допускается только один тип последовательности.
Необязательные атрибуты, не относящиеся к последовательности Алгоритм поддерживает добавление других атрибутов, не связанных с последовательностью. Эти атрибуты могут включать вложенные столбцы.

Например, в случае с указанным выше веб-узлом AdventureWorks модель кластеризации последовательностей может включать в качестве не связанных с последовательностью атрибутов такие сведения о заказе, как таблица вариантов и демографические данные клиента. Кроме того, она будет включать в качестве данных последовательности вложенную таблицу, содержащую последовательность просмотра веб-узла клиентом или последовательность покупок в корзине.

Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями кластеризации последовательностей, см. в подразделе «Требования» раздела Технический справочник по алгоритму кластеризации последовательностей (Майкрософт).

Просмотр модели кластеризации последовательностей

Модель интеллектуального анализа данных, создаваемая этим алгоритмом, содержит описания самых распространенных последовательностей в данных. Чтобы просмотреть модель, можно использовать средство просмотра кластеризации последовательностей (Майкрософт). При просмотре модели кластеризации последовательности службы Analysis Services отображают кластеры, содержащие несколько переходов. Также можно просмотреть соответствующие статистические данные. Дополнительные сведения см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра кластеризации последовательностей (Майкрософт).

Чтобы получить более подробные сведения, можно просмотреть модель с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). Содержимое, сохраняемое для модели, включает распределение всех значений в каждом узле, вероятность каждого кластера и подробные сведения о переходах. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели результаты хранятся в виде набора закономерностей. Можно использовать описания наиболее распространенных последовательностей в данных для прогнозирования наиболее вероятного следующего шага в новой последовательности. Но поскольку алгоритм включает другие столбцы, результирующую модель можно использовать для выявления связей между данными, включенными в последовательность, и входными данными, не включенными в нее. Например, если добавить к модели демографические данные, можно составлять прогнозы для конкретных групп клиентов. Прогнозирующие запросы можно настраивать так, чтобы они возвращали переменное число прогнозов или описательные статистические данные.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных). Примеры использования запросов с моделью кластеризации последовательностей см. в разделе Запросы к модели кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

Примечания

Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP и создание измерений интеллектуального анализа данных.