Изучение модели кластеризации последовательностей (учебник по интеллектуальному анализу данных — средний уровень)

После построения модели Кластеризация последовательностей с использованием региона ее можно изучить с помощью средства просмотра кластеризации последовательностей (Майкрософт) на вкладке Средство просмотра моделей интеллектуального анализа данных конструктора интеллектуального анализа данных. Средство просмотра кластеризации последовательностей (Майкрософт) содержит пять вкладок. Диаграмма кластеров, Профили кластера, Характеристики кластера, Сравнениекластеров и Переходы состояния. Дополнительные сведения об использовании этого средства просмотра см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра кластеризации последовательностей (Майкрософт).

  • Вкладка «Диаграмма кластеров»

  • Вкладка «Профили кластера»

  • Вкладка «Характеристики кластера»

  • Вкладка «Сравнения кластеров»

  • Вкладка «Переходы состояния»

  • Представление общего содержимого

Вкладка «Диаграмма кластеров»

На вкладке Диаграмма кластеров графически отображаются кластеры, выявленные алгоритмом в базе данных. Макет диаграммы отображает связи между кластерами, причем похожие кластеры расположены рядом. По умолчанию затенение каждого узла отражает концентрацию вариантов в кластере: чем интенсивнее затененность узла, тем больше вариантов он содержит. Можно изменить заливку узлов таким образом, чтобы оно отражало поддержку внутри каждого кластера для атрибута и состояния.

Кроме того, можно переименовать кластеры для удобства идентификации и работы с целевыми кластерами. В рамках данного учебника будет переименован кластер, у которого самый высокий процент клиентов из Тихоокеанского региона, а также кластер, который имеет наибольшее количество всех вариантов.

ПримечаниеПримечание

При повторной обработке модели могут измениться варианты, назначенные определенным кластерам, что зависит от данных или параметров модели. Кроме того, в случае переименования кластеров имена будут утеряны при повторной обработке модели интеллектуального анализа данных.

Изменение атрибута, используемого для выделения кластеров

  1. В списке Переменная заливки выберите Модель.

  2. Выберите значение Велосипедная шапочка в списке Состояние.

    После обновления на диаграмме отобразятся точки концентрации выбранного продукта в каждом из кластеров. Кластер с самой темной заливкой содержит максимальную концентрацию велосипедных шапочек. Можно изменить переменную заливки, которая будет использоваться для отображения любого состояния любого входного столбца.

  3. В списке Переменная заливки выберите пункт Заполнение.

    Если для переменной заливки задано значение заполнения, на диаграмме будут отображены различия кластеров в зависимости от их размера. Кластер с самой темной заливкой содержит большее количество вариантов, чем другие кластеры.

Переименование узлов модели

  1. Присвойте параметру Переменная заливки значение Регион, а параметру Состояние — значение Тихоокеанский.

  2. Выделите самый затененный узел графа.

  3. Щелкните этот кластер правой кнопкой мыши и выберите команду Переименовать кластер.

  4. Введите имя Тихоокеанский кластер**.**.

  5. В списке Переменная заливки выберите значение Заполнение.

  6. После обновления графа найдите кластер с наибольшим затенением, который должен быть самым крупным кластером. Если по заливке сложно определить самый крупный кластер, задержите указатель мыши на каждом кластере для отображения подсказки, после чего выберите кластер, который содержит наибольшее количество вариантов.

  7. Щелкните этот кластер правой кнопкой мыши и выберите команду Переименовать кластер. Введите новое имя, например Наибольший кластер.

Можно выполнить детализацию от узла, представляющего кластер, для просмотра сведений о вариантах, содержащихся в каждом кластере. Это бывает полезным, если с результатами анализа нужно выполнить какие-либо действия (например, отправить клиенту сообщение электронной почты). Кроме того, можно просмотреть другие атрибуты вариантов, которые были включены в структуру, но не использовались в модели, например Region и IncomeGroup. Дополнительные сведения о выполнении детализации от моделей интеллектуального анализа данных до базовых вариантов см. в разделе Использование детализации в моделях и структурах интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Детализация сведений из диаграммы кластеров

  1. Щелкните правой кнопкой мыши Тихоокеанский кластер, выберите пункт Детализация, а затем выберите Столбцы модели и структуры.

    Откроется диалоговое окно Детализация. Столбцы, не используемые в модели, но доступные для запросов, имеют префикс Структура.

    Можно увидеть, что данный кластер в основном содержит клиентов из Тихоокеанского региона и совсем немного клиентов из других регионов.

  2. Щелкните знак «плюс» во вложенном столбце v Assoc Seq Line Items, чтобы просмотреть последовательность элементов в заказе определенного клиента.

  3. Закройте диалоговое окно Детализация.

    ПримечаниеПримечание

    Кнопка Воспроизвести позволяет выполнить повторный запрос к данным. Однако такой повторный запрос не изменяет отображаемые данные, за исключением случаев, когда модель динамически обновляется каким-либо другим фоновым процессом.

В начало

Вкладка «Профили кластера»

Вкладка Профили кластера отображает последовательности, существующие в каждом из кластеров. Кластеры перечислены в отдельных столбцах справа от столбца Состояния.

Строка Model.samples в средстве просмотра содержит последовательности элементов, а строка Модель описывает общее распределение элементов в кластере. Каждая линия цветовых последовательностей в каждой ячейке строки Model.samples отражает поведение случайно выбранного пользователя в этом кластере.

Каждый цвет в отдельной гистограмме последовательностей отражает модель товара. В условных обозначениях интеллектуального анализа данных последовательности продуктов показываются как с помощью выделения цветом, так и с помощью имен моделей продуктов. Если в модель для кластеризации были добавлены другие столбцы, например Region или Income Group, в средстве просмотра будет отображаться дополнительная строка для каждого такого столбца, содержащего распределение значений в каждом кластере.

Просмотр наиболее общих последовательностей в кластере

  1. Щелкните правой кнопкой мыши строку Модель в столбце для кластера Наибольший кластер и выберите пункт Показать обозначения.

    В столбце Цвет будет находиться затененная полоса, показывающая частоту найденных в последовательностях элементов. Каждый элемент представлен разным цветом. В столбце Значение перечисляются имена моделей продуктов, соответствующие каждому цвету. В столбце Распределение содержится процент вариантов наличия данного элемента в последовательности.

  2. Закройте окно Обозначения интеллектуального анализа данных.

  3. Щелкните правой кнопкой мыши строку Model.samples в столбце с заголовком Заполнение и выберите пункт Показать обозначения.

  4. Просмотрите список последовательностей в общей модели.

    В начале списка «Обозначения интеллектуального анализа данных» располагаются наиболее общие последовательности, поэтому можно заметить, что камера для шины от горного велосипеда часто появляется в качестве первого элемента во многих последовательностях. Это означает, что существует большая вероятность того, что клиент в первую очередь поместит в список покупок камеру для шины от горного велосипеда.

Выполнение детализации к вариантам из средства просмотра кластера

  1. Прокрутите вниз панель атрибутов и найдите строку для атрибута Регион.

    В строке содержится гистограмма для каждого кластера в модели и одна дополнительная гистограмма для Заполнения, в которой представлен весь набор вариантов, используемых в данной модели. Гистограмма представляет собой полосу, имеющую различную окраску, где каждый цвет соответствует определенному атрибуту, а размер окрашенного участка атрибута — проценту вариантов с таким атрибутом.

  2. Сравните гистограммы для кластеров Тихоокеанский кластер и Наибольший кластер. Каждый кластер располагается в отдельном столбце.

    Оба окрашены сплошными, но разными цветами.

  3. В строке Регион задержите указатель мыши на цветной гистограмме для Наибольшего кластера.

    В подсказке будут отражены значения фактического процентного соотношения вариантов для каждого региона.

  4. Щелкните правой кнопкой мыши цветную гистограмму в строке Регион для Тихоокеанского кластера, выберите пункт Детализация, а затем выберите Только столбцы модели.

  5. Используйте полосу прокрутки, чтобы просмотреть сведения обо всех клиентах в этом кластере.

    Опять анализируя подробные сведения, можно увидеть, что в кластере содержатся в основном заказы из Тихоокеанского региона и небольшое количество заказов из Северной Америки и Европы.

  6. Закройте диалоговое окно Детализация.

В начало

Вкладка «Характеристики кластера»

Вкладка Характеристики кластера содержит сводные данные о переходах между состояниями в кластере. Столбцы визуально отражают важность значения атрибута для выбранного кластера. Столбец Переменные показывает, что было определено моделью как имеющее важность для выбранного кластера или заполнения: конкретное значение или связь между значениями, называемое переходом. В столбце Значения содержатся дополнительные сведения о значении или переходе, а столбец Вероятность визуально представляет вес данного атрибута или перехода.

Просмотр важных атрибутов для кластера

  1. В раскрывающемся списке Кластер выберите Тихоокеанский кластер.

    После обновления данный список будет отображать характеристики кластера, который был переименован в Тихоокеанский кластер. В этом кластере наиболее важной характеристикой является Регион.

  2. Задержите указатель мыши на затененной полосе в строке Регион.

    Очень высока вероятность того, что значение будет «Тихоокеанский». Дополнительные сведения об интерпретации значений см. в разделе Технический справочник по алгоритму кластеризации последовательностей (Майкрософт) (службы Analysis Services — интеллектуальный анализ данных).

  3. В списке характеристик для кластера найдите первую строку перехода.

  4. Строка перехода содержит текст «Переход» в столбце Переменные и некоторые сочетания последовательных значений атрибутов в столбце Значение. Последовательность также может содержать исходные точки и отсутствующие значения.

    Например, предположим, что переход имеет значение [Start] -> Road Tire Tube. Это означает, что клиенты в данном кластере часто первой в свою корзину покупок помещают камеру для шины от дорожного велосипеда. А это может указывать на то, что данный товар популярен и клиенты ищут его в первую очередь, или на то, что этот товар всего лишь несложно найти на торговом сайте.

  5. Просмотрите список и найдите первый переход, у которого нет значения [Start] или отсутствует.

    Например, предположим, что найден переход Шина, камера для шины. Это означает, что клиенты в данном кластере часто покупают данные товары одновременно, и именно в такой последовательности.

  6. Задержите указатель мыши на затененной полосе для данного перехода.

    Значение вероятности перехода отображается в виде процентного отношения.

  7. В раскрывающемся списке Кластер выберите Заполнение (все).

    В списке атрибутов после обновления отобразятся характеристики всех заказов, которые были использованы для создания данной модели. В этой модели интеллектуального анализа данных наиболее важной отличительной характеристикой кластеров является Регион со значением Северная Америка.

После выполнения указанных задач стали понятны две вещи. Первая — для получения значительного количества сочетаний необходим большой объем данных. Например, последовательность с наивысшими вероятностями, скорее всего, будет включать состояние [Start] или Отсутствует.

Вторая — атрибуты для Региона подвергаются сильному воздействию кластеризации, что усложняет идентификацию групп последовательностей. Поэтому принимается решение о создании еще одной модели, в которой используются только последовательности и отсутствуют столбцы для региона или дохода.

В начало

Вкладка «Сравнения кластеров»

Вкладка Сравнение кластеров помогает сравнить два кластера для определения атрибутов, отличающих один кластер от другого. Эта вкладка содержит четыре столбца: Переменные, Значения, Кластер 1 и Кластер 2. Можно выбрать любой кластер для использования его в качестве Кластера 1 и Кластера 2.

В столбце Переменные отображается имя атрибута, которое может быть именем столбца или сочетанием имени столбца и слова переход. В столбце Значения отображается точное значение атрибута или перехода. Затененные полосы в столбцах для Кластера 1 и Кластера 2 указывают интенсивность атрибута в сравниваемых кластерах. Чем длиннее полоса, тем выше вероятность, что этот кластер включает варианты с указанным атрибутом.

Сравнение двух кластеров с использованием вкладки «Сравнения кластеров»

  1. На вкладке Сравнение кластеров выберите для Кластера 1 значение Тихоокеанский кластер.

    По умолчанию выбор для Кластера 2 изменяется на **Дополнение для **Тихоокеанскийкластер.

    Атрибут верхнего уровня, который отличает Тихоокеанский кластер от всех других вариантов, — это регион. Регион является настолько весомым атрибутом для кластеризации, что нивелирует все остальные атрибуты. Чтобы избежать подобного эффекта, сравните несколько других меньших кластеров между собой. После этого список атрибутов изменится; в нем может появиться больше переходов между моделями.

  2. Найдите строку перехода и задержите указатель мыши на затененной полосе.

    Элементами столбца Значения могут быть как состояния, так и переходы. Затемнение для каждого элемента отражает коэффициент сравнения. Дополнительные сведения о значении различных оценок см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

В начало

Вкладка «Переходы состояния»

На вкладке Переходы состояния можно выбрать кластер и просмотреть переходы его состояний. Если выбрать Заполнение (все) из раскрывающегося списка кластера, на диаграмме отобразится распределение состояний для всей модели интеллектуального анализа данных.

Каждый узел диаграммы представляет собой состояние или возможное значение анализируемых последовательностей. Цвет фона узла указывает на частоту появления данного состояния. Переходы между состояниями указаны соединяющими такие состояния линиями. Можно переместить ползунок вверх или вниз для изменения порога вероятности переходов. Числа, связанные с некоторыми узлами, указывают на значение вероятности данного состояния.

Изучение связей на вкладке «Переходы состояния»

  1. На вкладке Переходы состояния средства просмотра моделей интеллектуального анализа данных из списка кластеров выберите Тихоокеанский кластер. Убедитесь, что установлен флажок Отобразить метки краев.

    После обновления графа будут отображены наиболее общие переходы в данном кластере.

  2. Щелкните любой узел, который соединен линией с другим узлом.

    После обновления графа будут выделены связанные узлы. Числовое значение рядом с линией представляет собой вероятность перехода.

  3. Поднимите ползунок вверх к пункту Все связи, чтобы увеличить количество переходов, включаемых в граф.

  4. Выберите значение Заполнение (все) из списка Кластер.

    Примите к сведению, что после загрузки другого кластера граф будет использовать параметры отображения по умолчанию, то есть ползунок будет находиться в среднем положении.

  5. Щелкните самый затененный узел графа, который должен называться Sport-100.

    Обратите внимание, что данный товар не имеет линий, соединяющих его с другими товарами.

  6. Поднимите ползунок вверх на один пункт, чтобы увеличить количество переходов, включаемых в граф. Не устанавливайте на данном этапе ползунок в положение Все связи.

    После обновления на графе появится несколько новых переходов, но ни один из них не будет включать модель Sport-100.

  7. Переместите ползунок в положение Все связи. Щелкните узел Sport-100, если он еще не выбран.

    После обновления на графе будет отображено большое количество переходов, которые включают модель Sport-100. Направление стрелки соединительной линии говорит о том, была ли модель Sport-100 выбрана в качестве первого или второго участника пары.

  8. Щелкните узел шины для туристического велосипеда и переместите ползунок обратно в среднее положение.

    Вначале будет отображаться большое количество линий переходов, соединяющих шины для туристического велосипеда с другими товарами. Но как только порог вероятности поднимется, менее вероятные переходы будут удалены из графа, на котором останется только один переход — Шина для туристического велосипеда > Камера шины для туристического велосипеда. Данный переход означает, что если клиент помещает в свою корзину покупок шину для туристического велосипеда, то существует большая вероятность того, что следующим товаром станет камера шины для туристического велосипеда.

В начало

Средство просмотра деревьев содержимого общего вида

Это средство просмотра может использоваться для всех моделей независимо от типа модели и алгоритма. Средство просмотра деревьев содержимого общего вида (Майкрософт) доступно из раскрывающегося списка Средство просмотра.

Дерево содержимого представляет модель интеллектуального анализа данных в виде ряда узлов, каждый из которых представляет полученные знания относительно обучающих данных. Узел может содержать закономерность, набор правил, кластер или определение интервала дат, объединяемых некоторыми общими атрибутами. Конкретное содержимое узлов зависит от алгоритма и прогнозируемого атрибута, но общее представление содержимого одинаково.

Каждый узел можно раскрыть, чтобы увеличить уровень детализации, и скопировать содержимое любого узла в буфер обмена. Дополнительные сведения см. в разделе Просмотр данных модели в средстве просмотра деревьев содержимого общего вида (Майкрософт).

Просмотр сведений о модели кластеризации последовательностей с использованием средства просмотра деревьев содержимого общего вида

  1. На вкладке Средство просмотра моделей интеллектуального анализа данных щелкните список Средство просмотра и выберите Средство просмотра деревьев содержимого общего вида (Майкрософт).

  2. На панели Заголовок узла щелкните Тихоокеанский кластер (1).

    Имя данного узла состоит из понятного имени кластера, присвоенного ему пользователем, и идентификатора базового узла. Идентификаторы узлов можно использовать для получения дополнительных сведений о модели.

  3. Разверните первый дочерний узел с именем Уровень последовательности для кластера 1.

    Узел уровня последовательности для кластера содержит сведения о состояниях и переходах, имеющихся в таком кластере. Эти сведения (в столбце NODE_DISTRIBUTION) можно использовать с целью изучения последовательности и состояний каждого кластера или модели в целом.

  4. Продолжайте разворачивать узлы для просмотра сведений на панели средства просмотра HTML-страниц.

Дополнительные сведения о содержимом модели интеллектуального анализа данных и способах использования отображаемой в средстве просмотра информации см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

В начало