Share via


Explorando o modelo de clustering de sequências (Tutorial de mineração de dados intermediário)

Agora que você criou o modelo Clustering de Sequências com Região, poderá explorá-lo usando o Visualizador de Clustering de Sequências da Microsoft na guia Visualizador do Modelo de Mineração do Designer de Mineração de Dados. O Visualizador de Cluster de Sequências da Microsoft contém cinco guias: Diagrama de Cluster, Perfis de Cluster, Características do Cluster, Distinção de Cluster e Transições de Estado. Para obter mais informações sobre como usar esse visualizador, consulte Exibindo um modelo de mineração com o Microsoft Sequence Cluster Viewer.

  • Guia Diagrama de Cluster

  • Guia Perfis de Cluster

  • Guia Características do Cluster

  • Guia Distinção de Cluster

  • Guia Transições de Estado

  • Visualizador de Conteúdo Genérico

Guia Diagrama de Cluster

A guia Diagrama de Cluster exibe os clusters graficamente que o algoritmo descobriu no banco de dados. O layout do diagrama representa as relações dos clusters, com clusters semelhantes agrupados juntos. Por padrão, a sombra de cada nó nó representa a densidade de todos os casos no cluster: quanto mais escuro o sombreamento do nó, mais casos ele conterá. Você pode alterar o significado do sombreamento dos nós para que ele represente suporte, em cada cluster, a um atributo e a um estado.

Você também pode renomear os clusters para facilitar a identificação e o trabalho com os clusters de destino. Para este tutorial, você renomeará o cluster com a maior porcentagem de clientes da região do Pacífico e o cluster com mais casos.

ObservaçãoObservação

Os casos atribuídos a clusters específicos podem mudar quando você reprocessar o modelo, dependendo dos dados e dos parâmetros do modelo. Além disso, se você renomear clusters, os nomes serão perdidos no reprocessamento do modelo de mineração.

Para alterar o atributo usado para realçar clusters

  1. Na lista Variável de Sombreamento, selecione Modelo.

  2. Selecione Capacete para Ciclismo na lista Estado.

    O diagrama é atualizado para mostrar a concentração do produto selecionado em cada um dos clusters. O cluster no diagrama com o sombreamento mais escuro contém a densidade mais alta de capacetes para ciclismo. É possível alterar a variável de sombreamento para usar qualquer estado de qualquer coluna de entrada.

  3. Na lista Variável de Sombreamento, selecione População.

    Quando você altera a variável de sombreamento para população, o diagrama é atualizado para comparar os clusters por tamanho. O cluster no diagrama com o sombreamento mais escuro contém mais casos do que os outros clusters.

Para renomear nós no modelo

  1. Altere Variável de Sombreamento para Região e defina Estado como Pacífico.

  2. Realce o nó mais escuro no gráfico.

  3. Clique com o botão direito do mouse nesse cluster e selecione Renomear Cluster.

  4. Digite o nome Cluster do Pacífico**.**

  5. Altere o valor de Variável de Sombreamento para População.

  6. No gráfico atualizado, localize o cluster mais escuro, que deverá ser o maior. Se você não conseguir saber, pelo sombreamento, que cluster é o maior, coloque o mouse sobre cada cluster e exiba a Dica de Ferramenta e escolha o cluster que contém mais casos.

  7. Clique com o botão direito do mouse nesse cluster e selecione Renomear Cluster. Digite o novo nome, Maior Cluster.

Você pode detalhar o nó que representa o cluster para exibir detalhes dos casos de cada cluster. Isso pode ser útil caso você queira executar uma ação sobre os resultados da sua análise, como o envio de um email ao cliente. Você também pode navegar por outros atributos dos casos incluídos na estrutura mas que não foram usados no modelo, como Região e IncomeGroup. Para obter mais informações sobre detalhamento de modelos de mineração para os casos subjacentes, consulte Usando a análise nos modelos de mineração e nas estruturas de mineração (Analysis Services – Mineração de dados).

Para detalhar o diagrama Cluster

  1. Clique com o botão direito do mouse em Cluster do Pacífico, selecione Detalhar e Colunas do Modelo e da Estrutura.

    A caixa de diálogo Detalhar será aberta. As colunas não usadas no modelo mas que estão disponíveis para consulta têm o prefixo Estrutura.

    Você pode ver que esse cluster contém como maioria clientes da região do Pacífico, com somente alguns poucos clientes de outras regiões.

  2. Clique no sinal de mais na coluna aninhada v Assoc Seq Line Items para exibir a sequência de itens em uma determinada ordem de clientes.

  3. Feche a caixa de diálogo Detalhar.

    ObservaçãoObservação

    O botão Reproduzir permite que você consulte novamente os dados; no entanto, a nova consulta não mudará os dados exibidos, a menos que o modelo tenha sido dinamicamente atualizado em segundo plano por algum outro processo.

Voltar ao início

Guia Perfis de Cluster

A guia Perfis de Cluster exibe as sequências que estão em cada cluster. Os clusters são listados à direita em colunas individuais da coluna Estados.

No visualizador, a linha Modelo descreve a distribuição geral de itens em um cluster, e a linha Model.samples contém sequências dos itens. Cada linha das sequências de cores em cada célula da linha Model.samples representa o comportamento de um usuário selecionado aleatoriamente no cluster.

Cada cor em um histograma de sequência individual representa um modelo de produto. A Legenda de Mineração mostra as sequências de produtos usando a codificação de cores e os nomes de modelos do produto. Se você adicionou outras colunas ao modelo de clustering, como Região ou IncomeGroup, o visualizador conterá uma linha adicional para cada coluna, mostrando a distribuição desses valores em cada cluster.

Para exibir as sequências mais comuns em um cluster

  1. Clique com o botão direito do mouse na linha Modelo da coluna para o cluster Maior Cluster e selecione Mostrar Legenda.

    A coluna Cor contém uma barra sombreada que indica a frequência de itens encontrados em sequências. Cada item é representado por uma cor diferente. A coluna Significa lista os nomes de modelo do produto para cada cor. A coluna Distribuição mostra a você a porcentagem de casos que contêm esse item em uma sequência.

  2. Feche Legenda de Mineração.

  3. Clique com o botão direito do mouse na linha Model.samples da coluna com o título População e selecione Mostrar Legenda.

  4. Pesquise a lista de sequências no modelo geral.

    A Legenda de Mineração lista as sequências mais comuns primeiro, para que você possa ver que o Tubo de Pneu para Mountain Bike é o primeiro item de muitas sequências. Isso significa que um cliente muito provavelmente coloca o Tubo de Pneu pra Mountain Bike primeiro na cesta de compras.

Para detalhar casos a partir do visualizador de clusters

  1. Role o painel Atributo até localizar a linha do atributo Região.

    A linha contém um histograma para cada cluster do modelo, além de um histograma adicional para População, o que significa todo o conjunto de casos usados no modelo. Um histograma é uma barra com cores diferentes, onde cada cor representa um atributo e o tamanho da seção colorida desse atributo representa a sua porcentagem de casos.

  2. Compare os histogramas de clusters que você renomeou, Cluster do Pacífico e Maior Cluster. Cada cluster aparece em uma coluna diferente.

    Ambos têm cores sólidas, mas as cores são diferentes.

  3. Na linha Região, coloque o mouse sobre o histograma colorido para Maior Cluster.

    A Dica de Ferramenta exibirá valores que mostram as porcentagens reais de casos de cada região.

  4. Clique com o botão direito do mouse no histograma colorido na linha Região do Cluster do Pacífico, selecione Detalhar e Colunas do Modelo Somente.

  5. Mova a barra de rolagem para revisar todos os clientes desse cluster.

    Novamente, a partir do detalhamento, é possível ver que o cluster contém, em grande parte, pedidos da região do Pacífico, mas também alguns das regiões da América do Norte e da Europa.

  6. Feche a caixa de diálogo Detalhar.

Voltar ao início

Guia Características de Cluster

A guia Características do Cluster resume as transições entre os estados em um cluster exibindo barras que representam visualmente a importância do valor do atributo para o cluster selecionado. A coluna Variáveis mostra a você o que o modelo considerou importante para o cluster ou população selecionados: um valor em particular ou o relacionamento entre valores, conhecido como transição. A coluna Valores fornece mais detalhes sobre o valor ou transição, e a coluna Probabilidade representa visualmente o peso desse atributo ou transição.

Para exibir os atributos importantes para um cluster

  1. Na lista suspensa Cluster, selecione Cluster do Pacífico.

    A lista é atualizada para mostrar as características do cluster renomeado para Cluster do Pacífico. Nesse cluster, a característica mais importante é Região.

  2. Coloque o mouse sobre a barra sombreada na linha de Região.

    A probabilidade do valor ser Pacífico é muito alta. Para obter mais informações sobre como interpretar esses valores, consulte Referência técnica do algoritmo MSC (Analysis Services - Mineração de Dados).

  3. Examine a lista de características do cluster até localizar a primeira linha de transição.

  4. Uma linha de transição contém o texto Transição na coluna Variáveis e uma combinação de valores de atributo sequencial na coluna Valor. A sequência também pode conter pontos iniciais e valores ausentes.

    Por exemplo, suponha que a transição tenha o valor [Iniciar] -> Tubo de Pneu de Estrada. Isso significa que clientes deste cluster colocam com frequência o Tubo de Pneu de Estrada em sua cesta de compras. Isso poderia significar que o produto é um item popular e procurado primeiro por clientes, ou pode simplesmente indicar que o produto é fácil de localizar no site de compras.

  5. Navegue pela lista de características do cluster até localizar a primeira transição que não contenha [Iniciar] ou ausente.

    Por exemplo, suponha que você localizou a transição Pneu de Passeio, Tubo de Pneu de Passeio. Isso significa que clientes deste cluster com frequência compraram esses itens juntos, exatamente nessa ordem.

  6. Coloque o mouse sobre a barra sombreada para essa transição.

    A probabilidade dessa transição é exibida como uma porcentagem.

  7. Na lista suspensa Cluster, selecione População (Todos).

    A lista de atributos é atualizada para mostrar as características de todas as ordens usadas na criação do modelo. Nesse modelo de mineração, a característica mais importante para a distinção entre clusters é Região, com um valor América do Norte.

Depois de revisar essas tarefas, você percebe duas coisas. A primeira é que precisa de muitos dados para obter um número significativo de combinações. Por exemplo, é provável que as sequências com as maiores probabilidades incluam um estado [Iniciar] ou Ausente.

A segunda é que há um grande efeito de clustering em atributos para Região, dificultando ainda mais a exibição de grupos de sequências. Dessa forma, você decide criar outro modelo que use somente sequências e que não inclua as colunas para região ou renda.

Voltar ao início

Guia Distinção de Cluster

A guia Discriminação do Cluster ajuda-o a comparar dois clusters e determinar quais atributos distinguem um determinado cluster de outro. A guia contém quatro colunas: Variáveis, Valores, Cluster 1 e Cluster 2. Você pode escolher qualquer cluster para usar como Cluster 1 e Cluster 2.

A coluna Variáveis mostra o nome do atributo, que pode ser um nome de coluna ou uma combinação de nomes de coluna com a palavra transição. A coluna Valores mostra o valor exato do atributo ou da transição. As barras sombreadas nas colunas para Cluster 1 e Cluster 2 indicam a intensidade do atributo nos clusters que estão sendo comparados. Quanto mais longa for a barra, mais será provável que o cluster inclua casos com esse atributo.

Para comparar dois clusters usando a guia Distinção de Cluster

  1. Na guia Distinção de Cluster, para Cluster 1, selecione Cluster do Pacífico.

    Por padrão, a seleção para Cluster 2 muda para **Complemento de **Cluster doPacífico.

    O principal atributo que distingue Cluster do Pacífico de todos os outros casos é a região. A região é um atributo tão forte para o clustering que obscurece outros atributos. Para impedir esse efeito, tente comparar vários clusters menores uns aos outros. Quando você fizer isso, a lista de atributos mudará e poderá incluir mais transições entre modelos.

  2. Localize uma linha de transição e coloque o mouse sobre a barra sombreada.

    Os itens na coluna Valores podem incluir estados e transições. O sombreamento de cada item indica a contagem de distinção. Para saber mais sobre o significado de pontuações diferentes, consulte Conteúdo do modelo de mineração para modelos de clustering de sequências (Analysis Services – Mineração de Dados).

Voltar ao início

Guia Transições de Estado

Na guia Transições de Estado, você pode selecionar um cluster e percorrer as transições de estado. Se você selecionar População (Tudo) na lista suspensa do cluster, o diagrama mostrará a distribuição de estados para todo o modelo de mineração.

Cada nó do gráfico representa um estado, ou um valor possível das sequências que você está tentando analisar. A cor de fundo dos nós representa a frequência do estado. As linhas conectam alguns estados, indicando uma transição entre eles. Você pode mover o controle deslizante para cima ou para baixo para alterar o limite de probabilidade para as transições. Os números são associados a alguns nós, indicando a probabilidade do estado.

Para explorar os relacionamentos na guia Transição de Estado

  1. Na guia Transições de Estado do visualizador do Modelo de Mineração, selecione Cluster do Pacífico na lista de clusters. Verifique se a opção Mostrar Rótulos de Borda está selecionada.

    O gráfico é atualizado para mostrar as transições mais comuns desse cluster.

  2. Clique em qualquer nó conectado por uma linha a outro nó.

    O gráfico é atualizado e realça os nós relacionados. O valor numérico ao lado da linha indica a probabilidade da transição.

  3. Suba o controle deslizante até Todos os Links para aumentar o número de transições incluídas no gráfico.

  4. Selecione População (Todos) em Cluster.

    Observe que quando você carrega um cluster diferente, o gráfico volta a ter as configurações de exibição padrão e, portanto, o controle deslizante é redefinido para a posição intermediária.

  5. Clique no nó mais escuro do gráfico, que deverá ser Sport-100.

    Observe que não há linhas conectando esse produto a outros.

  6. Suba o controle deslizante uma etapa para aumentar o número de transições incluídas no gráfico. Não vá até Todos os Links ainda.

    O gráfico será atualizado pela adição de várias outras transições, mas nenhuma que inclua o modelo Sport-100.

  7. Mova o controle deslizante até Todos os Links. Clique no nó Sport-100 caso ele ainda não esteja selecionado.

    O gráfico é atualizado para mostrar muitas transições que incluem o produto Sport-100. A direção da seta na linha de conexão mostra se o item Sport-100 foi selecionado como o primeiro ou o segundo item do par.

  8. Clique no nó de Pneu de Passeio e mova o controle deslizante de volta à posição intermediária.

    A princípio, existem muitas linhas de transição conectando Pneu de Passeio a outros produtos, mas quando você sobe o limite de probabilidade, as transições menos prováveis são eliminadas do gráfico, deixando somente a transição Pneu de Passeio > Tubo de Pneu de Passeio. Essa transição significa que se um cliente colocar um Pneu de Passeio na cesta de compras, há uma grande probabilidade de que o cliente colocará em seguida um Tubo de Pneu de Passeio na cesta.

Voltar ao início

Visualizador de Árvore de Conteúdo Genérica

Esse visualizador pode ser usado em todos os modelos, independentemente do algoritmo ou do tipo de modelo. O Visualizador da Árvore de Conteúdo Genérico daMicrosoft está disponível na lista suspensa do Visualizador.

Uma árvore de conteúdo é uma representação de qualquer modelo de mineração como uma série de nós, em que cada nó representa conhecimento adquirido sobre alguns dados de treinamento. O nó pode conter um padrão, um conjunto de regras, um cluster ou a definição de um intervalo de datas que compartilham alguns atributos. O conteúdo exato do nó difere dependendo do algoritmo e do tipo do atributo previsível; no entanto, a representação geral do conteúdo é a mesma.

É possível expandir os nós para consultar um maior número de detalhes, assim como copiar o conteúdo de qualquer um deles para a Área de Transferência. Para obter mais informações, consulte Exibindo detalhes do modelo com o Visualizador de Árvore de Conteúdo Genérica da Microsoft.

Para exibir detalhes de um modelo de clustering de sequências usando o Visualizador de Árvore de Conteúdo Genérica

  1. Na guia Visualizador do Modelo de Mineração, clique na lista Visualizador e selecione Visualizador de Árvore de Conteúdo Genérica da Microsoft.

  2. No painel Legenda de Nó, clique em Cluster do Pacífico (1).

    O nome desse nó contém o nome amigável atribuído ao cluster e a ID do nó subjacente. Você pode usar as IDs do nó para detalhar ainda mais o modelo.

  3. Expanda o primeiro nó filho, chamado Nível de sequência para cluster 1.

    O nó de nível de sequência para um cluster contém detalhes sobre os estados e transições incluídos naquele cluster. Você pode usar esses detalhes, disponíveis na coluna NODE_DISTRIBUTION, para explorar as sequências e os estados de cada cluster ou do modelo como um todo.

  4. Continue a expandir nós e a exibir detalhes no painel visualizador de HTML.

Para obter mais informações sobre o conteúdo do modelo de mineração e sobre como usar os detalhes no visualizador, consulte Conteúdo do modelo de mineração para modelos de clustering de sequências (Analysis Services – Mineração de Dados).

Voltar ao início