Criando uma estrutura e um modelo de rede neural (Tutorial de mineração de dados intermediário)

 

Publicado: dezembro de 2016

Aplicável a: SQL Server 2016 Preview

Para criar um modelo de mineração de dados, primeiro você deve usar o Assistente de Mineração de Dados para criar uma nova estrutura de mineração com base na nova exibição da fonte de dados. Nessa tarefa, você usará o assistente para criar uma estrutura de mineração e, ao mesmo tempo, um modelo de mineração associado baseado no algoritmo Rede Neural da Microsoft.

Como as redes neurais são extremamente flexíveis e podem analisar muitas combinações de entradas e saídas, você deve testar várias maneiras de processar os dados para obter os melhores resultados. Por exemplo, convém personalizar a maneira que a meta numérica de qualidade de serviço é guardado, ou agrupados para destinar requisitos de negócios específicos. Para fazer isso, você adicionará uma nova coluna à estrutura de mineração que agrupa dados numéricos de uma maneira diferente e, em seguida, criará um modelo que usa a nova coluna. Você usará esses modelos de mineração para fazer alguma exploração.

Finalmente, quando você souber, com base no modelo de rede neural, quais fatores têm impacto maior para sua questão comercial, construirá um modelo separado para previsão e marcação. Você usará o algoritmo Regressão Logística da Microsoft, que é baseado no modelo de redes neurais, mas é otimizado para localizar uma solução baseada em entradas específicas.

Etapas

Criar a estrutura de mineração padrão e modelo

Use a diferenciação guardar a coluna previsível

Copiar a coluna e alterar o método de diferenciação para um modelo diferente

Criar um alias para a coluna previsível de modo que você possa comparar modelos

Todos os modelos de processos

Criar a estrutura de call center padrão

  1. No Solution Explorer no SQL Server Data Tools (SSDT), clique com botão direito estruturas de mineração e selecione nova estrutura de mineração.

  2. Na página Bem-vindo ao Assistente de Mineração de Dados , clique em Avançar.

  3. No Selecionar método de definição Verifique de warehouse existente de banco de dados ou dados relacional está selecionado e, em seguida, clique em próxima.

  4. Sobre o criar a estrutura de mineração de dados Verifique a opção Criar estrutura de mineração com um modelo de mineração está selecionada.

  5. Clique na lista suspensa para a opção qual técnica de mineração de dados você deseja usar?, em seguida, selecione Microsoft Neural Networks.

    Como os modelos de regressão logística se baseiam em redes neurais, você pode reutilizar a mesma estrutura e adicionar um novo modelo de mineração.

  6. Clique em Avançar.

    O Selecionar exibição da fonte de dados página será exibida.

  7. Em modos de exibição de fonte de dados disponíveis, selecione Call Center, e clique em próxima.

  8. No especificar tipos de tabela página, selecione o caso caixa de seleção ao lado de FactCallCenter tabela. Não selecione nada para DimDate. Clique em Avançar.

  9. Sobre o especificar os dados de treinamento página, selecione chave ao lado da coluna FactCallCenterID.

  10. Selecione o Predict e entrada caixas de seleção.

  11. Selecione o chave, entrada, e Predict caixas de seleção, conforme mostrado na tabela a seguir:

    Tabelas/Colunas Chave/Entrada/Prever
    AutomaticResponses Entrada
    AverageTimePerIssue Entrada/Prever
    Chamadas Entrada
    DateKey Não usar
    DayOfWeek Entrada
    FactCallCenterID Chave
    IssuesRaised Entrada
    LevelOneOperators Entrada/Prever
    LevelTwoOperators Entrada
    Orders Entrada/Prever
    ServiceGrade Entrada/Prever
    Turno Entrada
    TotalOperators Não usar
    WageType Entrada

    Observe que várias colunas previsíveis foram selecionadas. Um dos pontos fortes do algoritmo de rede neural é que ele pode analisar todas as combinações possíveis de atributos de entrada e saída. Você não iria querer fazer isso para um grande conjunto de dados, pois isso poderia aumentar exponencialmente o tempo de processamento.

  12. Sobre o colunas especificar conteúdo e tipo de dados página, verifique se a grade contém as colunas, tipos de conteúdo e tipos de dados, conforme mostrado na tabela a seguir e, em seguida, clique em próxima.

    Colunas Tipo de Conteúdo Tipos de dados
    AutomaticResponses Contínuo Longo
    AverageTimePerIssue Contínuo Longo
    Chamadas Contínuo Longo
    DayOfWeek Discreto Texto
    FactCallCenterID Chave Longo
    IssuesRaised Contínuo Longo
    LevelOneOperators Contínuo Longo
    LevelTwoOperators Contínuo Longo
    Orders Contínuo Longo
    ServiceGrade Contínuo Double
    Turno Discreto Texto
    WageType Discreto Texto
  13. Sobre o criar o teste definido página, desmarque a caixa de texto para a opção porcentagem de dados de teste. Clique em Avançar.

  14. Sobre o Concluindo o assistente página, para o nome da estrutura de mineração, tipo Call Center.

  15. Para o nome do modelo de mineração, tipo Call Center padrão NN, e, em seguida, clique em Concluir.

    O Permitir drill-through caixa está desabilitada porque você não pode detalhar para dados com modelos de rede neural.

  16. No Solution Explorer, clique no nome da estrutura de mineração de dados que você acabou criado e selecione processo.

Use a diferenciação guardar a coluna de destino

Por padrão, quando você cria um modelo de rede neural que tem um atributo previsível numérico, o algoritmo Rede Neural da Microsoft trata o atributo como um número contínuo. Por exemplo, o atributo ServiceGrade é um número que teoricamente varia de 0.00 (todas as chamadas são atendidas) a 1.00 (todos os chamadores desligam). Neste conjunto de dados, os valores têm a seguinte distribuição:

distribuição de valores de classificação de serviço

Em virtude disso, quando você processa o modelo, as saídas podem ser agrupadas de modo diferente do esperado. Por exemplo, se você usar o clustering para identificar os grupos de valores, o algoritmo divide os valores de ServiceGrade em intervalos como este: 0.0748051948 - 0.09716216215. Embora esse agrupamento seja matematicamente preciso, esse tipo de intervalo pode não ser significativo para usuários empresariais.

Nesta etapa, para tornar o resultado mais intuitivo, você agrupará os valores numéricos de modo diferente, criando cópias da coluna de dados numéricos.

Como funciona a diferenciação

O Analysis Services fornece vários métodos para guardar ou processar dados numéricos. A tabela a seguir ilustra as diferenças entre os resultados quando o atributo de saída ServiceGrade foi processado de três maneiras diferentes:

  • Tratando-o como um número contínuo.

  • Fazendo o algoritmo usar o clustering para identificar a melhor disposição dos valores.

  • Especificando que os números são guardados pelo método Áreas Iguais.

Modelo padrão (contínuo) Guardado por clustering Guardado por áreas iguais
VALOR: ausente suporte: 0

VALOR: 0,09875 SUPORTE: 120
VALOR: < 0.0748051948 SUPORTE: 34

VALOR: 0.0748051948 - 0.09716216215 SUPORTE: 27

VALOR: 0.09716216215 - 0.13297297295 SUPORTE: 39

VALOR: 0.13297297295 - 0.167499999975 SUPORTE: 10

VALOR: > = 0.167499999975 SUPORTE: 10
VALOR: < 0,07 SUPORTE: 26

VALOR: 0,07 - 0,00 SUPORTE: 22

VALOR: 0.09 - 0.11 SUPORTE: 36

VALOR: > = 0,12 SUPORTE: 36

Dica


É possível obter essas estatísticas do nó de estatísticas marginais do modelo, depois do processamento de todos os dados. Para obter mais informações sobre o nó de estatísticas marginais, consulte Mining Model Content para modelos de rede Neural (Analysis Services – Data Mining).

Nesta tabela, a coluna VALUE mostra para você como o número de ServiceGrade foi tratado. A coluna SUPPORT mostra para você quantos casos tiveram esse valor ou caíram nesse intervalo.

  • Usar números contínuos (padrão)

    Se você usasse o método padrão, o algoritmo computaria os resultados para 120 valores distintos, o valor médio seria 0,09875. Você também pode ver o número de valores ausentes.

  • Guardar por clustering

    Se você deixasse o algoritmo Clustering da Microsoft determinar o agrupamento opcional dos valores, o algoritmo agruparia os valores para ServiceGrade em cinco (5) intervalos. O número de casos em cada intervalo não é distribuído uniformemente, como você pode ver na coluna de suporte.

  • Guardar por áreas iguais

    Quando você escolhe este método, o algoritmo força os valores em buckets de tamanhos iguais, que por sua vez altera os limites superiores e inferiores de cada intervalo. Você pode especificar o número de buckets, mas você quer evitar ter dois valores pequenos em qualquer bucket.

Para obter mais informações sobre as opções de guardar, consulte métodos de diferenciação &40; mineração de dados &41;.

Como alternativa, em vez de usar os valores numéricos, você pode adicionar uma coluna derivada separada que classifica os níveis de serviço em intervalos de destino predefinidos, como melhor (ServiceGrade < = 0,05), aceitável (0,10 > ServiceGrade > 0,05), e ruim (ServiceGrade > = 0,10).

Criar uma cópia de uma coluna e alterar o método de diferenciação

Você vai fazer uma cópia da coluna de mineração que contém o atributo de destino, ServiceGrade e alterar a maneira como os números são agrupados. É possível criar várias cópias de qualquer coluna em uma estrutura de mineração, inclusive do atributo previsível.

Para este tutorial, você usará o método de Áreas Iguais de diferenciação e especificará quatro buckets. Os agrupamentos resultantes desse método são razoavelmente próximos dos valores de destino de interesse de seus usuários empresariais.

Para criar uma cópia personalizada de uma coluna na estrutura de mineração

  1. No Gerenciador de Soluções, clique duas vezes na estrutura de mineração que você acabou de criar.

  2. Na guia estrutura de mineração, clique em Adicionar uma coluna de estrutura de mineração.

  3. No Selecionar coluna caixa de diálogo, selecione ServiceGrade na lista da coluna de origem, em seguida, clique em OK.

    Uma nova coluna é adicionada à lista de colunas da estrutura de mineração. Por padrão, a nova coluna de mineração tem o mesmo nome que a coluna existente, com uma pós-fixação numérica: por exemplo, ServiceGrade 1. É possível alterar o nome dessa coluna para que seja mais descritivo.

    Você também especificará o método de diferenciação.

  4. Clique em ServiceGrade 1 e selecione propriedades.

  5. No propriedades janela, localize a nome propriedade e altere o nome para Service Grade Binned .

  6. Uma caixa de diálogo é exibida perguntando se você deseja fazer a mesma alteração no nome de todas as colunas do modelo de mineração relacionado. Clique em Não.

  7. No propriedades janela, localize a seção tipo de dados e expanda-o se necessário.

  8. Altere o valor da propriedade conteúdo de contínuo para Discretized.

    As propriedades a seguir estão disponíveis agora: Altere os valores das propriedades como mostrado na tabela seguinte:

    Propriedade Valor padrão Novo valor
    DiscretizationMethod Contínuo EqualAreas
    DiscretizationBucketCount Sem valor 4

    Dica


    O valor padrão de DiscretizationBucketCount é 0, o que significa que o algoritmo determina automaticamente o número ideal de buckets. Portanto, se você quiser redefinir o valor dessa propriedade como seu padrão, digite 0.

  9. No Designer de mineração de dados, clique o modelos de mineração guia.

    Observe que quando você adiciona uma cópia de uma coluna de estrutura de mineração, o sinalizador de uso para a cópia é definido automaticamente como Ignorar. Normalmente, quando você adiciona uma cópia de uma coluna a uma estrutura de mineração, você não usa a cópia para análise junto com a coluna original ou o algoritmo localizará uma correlação forte entre as duas colunas que pode obscurecer outras relações.

Adicionar um novo modelo de mineração à estrutura de mineração

Agora que criou um novo agrupamento para o atributo de destino, você precisa adicionar um novo modelo de mineração que use a coluna de dados discretos. Ao concluir, a estrutura de mineração de CallCenter terá dois modelos de mineração:

  • O modelo de mineração MN Padrão do Call Center trata os valores de ServiceGrade valores como um intervalo contínuo.

  • Você criará um novo modelo de mineração MN Call Center guardado que usa como seus resultados de meta os valores da coluna ServiceGrade, distribuídos em quatro buckets de tamanhos iguais.

Para adicionar um modelo de mineração baseado na nova coluna de dados discretos

  1. No Solution Explorer, clique com botão direito a estrutura de mineração que você acabou criado e selecione Abrir.

  2. Clique na guia Modelos de Mineração .

  3. Clique em criar um modelo de mineração relacionado.

  4. No novo modelo de mineração caixa de diálogo para nome do modelo, tipo Call Center guardado NN. No nome do algoritmo lista suspensa, selecione Microsoft Neural Network.

  5. Na lista de colunas contidas no novo modelo de mineração, localize ServiceGrade e altere o uso de Predict para Ignorar.

  6. Da mesma forma, localize ServiceGrade guardado e altere o uso de Ignorar para Predict.

Criar um alias para a coluna de destino

Ordinariamente você não pode comparar modelos de mineração que usam atributos previsíveis diferentes. No entanto, é possível criar um alias para uma coluna do modelo de mineração. Ou seja, você pode renomear a coluna ServiceGrade guardado, dentro do modelo de mineração para que ele tenha o mesmo nome que a coluna original. Em seguida, é possível comparar diretamente esses dois modelos em um gráfico de exatidão, embora os dados sejam diferenciados de maneira diferente.

Para adicionar um alias para uma coluna da estrutura de mineração em um modelo de mineração

  1. No modelos de mineração guia em estrutura, selecione ServiceGrade guardado.

    Observe que o propriedades janela exibe as propriedades do objeto, a coluna de ScalarMiningStructure.

  2. Na coluna do modelo de mineração, NM Guardado do ServiceGrade, clique na célula que corresponde à coluna ServiceGrade Guardado.

    Observe que agora o propriedades janela exibe as propriedades do objeto, MiningModelColumn.

  3. Localize o nome propriedade e altere o valor para ServiceGrade.

  4. Localize o Descrição propriedade e digite alias temporário da coluna.

    O propriedades janela deve conter as seguintes informações:

    Propriedade Value
    Description Alias temporário da coluna
    ID ServiceGrade guardado
    Sinalizadores de modelagem
    Nome Nível de serviço
    ID da SourceColumn Nível de serviço 1
    Uso Predict
  5. Clique em qualquer lugar a modelo de mineração guia.

    A grade é atualizada para mostrar o novo alias temporário da coluna, ServiceGrade, ao lado do uso de coluna. A grade que contém a estrutura de mineração e dois modelos de mineração devem ser parecidas com o seguinte:

    Estrutura NM Padrão do Center NM Guardado do Call Center
    Rede Neural da Microsoft Rede Neural da Microsoft
    AutomaticResponses Entrada Entrada
    AverageTimePerIssue Predict Predict
    Chamadas Entrada Entrada
    DayOfWeek Entrada Entrada
    FactCallCenterID Chave Chave
    IssuesRaised Entrada Entrada
    LevelOneOperators Entrada Entrada
    LevelTwoOperators Entrada Entrada
    Orders Entrada Entrada
    ServiceGrade Guardado Ignore Prever (ServiceGrade)
    ServiceGrade Predict Ignore
    Turno Entrada Entrada
    Total de Operadores Entrada Entrada
    WageType Entrada Entrada

Processar todos os modelos

Finalmente, para garantir que os modelos criados possam ser comparados facilmente, você definirá o parâmetro de semente para os dois modelos padrão e guardado. A definição de um valor de semente garante que cada modelo inicia o processamento dos dados no mesmo ponto.

Dica


Se você não especificar um valor numérico para o parâmetro de semente, o SQL Server Analysis Services gerará uma semente com base no nome do modelo. Como os modelos sempre têm nomes diferentes, defina um valor de semente para garantir que eles processem os dados na mesma ordem.

Para especificar a semente e processar os modelos

  1. No modelo de mineração guia, clique com botão direito da coluna para o modelo denominado Call Center - LR e selecione definir parâmetros de algoritmo.

  2. Na linha para o parâmetro HOLDOUT_SEED, clique na célula vazia em valor, e o tipo 1. Clique em OK. Repita essa etapa para cada modelo associado à estrutura.

    Dica


    O valor escolhido como semente não importa, desde que você use a mesma semente para todos os modelos relacionados.

  3. No modelos de mineração menu, selecione processar estrutura de mineração e todos os modelos. Clique em Sim para implantar o projeto de mineração de dados atualizados no servidor.

  4. No processar modelo de mineração caixa de diálogo, clique em executar.

  5. Clique em Fechar Fechar o progresso do processo caixa de diálogo e clique Fechar novamente no processar modelo de mineração caixa de diálogo.

Agora que criou os dois modelos de mineração relacionados, você explorará os dados para descobrir relações nos dados.

Próxima tarefa da lição

Explorando o modelo de Call Center e 40; Tutorial de mineração de dados intermediário e 41;

Consulte também

Estruturas de Mineração (Analysis Services – Data Mining)