Share via


Guia da validação cruzada (Exibição do gráfico de precisão de mineração)

A validação cruzada permite dividir uma estrutura de mineração em seções cruzadas e interativamente treinar e testar modelos com cada seção cruzada. Você especifica um número de partições para dividir e colocar os dados; cada partição, por sua vez, é usada como dados de teste, enquanto os dados restantes são usados para treinar o novo modelo. O Analysis Services gera um conjunto de métricas de precisão padrão para cada modelo. Comparando as métricas dos modelos geradas para cada seção cruzada, é possível obter uma boa noção da confiabilidade do modelo em relação a todo conjunto de dados.

Para obter mais informações, consulte Validação cruzada (Analysis Services - Mineração de dados).

ObservaçãoObservação

A validação cruzada não pode ser usada com modelos que foram criados usando os algoritmos Microsoft MTS ou o Microsoft MSC. Se você executar o relatório em uma estrutura de mineração que contenha estes tipos de modelos, os modelos não serão incluídos no relatório.

  • Especificar o número de dobras.

  • Especificar o número máximo de casos para usar para validação cruzada.

  • Especificar a coluna previsível.

  • Opcionalmente, especificar um estado previsível.

  • Opcionalmente, ajuste os parâmetros que controlam como a exatidão da previsão é avaliada.

  • Clique em Obter Resultados para exibir os resultados de validação cruzada.

  • Número de Partições
    Especifique o número de dobras ou partições para criar. O valor mínimo é 2, significando que a metade do conjunto de dados é usada para testar e metade para treinar.

    O valor máximo é 10 para estruturas de mineração da sessão.

    O valor máximo será 256 se a estrutura de mineração for armazenada em uma instância do Analysis Services.

    ObservaçãoObservação

    À medida que você aumenta o número de partições, o tempo necessário para realizar a validação cruzada também aumenta em n. Talvez você enfrente problemas de desempenho se o número de casos for grande e o valor de Número de Partições também for alto.

  • Máx. Casos
    Especificar o número máximo de casos para usar para validação cruzada. O número de casos em qualquer dobra em particular é igual ao valor de Máx. de Casos dividido pelo valor de Número de Partições.

    Se você usar 0, todas os casos nos dados de origem serão usados para validação cruzada.

    Não há valor padrão.

    ObservaçãoObservação

    Ao aumentar o número de casos, o tempo de processamento também aumentara.

  • Atributo de Destino
    Selecione uma coluna da lista de colunas previsíveis encontradas em todos os modelos. Você só pode selecionar uma coluna previsível toda vez que executar a validação cruzada.

    Para testar somente modelos de clustering, selecione Cluster.

  • Estado de Destino
    Digite um valor ou selecione um valor de destino de uma listagem suspensa de valores.

    O valor padrão é null, indicando que todos os estados serão testados.

    Desabilitado para modelos de clustering.

  • Limite de Destino
    Especifique um valor entre 0 e 1 que indica a condição acima do estado previsível em que a probabilidade da previsão é considerada para estar correta. O valor pode ser definido em acréscimos de 0,1.

    O padrão é null, indicando que a previsão mais provável é contada como correta.

    ObservaçãoObservação

    Embora você possa definir o valor como 0,0, usando este valor ira aumentar o tempo de processamento sem resultados significativos de rendimento.

  • Obter Resultados
    Clique para começar a validação cruzada do modelo usando os parâmetros especificados.

    O modelo é dividido no número especificado de dobras e um modelo separado é testado para cada dobra. Portanto, pode levar algum tempo para a validação cruzada retornar os resultados.

Para obter mais informações sobre como interpretar os resultados do relatório de validação cruzada, consulte Medidas no relatório de validação cruzada.

Definir o limite de precisão

Você pode controlar o padrão para medir a precisão da previsão definindo um valor para Limite de Destino. Um limite representa um tipo de barra de precisão. Para cada previsão é atribuída uma probabilidade de que o valor previsto está correto. Portanto, ao definir o valor Limite de Destino próximo de 1, você esta requerendo que a probabilidade de qualquer predição em particular seja razoavelmente alta para ser considerada como uma boa previsão. Por outro lado, se você definir o Limite de Destino próximo de 0, mesmo as previsões com baixos valores de probabilidade são contadas como “boas”.

Não existe um valor de limite recomendado porque a probabilidade de qualquer previsão depende da quantidade de dados e do tipo de previsão que você esta fazendo. Você deve analisar algumas previsões a níveis de probabilidades diferentes para determinar uma barra de precisão apropriada para seus dados. É importante que se faça isto, porque o valor que você define para o Limite de Destino afeta a precisão medida do modelo.

Por exemplo, suponha que três previsões são feitas para um determinado estado de destino, e as probabilidades de cada previsão são 0,05, 0,15 e 0,8. Se você definir o limite de 0,5, só uma previsão será contada como estando correta. Se você definir o Limite do Destino como 0,10, serão contadas duas previsões como estando corretas.

Quando o Limite de Destino é definido como null, que é o valor padrão, a previsão mais provável para cada caso é contada como correta. No exemplo a pouco citado, 0,05, 0,15 e 0,8 são as probabilidades para previsões em três casos diferentes. Embora as probabilidades sejam muito diferentes, cada previsão será contada como correta, porque cada caso gera somente uma previsão e essas são as melhores previsões para esses casos.

Consulte também

Conceitos

Teste e validação (mineração de dados)

Validação cruzada (Analysis Services - Mineração de dados)

Medidas no relatório de validação cruzada

Outros recursos

Procedimentos armazenados da mineração de dados (Analysis Services - Data Mining)