Artigo
04/01/2012

Relatório de validação cruzada (Analysis Services - Mineração de dados)

A validação cruzada permite dividir uma estrutura de mineração em seções cruzadas e interativamente treinar e testar modelos com cada seção cruzada dos dados. Você especifica diversas partições para dividir e colocar os dados, cada partição é usada por sua vez como dados de teste enquanto que os dados restantes são usados para treinar o novo modelo. O Analysis Services gera um conjunto de métricas padrão de precisão para cada modelo. Comparando as métricas dos modelos geradas para cada seção cruzada, é possível obter uma boa noção da confiabilidade do modelo em relação a todo conjunto de dados.

Observação
A validação cruzada não pode ser usada com nenhum modelo que contenha uma coluna KEY TIME ou KEY SEQUENCE.

Esta seção explica as informações que são apresentadas no relatório Validação Cruzada, na guia Gráfico de Precisão de Mineração do Designer de Mineração de Dados. Para obter informações sobre como criar um relatório, consulte Guia da validação cruzada (Exibição do gráfico de precisão de mineração).

Criar um relatório de validação cruzada

Para validar de forma cruzada os modelos de mineração associados com uma estrutura de mineração, utilize a guia Validação Cruzada da Exibição de Precisão de Mineração no Designer de Mineração de Dados, ou os procedimentos armazenados de validação cruzada, para configurar as seguintes opções:

Especificar o número de dobras.
Especificar o número máximo de casos para usar para validação cruzada. Este número é dividido pelo número de dobras.
Especificar a coluna previsível. Opcionalmente, especificar um estado previsível.

Observação
Se a sua estrutura de mineração contiver modelos de clustering, especifique #Cluster em vez de selecionar uma coluna previsível. O relatório só retorna resultados para modelos de clustering.

Opcionalmente, ajuste os parâmetros que controlam como a exatidão da previsão é avaliada.

Escolher um conjunto de dados de validação cruzada

Ao utilizar a guia Validação Cruzada da exibição Gráfico de Precisão de Mineração, há duas formas de controlar a quantidade e o tipo de dados que são usados durante a validação: pode-se especificar o número de dobras ou limitar o número de casos. Por padrão, a validação cruzada no Business Intelligence Development Studio usa o treinamento de casos para cada modelo. Se um filtro estiver associado ao modelo, ele será aplicado.

O valor Contagem de Dobras(FoldCount) especifica o número de seções cruzadas a serem criadas do conjunto de dados. Cada dobra é utilizada como conjunto de dados de teste e os dados nas dobras restantes são usados para treinar um novo modelo. Portanto, se você usar o valor mínimo 2, a metade do conjunto de dados será usada para teste e a outra metade para treinamento.

Se a estrutura de mineração não esta armazenada em uma instância do Analysis Services, mas esta criada como uma estrutura temporária ou de sessão, o numero máximo de dobras que você pode usar é10. Se a estrutura de mineração esta armazenada em uma instância do Analysis Services, você não pode criar mais dobras do que o numero de casos existentes. Se o numero de casos for menor que o numero que você definiu para Contagem de Dobras, o menor numero é utilizado.

Observação
À medida que você aumenta o número de dobras, o tempo que é necessário para executar a validação cruzada também aumenta, porque um modelo deve ser gerado e testado para cada dobra. Você pode experimentar problemas de desempenho se o número de dobras for muito alto.

O valor Máx. de Casos(MaxCases) especifica o número total de casos através de todas as dobras, que pode ser usado para validação cruzada. Portanto, o numero de casos em qualquer dobra em particular é igual ao valor de Máx. de Casos dividido pelo valor de Contagem de Dobras. O valor padrão é 0, que significa que todos os casos na estrutura de mineração são usados.

Se você executar a validação cruzada através de um procedimento armazenado, deverá fornecer os valores das propriedades FoldCount e MaxCases como parâmetros para os procedimentos armazenados.

Observação
Ao usar os procedimentos armazenados de validação cruzada, você pode também informar o parâmetro DataSet para definir o conjunto de dados para teste. As opções para o conjunto de dados incluem somente conjunto de treinamento, conjunto de teste e treinamento e combinações de conjunto de treinamento e teste com filtros de modelo de mineração. Para obter mais informações, consulte SystemGetCrossValidationResults (Analysis Services - Data Mining).

Ao usar os procedimentos armazenados de validação cruzada, você pode também informar o parâmetro DataSet para definir o conjunto de dados para teste. As opções para o conjunto de dados incluem somente conjunto de treinamento, conjunto de teste e treinamento e combinações de conjunto de treinamento e teste com filtros de modelo de mineração. Para obter mais informações, consulte SystemGetCrossValidationResults (Analysis Services - Data Mining).

Escolher os modelos e colunas para validar

Ao usar a guia Validação Cruzada no Designer de Mineração de Dados, você deve primeiro selecionar a coluna previsível de uma lista. Normalmente, uma estrutura de mineração pode aceitar muitos modelos de mineração, porém nem todos os modelos usam a mesma coluna previsível. Ao executar a validação cruzada, só podem ser incluídos no relatório os modelos que usam a mesma coluna previsível.

Para escolher um atributo previsível, clique em Atributo de Destino e selecione a coluna da lista. Se o atributo de destino é uma coluna aninhada, ou uma coluna em uma tabela aninhada, você deve informar o nome da coluna aninhada usando o formato <Nome da Tabela Aninhada>(key).<Coluna Aninhada>. Se a única coluna usada da tabela aninhada é a coluna chave, você pode usar <Nome da Tabela Aninhada>(key).

ObservaçãoAo usar os procedimentos armazenados, você pode exercer um maior controle sobre os modelos que são testados. Para obter mais informações, consulte SystemGetCrossValidationResults (Analysis Services - Data Mining).

Depois que você seleciona o atributo previsível, o Analysis Services automaticamente testa todos os modelos que usam o mesmo atributo previsível.

Se o atributo de destino contém valores discretos, após você ter selecionado a coluna previsível é possível informar opcionalmente um estado de destino, isto se existir um valor específico que você deseja prever.

A seleção do estado de destino afeta as medidas que são retornadas. Se você especifica um atributo de destino, — isto é, um nome de coluna — e não escolhe um valor específico para o modelo predizer, por padrão o modelo será avaliado em sua previsão do estado mais provável.

Se você efetua a validação cruzada em um modelo de clustering, não existe a coluna previsível; ao invés disso, você seleciona #Cluster de uma lista de atributos previsíveis na caixa de listagem Atributo de Destino. Após você ter selecionado Cluster, outras opções que não são relevantes para modelos de clustering, como Estado de Destino, são desabilitadas. O Analysis Services irá testar todos os modelos de clustering que estão associados com a estrutura de mineração.

Definir o limite de precisão

Você pode controlar o padrão para medir a precisão da previsão definindo um valor para Limite de Destino. Um limite representa um tipo de barra de precisão. Para cada previsão é atribuída uma probabilidade de que o valor previsto está correto. Portanto, ao definir o valor Limite de Destino próximo de 1, você esta requerendo que a probabilidade de qualquer predição em particular seja razoavelmente alta para ser considerada como uma boa previsão. Por outro lado, se você definir o Limite de Destino próximo de 0, mesmo as previsões com baixos valores de probabilidade serão consideradas “boas”.

Não existe um valor limite recomendado porque a probabilidade de qualquer previsão depende dos seus dados e do tipo de previsão que você esta fazendo. Você deve analisar algumas previsões a níveis de probabilidades diferentes para determinar uma barra de precisão apropriada para seus dados. Esta etapa é importante porque o valor que você define para o Limite de Destino tem um forte efeito na precisão medida do modelo.

Por exemplo, suponha que sua estrutura contenha três modelos que predizem o estado de destino com as probabilidades de 0.05, 0.15 e 0.8. Se você definir o limite de 0,5, só uma previsão será contada como estando correta. Se você definir o Limite de Destino como 0.10, serão contadas duas previsões como estando corretas.

Quando o Limite de Destino é definido como null, que é o valor padrão, o estado mais provável é usado como destino. No exemplo a pouco citado, todos os três modelos teriam previsões corretas. Portanto, ao comparar modelos, você deve considerar o limite usado para cada instância da validação cruzada. Você também pode avaliar as probabilidades médias para todos os casos em um modelo em particular utilizando as medidas Mean Likelihood e Root Mean Square Error que são fornecidas no relatório de validação cruzada.

Limitações ao usar a guia de validação cruzada

Ao executar a validação cruzada usando o relatório de validação cruzada no Business Intelligence Development Studio, existem algumas limitações nos modelos que você pode testar e os parâmetros que você pode configurar.

Por padrão, todos os modelos associados com a estrutura de mineração selecionada são validados pela validação cruzada. Você não pode especificar o modelo ou uma lista de modelos.
A Validação Cruzada não é fornecida para modelos que são baseados no algoritmo MTS ou no algoritmo MSC.
O relatório não pode ser criado se sua estrutura de mineração não contém nenhum modelo que possa ser testado pela validação cruzada.
Se a estrutura de mineração contém modelos de clustering e de não clustering e você não escolheu a opção #Cluster, os resultados para ambos os tipos de modelos são mostrados no mesmo relatório, mesmo que o atributo, o estado e as configurações de limites possam não ser apropriados para os modelos de clustering.
Alguns valores de parâmetros são restringidos. Por exemplo, um aviso aparece se o numero de dobras for maior que 10, porque ao gerar muitos modelos o relatório pode ser exibido lentamente.

Se você quiser especificar configurações avançadas, deve usar os procedimentos armazenados de validação cruzada. Para obter mais informações, consulte Procedimentos armazenados da mineração de dados (Analysis Services - Data Mining).

Resultados de validação cruzada

Depois que você especificou os parâmetros e clicou em Atualizar, são exibidos os resultados de validação cruzada na grade de resultados. Esta seção explica os conteúdos de cada coluna na grade de resultados.

Em adição a algumas informações básicas sobre o numero de dobras nos dados, e a quantidade de dados em cada dobra, o Analysis Services exibe um conjunto de medidas sobre cada modelo, categorizadas por tipo. A tabela a seguir lista os testes e a métrica, com uma explanação sobre o que a métrica significa.

Tipo de Teste	Medidas e Descrições
Clustering	Probabilidade de CasosIndicação da probabilidade de um caso pertencer a um determinado cluster.
Classificação	Verdadeiro PositivoContagem de casos que atendem estas condições: Casos que contém o valor de destino. O modelo previu que o caso contém o valor de destino. Falso PositivoContagem de casos que atendem estas condições: O valor atual é igual ao valor de destino. O modelo previu que o caso contém o valor de destino. Verdadeiro NegativoContagem de casos que atendem estas condições: Caso não contém o valor de destino. O modelo previu que o caso não contém o valor de destino. Falso NegativoContagem de casos que atendem estas condições: O valor atual não é igual ao valor de destino. O modelo previu que o caso não contém o valor de destino.
Classificação	Passa/FalhaContagem de casos que atendem estas condições: Passa se o estado previsível com a mais alta probabilidade é o mesmo que o estado de entrada e a probabilidade é maior que o valor de Limite de Estado. Caso contrário, falha.
Probabilidade	Comparação de PrecisãoA relação da probabilidade da previsão atual para a probabilidade marginal nos casos de teste. Esta métrica mostra o quanto a probabilidade melhora quando o modelo é usado. Erro de Raiz Quadrada MédiaRaiz quadrada do erro médio para todos os casos da partição, dividido pelo número de casos na partição, excluindo linhas com valores ausentes. Pontuação de logLogaritmo da probabilidade real para cada caso, somado e depois dividido pelo número de linhas no conjunto de dados, exceto linhas com valores ausentes. Como a probabilidade é representada como uma fração decimal, as contagens de log sempre são números negativos. Um pontuação mais próxima de 0 indica a melhor previsão.
Estimativa	Erro de Raiz Quadrada MédiaErro médio do valor previsto para o valor real, expresso como a raiz quadrada da soma média dos erros quadrados. Erro Absoluto MédioErro médio do valor previsto para o valor real, expresso como a média da soma absoluta dos erros. Pontuação de logPontuação da probabilidade de log para a previsão: o logaritmo da probabilidade real para cada caso, somado e depois dividido pelo número de linhas no conjunto de dados, exceto linhas com valores ausentes. Como a probabilidade é representada como uma fração decimal, as contagens de log sempre são números negativos. Um pontuação mais próxima de 0 indica a melhor previsão. Visto que contagens brutas podem ter distribuições muito irregulares ou distorcidas, uma contagem de log é semelhante a uma porcentagem.
Agregados As medidas agregadas fornecem uma indicação da variação nos resultados para cada partição.	MédiaMédia dos valores de partição para uma medida particular. Desvio PadrãoMédia do desvio da média para uma medida específica, através de todas as partições em um modelo.

Observação
Essas medidas de precisão são computadas para cada atributo de destino e, para cada atributo, você pode especificar ou omitir um valor de destino. Alguns registros podem não ter um valor para o atributo de destino, o que é um caso especial, denominado valor ausente. As linhas com valores ausentes não são contadas na computação da medida de precisão de um atributo de destino específico. Além disso, como as pontuações são computadas para cada atributo individualmente, se os valores estiverem presentes para o atributo de destino, porém ausentes para outros atributos, isso não afetará a pontuação para o atributo de destino.

Essas medidas de precisão são computadas para cada atributo de destino e, para cada atributo, você pode especificar ou omitir um valor de destino. Alguns registros podem não ter um valor para o atributo de destino, o que é um caso especial, denominado valor ausente. As linhas com valores ausentes não são contadas na computação da medida de precisão de um atributo de destino específico. Além disso, como as pontuações são computadas para cada atributo individualmente, se os valores estiverem presentes para o atributo de destino, porém ausentes para outros atributos, isso não afetará a pontuação para o atributo de destino.