SystemGetClusterCrossValidationResults (Analysis Services - Data Mining)

Artigo
05/07/2013

Particiona a estrutura de mineração em um número especificado de seções cruzadas, treina um modelo para cada partição e retorna métricas de precisão para cada partição.

Observação: esse procedimento armazenado só pode ser usado com uma estrutura de mineração que contém pelo menos um modelo de clustering. Para validar modelos que não estão em cluster, você deve usar SystemGetCrossValidationResults (Analysis Services - Data Mining).

Sintaxe

SystemGetClusterCrossValidationResults(
<structure name>, 
[,<mining model list>]
,<fold count>}
,<max cases>
<test list>])

Argumentos

mining structure
Nome de uma estrutura de mineração no banco de dados atual.

(Obrigatória)

mining model list
Lista separada por vírgulas de modelos de mineração para validar.

Se uma lista de modelos de mineração não for especificada, a validação cruzada será executada em todos os modelos de clustering associados com a estrutura especificada.

Observação
Para fazer a validação cruzada de modelos que não forem de clustering, use um procedimento armazenado separado SystemGetCrossValidationResults (Analysis Services - Data Mining).

(opcional)

fold count
Inteiro que especifica o número de partições nas quais separar o conjunto de dados. O valor mínimo é 2. O número máximo de dobras é maximum integer ou o número de casos, o que for inferior.

Cada partição conterá este número de casos, aproximadamente: max cases/fold count.

Não há valor padrão.

Observação
O número de dobras afeta grandemente o tempo necessário para realizar a validação cruzada. Se você selecionar um número que seja muito alto, a consulta poderá ser executada por muito tempo e, em alguns casos, o servidor poderá ficar sem-resposta ou expirar.

(Obrigatória)

max cases
Inteiro que especifica o número de máximo de caixas que podem ser testadas.

Um valor de 0 indica que serão usadas todas as caixas na fonte de dados.

Se for especificado um número maior que o de casos reais no conjunto de dados, todos os casos serão da fonte de dados serão usados.

(Obrigatória)
test list
Uma cadeia de caracteres que especifica opções de teste.

Observação: esse parâmetro é reservado para uso futuro.

(opcional)

Tipo de retorno

A tabela Tipo de retorno contém pontuações para cada partição específica e agregações para todos os modelos.

A tabela a seguir descreve as colunas retornadas.

Nome da coluna	Descrição
ModelName	O nome do modelo que foi testado.
AttributeName	O nome da coluna previsível. Para modelos de cluster, sempre null.
AttributeState	Um valor de destino especificado na coluna previsível. Para modelos de cluster, sempre null..
PartitionIndex	Um índice de base 1 que identifica a qual partição os resultados se aplicam.
PartitionSize	Um inteiro que indica quantos casos foram incluídos em cada partição.
Teste	O tipo de teste que foi executado.
Medida	Nome da medida retornada pelo teste. Medidas para cada modelo dependem do tipo do valor previsível. Para obter uma definição de cada medida, consulte Validação cruzada (Analysis Services - Mineração de dados). Para obter uma lista de medidas retornadas para cada tipo previsível, consulte Medidas no relatório de validação cruzada.
Valor	O valor da medida de teste especificada.

Comentários

Para retornar métricas de precisão para todo o conjunto de dados, use SystemGetClusterAccuracyResults (Analysis Services - Data Mining).

Além disso, se o modelo de mineração já tiver sido dividido em dobras, você poderá ignorar o processamento e retornar somente os resultados da validação cruzada usando SystemGetClusterAccuracyResults (Analysis Services - Data Mining).

Exemplos

O exemplo a seguir demonstra como particionar uma estrutura de mineração em três dobras e, em seguida, testar dois modelos de clustering associados com a estrutura de mineração.

A linha três do código lista os modelos de mineração específicos que você deseja testar. Se você não especificar a lista, todos os modelos de clustering associados com a estrutura serão usados.

A linha quatro do código especifica o número de dobras e a linha cinco especifica o número máximo de casos a usar.

Como esses são modelos de clustering, não é necessário especificar um atributo ou valor previsível.

CALL SystemGetClusterCrossValidationResults(
[v Target Mail],
[Cluster 1], [Cluster 2],
3,
10000
)

Resultados do exemplo:

ModelName	PartitionIndex	PartitionSize	Teste	Medida	Value
Cluster 1	1	3025	Clustering	Probabilidade de caso	0.930524511864121
Cluster 1	2	3025	Clustering	Probabilidade de caso	0.919184178430778
Cluster 1	3	3024	Clustering	Probabilidade de caso	0.929651120490248
Cluster 2	1	1289	Clustering	Probabilidade de caso	0.922789726933607
Cluster 2	2	1288	Clustering	Probabilidade de caso	0.934865535691068
Cluster 2	3	1288	Clustering	Probabilidade de caso	0.924724595688798