Conjuntos de dados de teste e treinamento

Artigo
07/30/2013

A separação de dados em conjuntos de teste e treinamento é uma parte importante da avaliação de modelos de mineração de dados. Normalmente, quando você separa um conjunto de dados em um conjunto de treinamentos e um conjunto de testes, a maior parte dos dados é usada para treinamento e uma parte menor dos dados é usada para teste. O Analysis Services faz a amostra aleatória dos dados para ajudar a garantir que as partições de teste e de treinamento são similares. Usando dados semelhantes para treinamento e teste, você pode minimizar os efeitos das discrepâncias de dados e entender melhor as características do modelo.

Depois que um modelo for processado usando o conjunto de treinamentos, você testa o modelo fazendo previsões contra o conjunto de testes. Como os dados no conjunto de teste já contêm valores conhecidos para o atributo que você deseja prever, é fácil determinar se a precisão das previsões do modelo está correta.

Criando conjuntos de dados de teste e treinamento para estruturas de mineração de dados

No SQL Server 2012, você separa o conjunto de dados original no nível da estrutura de mineração. As informações sobre o tamanho dos conjuntos de dados de teste e treinamento, e qual linha corresponde a qual conjunto são armazenados com a estrutura e todos os modelos baseados nessa estrutura podem usar os conjuntos para treinamento e teste.

Você pode definir um conjunto de dados de teste em uma estrutura de mineração dos seguintes modos:

Usando o Assistente de Mineração de Dados para dividir uma estrutura de mineração quando você a cria.
Modificando as propriedades de estrutura na guia Estrutura de Mineração do Designer de Mineração de Dados.
Criando e modificando as estruturas programaticamente usando os Objetos de Gerenciamento de Análise (AMO) ou a linguagem de definição de dados DDL.

Usando o Assistente de Mineração de Dados para dividir uma estrutura de mineração

Por padrão, depois de definir as fontes de dados para uma estrutura de mineração, a Assistente de Mineração de Dados dividirá os dados em dois conjuntos: um com 70% dos dados de origem, para treinar o modelo, e um com 30% para testar o modelo. Esse padrão foi escolhido porque a proporção de 70-30 é geralmente usada na mineração de dados, mas com o Analysis Services, você pode alterar essa proporção para adequar suas exigências.

Você também pode configurar o assistente para definir um número máximo de casos de treinamento de casos ou você pode combinar os limites para limitar uma porcentagem máxima de casos até um número máximo de casos especificados. Quando você especifica uma porcentagem máxima de casos e um número máximo de casos, o Analysis Services usa o menor dos dois limites como o tamanho do conjunto de teste. Por exemplo, se você especificar uma validação de 30% para testar casos e o número máximo de casos de teste como 1.000, o tamanho do conjunto de teste nunca excederá 1.000 casos. Isso pode ser útil se quiser garantir que o tamanho do seu conjunto de teste se mantenha consistente mesmo que mais dados de treinamento sejam adicionados ao modelo.

Se você usar a mesma exibição de fonte de dados para estruturas de mineração diferentes e quiser garantir que os dados sejam divididos aproximadamente da mesma forma para todas as estruturas de mineração e seus modelos, você deve especificar a semente usada para inicializar a amostragem aleatória. Quando você especificar um valor para HoldoutSeed, o Analysis Services usará esse valor para iniciar a amostragem. Caso contrário, a amostragem usa um algoritmo de hash no nome da estrutura de mineração para criar o valor de semente.

Observação
Se você criar uma cópia da estrutura de mineração usando as instruções EXPORT e IMPORT, a nova estrutura de mineração terá os mesmos conjuntos de dados de treinamento e teste, porque o processo de exportação cria uma nova ID, mas usa o mesmo nome. No entanto, se duas estruturas de mineração usam a mesma fonte de dados subjacente, mas têm nomes diferentes, os conjuntos criados para cada estrutura de mineração serão diferentes.

Se você criar uma cópia da estrutura de mineração usando as instruções EXPORT e IMPORT, a nova estrutura de mineração terá os mesmos conjuntos de dados de treinamento e teste, porque o processo de exportação cria uma nova ID, mas usa o mesmo nome. No entanto, se duas estruturas de mineração usam a mesma fonte de dados subjacente, mas têm nomes diferentes, os conjuntos criados para cada estrutura de mineração serão diferentes.

Modificando propriedades de estrutura para criar um conjunto de dados de teste

Se você criar e processar uma estrutura de mineração e posteriormente decidir que deseja definir separadamente um conjunto de dados de teste, poderá modificar as propriedades da estrutura de mineração. Para alterar a maneira que os dados são particionados, edite as seguintes propriedades:

Propriedade	Descrição
HoldoutMaxCases	Especifica o número máximo de casos a serem incluídos no conjunto de teste.
HoldoutMaxPercent	Especifica o número de casos a serem incluídos no conjunto de teste como uma porcentagem do conjunto de dados completo. Para não ter nenhum conjunto de dados, especifique 0.
HoldoutSeed	Especifica um valor inteiro a ser usado como semente ao selecionar dados aleatoriamente para as partições. Esse valor não afeta o número de casos no conjunto de treinamento; ao contrário, ele garante que a partição pode ser repetida.

Se você adicionar ou alterar um conjunto de dados de teste a uma estrutura existente, deverá reprocessar a estrutura e todos os modelos associados. Além disso, como dividir os dados de origem faz o modelo ser treinado em um subconjunto diferente de dados, você deve ver resultados diferentes a partir do seu modelo.

Especificando controle programaticamente

Você pode definir conjuntos de dados de teste e treinamento em uma estrutura de mineração usando instruções DMX, AMO ou XML DDL. A instrução ALTER MINING STRUCTURE não oferece suporte ao uso dos parâmetros de controle.

DMX Na linguagem DMX, a instrução CREATE MINING STRUCTURE foi ampliada para incluir uma cláusula WITH HOLDOUT.
ASSL Você pode criar uma nova estruturas de mineração ou adicionar um conjunto de dados de teste a uma estrutura de mineração existente, usando a ASSL (Analysis Services Scripting Language).
AMO Você também pode exibir e modificar os conjuntos de dados de controle usando AMO.

Você pode exibir informações sobre os conjuntos de dados de controle em uma estrutura de mineração existente consultando o conjunto de linhas do esquema de mineração de dados. Você pode fazer isso através de uma chamada DISCOVER ROWSET ou usando uma consulta DMX.

Recuperando informações sobre dados de controle

Por padrão, todas as informações sobre os conjuntos de dados de treinamento e de teste estão armazenadas em cache, assim você pode usar os dados para treinamento e depois testar os novos modelos. Você também pode definir os filtros a serem aplicados aos dados de controle armazenados em cache, assim pode avaliar o modelo nos subconjuntos de dados.

O modo como os casos são divididos em conjuntos de dados de treinamento e teste depende de como você configura o controle e dos dados que você fornece. Se você quiser determinar o número de casos usados para treinamento ou teste, ou se você quer localizar detalhes adicionais sobre os casos incluídos nos conjuntos de treinamento e teste, você pode consultar a estrutura de modelo criando uma consulta DMX. Por exemplo, a consulta a seguir retorna os casos usados no conjunto de treinamento do modelo.

SELECT * from <structure>.CASES WHERE IsTrainingCase()

Para recuperar somente os casos de teste e filtrar adicionalmente os casos de teste em uma das colunas na estrutura de mineração, use a seguinte sintaxe:

SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'

Limitações no uso de dados de controle

Para usar o controle, a propriedade MiningStructureCacheMode da estrutura de mineração deve ser definida como o valor padrão, KeepTrainingCases. Se você alterar a propriedade CacheMode para ClearAfterProcessing e, em seguida, reprocessar a estrutura de mineração, a partição será perdida.
Você não pode remover dados de um modelo de série temporal; portanto, você não pode separar os dados de origem em conjuntos de treinamento e teste. Se você começar a criar uma estrutura de mineração e modelo e escolher o algoritmo MTS (Microsoft Time Series), a opção de criar um conjunto de dados de controle será desabilitada. O uso de dados de controle também será desabilitado se a estrutura de mineração contiver uma coluna KEY TIME no caso ou no nível de tabela aninhada.
É possível configurar inadvertidamente os conjuntos de dados de controle de modo que o conjunto de dados inteiro seja usado em testes e nenhum dado permanecer para usar em treinamento. Porém, se você fizer assim, o Analysis Services gerará um erro de forma que você possa corrigir o problema. O Analysis Services também avisa você quando a estrutura é processada se mais de 50% dos dados tiverem sido validados para teste.
Na maioria dos casos, o valor de validação padrão de 30 fornece um bom equilíbrio entre os dados de treinamento e teste. Não há uma maneira simples de determinar o tamanho necessário do conjunto de dados para fornecer treinamento suficiente, nem o quão esparso o conjunto de treinamentos pode ser e, conseguir, ainda, evitar o superajuste. Porém, depois que você criar um modelo, pode usar validação cruzada para avaliar o conjunto de dados em relação a um modelo específico.
Além das propriedades listadas na tabela anterior, uma propriedade somente leitura HoldoutActualSize é fornecida no AMO e XML DDL. No entanto, como o tamanho real de uma partição não pode ser determinado precisamente até que a estrutura tenha sido processada, você deve verificar se o modelo foi processado antes de recuperar o valor da propriedade HoldoutActualSize.

Conteúdo relacionado

Tópicos	Links
Descreve como os filtros em um modelo interagem com conjuntos de dados de treinamento e teste.	Filtros para modelos de mineração (Analysis Services - Mineração de dados)
Descreve como o uso de dados de treinamento e teste afeta a validação cruzada.	Validação cruzada (Analysis Services - Mineração de dados)
Fornece informações sobre as interfaces programáticas para funcionar com conjuntos de treinamento e teste em uma estrutura de mineração.	Conceitos e modelo de objeto AMO Elemento MiningStructures (ASSL)
Fornece sintaxe de DMX para criar conjuntos de controle.	CRIAR UMA ESTRUTURA DE MINERAÇÃO (DMX)
Recuperar informações sobre casos nos conjuntos de treinamento e teste.	Conjuntos de linhas de esquema de mineração de dados Consultando os conjuntos de linhas de esquema de mineração de dados (Analysis Services - Mineração de Dados)