Créer un jeu de test (Assistant Exploration de données)

La page Créer un jeu de test permet de spécifier la quantité des données à utiliser pour l'apprentissage et celle à réserver au jeu de test. La séparation des données dans un jeu d'apprentissage et de test lorsque vous créez une structure d'exploration de données facilite énormément l'évaluation de l'exactitude des modèles d'exploration de données que vous créez ultérieurement.

Vous pouvez spécifier la quantité de données de test sous la forme d'un pourcentage ou vous pouvez spécifier un nombre pour limiter le nombre de scénarios utilisé pour le test. Si vous spécifiez à la fois un pourcentage et un nombre maximal de scénarios à utiliser pour le test, les deux paramètres sont utilisés et le jeu de données de test contient le nombre de cas le plus petit. Par défaut, 30 pour cent des données sont utilisées pour le test, 70 pour cent pour l'apprentissage et il n'existe aucun nombre maximal de scénarios de test.

Par défaut, Analysis Services génère une valeur de départ numérique utilisée pour démarrer le partitionnement. Cette valeur de départ est basée sur le nom de la structure d'exploration de données. Si vous souhaitez veiller à ce que la partition reste la même, même si le nom de la structure d'exploration de données est modifié, vous pouvez spécifier une valeur pour la valeur de départ, en définissant la propriété HoldoutSeed de la structure d'exploration de données. Si vous modifiez la valeur de départ d'exclusion, vous devez retraiter la structure.

Si vous souhaitez ultérieurement modifier la quantité de données de test ou d'apprentissage, vous pouvez modifier les propriétés HoldoutMaxCases et HoldoutMaxPercent sur la structure d'exploration de données en utilisant la fenêtre Propriétés. Toutefois, après avoir apporté cette modification, vous devez retraiter la structure d'exploration de données et tous les modèles d'exploration de données associés. Les limitations suivantes s'appliquent également :

  • Le partitionnement d'une structure d'exploration de données est pris en charge uniquement lorsque la structure d'exploration de données est stockée dans SQL Server 2008. Les versions antérieures de SQL Server Analysis Services ne prennent pas en charge la mise en cache des informations de partition pour les structures d'exploration de données.

  • Vous ne pouvez pas partitionner une structure d'exploration de données si elle contient une colonne Temps clé, ce qui est obligatoire pour les modèles d'exploration de données de séries chronologiques.

  • Vous ne pouvez pas partitionner des données si vous essayez de prédire une valeur qui est stockée dans une table imbriquée.

Pour plus d'informations :Validation des modèles d'exploration de données (Analysis Services - Exploration de données), Création d'une nouvelle structure d'exploration de données, Didacticiel sur l'exploration de données de base

Options

  • Pourcentage des données de test
    Cliquez sur les flèches vers le haut et le bas pour augmenter ou réduire le pourcentage de données à utiliser en tant que jeu d'apprentissage ou tapez une valeur comprise entre 0 et 100 dans la zone de texte.

  • Nombre maximal de cas dans le jeu de données de test
    Tapez un nombre pour limiter le nombre de scénarios qui peuvent être utilisés à des fins de test.

    Si vous spécifiez un nombre supérieur au nombre de scénarios réels dans les données, tous les cas seront utilisés.

    La valeur par défaut est NULL. Ce signifie qu'il n'existe aucune limite.