Freigeben über


Erstellen von Testsätzen (Data Mining-Assistent)

Auf der Seite Testsatz erstellen können Sie den Teil der Daten angeben, der für das Training verwendet bzw. zur Verwendung als Testsatz reserviert werden soll. Durch das Aufteilen von Daten in einen Trainings- und Testsatz beim Erstellen einer Miningstruktur wird die Beurteilung der Genauigkeit von Miningmodellen, die Sie zu einem späteren Zeitpunkt erstellen, erheblich vereinfacht.

Sie können den Betrag der Testdaten als Prozentsatz angeben, oder Sie können eine Zahl angeben, um die Anzahl der zum Testen verwendeten Fälle zu beschränken. Wenn Sie sowohl einen Prozentsatz als auch eine Höchstanzahl an Fällen für das Testen angeben, werden beide Einstellungen verwendet, und der Testdatensatz enthält die niedrigere Anzahl an Fällen. Standardmäßig werden 30 % zum Testen und 70 % für das Training verwendet, und es ist keine maximale Anzahl an Testfällen festgelegt.

Standardmäßig generiert Analysis Services einen numerischen Ausgangswert, der zum Starten der Partitionierung verwendet wird. Dieser Ausgangswert basiert auf dem Namen der Miningstruktur. Wenn Sie sicherstellen möchten, dass die Partition unverändert bleibt, auch wenn der Name der Miningstruktur geändert wird, können Sie einen Wert für den Ausgangswert angeben, indem Sie die HoldoutSeed-Eigenschaft der Miningstruktur festlegen. Wenn Sie den Zurückhaltungsausgangswert ändern, müssen Sie die Struktur erneut verarbeiten.

Wenn Sie die Menge der Test- oder Trainingsdaten später ändern möchten, können Sie die Eigenschaften HoldoutMaxCases und HoldoutMaxPercent in der Data Mining-Struktur im Fenster Eigenschaften ändern. Wenn Sie die Änderung vorgenommen haben, müssen Sie die Miningstruktur und alle zugeordneten Miningmodelle jedoch erneut verarbeiten. Außerdem gelten die folgenden Einschränkungen:

  • Die Partitionierung einer Data Mining-Struktur wird nur unterstützt, wenn die Data Mining-Struktur in SQL Server 2008 gespeichert ist. Frühere Versionen von SQL Server Analysis Services unterstützen das Zwischenspeichern von Partitionsinformationen für Miningstrukturen nicht.

  • Sie können eine Miningstruktur nicht partitionieren, wenn die Miningstruktur die Spalte Key Time enthält, die für Zeitreihenminingmodelle erforderlich ist.

  • Sie können Daten nicht partitionieren, wenn Sie versuchen, einen Wert vorherzusagen, der in einer geschachtelten Tabelle gespeichert ist.

Weitere Informationen finden Sie unter:Überprüfen von Data Mining-Modellen (Analysis Services - Data Mining), Erstellen einer neuen Miningstruktur und Lernprogramm zu Data Mining-Grundlagen

Optionen

  • Prozentsatz der Daten für Tests
    Klicken Sie auf die Nach-oben- und Nach-unten-Pfeile, um den Prozentsatz der Daten, die als Trainingssatz verwendet werden sollen, herauf- oder herabzusetzen, oder geben Sie einen Wert zwischen 0 und 100 in das Textfeld ein.

  • Maximale Anzahl von Fällen in Testdatensatz
    Geben Sie eine Zahl ein, um die Anzahl der Fälle einzuschränken, die für Tests verwendet werden können.

    Wenn Sie eine Zahl angeben, die größer ist als die Anzahl der tatsächlichen Fälle in den Daten, werden alle Fälle verwendet.

    Der Standardwert ist NULL. Dies bedeutet, dass es keine Beschränkung gibt.