Artikel
03/30/2012

Diskretisierungsmethoden (Data Mining)

Einige Algorithmen, die zum Erstellen von Data Mining-Modellen in SQL Server Analysis Services verwendet werden, erfordern zur fehlerfreien Verwendung bestimmte Inhaltstypen. Beispielsweise kann der Microsoft Naive Bayes-Algorithmus kontinuierliche Spalten nicht als Eingabe verwenden und keine kontinuierlichen Werte vorhersagen. Außerdem können einige Spalten so viele Werte enthalten, dass der Algorithmus interessante Muster in Daten, aus denen ein Modell erstellt wird, nur schwer identifizieren kann.

In diesen Fällen können Sie die Daten in den Spalten diskretisieren, um die Verwendung der Algorithmen zum Erstellen eines Miningmodells zu ermöglichen. Unter Diskretisierung wird der Prozess verstanden, Werte in Buckets zu platzieren, sodass sich eine begrenzte Anzahl an möglichen Statuswerten ergibt. Die Buckets selbst werden als sortierte und diskrete Werte behandelt. Sie können sowohl numerische als auch Zeichenfolgenspalten diskretisieren.

Es gibt verschiedene Methoden für das Diskretisieren von Daten. Wenn Ihre Data Mining-Lösung relationale Daten verwendet, können Sie die Anzahl der Buckets für das Gruppieren von Daten steuern, indem Sie den Wert der DiscretizationBucketCount-Eigenschaft festlegen. Die Standardanzahl von Buckets beträgt 5.

Wenn Ihre Data Mining-Lösung Daten aus einem OLAP-Cube (Online Analytical Processing) verwendet, berechnet der Data Mining-Algorithmus automatisch die Anzahl der zu erzeugenden Buckets, indem er die folgende Gleichung verwendet. Dabei steht n für die Anzahl der unterschiedlichen Werte in der Spalte:

Number of Buckets = sqrt(n)

Wenn Sie nicht möchten, dass Analysis Services die Anzahl der Buckets berechnet, können Sie die DiscretizationBucketCount-Eigenschaft verwenden, um die Anzahl der Buckets manuell zu bestimmen.

Die folgende Tabelle beschreibt die Methoden, mit denen Sie Daten in Analysis Services diskretisieren können.

Diskretisierungsmethode	Beschreibung
AUTOMATIC	Analysis Services bestimmt, welche Diskretisierungsmethode verwendet werden muss.
CLUSTERS	Der Algorithmus unterteilt die Daten in Gruppen, indem er Stichproben der Schulungsdaten nimmt, diese als Initialisierungswerte eine Reihe von zufällig gewählten Punkten verwendet und anschließend mehrere Iterationen des Microsoft Clustering-Algorithmus anhand der Expectation-Maximization (EM)-Clusteringmethode ausführt. Die CLUSTERS-Methode ist von Vorteil, da sie für jede Verteilungskurve verwendet werden kann. Allerdings ist sie zeitaufwändiger als andere Diskretisierungsmethoden. Diese Methode kann nur für numerische Spalten verwendet werden.
EQUAL_AREAS	Der Algorithmus teilt die Daten in Gruppen auf, die die gleiche Anzahl von Werten enthalten. Diese Methode eignet sich vor allem für Normalverteilungskurven, jedoch nicht in Fällen, bei denen die Verteilung viele Werte umfasst, die sich in einer engen Gruppe der kontinuierlichen Daten befinden. Wenn beispielsweise die Hälfte der Elemente Kosten von 0 aufweist, wird die Hälfte der Daten unterhalb eines einzelnen Punkts auf der Kurve angezeigt. In einer solchen Verteilung trennt diese Methode die Daten, um gleiche Diskretisierungen in verschiedenen Bereichen zu erstellen. Dadurch wird eine ungenaue Darstellung der Daten erzeugt.

AUTOMATIC

Analysis Services bestimmt, welche Diskretisierungsmethode verwendet werden muss.

CLUSTERS

Der Algorithmus unterteilt die Daten in Gruppen, indem er Stichproben der Schulungsdaten nimmt, diese als Initialisierungswerte eine Reihe von zufällig gewählten Punkten verwendet und anschließend mehrere Iterationen des Microsoft Clustering-Algorithmus anhand der Expectation-Maximization (EM)-Clusteringmethode ausführt. Die CLUSTERS-Methode ist von Vorteil, da sie für jede Verteilungskurve verwendet werden kann. Allerdings ist sie zeitaufwändiger als andere Diskretisierungsmethoden.

Diese Methode kann nur für numerische Spalten verwendet werden.

EQUAL_AREAS

Der Algorithmus teilt die Daten in Gruppen auf, die die gleiche Anzahl von Werten enthalten. Diese Methode eignet sich vor allem für Normalverteilungskurven, jedoch nicht in Fällen, bei denen die Verteilung viele Werte umfasst, die sich in einer engen Gruppe der kontinuierlichen Daten befinden. Wenn beispielsweise die Hälfte der Elemente Kosten von 0 aufweist, wird die Hälfte der Daten unterhalb eines einzelnen Punkts auf der Kurve angezeigt. In einer solchen Verteilung trennt diese Methode die Daten, um gleiche Diskretisierungen in verschiedenen Bereichen zu erstellen. Dadurch wird eine ungenaue Darstellung der Daten erzeugt.

Hinweise

Sie können die EQUAL_AREAS-Methode verwenden, um Strings zu diskretisieren.
Die CLUSTERS-Methode verwendet eine zufällige Stichprobe von 1000 Datensätzen, um Daten zu diskretisieren. Verwenden Sie die EQUAL_AREAS-Methode, wenn der Algorithmus keine Stichproben von Daten erheben soll.
Das Lernprogramm für neuronale Netzwerk-Mining-Modelle beinhaltet ein Beispiel für das Anpassen der Diskretisierung. Weitere Informationen finden Sie unter Lektion 5: Erstellen von neuronalen Netzwerk- und logistischen Regressionsmodellen (Data Mining-Lernprogramm für Fortgeschrittene).

Siehe auch

Share via

Diskretisierungsmethoden (Data Mining)

Hinweise

Siehe auch

Verweis

Konzepte

Andere Ressourcen

Zusätzliche Ressourcen