Artikel
03/30/2012

Inhaltstypen (Data Mining)

In Microsoft SQL Server Analysis Services können Sie sowohl den physischen Datentyp für eine Spalte in einer Miningstruktur als auch einen logischen Inhaltstyp für die Spalte definieren, wenn diese in einem Modell verwendet wird.

Der Datentyp bestimmt, wie Algorithmen die Daten in diesen Spalten verarbeiten, wenn Sie Miningmodelle erstellen. Beim Definieren des Datentyps einer Spalte erhält der Algorithmus Informationen über den Datentyp in den Spalten und darüber, wie die Daten verarbeitet werden können. Jeder Datentyp in Analysis Services unterstützt einen oder mehrere Inhaltstypen für das Data Mining.

Der Inhaltstyp beschreibt das Verhalten des Inhalts, den die Spalte enthält. Wenn z. B. der Inhalt in einem bestimmten Intervall wie an den Tagen einer Woche wiederholt wird, können Sie den Inhaltstyp dieser Spalte als zyklisch bezeichnen.

Einige Algorithmen setzen bestimmte Daten- und Inhaltstypen voraus. Beispielsweise kann der Microsoft Naive Bayes-Algorithmus kontinuierliche Spalten nicht als Eingabe verwenden und keine kontinuierlichen Werte vorhersagen. Einige Inhaltstypen, z. B. Key Sequence, werden nur von einem bestimmten Algorithmus verwendet. Eine Liste der Algorithmen und der jeweils unterstützen Inhaltstypen finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining).

Die folgende Liste beschreibt die Inhaltstypen, die beim Data Mining eingesetzt werden, und identifiziert die Datentypen, die die einzelnen Typen unterstützen.

Discrete

Diskret bedeutet, dass die Spalte eine endliche Anzahl von Werten enthält, wobei sich die Werte nicht durch eine kontinuierliche Größe unterscheiden. Eine Spalte mit der Angabe des Geschlechts ist ein Beispiel für eine typische diskrete Attributspalte, da die Daten eine bestimmte Anzahl von Kategorien darstellen.

Selbst wenn die Werte einer diskreten Attributspalte numerisch sind, können sie keine Reihenfolge beinhalten. Auch wenn für die diskrete Spalte numerische Werte verwendet werden, können keine Bruchzahlen berechnet werden. Ortskennzahlen sind ein anschauliches Beispiel für numerische diskrete Daten.

Der Inhaltstyp Discrete wird von allen Data Mining-Typen unterstützt.

Kontinuierlich

Kontinuierlich bedeutet, dass diese Spalte Werte enthält, die numerische Daten auf einer Skala darstellen, die Zwischenwerte zulässt. Im Gegensatz zu diskreten Spalten, die endliche, zählbare Daten darstellen, stellt eine kontinuierliche Spalte skalierbare Messdaten dar. Diese Spalten können unendliche viele Bruchzahlen enthalten. Eine Temperaturspalte stellt ein Beispiel für eine kontinuierliche Attributspalte dar.

Wenn eine Spalte kontinuierliche numerische Daten enthält und Sie wissen, wie die Daten verteilt werden sollen, können Sie die Genauigkeit der Analyse möglicherweise verbessern, indem Sie die erwartete Verteilung der Werte angeben. Sie geben die Spaltenverteilung auf der Ebene der Miningstruktur an. Deshalb gilt die Einstellung für alle Modelle, die auf der Struktur basieren. Weitere Informationen finden Sie unter Spaltenverteilungen (Data Mining).

Der Inhaltstyp Continuous wird von den folgenden Datentypen unterstützt: Date, Double und Long.

Diskretisiert

Unter Diskretisierung wird der Prozess verstanden, Werte eines kontinuierlichen Satzes von Daten in Buckets zu platzieren, sodass sich eine begrenzte Anzahl an möglichen Werten ergibt. Nur numerische Daten können diskretisiert werden.

Somit zeigt der diskretisierte Inhaltstyp an, dass die Spalte Werte enthält, die Gruppen repräsentieren bzw. Buckets von Werten, die von einer kontinuierlichen Spalte abgeleitet werden. Die Buckets werden als sortierte und diskrete Werte behandelt.

Sie können Daten manuell diskretisieren, um sicherzustellen, dass Sie die gewünschten Buckets erhalten. Alternativ können Sie auch die in SQL Server Analysis Services verfügbaren Diskretisierungsmethoden verwenden. Einige Algorithmen führen die Diskretisierung automatisch durch. Weitere Informationen hierzu finden Sie unter Vorgehensweise: Ändern der Diskretisierung von Spalten in Miningmodellen.

Der Inhaltstyp Discretized wird von den folgenden Datentypen unterstützt: Date, Double, Long und Text.

Schlüssel

Der Inhaltstyp Schlüssel bedeutet, dass die Spalte eindeutig eine Zeile identifiziert. In einer Falltabelle enthält die Schlüsselspalte in der Regel numerische Bezeichner oder Textbezeichner. Sie legen key als Inhaltstyp fest, um anzuzeigen, dass die betreffende Spalte nicht zu Analysezwecken, sondern nur zum Verfolgen der Datensätze dienen soll.

Auch geschachtelte Tabellen verfügen über Schlüssel, die Schlüssel geschachtelter Tabellen werden jedoch etwas anders verwendet. Sie legen in einer geschachtelten Tabelle key als Inhaltstyp fest, wenn die betreffende Spalte das zu analysierende Attribut enthält. Die Werte der Schlüsselspalte einer geschachtelten Tabelle müssen für die einzelnen Fälle eindeutig sein, in der Gesamtmenge der Fälle kann die Schlüsselspalte jedoch doppelte Werte enthalten.

Wenn Sie beispielsweise analysieren, welche Produkte von den Kunden gekauft werden, könnten Sie in der Falltabelle für die Spalte CustomerID den Inhaltstyp key festlegen, und in der geschachtelten Tabelle könnten Sie für die Spalte PurchasedProducts noch einmal den Inhaltstyp key festlegen.

Hinweis
Geschachtelte Tabellen sind nur dann verfügbar, wenn Daten von externen Datenquellen verwendet werden, die in Analysis Services als Datenquellensicht definiert wurden.

Dieser Inhaltstyp wird von den folgenden Datentypen unterstützt: Date, Double, Long und Text.

Key Sequence

Der Inhaltstyp Key Sequence kann nur in Sequenzclustermodellen verwendet werden. Der Inhaltstyp key sequence zeigt an, dass die betreffende Spalte Werte enthält, die eine Folge von Ereignissen darstellen. Die Werte sind sortiert, aber die Abstände zwischen den Werte müssen nicht gleich groß sein.

Dieser Inhaltstyp wird von den folgenden Datentypen unterstützt: Double, Long, Text und Date.

Schlüsselzeit

Der Inhaltstyp Schlüsselzeit kann nur in Zeitreihenmodellen verwendet werden. Wenn Sie den Inhaltstyp auf key time festlegen, bedeutet dies, dass die Werte sortiert sind und eine Zeitskala darstellen.

Dieser Inhaltstyp wird von den folgenden Datentypen unterstützt: Double, Long und Date.

Tabelle

Der Inhaltstyp Tabelle bedeutet, dass die Spalte eine andere Datentabelle mit einer oder mehreren Spalten und einer oder mehreren Zeilen enthält. Für jede einzelne Zeile der Falltabelle gilt, dass diese Spalte mehrere Werte enthalten kann, die den übergeordneten Falldatensatz betreffen. Wenn die Hauptfalltabelle beispielsweise eine Kundenliste enthält, können mehrere Spalten geschachtelte Tabellen enthalten. Beispielsweise könnte die Spalte ProductsPurchased eine geschachtelte Tabelle mit den Produkten enthalten, die von einem Kunden bislang gekauft wurden, und die Spalte Hobbies könnte die Interessensgebiete des Kunden auflisten.

Diese Spalte hat stets den Datentyp Table.

Zyklisch

Der Inhaltstyp Zyklisch bedeutet, dass die Spalte Werte enthält, die eine zyklische geordnete Menge darstellen. Die nummerierten Tage der Woche stellen z. B. einen zyklische geordnete Menge dar, da Tag Nummer eins auf Tag Nummer sieben folgt.

Zyklische Spalten werden hinsichtlich des Inhaltstyps als sortierte und diskrete Spalten betrachtet.

Dieser Inhaltstyp wird von allen Data Mining-Datentypen in Analysis Services unterstützt. Die meisten Algorithmen behandeln jedoch zyklische Werte als diskrete Werte und führen keine besondere Verarbeitung aus.

Sortiert

Der Inhaltstyp Sortiert bedeutet auch, dass die Spalte Werte enthält, die eine Sequenz oder eine Reihenfolge definieren. Bei diesem Inhaltstyp implizieren die zur Sortierung verwendeten Werte keine Abstands- oder Größenbeziehung zwischen den Werten der Menge. Wenn eine sortierte Attributspalte z. B. Informationen zu Kenntnisstufen in der Reihenfolge von eins bis fünf enthält, hat der Abstand zwischen den Kenntnisstufen keine Aussage. Eine Kenntnisstufe von fünf ist nicht notwendigerweise fünf Mal besser, als eine Kenntnisstufe von eins.

Sortierte Attributspalten werden hinsichtlich des Inhaltstyps auch als diskrete Spalten betrachtet.

Dieser Inhaltstyp wird von allen Data Mining-Datentypen in Analysis Services unterstützt. Die meisten Algorithmen behandeln jedoch sortierte Werte als diskrete Werte und führen keine besondere Verarbeitung aus.

Classified

Neben den oben aufgeführten Inhaltstypen, die für alle Modelle verwendet werden, können Sie klassifizierte Spalten verwenden, um Inhaltstypen für einige Datentypen zu definieren. Weitere Informationen zu klassifizierte Spalten finden Sie unter Klassifizierte Spalten (Data Mining).

Siehe auch