Inhaltstypen (Data Mining)

Artikel
07/30/2013

In Microsoft SQL Server Analysis Services können Sie sowohl den physischen Datentyp für eine Spalte in einer Miningstruktur als auch einen logischen Inhaltstyp definieren, durch den die Verwendung der Spalte in einem Modell definiert wird.

Der Datentyp bestimmt, wie Algorithmen die Daten beim Erstellen von Miningmodellen in diesen Spalten verarbeiten. Durch Definieren des Datentyps einer Spalte erhält der Algorithmus Informationen über die Art und Verarbeitung der Daten in den Spalten. Jeder Datentyp in Analysis Services unterstützt einen oder mehrere Inhaltstypen für Data Mining.
Der Inhaltstyp beschreibt das Verhalten der in der Spalte enthaltenen Werte. Wenn die Datenwerte in einer Spalte z. B. in einem bestimmten Intervall wie an bestimmten Wochentagen wiederholt werden, können Sie den Inhaltstyp dieser Spalte als zyklisch festlegen.

Einige Algorithmen setzen bestimmte Daten- und/oder Inhaltstypen voraus, um ordnungsgemäß zu funktionieren. Beispielsweise kann der Microsoft Naive Bayes-Algorithmus kontinuierliche Spalten nicht als Eingabe verwenden und keine kontinuierlichen Werte vorhersagen. Diese Spalten müssen daher entweder aus dem Modell ausgeschlossen oder diskretisiert werden. Einige Inhaltstypen, z. B. Key Sequence, werden nur von einem bestimmten Algorithmus verwendet. Eine Liste der Algorithmen und der jeweils unterstützten Inhaltstypen finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining).

In der folgenden Liste werden die Inhaltstypen beschrieben, die für Data Mining verwendet werden, und es werden die Datentypen aufgelistet, die die einzelnen Inhaltstypen unterstützen.

Discrete

Discrete (Diskret) bedeutet, dass die Spalte eine endliche Anzahl von Werten enthält, wobei sich die Werte nicht durch eine kontinuierliche Größe unterscheiden. Eine Spalte mit der Angabe des Geschlechts ist ein Beispiel für eine typische diskrete Attributspalte, da die Daten eine bestimmte Anzahl von Kategorien darstellen. Wenn die Spalte Text enthält, wird der Typ automatisch auf discrete festgelegt. Enthält die Spalte jedoch diskrete Werte mit numerischen Bezeichnungen (z. B. 0 für "Männlich" und 1 für "Weiblich"), müssen Sie den Inhaltstyp möglicherweise von kontinuierlich in diskret ändern.

Auch wenn für die diskrete Spalte numerische Werte verwendet werden, können keine Bruchzahlen berechnet werden. Ortsvorwahlen sind ein anschauliches Beispiel für diskrete Daten, die zwar numerisch sind, aber nicht für Berechnungen verwendet werden sollten. Darüber hinaus können die Werte einer diskreten Attributspalte, auch wenn die Werte numerisch sind, keine Reihenfolge enthalten.

Der Inhaltstyp Discrete kann auf Spalten aller Data Mining-Datentypen angewendet werden.

Continuous

Continuous (Kontinuierlich) bedeutet, dass die Spalte Werte enthält, die numerische Daten auf einer Skala darstellen, die Zwischenwerte zulässt. Im Gegensatz zu diskreten Spalten, die endliche, zählbare Daten darstellen, stellt eine kontinuierliche Spalte skalierbare Messdaten dar. Diese Spalten können unendliche viele Bruchzahlen enthalten. Eine Temperaturspalte stellt ein Beispiel für eine kontinuierliche Attributspalte dar.

Wenn eine Spalte kontinuierliche numerische Daten enthält und Sie wissen, wie die Daten verteilt werden sollen, können Sie die Genauigkeit der Analyse möglicherweise erhöhen, indem Sie die erwartete Verteilung der Werte angeben. Die Spaltenverteilung wird auf Ebene der Miningstruktur festgelegt. Daher gilt die Einstellung für alle Modelle, die auf der Struktur basieren. Weitere Informationen finden Sie unter Spaltenverteilungen [Data Mining].

Der Inhaltstyp Continuous kann auf Spalten folgender Datentypen angewendet werden: Date, Double und Long.

Discretized

Unter Diskretisierung wird der Prozess verstanden, Werte eines kontinuierlichen Satzes an Daten in Buckets zu platzieren, sodass sich eine begrenzte Anzahl an möglichen Werten ergibt. Nur numerische Daten können diskretisiert werden.

Der Inhaltstyp Discretized gibt an, dass die Spalte Werte enthält, die Gruppen bzw. Buckets von Werten darstellen, die von einer kontinuierlichen Spalte abgeleitet sind. Die Buckets werden als sortierte und diskrete Werte behandelt.

Sie können Daten manuell diskretisieren, um sicherzustellen, dass Sie die gewünschten Buckets erhalten. Alternativ können Sie auch die in SQL Server Analysis Services verfügbaren Diskretisierungsmethoden verwenden. Einige Algorithmen führen die Diskretisierung automatisch durch. Weitere Informationen finden Sie unter Ändern der Diskretisierung von Spalten in Miningmodellen.

Der Inhaltstyp Discretized kann auf Spalten folgender Datentypen angewendet werden: Date, Double, Long und Text.

Key

Der Inhaltstyp Key (Schlüssel) bedeutet, dass die Spalte eine Zeile eindeutig identifiziert. In einer Falltabelle enthält die Schlüsselspalte in der Regel numerische Bezeichner oder Textbezeichner. Wenn Sie den Inhaltstyp auf key festlegen, geben Sie dadurch an, dass die Spalte nicht zu Analysezwecken, sondern nur zum Verfolgen der Datensätze verwendet werden sollte.

Auch geschachtelte Tabellen verfügen über Schlüssel, die Schlüssel geschachtelter Tabellen werden jedoch etwas anders verwendet. Sie legen in einer geschachtelten Tabelle key als Inhaltstyp fest, wenn die betreffende Spalte das zu analysierende Attribut enthält. Die Werte der Schlüsselspalte einer geschachtelten Tabelle müssen für die einzelnen Fälle eindeutig sein, in der Gesamtmenge der Fälle kann die Schlüsselspalte jedoch doppelte Werte enthalten.

Wenn Sie beispielsweise analysieren, welche Produkte von den Kunden gekauft werden, würden Sie den Inhaltstyp für die Spalte CustomerID in der Falltabelle auf key und den Inhaltstyp für die Spalte PurchasedProducts in der geschachtelten Tabelle ebenfalls auf key festlegen.

Hinweis
Geschachtelte Tabellen sind nur dann verfügbar, wenn Daten aus externen Datenquellen verwendet werden, die in Analysis Services als Datenquellensicht definiert wurden.

Dieser Inhaltstyp wird von den folgenden Datentypen unterstützt: Date, Double, Long und Text.

Key Sequence

Der Inhaltstyp Key Sequence (Schlüsselsequenz) kann nur in Sequenzclustermodellen verwendet werden. Der Inhaltstyp key sequence zeigt an, dass die betreffende Spalte Werte enthält, die eine Folge von Ereignissen darstellen. Die Werte sind sortiert, aber die Abstände zwischen den Werte müssen nicht gleich groß sein.

Dieser Inhaltstyp wird von den folgenden Datentypen unterstützt: Double, Long, Text und Date.

Key Time

Der Inhaltstyp Key Time (Schlüsselzeit) kann nur in Zeitreihenmodellen verwendet werden. Der Inhaltstyp key time gibt an, dass die Werte sortiert sind und eine Zeitskala darstellen.

Dieser Inhaltstyp kann auf Spalten folgender Datentypen angewendet werden: Double, Long und Date.

Table

Der Inhaltstyp Table (Tabelle) gibt an, dass die Spalte eine weitere Datentabelle mit einer oder mehreren Spalten und einer oder mehreren Zeilen enthält. Für jede einzelne Zeile der Falltabelle gilt, dass diese Spalte mehrere Werte enthalten kann, die den übergeordneten Falldatensatz betreffen. Wenn die Hauptfalltabelle beispielsweise eine Kundenliste enthält, könnten mehrere Spalten geschachtelte Tabellen beinhalten. Beispielsweise könnte die Spalte ProductsPurchased eine geschachtelte Tabelle mit den Produkten enthalten, die von einem Kunden bislang gekauft wurden, und die Spalte Hobbies könnte die Interessensgebiete des Kunden auflisten.

Diese Spalte hat stets den Datentyp Table.

Cyclical

Der Spaltentyp Cyclical (Zyklisch) gibt an, dass die Spalte Werte enthält, die eine zyklisch geordnete Menge darstellen. Die nummerierten Tage der Woche stellen z. B. einen zyklische geordnete Menge dar, da Tag Nummer eins auf Tag Nummer sieben folgt.

Zyklische Spalten werden hinsichtlich des Inhaltstyps als sortierte und diskrete Spalten betrachtet.

Dieser Inhaltstyp kann auf Spalten jedes Analysis Services-Datentyps mit Ausnahme von table und Boolean angewendet werden. Allerdings behandeln die meisten Algorithmen zyklische Werte als diskrete Werte und führen keine spezielle Verarbeitung durch.

Ordered

Der Inhaltstyp Ordered (Sortiert) gibt ebenfalls an, dass die betreffende Spalte Werte enthält, die eine Sequenz oder Reihenfolge definieren. Bei diesem Inhaltstyp implizieren die zum Sortieren verwendeten Werte jedoch keine Abstands- oder Größenbeziehung zwischen den Werten der Menge. Wenn eine sortierte Attributspalte z. B. Informationen zu Kenntnisstufen in der Reihenfolge von eins bis fünf enthält, hat der Abstand zwischen den Kenntnisstufen keine Aussage. Eine Kenntnisstufe von fünf ist nicht notwendigerweise fünf Mal besser, als eine Kenntnisstufe von eins.

Bei sortierten Attributspalten wird davon ausgegangen, dass sie diskrete Werte enthalten.

Dieser Inhaltstyp kann auf alle Data Mining-Datentypen in Analysis Services angewendet werden. Allerdings behandeln die meisten Algorithmen sortierte Werte als diskrete Werte und führen keine spezielle Verarbeitung durch.

Classified

Neben den oben aufgeführten Inhaltstypen, die für alle Modelle verwendet werden, können Sie klassifizierte Spalten verwenden, um Inhaltstypen für einige Datentypen zu definieren. Weitere Informationen zu klassifizierte Spalten finden Sie unter Klassifizierte Spalten [Data Mining].

Siehe auch