Abfragen eines Clustermodells (Analysis Services – Data Mining)

Wenn Sie eine Abfrage für ein Data Mining-Modell erstellen, können Sie Metadaten über das Modell abrufen oder eine Inhaltsabfrage erstellen, die Details über die in der Analyse erkannten Muster bereitstellt. Sie können auch eine Vorhersageabfrage erstellen, die anhand der Muster des Modells Vorhersagen für neue Daten generiert. Jeder Abfragetyp stellt andere Informationen bereit. Eine Inhaltsabfrage stellt beispielsweise zusätzliche Details über die gefundenen Cluster zur Verfügung, während eine Vorhersageabfrage Aufschluss darüber gibt, zu welchem Cluster ein neuer Datenpunkt höchstwahrscheinlich gehört.

In diesem Abschnitt wird erklärt, wie die Abfragen für Modelle erstellt werden, die auf dem Microsoft Clustering-Algorithmus basieren.

Inhaltsabfragen

Abrufen von Modellmetadaten mithilfe von DMX

Abrufen von weiteren Modellmetadaten aus dem Schemarowset

Zurückgeben eines Clusters oder einer Liste von Clustern

Zurückgeben von Attributen für einen Cluster

Zurückgeben eines Clusterprofils mit gespeicherten Systemprozeduren

Suchen von kritischen Faktoren für einen Cluster

Zurückgeben von Fällen, die zu einem Cluster gehören

Vorhersageabfragen

Vorhersagen von Ergebnissen eines Clustermodells

Bestimmen der Clustermitgliedschaft

Zurückgeben aller möglichen Cluster mit Wahrscheinlichkeit und Entfernung

Suchen nach Informationen über das Modell

Alle Miningmodelle machen den vom Algorithmus erfassten Inhalt nach einem standardisierten Schema verfügbar. Dieses Schema wird als Miningmodell-Schemarowset bezeichnet. Abfragen für das Miningmodell-Schemarowset können Sie mithilfe von DMX-Anweisungen (Data Mining-Erweiterungen) erstellen. In SQL Server 2008 können Sie die Schemarowsets auch direkt als Systemtabellen abfragen.

Zurück zum Anfang

Beispielabfrage 1: Abrufen von Modellmetadaten mit DMX

Die folgende Abfrage gibt grundlegende Metadaten über das Clustermodell TM_Clustering zurück, das Sie im Lernprogramm zu Data Mining-Grundlagen erstellt haben. Die im übergeordneten Knoten eines Clustermodells verfügbaren Metadaten umfassen den Namen des Modells, die Datenbank, in der das Modell gespeichert ist, und die Anzahl der untergeordneten Knoten im Modell. Diese Abfrage ruft die Metadaten mithilfe einer DMX-Inhaltsabfrage vom übergeordneten Knoten des Modells ab:

SELECT MODEL_CATALOG, MODEL_NAME, NODE_CAPTION, 
NODE_SUPPORT, [CHILDREN_CARDINALITY], NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 1
HinweisHinweis

Setzen Sie den Namen der Spalte CHILDREN_CARDINALITY in Klammern, um ihn von dem gleichnamigen reservierten Schlüsselwort für mehrdimensionale Ausdrücke (MDX) zu unterscheiden.

Beispielergebnisse:

MODEL_CATALOG

TM_Clustering

MODEL_NAME

Adventure Works DW

NODE_CAPTION

Clustermodell

NODE_SUPPORT

12939

CHILDREN_CARDINALITY

10

NODE_DESCRIPTION

Alle

Eine Definition für die Bedeutung dieser Spalten in einem Clustermodell finden Sie unter Mingingmodellinhalt von Clusteringmodellen (Analysis Services – Data Mining).

Zurück zum Anfang

Beispielabfrage 2: Abrufen von weiteren Modellmetadaten aus dem Schemarowset

Durch Abfragen des Data Mining-Schemarowsets erhalten Sie dieselben Informationen wie bei einer DMX-Inhaltsabfrage. Das Schemarowset stellt jedoch weitere Spalten bereit. Dazu gehören die Parameter, die beim Erstellen des Modells verwendet wurden, Datum und Uhrzeit der letzten Modellverarbeitung sowie der Besitzer des Modells.

Mit dem folgenden Beispiel wird das Datum zurückgegeben, an dem das Modell erstellt, geändert und zuletzt verarbeitet wurde, ferner die Clustering-Parameter, die zum Erstellen des Modells verwendet wurden, und die Größe des Trainingssatzes. Diese Informationen können zum Dokumentieren des Modells oder zur Bestimmung der Clustering-Optionen, die zum Erstellen eines vorhandenen Modells verwendet wurden, nützlich sein.

SELECT MODEL_NAME, DATE_CREATED, LAST_PROCESSED, PREDICTION_ENTITY, MINING_PARAMETERS 
from $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'TM_Clustering'

Beispielergebnisse:

MODEL_NAME

TM_Clustering

DATE_CREATED

10/12/2007 7:42:51 PM

LAST_PROCESSED

10/12/2007 8:09:54 PM

PREDICTION_ENTITY

Bike Buyer

MINING_PARAMETERS

CLUSTER_COUNT=10,

CLUSTER_SEED=0,

CLUSTERING_METHOD=1,

MAXIMUM_INPUT_ATTRIBUTES=255,

MAXIMUM_STATES=100,

MINIMUM_SUPPORT=1,

MODELLING_CARDINALITY=10,

SAMPLE_SIZE=50000,

STOPPING_TOLERANCE=10

Zurück zum Anfang

Suchen nach Informationen über Cluster

Die nützlichsten Inhaltsabfragen für Clustermodelle geben im Allgemeinen dieselben Informationen zurück, die Sie über das Durchsuchen des Cluster-Viewers finden können. Dies schließt Clusterprofile, Clustermerkmale und Clusterunterscheidung ein. Dieser Abschnitt enthält Beispiele für Abfragen, die diese Informationen abrufen.

Beispielabfrage 3: Zurückgeben eines Clusters oder einer Liste von Clustern

Da alle Cluster den Knotentyp 5 besitzen, können Sie einfach eine Liste der Cluster abrufen, indem Sie den Modellinhalt nur für diesen Knotentyp abfragen. Sie können auch die Knoten, die zurückgegeben werden, nach Wahrscheinlichkeit oder Unterstützung filtern, wie in diesem Beispiel dargestellt.

SELECT NODE_NAME, NODE_CAPTION ,NODE_SUPPORT, NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 5 AND NODE_SUPPORT > 1000

Beispielergebnisse:

NODE_NAME

002

NODE_CAPTION

Cluster 2

NODE_SUPPORT

1649

NODE_DESCRIPTION

English Education=Graduate Degree, 32 <=Age <=48, Number Cars Owned=0, 35964.0771121808 <=Yearly Income <=97407.7163393957, English Occupation=Professional, Commute Distance=2-5 Miles, Region=North America, Bike Buyer=1, Number Children At Home=0, Number Cars Owned=1, Commute Distance=0-1 Miles, English Education=Bachelors, Total Children=1, Number Children At Home=2, English Occupation=Skilled Manual, Marital Status=S, Total Children=0, House Owner Flag=0, Gender=F, Total Children=2, Region=Pacific

Die Attribute, die den Cluster definieren, befinden sich in zwei Spalten des Data Mining-Schemarowsets.

  • Die Spalte NODE_DESCRIPTION enthält eine durch Trennzeichen getrennte Liste von Attributen. Beachten Sie, dass die Liste der Attribute möglicherweise für Anzeigezwecke gekürzt wird.

  • Die geschachtelte Tabelle in der Spalte NODE_DISTRIBUTION enthält die vollständige Liste der Attribute für den Cluster. Wenn Ihr Client keine hierarchischen Rowsets unterstützt, können Sie die geschachtelte Tabelle zurückgeben, indem Sie vor der Spaltenliste SELECT das Schlüsselwort FLATTENED hinzufügen. Weitere Informationen zum FLATTENED-Schlüsselwort finden Sie unter SELECT FROM <model>.CONTENT (DMX).

Zurück zum Anfang

Beispielabfrage 4: Zurückgeben von Attributen für einen Cluster

Für jeden Cluster zeigt der Cluster-Viewer ein Profil an, das die Attribute und ihre Werte auflistet. Im Viewer wird außerdem ein Histogramm angezeigt, das die Verteilung der Werte für die Gesamtauffüllung der Fälle im Modell zeigt. Wenn Sie das Modell im Viewer durchsuchen, können Sie das Histogramm einfach aus der Mininglegende kopieren und in ein Excel- oder Word-Dokument einfügen. Außerdem können Sie mithilfe des Viewerbereichs Clustermerkmale die Attribute der verschiedenen Cluster grafisch vergleichen.

Wenn Sie allerdings Werte für mehr als jeweils einen Cluster abrufen müssen, ist eine Abfrage des Modells einfacher. Wenn Sie das Modell beispielsweise durchsuchen, stellen Sie möglicherweise fest, dass sich die beiden oberen Cluster in Bezug auf ein Attribut, Number Cars Owned, unterscheiden. Daher empfiehlt es sich, die Werte für jeden Cluster zu extrahieren.

SELECT TOP 2 NODE_NAME, 
(SELECT ATTRIBUTE_VALUE, [PROBABILITY] FROM NODE_DISTRIBUTION WHERE ATTRIBUTE_NAME = 'Number Cars Owned')
AS t
FROM [TM_Clustering].CONTENT
WHERE NODE_TYPE = 5

Die erste Zeile des Codes gibt an, dass nur die oberen zwei Cluster berücksichtigt werden sollen.

HinweisHinweis

Standardmäßig sind die Cluster nach Unterstützung sortiert. Daher kann die Spalte NODE_SUPPORT weggelassen werden.

Die zweite Codezeile fügt eine untergeordnete SELECT-Anweisung hinzu, mit der bestimmte Spalten der geschachtelten Tabellenspalte zurückgegeben werden. Außerdem beschränkt sie die Zeilen der geschachtelten Tabelle auf diejenigen, die sich auf das Zielattribut Number Cars Owned beziehen. Zur Vereinfachung der Anzeige wird die geschachtelte Tabelle als Alias verwendet.

HinweisHinweis

Die geschachtelte Tabellenspalte PROBABILITY muss in Klammern gesetzt werden, da sie dem Namen eines reservierten MDX-Schlüsselworts entspricht.

Beispielergebnisse:

NODE_NAME

T.ATTRIBUTE_VALUE

T.PROBABILITY

001

2

0.829207754

001

1

0.109354156

001

3

0.034481552

001

4

0.013503302

001

0

0.013453236

001

Missing

0

002

0

0.576980023

002

1

0.406623939

002

2

0.016380082

002

3

1.60E-05

002

4

0

002

Fehlend

0

Zurück zum Anfang

Beispielabfrage 5: Zurückgeben eines Clusterprofils mit gespeicherten Systemprozeduren

Statt eigene Abfragen mit DMX zu erstellen, können Sie auch die gespeicherten Systemprozeduren aufrufen, die Analysis Services zur Arbeit mit Clustern verwendet. Im folgenden Beispiel wird veranschaulicht, wie anhand intern gespeicherter Prozeduren das Profil für einen Cluster mit der ID 002 zurückgegeben wird.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('TM_Clustering", '002',0.0005

Entsprechend können Sie eine gespeicherte Systemprozedur dazu verwenden, die Merkmale eines bestimmten Clusters zurückzugeben, wie im folgenden Beispiel veranschaulicht:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('TM_Clustering", '009',0.0005

Beispielergebnisse:

Attribute

Values

Frequency

Support

Number Children At Home

0

0.999999829076798

899

Region

Nordamerika

0.999852875241508

899

Total Children

0

0.993860958572323

893

HinweisHinweis

Die gespeicherten Data Mining-Systemprozeduren sind nur für die interne Verwendung bestimmt, und Microsoft behält sich das Recht vor, sie bei Bedarf zu ändern. Für die Verwendung in einer Produktionsumgebung wird empfohlen, Abfragen mit DMX, AMO oder XMLA zu erstellen.

Zurück zum Anfang

Beispielabfrage 6: Suchen von kritischen Faktoren für einen Cluster

Auf der Registerkarte Clusterunterscheidung im Cluster-Viewer können Sie bequem einen Cluster mit einem anderen Cluster vergleichen oder einen Cluster mit allen übrigen Fällen (Komplement des Clusters) vergleichen.

Das Erstellen von Abfragen zum Zurückgeben dieser Informationen kann ein komplexer Vorgang sein. Unter Umständen ist eine zusätzliche Verarbeitung auf dem Client erforderlich, um die temporären Ergebnisse und die Ergebnisse von zwei oder mehreren Abfragen zu speichern. Um das Verfahren abzukürzen, können Sie die gespeicherten Systemprozeduren verwenden.

Die folgende Abfrage gibt eine einzelne Tabelle zurück, die die primären kritischen Faktoren der beiden Cluster mit den Knoten-IDs 009 und 007 angibt. Attribute mit positiven Werten begünstigen Cluster 009, wohingegen Attribute mit negativen Werten 007 begünstigen.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','007',0.0005,true)

Beispielergebnisse:

Attribute

Values

Score

Region

North America

100

English Occupation

Skilled Manual

94.9003803898654

Region

Europe

-72.5041051379789

English Occupation

Manual

-69.6503163202722

Diese Informationen werden auch im Diagramm des Viewers Clusterunterscheidung dargestellt, wenn Sie Cluster 9 aus der ersten Dropdownliste und Cluster 7 aus der zweiten Dropdownliste auswählen. Um Cluster 9 mit dem entsprechenden Komplement zu vergleichen, verwenden Sie die leere Zeichenfolge im zweiten Parameter, wie im folgenden Beispiel dargestellt.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','',0.0005,true)
HinweisHinweis

Die gespeicherten Data Mining-Systemprozeduren sind nur für die interne Verwendung bestimmt, und Microsoft behält sich das Recht vor, sie bei Bedarf zu ändern. Für die Verwendung in einer Produktionsumgebung wird empfohlen, Abfragen mit DMX, AMO oder XMLA zu erstellen.

Zurück zum Anfang

Beispielabfrage 7: Zurückgeben von Fällen, die zu einem Cluster gehören

Wenn Sie Drillthrough für ein Miningmodell aktiviert haben, können Sie Abfragen erstellen, die detaillierte Informationen über die im Modell verwendeten Fälle zurückgeben. Wenn darüber hinaus in der Miningstruktur ebenfalls Drillthrough aktiviert wurde, können Sie mit der Funktion StructureColumn (DMX) Spalten aus der zugrunde liegenden Struktur einbeziehen.

Im folgenden Beispiel werden zwei Spalten, Age und Region, zurückgegeben, die im Modell verwendet wurden, sowie eine Spalte, First Name, die nicht im Modell verwendet wurde. Die Abfrage gibt nur Fälle zurück, die in Cluster 1 klassifiziert wurden.

SELECT [Age], [Region], StructureColumn('First Name')
FROM [TM_Clustering].CASES
WHERE IsInNode('001')

Um die Fälle zurückzugeben, die zu einem Cluster gehören, müssen Sie die ID des Clusters kennen. Sie können die ID des Clusters erhalten, indem Sie das Modell in einem der Viewer durchsuchen. Oder Sie können einen Cluster der Einfachheit halber umbenennen. Anschließend können Sie den Namen statt der ID verwenden. Die einem Cluster zugewiesenen Namen gehen allerdings verloren, wenn das Modell erneut verarbeitet wird.

Zurück zum Anfang

Treffen von Vorhersagen mit dem Modell

Auch wenn Clustering in der Regel zum Beschreiben und zum Verstehen von Daten verwendet wird, können Sie mit der Microsoft-Implementierung Vorhersagen über die Clustermitgliedschaft treffen und Wahrscheinlichkeiten im Zusammenhang mit der Vorhersage zurückgeben. Dieser Abschnitt enthält Beispiele zum Erstellen von Vorhersageabfragen für Clusteringmodelle. Sie können Vorhersagen für mehrere Fälle erstellen, indem Sie eine tabellarische Datenquelle angeben. Alternativ lassen sich jeweilig neue Werte bereitstellen, indem Sie eine SINGLETON-Abfrage erstellen. Der Deutlichkeit halber handelt es sich bei den Beispielen in diesem Abschnitt nur um SINGLETON-Abfragen.

Weitere Informationen zum Erstellen von Vorhersageabfragen mit DMX finden Sie unter Erstellen von DMX-Vorhersageabfragen.

Informationen über das Erstellen von Vorhersageabfragen mit den grafischen Tools in BI Development Studio finden Sie unter Vorgehensweisen zur Miningmodellvorhersage-Registerkarte.

Zurück zum Anfang

Beispielabfrage 8: Vorhersagen von Ergebnissen eines Clustermodells

Wenn das von Ihnen erstellte Clustermodell ein vorhersagbares Attribut enthält, können Sie anhand des Modells Vorhersagen über Ergebnisse treffen. Das Modell behandelt das vorhersagbare Attribut jedoch unterschiedlich, abhängig davon, ob Sie die vorhersagbare Spalte auf Predict oder PredictOnly festlegen. Wenn Sie die Verwendung der Spalte auf Predict festlegen, werden die Werte für dieses Attribut zum Clustermodell hinzugefügt und erscheinen im fertig gestellten Modell als Attribute. Legen Sie jedoch die Verwendung der Spalte auf PredictOnly fest, werden die Werte nicht zum Erstellen von Clustern verwendet. Stattdessen erstellt der Clustering-Algorithmus neue Werte für das Attribut PredictOnly auf Basis der Cluster, zu denen der jeweilige Fall gehört.

Die folgende Abfrage stellt einen einzelnen neuen Fall für das Modell bereit, wobei die einzigen Informationen über den Fall Alter und Geschlecht sind. Die SELECT-Anweisung gibt das vorhersagbare Attribut/Wert-Paar an, für das Sie sich interessieren, und die Funktion PredictProbability (DMX) gibt Aufschluss über die Wahrscheinlichkeit, dass ein Fall mit diesen Attributen das gewünschte Ergebnis aufweist.

SELECT
  [TM_Clustering].[Bike Buyer], PredictProbability([Bike Buyer],1)
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Beispiel für Ergebnisse, wenn die Verwendung auf Predict festgelegt wird:

Bike Buyer

Expression

1

0.592924735740338

Beispiel für Ergebnisse, wenn die Verwendung auf PredictOnly festgelegt wird und das Modell erneut verarbeitet wird:

Bike Buyer

Expression

1

0.55843544003102

In diesem Beispiel besteht kein signifikanter Unterschied im Modell. Mitunter kann es jedoch wichtig sein, Unterschiede zwischen der tatsächlichen Verteilung der Werte und den Vorhersageergebnissen des Modells zu erkennen. Die Funktion PredictCaseLikelihood (DMX) ist in diesem Szenario nützlich, da sie anhand des Modells Aufschluss darüber gibt, wie wahrscheinlich ein Fall ist.

Die von der Funktion PredictCaseLikelihood zurückgegebene Zahl stellt die Wahrscheinlichkeit dar und bewegt sich daher stets zwischen 0 und 1. Der Wert 0,5 repräsentiert ein willkürliches Ergebnis. Ein Ergebnis kleiner als 0,5 bedeutet, dass der vorhergesagte Fall angesichts des Modells unwahrscheinlich ist. Ein Ergebnis größer als 0,5 gibt an, dass es wahrscheinlicher ist, dass der vorhergesagte Fall dem Modell entspricht, als dass er dem Modell nicht entspricht.

Die folgende Abfrage gibt beispielsweise zwei Werte zurück, die die Wahrscheinlichkeit für einen neuen Beispielfall charakterisieren. Der nicht normalisierte Wert stellt die Wahrscheinlichkeit in Bezug auf das aktuelle Modell dar. Wenn Sie das NORMALIZED-Schlüsselwort verwenden, wird das von der Funktion zurückgegebene Wahrscheinlichkeitsergebnis durch Division der "Wahrscheinlichkeit mit dem Modell" durch die "Wahrscheinlichkeit ohne Modell" angepasst.

SELECT
PredictCaseLikelihood(NORMALIZED) AS [NormalizedValue], PredictCaseLikelihood(NONNORMALIZED) AS [NonNormalizedValue]
FROM
  [TM_Clustering_PredictOnly]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Beispielergebnisse:

NormalizedValue

NonNormalizedValue

5.56438372679893E-11

8.65459953145182E-68

Beachten Sie, dass die Zahlen in diesen Ergebnissen in wissenschaftlicher Schreibweise ausgedrückt werden.

Zurück zum Anfang

Beispielabfrage 9: Bestimmen der Clustermitgliedschaft

In diesem Beispiel wird die Funktion Cluster (DMX) verwendet, um den Cluster, zu dem der neue Fall höchstwahrscheinlich gehört, zurückzugeben. Mit der Funktion ClusterProbability (DMX) wird die Wahrscheinlichkeit für die Mitgliedschaft in diesem Cluster zurückgegeben.

SELECT Cluster(), ClusterProbability()
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status]) AS t

Beispielergebnisse:

$CLUSTER

Expression

Cluster 2

0.397918596951617

Hinweis:   Standardmäßig gibt die Funktion ClusterProbability die Wahrscheinlichkeit des wahrscheinlichsten Clusters zurück. Mit der Syntax ClusterProbability('cluster name') können Sie jedoch einen anderen Cluster angeben. Beachten Sie in diesem Fall, dass die Ergebnisse der einzelnen Vorhersagefunktionen von den anderen Ergebnissen unabhängig sind. Das Wahrscheinlichkeitsergebnis in der zweiten Spalte könnte sich daher auf einen anderen Cluster beziehen als den in der ersten Spalte genannten Cluster.

Zurück zum Anfang

Beispielabfrage 10: Zurückgeben aller möglichen Cluster mit Wahrscheinlichkeit und Entfernung

Im vorherigen Beispiel war das Wahrscheinlichkeitsergebnis nicht sehr hoch. Um zu bestimmen, ob es einen besseren Cluster gibt, verwenden Sie die Funktion PredictHistogram (DMX) zusammen mit der Funktion Cluster (DMX), um eine geschachtelte Tabelle, die alle möglichen Cluster enthält, sowie die Wahrscheinlichkeit zurückzugeben, dass der neue Fall zu dem jeweiligen Cluster gehört. Das FLATTENED-Schlüsselwort wird verwendet, um das hierarchische Rowset zur besseren Anzeige in eine flache Tabelle zu ändern.

SELECT FLATTENED PredictHistogram(Cluster())
From
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status])

Expression.$CLUSTER

Expression.$DISTANCE

Expression.$PROBABILITY

Cluster 2

0.602081403048383

0.397918596951617

Cluster 10

0.719691686785675

0.280308313214325

Cluster 4

0.867772590378791

0.132227409621209

Cluster 5

0.931039872200985

0.0689601277990149

Cluster 3

0.942359230072167

0.0576407699278328

Cluster 6

0.958973668972756

0.0410263310272437

Cluster 7

0.979081275926724

0.0209187240732763

Cluster 1

0.999169044818624

0.000830955181376364

Cluster 9

0.999831227795894

0.000168772204105754

Cluster 8

1

0

Standardmäßig werden die Ergebnisse nach Wahrscheinlichkeit geordnet. Die Ergebnisse bedeuten, dass trotz relativ niedriger Wahrscheinlichkeit für Cluster 2 dieser Cluster dennoch für den neuen Datenpunkt am besten geeignet ist.

Hinweis:   Die zusätzliche Spalte $DISTANCE repräsentiert die Entfernung vom Datenpunkt zum Cluster. Standardmäßig verwendet der Microsoft-Clustering-Algorithmus skalierbares EM-Clustering, bei dem jedem Datenpunkt mehrere Cluster zugewiesen werden und die Rangfolge der möglichen Cluster bestimmt wird. Wenn Sie das Clustermodell allerdings mit dem K-Means-Algorithmus erstellen, kann jedem Datenpunkt nur ein Cluster zugewiesen werden, und diese Abfrage würde nur eine Zeile zurückgeben. Diese Unterschiede zu verstehen ist notwendig, um die Ergebnisse der Funktion PredictCaseLikelihood (DMX) interpretieren zu können. Weitere Informationen zu den Unterschieden zwischen EM- und K-Means-Clustering finden Sie unter Technische Referenz für den Microsoft Clustering-Algorithmus.

Zurück zum Anfang

Funktionsliste

Alle Microsoft-Algorithmen unterstützen einen gängigen Satz von Funktionen. Modelle, die mit dem Microsoft Clustering-Algorithmus erstellt werden, unterstützen jedoch die in der folgenden Tabelle aufgeführten, zusätzlichen Funktionen.

Eine Liste der Funktionen, die von allen Microsoft-Modelltypen gemeinsam verwendet werden, finden Sie unter Algorithmusreferenz (Analysis Services - Data Mining). Die Syntax bestimmter Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.