Beispiele für Clustermodellabfragen

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Wenn Sie eine Abfrage für ein Data Mining-Modell erstellen, können Sie Metadaten über das Modell abrufen oder eine Inhaltsabfrage erstellen, die Details über die in der Analyse erkannten Muster bereitstellt. Sie können auch eine Vorhersageabfrage erstellen, die anhand der Muster des Modells Vorhersagen für neue Daten generiert. Jeder Abfragetyp stellt andere Informationen bereit. Eine Inhaltsabfrage stellt beispielsweise zusätzliche Details über die gefundenen Cluster zur Verfügung, während eine Vorhersageabfrage Aufschluss darüber gibt, zu welchem Cluster ein neuer Datenpunkt höchstwahrscheinlich gehört.

In diesem Abschnitt wird erläutert, wie Sie Abfragen für Modelle erstellen, die auf dem Microsoft Clustering-Algorithmus basieren.

Inhaltsabfragen

Abrufen von Modellmetadaten mithilfe von DMX

Abrufen von weiteren Modellmetadaten aus dem Schemarowset

Zurückgeben eines Clusters oder einer Liste von Clustern

Zurückgeben von Attributen für einen Cluster

Zurückgeben eines Clusterprofils mit gespeicherten Systemprozeduren

Suchen von kritischen Faktoren für einen Cluster

Zurückgeben von Fällen, die zu einem Cluster gehören

Vorhersageabfragen

Vorhersagen von Ergebnissen eines Clustermodells

Bestimmen der Clustermitgliedschaft

Zurückgeben aller möglichen Cluster mit Wahrscheinlichkeit und Entfernung

Suchen nach Informationen über das Modell

Alle Miningmodelle machen den vom Algorithmus erfassten Inhalt nach einem standardisierten Schema verfügbar. Dieses Schema wird als Miningmodell-Schemarowset bezeichnet. Abfragen für das Miningmodell-Schemarowset können Sie mithilfe von DMX-Anweisungen (Data Mining-Erweiterungen) erstellen. In SQL Server 2017 können Sie die Schemarowsets auch direkt als Systemtabellen abfragen.

Zurück zum Anfang

Beispielabfrage 1: Abrufen von Modellmetadaten mit DMX

Die folgende Abfrage gibt grundlegende Metadaten über das Clustermodell TM_Clusteringzurück, das Sie im Rahmen des Lernprogramms zu Data Mining-Grundlagen erstellt haben. Die im übergeordneten Knoten eines Clustermodells verfügbaren Metadaten umfassen den Namen des Modells, die Datenbank, in der das Modell gespeichert ist, und die Anzahl der untergeordneten Knoten im Modell. Diese Abfrage ruft die Metadaten mithilfe einer DMX-Inhaltsabfrage vom übergeordneten Knoten des Modells ab:

SELECT MODEL_CATALOG, MODEL_NAME, NODE_CAPTION,   
NODE_SUPPORT, [CHILDREN_CARDINALITY], NODE_DESCRIPTION  
FROM TM_Clustering.CONTENT  
WHERE NODE_TYPE = 1  

Hinweis

Setzen Sie den Namen der Spalte CHILDREN_CARDINALITY in Klammern, um ihn von dem gleichnamigen reservierten Schlüsselwort für mehrdimensionale Ausdrücke (MDX) zu unterscheiden.

Beispielergebnisse:

Zeile Metadaten
MODEL_CATALOG TM_Clustering
MODEL_NAME Adventure Works DW
NODE_CAPTION Clustermodell
NODE_SUPPORT 12939
CHILDREN_CARDINALITY 10
NODE_DESCRIPTION All

Eine Definition, was diese Spalten in einem Clusteringmodell bedeuten, finden Sie unter Miningmodellinhalt für Clusteringmodelle (Analysis Services – Data Mining).

Zurück zum Anfang

Beispielabfrage 2: Abrufen von weiteren Modellmetadaten aus dem Schemarowset

Durch Abfragen des Data Mining-Schemarowsets erhalten Sie dieselben Informationen wie bei einer DMX-Inhaltsabfrage. Das Schemarowset stellt jedoch weitere Spalten bereit. Dazu gehören die Parameter, die beim Erstellen des Modells verwendet wurden, Datum und Uhrzeit der letzten Modellverarbeitung sowie der Besitzer des Modells.

Mit dem folgenden Beispiel wird das Datum zurückgegeben, an dem das Modell erstellt, geändert und zuletzt verarbeitet wurde, ferner die Clustering-Parameter, die zum Erstellen des Modells verwendet wurden, und die Größe des Trainingssatzes. Diese Informationen können zum Dokumentieren des Modells oder zur Bestimmung der Clustering-Optionen, die zum Erstellen eines vorhandenen Modells verwendet wurden, nützlich sein.

SELECT MODEL_NAME, DATE_CREATED, LAST_PROCESSED, PREDICTION_ENTITY, MINING_PARAMETERS   
from $system.DMSCHEMA_MINING_MODELS  
WHERE MODEL_NAME = 'TM_Clustering'  

Beispielergebnisse:

Zeile Metadaten
MODEL_NAME TM_Clustering
DATE_CREATED 10/12/2007 7:42:51 PM
LAST_PROCESSED 10/12/2007 8:09:54 PM
PREDICTION_ENTITY Bike Buyer
MINING_PARAMETERS CLUSTER_COUNT=10,

CLUSTER_SEED=0,

CLUSTERING_METHOD=1,

MAXIMUM_INPUT_ATTRIBUTES=255,

MAXIMUM_STATES=100,

MINIMUM_SUPPORT=1,

MODELLING_CARDINALITY=10,

SAMPLE_SIZE=50000,

STOPPING_TOLERANCE=10

Zurück zum Anfang

Suchen nach Informationen über Cluster

Die nützlichsten Inhaltsabfragen für Clustermodelle geben im Allgemeinen dieselben Informationen zurück, die Sie über das Durchsuchen des Cluster-Viewersfinden können. Dies schließt Clusterprofile, Clustermerkmale und Clusterunterscheidung ein. Dieser Abschnitt enthält Beispiele für Abfragen, die diese Informationen abrufen.

Beispielabfrage 3: Zurückgeben eines Clusters oder einer Liste von Clustern

Da alle Cluster den Knotentyp 5 besitzen, können Sie einfach eine Liste der Cluster abrufen, indem Sie den Modellinhalt nur für diesen Knotentyp abfragen. Sie können auch die Knoten, die zurückgegeben werden, nach Wahrscheinlichkeit oder Unterstützung filtern, wie in diesem Beispiel dargestellt.

SELECT NODE_NAME, NODE_CAPTION ,NODE_SUPPORT, NODE_DESCRIPTION  
FROM TM_Clustering.CONTENT  
WHERE NODE_TYPE = 5 AND NODE_SUPPORT > 1000  

Beispielergebnisse:

Zeile Metadaten
NODE_NAME 002
NODE_CAPTION Cluster 2
NODE_SUPPORT 1649
NODE_DESCRIPTION English Education=Graduate Degree , 32 <=Age <=48 , Number Cars Owned=0 , 35964.0771121808 <=Yearly Income <=97407.7163393957 , English Occupation=Professional , Arbeitsweg Distance=2-5 Miles , Region=Nordamerika , Bike Buyer=1 , Number Children At Home=0 , Number Cars Owned=1 , Arbeitsweg Distance=0-1 Miles , English Education=Bachelors , Total Children=1 , Number Children At Home=2 , English Occupation=Qualified Manual , Marital Status=S , Total Children=0 , House Owner Flag=0 , Gender=F , Total Children=2 , Region=Pacific

Die Attribute, die den Cluster definieren, befinden sich in zwei Spalten des Data Mining-Schemarowsets.

  • Die Spalte NODE_DESCRIPTION enthält eine durch Trennzeichen getrennte Liste von Attributen. Beachten Sie, dass die Liste der Attribute möglicherweise für Anzeigezwecke gekürzt wird.

  • Die geschachtelte Tabelle in der Spalte NODE_DISTRIBUTION enthält die vollständige Liste der Attribute für den Cluster. Wenn Ihr Client keine hierarchischen Rowsets unterstützt, können Sie die geschachtelte Tabelle zurückgeben, indem Sie vor der Spaltenliste SELECT das Schlüsselwort FLATTENED hinzufügen. Weitere Informationen zur Verwendung des FLATTENED-Schlüsselwort (keyword) finden Sie unter SELECT FROM-Modell<>. CONTENT (DMX).

Zurück zum Anfang

Beispielabfrage 4: Zurückgeben von Attributen für einen Cluster

Für jeden Cluster zeigt der Cluster-Viewer ein Profil an, das die Attribute und ihre Werte auflistet. Im Viewer wird außerdem ein Histogramm angezeigt, das die Verteilung der Werte für die Gesamtauffüllung der Fälle im Modell zeigt. Wenn Sie das Modell im Viewer durchsuchen, können Sie das Histogramm einfach aus der Mininglegende kopieren und in ein Excel- oder Word-Dokument einfügen. Außerdem können Sie mithilfe des Viewerbereichs Clustermerkmale die Attribute der verschiedenen Cluster grafisch vergleichen.

Wenn Sie allerdings Werte für mehr als jeweils einen Cluster abrufen müssen, ist eine Abfrage des Modells einfacher. Wenn Sie das Modell beispielsweise durchsuchen, stellen Sie möglicherweise fest, dass sich die beiden oberen Cluster in Bezug auf ein Attribut, Number Cars Owned, unterscheiden. Daher empfiehlt es sich, die Werte für jeden Cluster zu extrahieren.

SELECT TOP 2 NODE_NAME,   
(SELECT ATTRIBUTE_VALUE, [PROBABILITY] FROM NODE_DISTRIBUTION WHERE ATTRIBUTE_NAME = 'Number Cars Owned')  
AS t  
FROM [TM_Clustering].CONTENT  
WHERE NODE_TYPE = 5  

Die erste Zeile des Codes gibt an, dass nur die oberen zwei Cluster berücksichtigt werden sollen.

Hinweis

Standardmäßig sind die Cluster nach Unterstützung sortiert. Daher kann die Spalte NODE_SUPPORT weggelassen werden.

Die zweite Codezeile fügt eine untergeordnete SELECT-Anweisung hinzu, mit der bestimmte Spalten der geschachtelten Tabellenspalte zurückgegeben werden. Außerdem beschränkt sie die Zeilen der geschachtelten Tabelle auf diejenigen, die sich auf das Zielattribut Number Cars Ownedbeziehen. Zur Vereinfachung der Anzeige wird die geschachtelte Tabelle als Alias verwendet.

Hinweis

Die geschachtelte Tabellenspalte PROBABILITYmuss in Klammern gesetzt werden, da sie dem Namen eines reservierten MDX-Schlüsselworts entspricht.

Beispielergebnisse:

NODE_NAME T.ATTRIBUTE_VALUE T.PROBABILITY
001 2 0.829207754
001 1 0.109354156
001 3 0.034481552
001 4 0.013503302
001 0 0.013453236
001 Missing 0
002 0 0.576980023
002 1 0.406623939
002 2 0.016380082
002 3 1.60E-05
002 4 0
002 Missing 0

Zurück zum Anfang

Beispielabfrage 5: Zurückgeben eines Clusterprofils mit gespeicherten Systemprozeduren

Anstatt Ihre eigenen Abfragen mithilfe von DMX zu schreiben, können Sie als Verknüpfung auch die gespeicherten Systemprozeduren aufrufen, die SQL Server Analysis Services für die Arbeit mit Clustern verwendet. Im folgenden Beispiel wird veranschaulicht, wie anhand intern gespeicherter Prozeduren das Profil für einen Cluster mit der ID 002 zurückgegeben wird.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('TM_Clustering", '002',0.0005  

Entsprechend können Sie eine gespeicherte Systemprozedur dazu verwenden, die Merkmale eines bestimmten Clusters zurückzugeben, wie im folgenden Beispiel veranschaulicht:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('TM_Clustering", '009',0.0005  

Beispielergebnisse:

Attribute Werte Häufigkeit Support
Anzahl der zu Hause lebenden Kinder 0 0.999999829076798 899
Region Nordamerika 0.999852875241508 899
Total Children 0 0.993860958572323 893

Hinweis

Die gespeicherten Data Mining-Systemprozeduren sind für den internen Gebrauch vorgesehen, und Microsoft behält sich das Recht vor, sie bei Bedarf zu ändern. Für die Verwendung in einer Produktionsumgebung wird empfohlen, Abfragen mit DMX, AMO oder XMLA zu erstellen.

Zurück zum Anfang

Beispielabfrage 6: Suchen von kritischen Faktoren für einen Cluster

Auf der Registerkarte Clusterunterscheidung im Cluster-Viewer können Sie bequem einen Cluster mit einem anderen Cluster vergleichen oder einen Cluster mit allen übrigen Fällen (Komplement des Clusters) vergleichen.

Das Erstellen von Abfragen zum Zurückgeben dieser Informationen kann ein komplexer Vorgang sein. Unter Umständen ist eine zusätzliche Verarbeitung auf dem Client erforderlich, um die temporären Ergebnisse und die Ergebnisse von zwei oder mehreren Abfragen zu speichern. Um das Verfahren abzukürzen, können Sie die gespeicherten Systemprozeduren verwenden.

Die folgende Abfrage gibt eine einzelne Tabelle zurück, die die primären kritischen Faktoren der beiden Cluster mit den Knoten-IDs 009 und 007 angibt. Attribute mit positiven Werten begünstigen Cluster 009, wohingegen Attribute mit negativen Werten Cluster 007 begünstigen.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','007',0.0005,true)  

Beispielergebnisse:

Attribute Werte Bewertung
Region Nordamerika 100
English Occupation Skilled Manual 94.9003803898654
Region Europa -72.5041051379789
English Occupation Manuell -69.6503163202722

Diese Informationen werden auch im Diagramm des Viewers Clusterunterscheidung dargestellt, wenn Sie in der ersten Dropdownliste Cluster 9 und in der zweiten Dropdownliste Cluster 7 auswählen. Um Cluster 9 mit dem entsprechenden Komplement zu vergleichen, verwenden Sie die leere Zeichenfolge im zweiten Parameter, wie im folgenden Beispiel dargestellt.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','',0.0005,true)  

Hinweis

Die gespeicherten Data Mining-Systemprozeduren sind für den internen Gebrauch vorgesehen, und Microsoft behält sich das Recht vor, sie bei Bedarf zu ändern. Für die Verwendung in einer Produktionsumgebung wird empfohlen, Abfragen mit DMX, AMO oder XMLA zu erstellen.

Zurück zum Anfang

Beispielabfrage 7: Zurückgeben von Fällen, die zu einem Cluster gehören

Wenn Sie Drillthrough für ein Miningmodell aktiviert haben, können Sie Abfragen erstellen, die detaillierte Informationen über die im Modell verwendeten Fälle zurückgeben. Wenn drillthrough für die Miningstruktur aktiviert wurde, können Sie spalten aus der zugrunde liegenden Struktur mithilfe der Dmx-Funktion (StructureColumn) einschließen.

Im folgenden Beispiel werden zwei Spalten, Age und Region, zurückgegeben, die im Modell verwendet wurden, sowie eine Spalte, First Name, die nicht im Modell verwendet wurde. Die Abfrage gibt nur Fälle zurück, die in Cluster 1 klassifiziert wurden.

SELECT [Age], [Region], StructureColumn('First Name')  
FROM [TM_Clustering].CASES  
WHERE IsInNode('001')  

Um die Fälle zurückzugeben, die zu einem Cluster gehören, müssen Sie die ID des Clusters kennen. Sie können die ID des Clusters erhalten, indem Sie das Modell in einem der Viewer durchsuchen. Oder Sie können einen Cluster der Einfachheit halber umbenennen. Anschließend können Sie den Namen statt der ID verwenden. Die einem Cluster zugewiesenen Namen gehen allerdings verloren, wenn das Modell erneut verarbeitet wird.

Zurück zum Anfang

Treffen von Vorhersagen mit dem Modell

Obwohl Clustering in der Regel zum Beschreiben und Verstehen von Daten verwendet wird, können Sie mit der Microsoft-Implementierung auch Vorhersagen über die Clustermitgliedschaft treffen und wahrscheinliche Wahrscheinlichkeiten zurückgeben, die der Vorhersage zugeordnet sind. Dieser Abschnitt enthält Beispiele für das Erstellen von Vorhersageabfragen für Clustermodelle. Sie können Vorhersagen für mehrere Fälle treffen, indem Sie eine tabellarische Datenquelle angeben, oder Sie können durch Erstellen einer SINGLETON-Abfrage jeweils neue Werte bereitstellen. Der Deutlichkeit halber handelt es sich bei den Beispielen in diesem Abschnitt nur um SINGLETON-Abfragen.

Weitere Informationen zum Erstellen von Vorhersageabfragen mit DMX finden Sie unter Data Mining-Abfragetools.

Zurück zum Anfang

Beispielabfrage 8: Vorhersagen von Ergebnissen eines Clustermodells

Wenn das von Ihnen erstellte Clustermodell ein vorhersagbares Attribut enthält, können Sie anhand des Modells Vorhersagen über Ergebnisse treffen. Das Modell behandelt das vorhersagbare Attribut jedoch unterschiedlich, abhängig davon, ob Sie die vorhersagbare Spalte auf Predict oder PredictOnlyfestlegen. Wenn Sie die Verwendung der Spalte auf Predictfestlegen, werden die Werte für dieses Attribut zum Clustermodell hinzugefügt und erscheinen im fertig gestellten Modell als Attribute. Legen Sie jedoch die Verwendung der Spalte auf PredictOnlyfest, werden die Werte nicht zum Erstellen von Clustern verwendet. Stattdessen erstellt der Clustering-Algorithmus neue Werte für das Attribut PredictOnly auf Basis der Cluster, zu denen der jeweilige Fall gehört.

Die folgende Abfrage stellt einen einzelnen neuen Fall für das Modell bereit, wobei die einzigen Informationen über den Fall Alter und Geschlecht sind. Die SELECT-Anweisung gibt das vorhersagbare Attribut-Wert-Paar an, an dem Sie interessiert sind, und die PredictProbability -Funktion (DMX) teilt Ihnen die Wahrscheinlichkeit mit, dass ein Fall mit diesen Attributen das zielorientierte Ergebnis hat.

SELECT  
  [TM_Clustering].[Bike Buyer], PredictProbability([Bike Buyer],1)  
FROM  
  [TM_Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender]) AS t  

Beispiel für Ergebnisse, wenn die Verwendung auf Predictfestgelegt wird:

Bike Buyer Ausdruck
1 0.592924735740338

Beispiel für Ergebnisse, wenn die Verwendung auf PredictOnly festgelegt und das Modell erneut verarbeitet wird:

Bike Buyer Ausdruck
1 0.55843544003102

In diesem Beispiel besteht kein signifikanter Unterschied im Modell. Mitunter kann es jedoch wichtig sein, Unterschiede zwischen der tatsächlichen Verteilung der Werte und den Vorhersageergebnissen des Modells zu erkennen. Die Dmx-Funktion (PredictCaseLikelihood) ist in diesem Szenario nützlich, da sie Ihnen mitteilt, wie wahrscheinlich ein Fall angesichts des Modells ist.

Die von der PredictCaseLikelihood-Funktion zurückgegebene Zahl stellt die Wahrscheinlichkeit dar und bewegt sich daher stets zwischen 0 und 1. Der Wert 0,5 repräsentiert ein willkürliches Ergebnis. Ein Ergebnis kleiner als 0,5 bedeutet, dass der vorhergesagte Fall angesichts des Modells unwahrscheinlich ist. Ein Ergebnis größer als 0,5 gibt an, dass es wahrscheinlicher ist, dass der vorhergesagte Fall dem Modell entspricht, als dass er dem Modell nicht entspricht.

Die folgende Abfrage gibt beispielsweise zwei Werte zurück, die die Wahrscheinlichkeit für einen neuen Beispielfall charakterisieren. Der nicht normalisierte Wert stellt die Wahrscheinlichkeit in Bezug auf das aktuelle Modell dar. Wenn Sie das NORMALIZED-Schlüsselwort verwenden, wird das von der Funktion zurückgegebene Wahrscheinlichkeitsergebnis durch Division der "Wahrscheinlichkeit mit dem Modell" durch die "Wahrscheinlichkeit ohne Modell" angepasst.

SELECT  
PredictCaseLikelihood(NORMALIZED) AS [NormalizedValue], PredictCaseLikelihood(NONNORMALIZED) AS [NonNormalizedValue]  
FROM  
  [TM_Clustering_PredictOnly]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender]) AS t  

Beispielergebnisse:

NormalizedValue NonNormalizedValue
5.56438372679893E-11 8.65459953145182E-68

Beachten Sie, dass die Zahlen in diesen Ergebnissen in wissenschaftlicher Schreibweise ausgedrückt werden.

Zurück zum Anfang

Beispielabfrage 9: Bestimmen der Clustermitgliedschaft

In diesem Beispiel wird die Clusterfunktion (DMX) verwendet, um den Cluster zurückzugeben, zu dem der neue Fall am wahrscheinlichsten gehört, und die Funktion ClusterProbability (DMX), um die Wahrscheinlichkeit für die Mitgliedschaft in diesem Cluster zurückzugeben.

SELECT Cluster(), ClusterProbability()  
FROM  
  [TM_Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender],  
  'S' AS [Marital Status]) AS t  

Beispielergebnisse:

$CLUSTER Ausdruck
Cluster 2 0.397918596951617

Hinweis: Standardmäßig gibt die Funktion ClusterProbability die Wahrscheinlichkeit des wahrscheinlichsten Clusters zurück. Mit der Syntax ClusterProbability('cluster name')können Sie jedoch einen anderen Cluster angeben. Beachten Sie in diesem Fall, dass die Ergebnisse der einzelnen Vorhersagefunktionen von den anderen Ergebnissen unabhängig sind. Das Wahrscheinlichkeitsergebnis in der zweiten Spalte könnte sich daher auf einen anderen Cluster beziehen als den in der ersten Spalte genannten Cluster.

Zurück zum Anfang

Beispielabfrage 10: Zurückgeben aller möglichen Cluster mit Wahrscheinlichkeit und Entfernung

Im vorherigen Beispiel war das Wahrscheinlichkeitsergebnis nicht sehr hoch. Um festzustellen, ob ein besserer Cluster vorhanden ist, können Sie die PredictHistogram-Funktion (DMX) zusammen mit der Funktion Cluster (DMX) verwenden, um eine geschachtelte Tabelle zurückzugeben, die alle möglichen Cluster enthält, zusammen mit der Wahrscheinlichkeit, dass der neue Fall zu jedem Cluster gehört. Das FLATTENED-Schlüsselwort wird verwendet, um das hierarchische Rowset zur besseren Anzeige in eine flache Tabelle zu ändern.

SELECT FLATTENED PredictHistogram(Cluster())  
From  
  [TM_Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 40 AS [Age],  
  'F' AS [Gender],  
  'S' AS [Marital Status])  
Expression.$CLUSTER Expression.$DISTANCE Expression.$PROBABILITY
Cluster 2 0.602081403048383 0.397918596951617
Cluster 10 0.719691686785675 0.280308313214325
Cluster 4 0.867772590378791 0.132227409621209
Cluster 5 0.931039872200985 0.0689601277990149
Cluster 3 0.942359230072167 0.0576407699278328
Cluster 6 0.958973668972756 0.0410263310272437
Cluster 7 0.979081275926724 0.0209187240732763
Cluster 1 0.999169044818624 0.000830955181376364
Cluster 9 0.999831227795894 0.000168772204105754
Cluster 8 1 0

Standardmäßig werden die Ergebnisse nach Wahrscheinlichkeit geordnet. Die Ergebnisse bedeuten, dass trotz relativ niedriger Wahrscheinlichkeit für Cluster 2 dieser Cluster dennoch für den neuen Datenpunkt am besten geeignet ist.

Hinweis: Die zusätzliche Spalte $DISTANCErepräsentiert die Entfernung vom Datenpunkt zum Cluster. Standardmäßig verwendet der Microsoft-Clustering-Algorithmus skalierbares EM-Clustering, das jedem Datenpunkt mehrere Cluster zuweist und die möglichen Cluster sortiert. Wenn Sie das Clustermodell allerdings mit dem K-Means-Algorithmus erstellen, kann jedem Datenpunkt nur ein Cluster zugewiesen werden, und diese Abfrage würde nur eine Zeile zurückgeben. Diese Unterschiede müssen verstanden werden, um die Ergebnisse der DMX-Funktion (PredictCaseLikelihood) zu interpretieren. Weitere Informationen zu den Unterschieden zwischen EM- und K-Means-Clustering finden Sie unter Technische Referenz für den Microsoft Clustering-Algorithmus.

Zurück zum Anfang

Funktionsliste

Alle Microsoft-Algorithmen unterstützen einen gemeinsamen Satz von Funktionen. Modelle, die mit dem Microsoft Clustering-Algorithmus erstellt werden, unterstützen jedoch die zusätzlichen Funktionen, die in der folgenden Tabelle aufgeführt sind.

Vorhersagefunktion Verbrauch
Cluster (DMX) Gibt den Cluster zurück, der mit der höchsten Wahrscheinlichkeit den Eingabefall enthält.
ClusterDistance (DMX) Gibt den Abstand des Eingabefalls von dem angegebenen Cluster zurück, beziehungsweise, wenn kein Cluster angegeben wurde, den Abstand des Eingabefalls von dem wahrscheinlichsten Cluster.

Gibt die Wahrscheinlichkeit zurück, mit der der Eingabefall zum angegebenen Cluster gehört.
ClusterProbability (DMX) Gibt die Wahrscheinlichkeit zurück, mit der der Eingabefall zum angegebenen Cluster gehört.
IsDescendant (DMX) Bestimmt, ob ein Knoten ein untergeordnetes Element eines anderen Knotens im Modell ist.
IsInNode (DMX) Zeigt an, ob der angegebene Knoten den aktuellen Fall enthält.
PredictAdjustedProbability (DMX) Gibt die gewichtete Wahrscheinlichkeit zurück.
PredictAssociation (DMX) Sagt eine Mitgliedschaft in einem assoziativen Dataset voraus.
PredictCaseLikelihood (DMX) Gibt die Wahrscheinlichkeit zurück, mit der ein Eingabefall in ein vorhandenes Modell passt.
PredictHistogram (DMX) Gibt eine Tabelle mit Werten zurück, die sich auf den aktuellen vorhergesagten Wert beziehen.
PredictNodeId (DMX) Gibt "Node_ID" für jeden Fall zurück.
PredictProbability (DMX) Gibt die Wahrscheinlichkeit für den vorhergesagten Wert zurück.
PredictStdev (DMX) Gibt die vorhergesagte Standardabweichung für die angegebene Spalte zurück.
PredictSupport (DMX) Gibt den Unterstützungswert für einen bestimmten Status zurück.
PredictVariance (DMX) Gibt die Varianz einer angegebenen Spalte zurück.

Informationen zur Syntax bestimmter Funktionen finden Sie unter Data Mining-Erweiterungen (DMX)-Funktionsreferenz.

Weitere Informationen

Data Mining-Abfragen
Technische Referenz für den Microsoft Clustering-Algorithmus
Microsoft Clustering-Algorithmus