Miningmodellinhalt von Naive Bayes-Modellen (Analysis Services – Data Mining)

In diesem Thema wird der Miningmodellinhalt beschrieben, der Modellen eigen ist, die den Microsoft Naive Bayes-Algorithmus verwenden. Eine Erklärung dazu, wie Statistiken und Strukturen, die allen Modelltypen eigen sind, interpretiert werden, und die allgemeinen Definitionen von Begriffen in Bezug auf den Miningmodellinhalt finden Sie unter Miningmodellinhalt (Analysis Services - Data Mining).

Grundlegendes zur Struktur von Naive Bayes-Modellen

Ein Naive Bayes-Modell verfügt über einen einzigen übergeordneten Knoten, der das Modell und seine Metadaten darstellt. Unterhalb eines jeden übergeordneten Knotens befinden sich die unabhängigen Strukturen, die die von Ihnen ausgewählten vorhersagbaren Attribute darstellen. Zusätzlich zu den Strukturen für die Attribute enthält jedes Modell einen Knoten für Randstatistik (NODE_TYPE = 26), der beschreibende Statistiken über die Sätze der Trainingsfälle bietet. Weitere Informationen finden Sie unter Informationen im Knoten für Randstatistik.

Für jedes vorhersagbare Attribut und jeden Wert gibt das Modell eine Struktur aus, die beschreibende Informationen darüber enthält, welche Auswirkungen die verschiedenen Eingabespalten auf das Ergebnis des entsprechenden vorhersagbaren Attributs haben. Jede Struktur enthält das vorhersagbare Attribut und seinen Wert (NODE_TYPE = 9) und weiterhin eine Reihe von Knoten, die die Eingabeattribute (NODE_TYPE = 10) darstellen. Da die Eingabeattribute in der Regel über mehrere Werte verfügen, kann jedes Eingabeattribut (NODE_TYPE = 10) mehrere untergeordnete Knoten (NODE_TYPE = 11) besitzen; jeweils einen für einen bestimmten Status des Attributs.

HinweisHinweis

Da ein Naive Bayes-Modell keine kontinuierlichen Datentypen zulässt, werden alle Werte der Eingabespalten diskret oder diskretisiert behandelt. Sie können festlegen, wie ein Wert diskretisiert wird. Weitere Informationen finden Sie unter Vorgehensweise: Ändern der Diskretisierung von Spalten in Miningmodellen.

Struktur des Modellinhalts für Naive Bayes

Modellinhalt eines Naive Bayes-Modells

In diesem Abschnitt werden nur diejenigen Spalten des Miningmodellinhalts detaillierter und anhand von Beispielen erläutert, die für Naive Bayes-Modelle relevant sind.

Informationen zu den allgemeinen Spalten im Schemarowset, z. B. MODEL_CATALOG und MODEL_NAME, die hier nicht beschrieben werden, sowie weitere Erläuterungen zur Miningmodell-Terminologie finden Sie unter Miningmodellinhalt (Analysis Services - Data Mining).

  • MODEL_CATALOG
    Name der Datenbank, in der das Modell gespeichert wird.

  • MODEL_NAME
    Name des Modells.

  • ATTRIBUTE_NAME
    Die Namen der Attribute, die diesem Knoten entsprechen.

    Modellstamm Der Name des vorhersagbaren Attributs.

    Randstatistik Nicht anwendbar

    Vorhersagbares Attribut Name des vorhersagbaren Attributs.

    Eingabeattribut  Name des Eingabeattributs.

    Eingabeattributstatus Nur der Name des Eingabeattributs. Um den Status abzufragen, verwenden Sie MSOLAP_NODE_SHORT_CAPTION.

  • NODE_NAME
    Der Name des Knotens.

    Diese Spalte enthält den gleichen Wert wie NODE_UNIQUE_NAME.

    Weitere Informationen über die Benennungskonventionen für Knoten finden Sie unter Verwenden von Knotennamen und IDs.

  • NODE_UNIQUE_NAME
    Der eindeutige Name des Knotens. Die eindeutigen Namen werden gemäß einer Konvention zugewiesen, die Informationen über die Beziehungen zwischen den Knoten bietet. Weitere Informationen über die Benennungskonventionen für Knoten finden Sie unter Verwenden von Knotennamen und IDs.

  • NODE_TYPE
    Ein Naive Bayes-Modell gibt die folgenden Knotentypen aus:

    Knotentyp-ID

    Beschreibung

    26 (NaiveBayesMarginalStatNode)

    Enthält Statistiken, die den ganzen Satz von Trainingsfällen für das Modell beschreiben.

    9 (vorhersagbares Attribut)

    Enthält den Namen des vorhersagbaren Attributs.

    10 (Eingabeattribut)

    Enthält den Namen der Eingabeattributspalte und untergeordnete Knoten, die die Werte für das Attribut enthalten.

    11 (Eingabeattributstatus)

    Enthält die Werte oder diskretisierten Werte aller Eingabeattribute, die einem bestimmten Ausgabeattribut zugewiesen wurden.

  • NODE_CAPTION
    Die Bezeichnung oder Beschriftung, die dem Knoten zugeordnet ist. Diese Eigenschaft dient hauptsächlich zu Anzeigezwecken.

    Modellstamm   leer

Randstatistik leer

**Vorhersagbares Attribut** Name des vorhersagbaren Attributs.

**Eingabeattribut**   Der Name des vorhersagbaren Attributs und des aktuellen Eingabeattributs. Beispiel:

Bike Buyer -\> Age

**Eingabeattributstatus**   Der Name des vorhersagbaren Attributs und des aktuellen Eingabeattributs und der Wert der Eingabe. Beispiel:

Bike Buyer -\> Age = Missing
  • CHILDREN_CARDINALITY
    Die Anzahl der untergeordneten Elemente des Knotens.

    Modellstamm   Anzahl der vorhersagbaren Attribute im Modell plus 1 für den Knoten für Randstatistik.

Randstatistik Hat definitionsgemäß keine untergeordneten Elemente.

Vorhersagbares Attribut Anzahl der Eingabeattribute, die dem aktuellen vorhersagbaren Attribut zugewiesen wurden.

**Eingabeattribut**   Anzahl der diskreten oder diskretisierten Werte für das aktuellen Eingabeattribut.

**Eingabeattributstatus**   Immer 0.
  • PARENT_UNIQUE_NAME
    Der eindeutige Name des übergeordneten Knotens. Weitere Informationen über die Zuordnung von über- und untergeordneten Knoten finden Sie unter Verwenden von Knotennamen und IDs.

  • NODE_DESCRIPTION
    Entspricht der Knotenbeschriftung.

  • NODE_RULE
    Eine XML-Darstellung der Knotenbeschriftung.

  • MARGINAL_RULE
    Entspricht der Knotenregel.

  • NODE_PROBABILITY
    Die diesem Knoten zugeordnete Wahrscheinlichkeit.

    Modellstamm   Immer 0.

Randstatistik Immer 0.

Vorhersagbares Attribut Immer 1.

**Eingabeattribut**   Immer 1.

**Eingabeattributstatus**   Eine Dezimalzahl, die die Wahrscheinlichkeit des aktuellen Werts darstellt. Die Werte für alle Eingabeattributstatus unter dem übergeordneten Eingabeattributknoten ergeben die Summe 1.
  • MARGINAL_PROBABILITY
    Entspricht der Knotenwahrscheinlichkeit.

  • NODE_DISTRIBUTION
    Eine Tabelle, die das Wahrscheinlichkeitshistogramm für den Knoten enthält. Weitere Informationen finden Sie unter NODE_DISTRIBUTION-Tabelle.

  • NODE_SUPPORT
    Die Anzahl der Fälle, die diesen Knoten unterstützen.

    Modellstamm    Anzahl aller Fälle in den Trainingsdaten.

Randstatistik Immer 0.

Vorhersagbares Attribut Anzahl aller Fälle in den Trainingsdaten.

**Eingabeattribut**   Anzahl aller Fälle in den Trainingsdaten.

**Eingabeattributstatus**   Anzahl aller Fälle in den Trainingsdaten, die nur diesen bestimmten Wert enthalten.
  • MSOLAP_MODEL_COLUMN
    Eine zu Anzeigezwecken verwendete Beschriftung. Normalerweise identisch mit ATTRIBUTE_NAME.

  • MSOLAP_NODE_SCORE
    Stellt die Wichtigkeit des Attributs oder Werts innerhalb des Modells dar.

    Modellstamm   Immer 0.

Randstatistik Immer 0.

Vorhersagbares Attribut Immer 0.

**Eingabeattribut**   Interessantheitsgrad für das aktuelle Eingabeattribut relativ zum aktuellen vorhersagbaren Attribut.

**Eingabeattributstatus**   Immer 0.
  • MSOLAP_NODE_SHORT_CAPTION
    Eine Textzeichenfolge, die den Namen oder den Wert einer Spalte darstellt.

    Modellstamm   Leer

Randstatistik Leer

Vorhersagbares Attribut Name des vorhersagbaren Attributs.

**Eingabeattribut**  Name des Eingabeattributs.

**Eingabeattributstatus**   Der Wert oder diskretisierte Wert des Eingabeattributs.

Verwenden von Knotennamen und IDs

Die Benennung der Knoten in einem Naive Bayes-Modell bietet zusätzliche Informationen über den Knotentyp. So werden die Beziehungen zwischen den Informationen im Modell deutlicher. In der folgenden Tabelle wird die Konvention für die IDs dargestellt, die anderen Knotentypen zugewiesen werden.

Knotentyp

Konvention für Knoten-ID

Modellstamm (1)

Immer 0.

Knoten für Randstatistik (26)

Ein beliebiger ID-Wert.

Vorhersagbares Attribut (9)

Hexadezimalzahl beginnend mit 10000000

Beispiel: 100000001, 10000000b

Eingabeattribut (10)

Eine zweiteilige Hexadezimalzahl, wobei der erste Teil immer 20000000 ist und der zweite Teil mit dem Hexadezimalbezeichner für das verknüpfte vorhersagbare Attribut beginnt.

Beispiel: 20000000b00000000

In diesem Fall ist das verknüpfte vorhersagbare Attribut 10000000b.

Eingabeattributstatus (11)

Eine dreiteilige Hexadezimalzahl, wobei der erste Teil immer 30000000 ist, der zweite Teil mit dem Hexadezimalbezeichner des verknüpften vorhersagbaren Attributs beginnt und der dritte Teil den Bezeichner des Werts darstellt.

Beispiel: 30000000b00000000200000000

In diesem Fall ist das verknüpfte vorhersagbare Attribut 10000000b.

Sie können die IDs verwenden, um Eingabeattribute und -status mit einem vorhersagbaren Attribut zu verknüpfen. Beispielsweise gibt die folgende Abfrage den Namen und die Beschriftungen für die Knoten aus, die die möglichen Kombinationen aus Eingabe und vorhersagbaren Attributen für das Modell TM_NaiveBayes darstellen.

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

Erwartete Ergebnisse:

NODE_NAME

NODE_CAPTION

20000000000000001

Bike Buyer -> Commute Distance

20000000000000002

Bike Buyer -> English Education

20000000000000003

Bike Buyer -> English Occupation

20000000000000009

Bike Buyer -> Marital Status

2000000000000000a

Bike Buyer -> Number Children At Home

2000000000000000b

Bike Buyer -> Region

2000000000000000c

Bike Buyer -> Total Children

Sie können die IDs der übergeordneten Knoten verwenden, um die untergeordneten Knoten abzurufen. Die folgende Abfrage ruft die Knoten ab, die Werte für das Marital Status-Attribut und die Wahrscheinlichkeit eines jeden Knotens enthalten.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'
HinweisHinweis

Beachten Sie, dass der Name der Spalte PARENT_UNIQUE_NAME in Klammern eingeschlossen werden muss, um ihn von dem reservierten Schlüsselwort mit demselben Namen zu unterscheiden.

Erwartete Ergebnisse:

NODE_NAME

NODE_CAPTION

NODE_PROBABILITY

3000000000000000900000000

Bike Buyer -> Marital Status = Missing

0

3000000000000000900000001

Bike Buyer -> Marital Status = S

0.457504004

3000000000000000900000002

Bike Buyer -> Marital Status = M

0.542495996

NODE_DISTRIBUTION-Tabelle

Die verschachtelte Tabellenspalte NODE_DISTRIBUTION enthält in der Regel Statistiken über die Verteilung der Werte im Knoten. In einem Naive Bayes-Modell wird diese Tabelle nur für die folgenden Knoten aufgefüllt:

Knotentyp

Inhalt der geschachtelten Tabelle

Modellstamm (1)

Leer.

Knoten für Randstatistik (24)

Enthält zusammenfassende Informationen für alle vorhersagbaren Attribute und Eingabeattribute für den gesamten Satz an Trainingsdaten.

Vorhersagbares Attribut (9)

Leer.

Eingabeattribut (10)

Leer.

Eingabeattributstatus (11)

Enthält Statistiken, die die Verteilung der Werte in den Trainingsdaten für diese bestimmte Kombination aus vorhersagbarem Wert und Eingabeattributwert beschreiben.

Sie können die Knoten-IDs oder Knotenbeschriftungen verwenden, um mehr Detailebenen abzurufen. Beispielsweise ruft die folgende Abfrage spezifische Spalten aus der NODE_DISTRIBUTION-Tabelle nur für die Eingabeattributknoten ab, die mit dem Wert 'Marital Status = S' in Beziehung stehen.

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

Erwartete Ergebnisse:

NODE_CAPTION

t.ATTRIBUTE_NAME

t.ATTRIBUTE_VALUE

t.SUPPORT

t.PROBABILITY

t.VALUETYPE

Bike Buyer -> Marital Status = S

Bike Buyer

Missing

0

0

1

Bike Buyer -> Marital Status = S

Bike Buyer

0

3783

0.472934117

4

Bike Buyer -> Marital Status = S

Bike Buyer

1

4216

0.527065883

4

Bei diesen Ergebnissen gibt der Wert der SUPPORT-Spalte Aufschluss über die Anzahl der Kunden mit dem festgelegten Familienstand, die ein Fahrrad gekauft haben. Die Spalte PROBABILITY enthält die ausschließlich für diesen Knoten berechnete Wahrscheinlichkeit eines jeden Attributwerts. Allgemeine Definitionen von Begriffen, die in der NODE_DISTRIBUTION-Tabelle verwendet werden, finden Sie unter Miningmodellinhalt (Analysis Services - Data Mining).

Informationen im Knoten für Randstatistik

In einem Naive Bayes-Modell enthält die geschachtelte Tabelle für den Knoten für die Randstatistik die Verteilung der Werte für den gesamten Satz an Trainingsdaten. Beispielsweise enthält die folgende Tabelle eine Teilliste der Statistiken in der geschachtelten NODE_DISTRIBUTION-Tabelle für das Modell TM_NaiveBayes:

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

SUPPORT

PROBABILITY

VARIANCE

VALUETYPE

Bike Buyer

Missing

0

0

0

1

Bike Buyer

0

8869

0.507263784

0

4

Bike Buyer

1

8615

0.492736216

0

4

Marital Status

Missing

0

0

0

1

Marital Status

S

7999

0.457504004

0

4

Marital Status

M

9485

0.542495996

0

4

Total Children

Missing

0

0

0

1

Total Children

0

4865

0.278254404

0

4

Total Children

3

2093

0.119709449

0

4

Total Children

1

3406

0.19480668

0

4

Die Spalte Bike Buyer ist enthalten, da der Knoten für Randstatistik immer eine Beschreibung des vorhersagbaren Attributs und seiner möglichen Werte enthält. Alle weiteren Spalten, die aufgelistet sind, stellen Eingabeattribute zusammen mit den Werten dar, die im Modell verwendet wurden. Die Werte können nur "fehlend", "diskret" oder "diskretisiert" lauten.

In einem Naive Bayes-Modell kann es keine kontinuierlichen Attribute geben. Daher werden alle numerischen Daten entweder als diskret (VALUE_TYPE = 4) oder diskretisiert (VALUE_TYPE = 5) dargestellt.

Ein Missing-Wert (VALUE_TYPE = 1) wird jedem Eingabe- und Ausgabeattribut hinzugefügt, um potenzielle Werte darzustellen, die in den Trainingsdaten nicht vorhanden waren. Es ist zwischen der Zeichenfolge "Missing" und dem Standardwert Missing zu unterscheiden. Weitere Informationen finden Sie unter Fehlende Werte (Analysis Services - Data Mining).