Microsoft Naive Bayes-Algorithmus

Der Microsoft Naive Bayes-Algorithmus ist ein Klassifikationsalgorithmus, der in Microsoft SQL Server 2005 Analysis Services (SSAS) zum Verwenden bei der Vorhersagemodellierung bereitgestellt wird. Der Algorithmus berechnet die bedingte Wahrscheinlichkeit zwischen Eingabespalten und vorhersagbaren Spalten und setzt die Unabhängigkeit der Spalten voraus. Diese Annahme der Unabhängigkeit führt zum Namen Naive Bayes. Die Annahme ist in manchen Fällen deshalb "naiv", weil der Algorithmus bei dieser Annahme eventuell vorhandene Abhängigkeiten nicht berücksichtigt.

Der Rechenaufwand für diesen Algorithmus ist geringer als der der anderen Microsoft-Algorithmen und ist daher hilfreich für das schnelle Generieren von Miningmodellen, um Beziehungen zwischen Eingabespalten und vorhersagbaren Spalten zu ermitteln. Sie können diesen Algorithmus zunächst dazu verwenden, um Daten zu durchsuchen. Später können Sie dann die Ergebnisse anwenden, um zusätzliche Miningmodelle mit anderen Algorithmen zu erstellen, deren Rechenaufwand größer ist und die präziser sind.

Beispiel

Als fortlaufende Werbestrategie hat die Marketingabteilung der Firma Adventure Works Cycle beschlossen, potenzielle Kunden durch den E-Mail-Versand von Flyern anzuwerben. Zur Reduzierung von Kosten sollen die Flyer nur an jene Kunden gesendet werden, die mit höherer Wahrscheinlichkeit auf diese Flyer reagieren. Das Unternehmen speichert die Informationen in einer Datenbank mit demographischen Daten und Reaktionen auf vorherige Mailingaktionen. Anhand dieser demographischen Daten, wie z. B. über das Alter und den Standort, möchten sie die Reaktion auf eine Werbekampagne vorhersagen, indem sie potenzielle Kunden mit Kunden vergleichen, die ähnliche Merkmale aufweisen und die bereits in der Vergangenheit Produkte des Unternehmens gekauft haben. Insbesondere sollen die Unterschiede zwischen jenen Kunden gezeigt werden, die ein Fahrrad gekauft haben, und jenen, die keins gekauft haben.

Mithilfe des Microsoft Naive Bayes-Algorithmus kann die Marketingabteilung die Ausgabe eines Kundenprofils schnell vorhersagen und kann daher bestimmen, welche Kunden mit größerer Wahrscheinlichkeit auf die Flyer reagieren. Mit dem Microsoft Naive Bayes-Viewer in Business Intelligence Development Studio können Sie auch insbesondere visuell untersuchen, welche Eingabespalten zu positiven Reaktionen beitragen.

Funktionsweise des Algorithmus

Der Microsoft Naive Bayes-Algorithmus berechnet die Wahrscheinlichkeit für jeden Status jeder einzelnen Eingabespalte. Jeder mögliche Status der vorhersagbaren Spalte ist dabei gegeben. Sie können den Microsoft Naive Bayes-Viewer in Business Intelligence Development Studio verwenden, um visuell anzuzeigen, wie der Algorithmus die Status, wie in der folgenden Grafik dargestellt, verteilt.

Statusverteilung für naives Bayes-Verfahren

Im Microsoft Naive Bayes-Viewer werden alle Eingabespalten im Dataset aufgelistet und die Verteilung der Status der einzelnen Spalten angezeigt. Jeder Status der vorhersagbaren Spalte ist dabei gegeben. Sie können diese Anzeige zur Identifizierung der Eingabespalten verwenden, die zur Unterscheidung zwischen den Status der vorhersagbaren Spalten wichtig sind. In der hier angezeigten Commute Distance-Spalte liegt die Wahrscheinlichkeit, dass ein Kunde ein Fahrrad kauft, bei 0,387, wenn der Arbeitsweg 1 bis 2 Meilen beträgt. Wenn der Kunde pendelt, liegt die Wahrscheinlichkeit, dass der Kunde kein Fahrrad kauft, bei 0,287. In diesem Beispiel verwendet der Algorithmus die numerische Information, die von den Kundenmerkmalen, wie z. B. der Pendelstrecke, abgeleitet werden, um vorherzusagen, ob ein Kunde ein Fahrrad kauft. Weitere Informationen zum Verwenden des Microsoft Naive Bayes-Viewers finden Sie unter Anzeigen eines Miningmodells mit dem Microsoft-Viewer für naives Bayes-Verfahren.

Verwendung des Algorithmus

Ein Naive Bayes-Modell muss eine Schlüsselspalte, Eingabespalten und eine vorhersagbare Spalte enthalten. Die Spalten müssen entweder diskrete oder diskretisierte Spalten sein. Weitere Informationen zur Diskretisierung von Spalten finden Sie unter Diskretisierungsmethoden.

Der Microsoft Naive Bayes-Algorithmus unterstützt bestimmte Inhaltstypen für Eingabespalten und vorhersagbare Spalten sowie Modellierungsflags, die in der folgenden Tabelle aufgelistet sind.

Inhaltstypen für Eingabespalten

Cyclical, Discrete, Discretized, Key, Table und Ordered

Inhaltstypen für vorhersagbare Spalten

Cyclical, Discrete, Discretized, Table und Ordered

Modellierungsflags

MODEL_EXISTENCE_ONLY und NOT NULL

Alle Microsoft-Algorithmen unterstützen gemeinsam eine Reihe von Funktionen. Allerdings unterstützt der Microsoft Naive Bayes-Algorithmus zusätzliche Funktionen, die in der folgenden Tabelle aufgelistet sind.

IsDescendant

PredictNodeId

PredictAdjustedProbability

PredictProbability

PredictAssociation

PredictSupport

PredictHistogram

Eine Liste der Funktionen, die von allen Microsoft-Algorithmen gemeinsam verwendet werden, finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.

Der Microsoft Naive Bayes-Algorithmus unterstützt nicht die Predictive Model Markup Language (PMML), die zum Erstellen von Miningmodellen verwendet wird.

Der Microsoft Naive Bayes-Algorithmus unterstützt mehrere Parameter, die Auswirkungen auf die Leistung und die Genauigkeit des resultierenden Miningmodells haben. In der folgenden Tabelle werden die einzelnen Parameter beschrieben.

Parameter Beschreibung

MAXIMUM_INPUT_ATTRIBUTES

Gibt die maximale Anzahl von Eingabeattributen an, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Wenn dieser Wert auf 0 festgelegt wird, ist die Featureauswahl für Eingabeattribute deaktiviert.

Die Standardeinstellung ist 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Gibt die maximale Anzahl von Ausgabeattributen an, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Wenn dieser Wert auf 0 festgelegt wird, ist die Featureauswahl für Ausgabeattribute deaktiviert.

Die Standardeinstellung ist 255.

MINIMUM_DEPENDENCY_PROBABILITY

Gibt die minimale Abhängigkeitswahrscheinlichkeit zwischen Eingabe- und Ausgabeattributen an. Dieser Wert wird verwendet, um die Größe der vom Algorithmus generierten Inhalte zu beschränken. Diese Eigenschaft kann Werte von 0 bis 1 annehmen. Das Erhöhen des Wertes reduziert die Anzahl von Attributen im Modell.

Die Standardeinstellung ist 0,5.

MAXIMUM_STATES

Gibt die maximale Anzahl der vom Algorithmus unterstützten Attributstatus an. Wenn die Anzahl der Status eines Attributs größer als die maximale Anzahl der Status ist, verwendet der Algorithmus die gebräuchlichsten Status und behandelt die restlichen Status als fehlend.

Die Standardeinstellung ist 100.

Siehe auch

Konzepte

Data Mining-Algorithmen
Diskretisierungsmethoden
Featureauswahl beim Data Mining
Verwenden der Data Mining-Tools
Anzeigen eines Miningmodells mit dem Microsoft-Viewer für naives Bayes-Verfahren

Andere Ressourcen

CREATE MINING MODEL (DMX)

Hilfe und Informationen

Informationsquellen für SQL Server 2005