Microsoft Linear Regression-Algorithmus

Artikel
12/15/2008

Der Microsoft Linear Regression-Algorithmus ist eine Variation des Microsoft Decision Trees-Algorithmus, bei dem der MINIMUM_LEAF_CASES-Parameter größer als oder gleich der Gesamtzahl der Fälle im Dataset ist, mit dem der Algorithmus das Miningmodell trainiert. Bei dieser Parametereinstellung erstellt der Algorithmus nie eine Teilung, was der Grund dafür ist, dass der Algorithmus eine lineare Regression ausführt.

Sie können die lineare Regression verwenden, um eine Beziehung zwischen zwei kontinuierlichen Spalten zu bestimmen. Die Beziehung nimmt die Form einer Formel für eine Linie an, die eine Reihe von Daten am besten darstellt. Die Linie des folgenden Diagramms ist z. B. die bestmögliche lineare Darstellung der Daten.

Eine Gerade als Modell für eine Datenmenge

Die Formel, die die Linie im Diagramm darstellt, nimmt die allgemeine Form y = ax + b an, die als Regressionsformel bekannt ist. Die Variable Y stellt die Ausgabevariable, die Variable X die Eingabevariable dar; und a und b sind die anpassbaren Koeffizienten. Zu jedem Datenpunkt im Diagramm ist ein Fehler zugeordnet. Dieser wird durch seinen Abstand von der Regressionslinie dargestellt. Die Koeffizienten a und b der Regressionsformel passen den Winkel und den Ort der Regressionslinie an. Sie können die Regressionsformel erhalten, indem Sie die Koeffizienten a und b so anpassen, dass die Summe der Fehler, die Punkten zugeordnet sind, die kleinste Zahl ergibt.

Verwenden des Algorithmus

Verwenden Sie den Microsoft Struktur-Viewer, um ein lineares Regressionsminingmodell zu durchsuchen.

Ein lineares Regressionsmodell muss eine Schlüsselspalte, Eingabespalten und mindestens eine vorhersagbare Spalte enthalten.

Der Microsoft Linear Regression-Algorithmus unterstützt bestimmte Inhaltstypen für Eingabespalten und für vorhersagbare Spalten sowie Modellierungsflags, die in der folgenden Tabelle aufgelistet sind.

Inhaltstypen für Eingabespalten	Continuous ,Cyclical, Key, Table und Ordered
Inhaltstypen für vorhersagbare Spalten	Continuous, Cyclical und Ordered
Modellierungsflags	NOT NULL und REGRESSOR

Alle Microsoft-Algorithmen unterstützen gemeinsam eine Reihe von Funktionen. Allerdings unterstützt der Microsoft Linear Regression-Algorithmus zusätzliche Funktionen, die in der folgenden Tabelle aufgelistet sind.

IsDescendant	PredictStdev
IsInNode	PredictSupport
PredictHistogram	PredictVariance
PredictNodeId

Eine Liste der Funktionen, die von allen Microsoft-Algorithmen gemeinsam verwendet werden, finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.

Der Microsoft Linear Regression-Algorithmus unterstützt mehrere Parameter, die Auswirkungen auf die Leistung und die Genauigkeit des resultierenden Miningmodells haben. In der folgenden Tabelle werden die einzelnen Parameter beschrieben.

Parameter	Beschreibung
MAXIMUM_INPUT_ATTRIBUTES	Definiert die Anzahl von Eingabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Die Standardeinstellung ist 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Definiert die Anzahl von Ausgabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Die Standardeinstellung ist 255.
FORCED_REGRESSOR	Zwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, unabhängig von ihrer durch den Algorithmus berechneten Wichtigkeit der Spalten.

MAXIMUM_INPUT_ATTRIBUTES

Definiert die Anzahl von Eingabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren.

Die Standardeinstellung ist 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Definiert die Anzahl von Ausgabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren.

Die Standardeinstellung ist 255.

FORCED_REGRESSOR

Zwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, unabhängig von ihrer durch den Algorithmus berechneten Wichtigkeit der Spalten.

Siehe auch

Microsoft Linear Regression-Algorithmus

Verwenden des Algorithmus

Siehe auch

Konzepte

Andere Ressourcen

Hilfe und Informationen

Zusätzliche Ressourcen