Microsoft Linear Regression-Algorithmus

Der Microsoft Linear Regression-Algorithmus ist eine Variation des Microsoft Decision Trees-Algorithmus, bei dem der MINIMUM_LEAF_CASES-Parameter größer als oder gleich der Gesamtzahl der Fälle im Dataset ist, mit dem der Algorithmus das Miningmodell trainiert. Bei dieser Parametereinstellung erstellt der Algorithmus nie eine Teilung, was der Grund dafür ist, dass der Algorithmus eine lineare Regression ausführt.

Sie können die lineare Regression verwenden, um eine Beziehung zwischen zwei kontinuierlichen Spalten zu bestimmen. Die Beziehung nimmt die Form einer Formel für eine Linie an, die eine Reihe von Daten am besten darstellt. Die Linie des folgenden Diagramms ist z. B. die bestmögliche lineare Darstellung der Daten.

Eine Gerade als Modell für eine Datenmenge

Die Formel, die die Linie im Diagramm darstellt, nimmt die allgemeine Form y = ax + b an, die als Regressionsformel bekannt ist. Die Variable Y stellt die Ausgabevariable, die Variable X die Eingabevariable dar; und a und b sind die anpassbaren Koeffizienten. Zu jedem Datenpunkt im Diagramm ist ein Fehler zugeordnet. Dieser wird durch seinen Abstand von der Regressionslinie dargestellt. Die Koeffizienten a und b der Regressionsformel passen den Winkel und den Ort der Regressionslinie an. Sie können die Regressionsformel erhalten, indem Sie die Koeffizienten a und b so anpassen, dass die Summe der Fehler, die Punkten zugeordnet sind, die kleinste Zahl ergibt.

Verwenden des Algorithmus

Verwenden Sie den Microsoft Struktur-Viewer, um ein lineares Regressionsminingmodell zu durchsuchen.

Ein lineares Regressionsmodell muss eine Schlüsselspalte, Eingabespalten und mindestens eine vorhersagbare Spalte enthalten.

Der Microsoft Linear Regression-Algorithmus unterstützt bestimmte Inhaltstypen für Eingabespalten und für vorhersagbare Spalten sowie Modellierungsflags, die in der folgenden Tabelle aufgelistet sind.

Inhaltstypen für Eingabespalten

Continuous ,Cyclical, Key, Table und Ordered

Inhaltstypen für vorhersagbare Spalten

Continuous, Cyclical und Ordered

Modellierungsflags

NOT NULL und REGRESSOR

Alle Microsoft-Algorithmen unterstützen gemeinsam eine Reihe von Funktionen. Allerdings unterstützt der Microsoft Linear Regression-Algorithmus zusätzliche Funktionen, die in der folgenden Tabelle aufgelistet sind.

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

Eine Liste der Funktionen, die von allen Microsoft-Algorithmen gemeinsam verwendet werden, finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.

Der Microsoft Linear Regression-Algorithmus unterstützt mehrere Parameter, die Auswirkungen auf die Leistung und die Genauigkeit des resultierenden Miningmodells haben. In der folgenden Tabelle werden die einzelnen Parameter beschrieben.

Parameter Beschreibung

MAXIMUM_INPUT_ATTRIBUTES

Definiert die Anzahl von Eingabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren.

Die Standardeinstellung ist 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Definiert die Anzahl von Ausgabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren.

Die Standardeinstellung ist 255.

FORCED_REGRESSOR

Zwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, unabhängig von ihrer durch den Algorithmus berechneten Wichtigkeit der Spalten.

Siehe auch

Konzepte

Data Mining-Algorithmen
Data Mining-Assistent
Featureauswahl beim Data Mining
Anzeigen eines Miningmodells mit dem Microsoft Struktur-Viewer

Andere Ressourcen

CREATE MINING MODEL (DMX)

Hilfe und Informationen

Informationsquellen für SQL Server 2005