Technische Referenz für den Microsoft Linear Regression-Algorithmus

Artikel
10/31/2023

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Der Microsoft Linear Regression-Algorithmus ist eine spezielle Version des Microsoft Decision Trees-Algorithmus, der für die Modellierung von Paaren kontinuierlicher Attribute optimiert ist. In diesem Thema wird die Implementierung des Algorithmus erläutert und beschrieben, wie das Verhalten des Algorithmus angepasst wird. Ferner werden Links zu weiteren Informationen über das Abfragen von Modellen zur Verfügung gestellt.

Implementierung des Linear Regression-Algorithmus

Der Microsoft Decision Trees-Algorithmus kann für viele Tasks verwendet werden: die lineare Regression, die Klassifizierung oder die Zuordnungsanalyse. Um diesen Algorithmus für die lineare Regression zu implementieren, werden die Parameter des Algorithmus gesteuert, um die Zunahme der Struktur zu beschränken und alle Daten im Modell in einem einzigen Knoten zu speichern. Mit anderen Worten, obwohl die lineare Regression auf einer Entscheidungsstruktur basiert, enthält die Struktur nur einen einzigen Stamm und keine Verzweigungen: Alle Daten befinden sich im Stammknoten.

Um dies zu erreichen, ist der MINIMUM_LEAF_CASES -Parameter größer als oder gleich der Gesamtzahl der Fälle im Dataset, mit dem der Algorithmus das Miningmodell trainiert. Bei dieser Parametereinstellung erstellt der Algorithmus nie eine Teilung, was der Grund dafür ist, dass der Algorithmus eine lineare Regression ausführt.

Die Gleichung, die die Regressionsgleichung darstellt, weist im Allgemeinen die Form „y = ax + b“ auf und wird als Regressionsgleichung bezeichnet. Die Variable Y stellt die Ausgabevariable dar, X stellt die Eingabevariable dar, und a und b sind anpassbare Koeffizienten. Sie können die Koeffizienten, Achsenabschnitte und andere Informationen über die Regressionsformel abrufen, indem Sie das fertige Miningmodell abfragen. Weitere Informationen finden Sie unter Beispiele für lineare Regressionsmodellabfrage.

Bewertungsmethoden und Funktionsauswahl

Alle SQL Server Analysis Services Data Mining-Algorithmen verwenden automatisch die Featureauswahl, um die Analyse zu verbessern und die Verarbeitungslast zu reduzieren. Die für die Funktionsauswahl bei der linearen Regression verwendete Methode ist der Interessantheitsgrad, da das Modell nur kontinuierliche Spalten unterstützt. Die folgende Tabelle zeigt zu Referenzzwecken den Unterschied bei der Funktionsauswahl für den Linear Regression-Algorithmus und den Decision Trees-Algorithmus.

Algorithmus	Analysemethode	Kommentare
Lineare Regression	Interessantheitsgrad	Standard. Andere Funktionsauswahlmethoden, die für den Decision Trees-Algorithmus verfügbar sind, sind nur für diskrete Variablen gültig und gelten daher nicht für lineare Regressionsmodelle.
Entscheidungsstrukturen	Interessantheitsgrad Shannon-Entropie Bayes-Methode mit K2-A-priori-Verteilung Bayes-Dirichlet mit uniformer A-priori-Verteilung (Standard)	Wenn irgendeine Spalte nicht binäre kontinuierliche Werte enthält, wird der Interessantheitsgrad für alle Spalten verwendet, um die Konsistenz zu gewährleisten. Andernfalls wird die Standardmethode oder die angegebene Methode verwendet.

Die Algorithmusparameter, die die Funktionsauswahl für ein Entscheidungsstrukturmodell steuern, sind MAXIMUM_INPUT_ATTRIBUTES und MAXIMUM_OUTPUT.

Anpassen des Linear Regression-Algorithmus

Der Microsoft Linear Regression-Algorithmus unterstützt Parameter, die sich auf das Verhalten, die Leistung und die Genauigkeit des resultierenden Miningmodells auswirken. Sie können außerdem Modellierungsflags für die Miningmodellspalten oder Miningstrukturspalten festlegen, um die Verarbeitung der Daten zu steuern.

Festlegen von Algorithmusparametern

In der folgenden Tabelle sind die Parameter aufgeführt, die für den Microsoft Linear Regression-Algorithmus bereitgestellt werden.

Parameter	Beschreibung
MAXIMUM_INPUT_ATTRIBUTES	Definiert die Anzahl von Eingabeattributen, die der Algorithmus verarbeiten kann, bevor die Funktionsauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Funktionsauswahl zu deaktivieren. Der Standardwert ist 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Definiert die Anzahl von Ausgabeattributen, die der Algorithmus verarbeiten kann, bevor die Funktionsauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Funktionsauswahl zu deaktivieren. Der Standardwert ist 255.
FORCE_REGRESSOR	Zwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, und zwar unabhängig von ihrer durch den Algorithmus berechneten Bedeutung.

Modellierungsflags

Der Microsoft Linear Regression-Algorithmus unterstützt die folgenden Modellierungsflags. Wenn Sie die Miningstruktur oder das Miningmodell erstellen, definieren Sie Modellierungsflags, die angeben, wie die Werte in den einzelnen Spalten während der Analyse behandelt werden. Weitere Informationen finden Sie unter Modellierungsflags (Data Mining).

Modellierungsflag	Beschreibung
NOT NULL	Gibt an, dass die Spalte keinen NULL-Wert enthalten kann. Ein Fehler tritt auf, wenn Analysis Services während des Modelltrainings einen NULL-Wert erkennt. Gilt für die Miningstrukturspalten.
REGRESSOR	Gibt an, dass die Spalte kontinuierliche numerische Werte enthält, die bei der Analyse als potenzielle unabhängige Variablen behandelt werden sollen. Gilt für die Miningmodellspalten. Hinweis: Das Kennzeichnen einer Spalte als Regressor gewährleistet nicht, dass die Spalte im fertigen Modell als Regressor verwendet wird.

Regressoren in linearen Regressionsmodellen

Lineare Regressionsmodelle basieren auf dem Microsoft Decision Trees-Algorithmus. Auch wenn Sie den Microsoft Linear Regression-Algorithmus nicht verwenden, kann jedes Entscheidungsstrukturmodell eine Struktur oder Knoten enthalten, die eine Regression für ein kontinuierliches Attribut darstellen.

Sie müssen nicht angeben, dass eine kontinuierliche Spalte einen Regressor darstellt. Der Microsoft Decision Trees-Algorithmus partitioniert das Dataset in Regionen mit aussagekräftigen Mustern, auch wenn Sie das REGRESSOR-Flag nicht für die Spalte festlegen. Der Unterschied besteht darin, dass der Algorithmus beim Festlegen des Modellierungsflags versucht, Regressionsgleichungen im Format a*C1 + b*C2 + ... entsprechend den Mustern in den Knoten der Struktur zu finden. Dann wird die Summe der Restwerte berechnet, und wenn die Abweichung zu groß ist, wird die Struktur unterteilt.

Wenn Sie beispielsweise das Kaufverhalten von Kunden mithilfe des Attributs „Income“ vorhersagen und das REGRESSOR-Modellierungsflag für die Spalte „[Income]“ festlegen, versucht der Algorithmus zuerst, die Werte mithilfe einer Standardregressionsformel zuzuordnen. Ist die Abweichung zu groß, dann wird die Regressionsformel ignoriert und die Struktur nach einem anderen Attribut unterteilt. Der Decision Tree-Algorithmus versucht nach der Unterteilung, jedem der Zweige einen Regressor für Income zuzuordnen.

Sie können durch Einsatz des FORCED_REGRESSOR-Parameters gewährleisten, dass der Algorithmus einen bestimmten Regressor verwendet. Dieser Parameter kann mit dem Microsoft Decision Trees-Algorithmus und dem Microsoft Linear Regression-Algorithmus verwendet werden.

Anforderungen

Ein lineares Regressionsmodell muss eine Schlüsselspalte, Eingabespalten und mindestens eine vorhersagbare Spalte enthalten.

Eingabespalten und vorhersagbare Spalten

Der Microsoft Linear Regression-Algorithmus unterstützt die spezifischen Eingabespalten und vorhersagbaren Spalten, die in der folgenden Tabelle aufgeführt sind. Weitere Informationen dazu, was die Inhaltstypen bedeuten, wenn sie in einem Miningmodell verwendet werden, finden Sie unter Inhaltstypen (Data Mining).

Spalte	Inhaltstypen
Eingabeattribut	Continuous, Cyclical, Key, Table und Ordered
Vorhersagbares Attribut	Continuous, Cyclical und Ordered

Hinweis

Zyklische und sortierte Inhaltstypen werden unterstützt, der Algorithmus behandelt sie jedoch als diskrete Werte und führt keine spezielle Verarbeitung durch.

Weitere Informationen

Microsoft Linear Regression-Algorithmus
Beispiele für lineare Regressionsmodellabfrage
Miningmodellinhalt von linearen Regressionsmodellen (Analysis Services – Data Mining)