Microsoft Linear Regression-Algorithmus

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Der Microsoft Linear Regression-Algorithmus ist eine Variante des Microsoft Decision Trees-Algorithmus, mit der Sie eine lineare Beziehung zwischen einer abhängigen und unabhängigen Variablen berechnen und diese Dann für die Vorhersage verwenden können.

Die Beziehung nimmt die Form einer Formel für eine Linie an, die eine Reihe von Daten am besten darstellt. Die Linie des folgenden Diagramms ist z. B. die bestmögliche lineare Darstellung der Daten.

Eine Zeile, die einen Satz von Daten modelliert

Zu jedem Datenpunkt im Diagramm ist ein Fehler zugeordnet. Dieser wird durch seinen Abstand von der Regressionslinie dargestellt. Der Koeffizient a und der Koeffizient b in der Regressionsgleichung passen den Winkel und die Position der Regressionsgleichung an. Sie können die Regressionsgleichung abrufen, indem Sie a und b anpassen, bis die Summe der Fehler, die mit allen Punkten verknüpft sind, ein Minimum erreicht hat.

Es gibt andere Arten der Regression, die mehrere Variablen verwenden, sowie nicht lineare Methoden der Regression. Die lineare Regression stellt jedoch eine nützliche und bekannte Methode dar, um eine Antwort auf eine Änderung eines zugrunde liegenden Faktors zu modellieren.

Beispiel

Sie können die lineare Regression verwenden, um eine Beziehung zwischen zwei kontinuierlichen Spalten zu bestimmen. Beispielsweise können Sie die lineare Regression verwenden, um eine Trendlinie aus Produktions- oder Umsatzdaten zu berechnen. Sie können die lineare Regression ebenfalls als Vorstufe für die Entwicklung komplexerer Data Mining-Modelle verwenden, um die Beziehungen zwischen Datenspalten zu bewerten.

Obwohl es viele Möglichkeiten gibt, eine lineare Regression zu berechnen, für die keine Data Mining-Tools erforderlich sind, besteht der Vorteil der Verwendung des Microsoft Linear Regression-Algorithmus für diese Aufgabe darin, dass alle möglichen Beziehungen zwischen den Variablen automatisch berechnet und getestet werden. Sie müssen kein Rechenverfahren festlegen, wie z. B. die Methode der kleinsten Quadrate. Die lineare Regression könnte jedoch die Beziehungen in Szenarios zu stark vereinfachen, in denen das Ergebnis durch mehrere Faktoren beeinflusst wird.

Funktionsweise des Algorithmus

Der Microsoft Linear Regression-Algorithmus ist eine Variante des Microsoft Decision Trees-Algorithmus. Wenn Sie den Microsoft Linear Regression-Algorithmus auswählen, wird ein Sonderfall des Microsoft Decision Trees-Algorithmus mit Parametern aufgerufen, die das Verhalten des Algorithmus einschränken und bestimmte Eingabedatentypen erfordern. Zudem wird das gesamte Dataset in einem linearen Regressionsmodell dazu verwendet, Beziehungen im ersten Durchgang zu berechnen, während ein standardmäßiges Entscheidungsstrukturmodell Daten wiederholt in kleinere Teilmengen oder Strukturen aufteilt.

Erforderliche Daten für lineare Regressionsmodelle

Wenn Sie Daten für die Verwendung in einem linearen Regressionsmodell aufbereiten, müssen Sie sich mit den Anforderungen des jeweiligen Algorithmus vertraut machen. Hierbei müssen Sie auch berücksichtigen, welcher Datenumfang erforderlich ist und wie diese Daten verwendet werden. Für diesen Modelltyp gelten folgende Anforderungen:

  • Nur eine Schlüsselspalte: Jedes Modell muss eine numerische Spalte oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Verbundschlüssel sind nicht zulässig.

  • Eine vorhersagbare Spalte Mindestens eine vorhersagbare Spalte ist erforderlich. Sie können mehrere vorhersagbare Attribute in ein Modell aufnehmen, bei denen es sich jedoch um kontinuierliche numerische Datentypen handeln muss. Sie können keinen datetime-Datentyp als vorhersagbares Attribut verwenden, selbst wenn der systemeigene Speicher für die Daten numerisch ist.

  • Eingabespalten Eingabespalten müssen kontinuierliche numerische Daten enthalten, und ihnen muss der entsprechende Datentyp zugewiesen sein.

Weitere Informationen finden Sie im Abschnitt „Anforderungen“ unter Technische Referenz für den Microsoft Linear Regression-Algorithmus.

Anzeigen eines linearen Regressionsmodells

Verwenden Sie den Microsoft Struktur-Viewer, um das Modell zu durchsuchen. Die Baumstruktur eines linearen Regressionsmodells ist sehr einfach. Alle Informationen zur Regressionsformel sind in einem einzelnen Knoten enthalten. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Struktur-Viewer.

Wenn Sie Näheres über die Formel in Erfahrung bringen möchten, können Sie die Koeffizienten und weitere Details mithilfe des Microsoft Generic Content Tree Vieweranzeigen.

Zum Inhalt eines linearen Regressionsmodells zählen Metadaten, die Regressionsformel und statistische Informationen zur Verteilung der Eingabewerte. Weitere Informationen finden Sie unter Miningmodellinhalt für lineare Regressionsmodelle (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell verarbeitet wurde, werden die Ergebnisse als Satz von Statistiken gemeinsam mit der linearen Regressionsformel gespeichert, die Sie zum Berechnen zukünftiger Entwicklungen verwenden können. Beispiele zur Verwendung von Abfragen in Verbindung mit einem linearen Regressionsmodell finden Sie unter Beispiele für lineare Regressionsmodellabfrage.

Allgemeine Informationen zum Erstellen von Abfragen für Miningmodelle finden Sie unter Data Mining-Abfragen.

Wenn das vorhersagbare Attribut ein fortlaufender numerischer Datentyp ist, können Sie zusätzlich zum Erstellen eines linearen Regressionsmodells durch Auswählen des Microsoft Linear Regression-Algorithmus ein Entscheidungsstrukturmodell erstellen, das Regressionen enthält. In diesem Fall teilt der Algorithmus die Daten, sofern entsprechende Trennpunkte gefunden werden. Für einige Datenbereiche wird jedoch stattdessen eine Regressionsformel erstellt. Weitere Informationen zu Regressionsstrukturen innerhalb eines Entscheidungsstrukturmodells finden Sie unter Miningmodellinhalt für Entscheidungsstrukturmodelle (Analysis Services – Data Mining).

Hinweise

  • Unterstützt nicht die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.

  • Unterstützt nicht die Erstellung von Data Mining-Dimensionen.

  • Unterstützt Drillthrough.

  • Unterstützt die Verwendung von OLAP-Miningmodellen.

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)
Technische Referenz für den Microsoft Linear Regression-Algorithmus
Beispiele für lineare Regressionsmodellabfrage
Miningmodellinhalt von linearen Regressionsmodellen (Analysis Services – Data Mining)