Microsoft Logistic Regression-Algorithmus

Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Die logistische Regression ist ein gängiges statistisches Verfahren, das zum Modellieren von binären Ergebnissen verwendet wird.

Es gibt in der Statistikforschung verschiedene Implementierungen einer logistischen Regression, die unterschiedliche Lerntechniken verwenden. Der Microsoft Logistic Regression-Algorithmus wurde mithilfe einer Variante des Microsoft Neural Network-Algorithmus implementiert. Dieser Algorithmus weist viele der Qualitäten neuronaler Netzwerke auf, ist jedoch einfacher zu trainieren.

Ein Vorteil des logistischen Regressionsalgorithmus ist seine Flexibilität. Er akzeptiert alle Arten von Eingaben und unterstützt verschiedene analytische Tasks:

  • Verwenden Sie demografische Daten, um Vorhersagen zu Ergebnissen zu treffen, z. B. zum Risiko einer bestimmten Krankheit.

  • Untersuchen und gewichten Sie die Faktoren, die zu einem Ergebnis beitragen. Suchen Sie z. B. nach den Faktoren, die Kunden dazu veranlassen, einem Geschäft einen zweiten Besuch abzustatten.

  • Klassifizieren Sie Dokumente, E-Mails oder andere Objekte, die über viele Attribute verfügen.

Beispiel

Stellen Sie sich eine Gruppe von Personen vor, die ähnliche demografische Daten aufweisen und Produkte der Firma Adventure Works kaufen. Indem Sie die Daten so modellieren, dass sie sich auf ein bestimmtes Ergebnis beziehen, z. B. auf den Kauf eines Zielprodukts, können Sie ermitteln, wie die demografischen Daten sich bei einem Käufer auf die Wahrscheinlichkeit auswirken, dass dieser das Zielprodukt kauft.

Funktionsweise des Algorithmus

Die logistische Regression ist ein gängiges statistisches Verfahren, mit dem der Beitrag mehrerer Faktoren zu zwei bestimmten Ergebnissen ermittelt werden kann. Die Microsoft-Implementierung verwendet ein modifiziertes neuronales Netzwerk, um die Beziehungen zwischen Eingaben und Ausgaben zu modellieren. Es wird jeweils die Auswirkung jeder Eingabe auf die Ausgabe gemessen, und im fertigen Modell werden die verschiedenen Eingaben gewichtet. Der Name "Logistische Regression" beruht auf der Tatsache, dass die Datenkurve mithilfe einer logistischen Transformation komprimiert wird, um die Auswirkungen extremer Werte zu minimieren. Weitere Informationen zur Implementierung und dazu, wie der Algorithmus angepasst wird, finden Sie unter Technische Referenz für den Microsoft Logistic Regression-Algorithmus.

Erforderliche Daten für logistische Regressionsmodelle

Wenn Sie Daten für das Training eines logistischen Regressionsmodells aufbereiten, müssen Sie sich mit den Anforderungen des jeweiligen Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für ein logistisches Regressionsmodell gelten folgende Anforderungen:

Nur eine Schlüsselspalte: Jedes Modell muss eine numerische Spalte oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Verbundschlüssel sind nicht zulässig.

Eingabespalten: Jedes Modell muss mindestens eine Eingabespalte für die Werte enthalten, die bei der Analyse als Faktoren verwendet werden. Sie können beliebig viele Eingabespalten verwenden. Abhängig von der Anzahl von Werten in jeder Spalte, kann sich der zum Trainieren des Modells erforderliche Zeitaufwand durch das Hinzufügen zusätzlicher Spalten jedoch erhöhen.

Mindestens eine vorhersagbare Spalte: Das Modell muss mindestens eine vorhersagbare Spalte eines beliebigen Datentyps enthalten, einschließlich fortlaufender numerischer Daten. Die Werte der vorhersagbaren Spalte können auch als Eingaben für das Modell behandelt werden. Alternativ dazu können Sie angeben, dass diese Werte nur für Vorhersagen verwendet werden sollen. Geschachtelte Tabellen sind für vorhersagbare Spalten nicht zulässig, können aber als Eingaben verwendet werden.

Ausführliche Informationen zu den in logistischen Regressionsmodellen unterstützten Inhaltstypen und Datentypen finden Sie im Abschnitt über Anforderungen unter Technische Referenz für den Microsoft Logistic Regression-Algorithmus.

Anzeigen eines logistischen Regressionsmodells

Zum Untersuchen des Modells können Sie den Microsoft-Viewer für neuronale Netzwerke oder den Microsoft Generic Content Tree Viewer verwenden.

Wenn Sie das Modell mit dem Microsoft-Viewer für neuronale Netzwerke anzeigen, führt Analysis Services die Faktoren, die zu einem bestimmten Ergebnis beitragen, nach ihrer Wichtigkeit auf. Sie können ein Attribut und Werte für einen Vergleich auswählen. Weitere Informationen finden Sie unter Modell mit dem Microsoft-Viewer für neuronale Netzwerke durchsuchen.

Wenn Sie ausführlichere Informationen benötigen, können Sie mit dem Microsoft Generic Content Tree Viewer die Details des Modells durchsuchen. Der Modellinhalt für ein logistisches Regressionsmodell enthält einen Knoten für die Randstatistik, der alle für das Modell verwendeten Eingaben und die Subnetzwerke für die vorhersagbaren Attribute anzeigt. Weitere Informationen finden Sie unter Miningmodellinhalt für logistische Regressionsmodelle (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Training für das Modell durchgeführt wurde, können Sie für den Modellinhalt Abfragen erstellen, um die Regressionskoeffizienten und andere Details abzurufen, oder Sie können das Modell verwenden, um Vorhersagen zu erstellen.

Hinweise

  • Unterstützt keine Drillthroughs. Der Grund hierfür ist, dass die Struktur der Knoten im Miningmodell nicht zwangsläufig direkt den zugrunde liegenden Daten entspricht.

  • Unterstützt nicht die Erstellung von Data Mining-Dimensionen.

  • Unterstützt die Verwendung von OLAP-Miningmodellen.

  • Unterstützt nicht die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.

Weitere Informationen

Miningmodellinhalt von logistischen Regressionsmodellen (Analysis Services – Data Mining)
Technische Referenz für den Microsoft Logistic Regression-Algorithmus
Logistische Regressionsmodell-Abfragebeispiele