Tests und Überprüfung (Data Mining)

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Die Überprüfung ist der Prozess des Bewertens, welche Leistung die Miningmodelle mit echten Daten erzielen. Es ist wichtig, dass Sie Ihre Miningmodelle überprüfen, indem Sie ihre Qualität und Merkmale studieren, bevor Sie sie in einer Produktionsumgebung bereitstellen.

In diesem Abschnitt werden einige grundlegende Konzepte im Zusammenhang mit der Modellqualität vorgestellt und die Strategien für die Modellvalidierung beschrieben, die in Microsoft SQL Server Analysis Services bereitgestellt werden. Eine Übersicht dazu, wie Modellüberprüfungen in den größeren Data Mining-Prozess eingebunden werden können, finden Sie unter Data Mining-Projektmappen.

Methoden zum Testen und Überprüfen von Data Mining-Modellen

Es gibt viele Ansätze zum Bewerten der Qualität und der Eigenschaften eines Data Mining-Modells.

  • Verwenden Sie verschiedene Measures für die statistische Gültigkeit, um zu bestimmen, ob Probleme mit den Daten oder dem Modell vorliegen.

  • Teilen Sie die Daten in Trainings- und Testsätze auf, um die Genauigkeit von Vorhersagen zu testen.

  • Bitten Sie betriebswirtschaftliche Experten, die Ergebnisse des Data Mining-Modells zu überprüfen und zu bestimmen, ob die erkannten Muster für das gewollte Geschäftsszenario bedeutungsvoll sind.

Alle diese Methoden sind in der Data Mining-Methodologie nützlich und werden beim Erstellen, Testen und Optimieren von Modellen zur Lösung eines bestimmten Problems iterativ eingesetzt. Es gibt keine einzelne umfassende Regel, aus der Sie ableiten können, wann ein Modell ausreichend ist bzw. wann ausreichend Daten vorliegen.

Definition von Kriterien zum Überprüfen von Data Mining-Modellen

Data Mining-Measures lassen sich im Allgemeinen den Kategorien Genauigkeit, Zuverlässigkeit und Nützlichkeit zuteilen.

DieGenauigkeit ist ein Maß, das besagt, wie gut ein Ergebnis vom Modell mit den Attributen der bereitgestellten Daten korreliert wird. Es gibt verschiedenen Measures für die Genauigkeit, die jedoch alle von den verwendeten Daten abhängig sind. In der Praxis können Werte fehlen oder ungenau sein, oder die Daten können durch mehrere Prozesse verändert worden sein. Insbesondere in der Untersuchungs- und Entwicklungsphase kann es sein, dass eine bestimmte Menge an Fehlern in den Daten akzeptiert wird, insbesondere wenn Daten mit relativ einheitlichen Merkmalen vorliegen. Beispielsweise kann ein Modell, mit dem der Umsatz einer bestimmten Niederlassung anhand der vergangenen Umsätze vorhergesagt wird, auch dann stark korreliert und sehr genau sein, wenn die betreffende Niederlassung durchgängig eine falsche Buchhaltungsmethode verwendet hat. Deshalb müssen Genauigkeitsmaße durch Bewertungen der Zuverlässigkeit ausgeglichen werden.

Durch dieZuverlässigkeit wird bewertet, wie sich ein Data Mining-Modell bei Anwendung auf unterschiedliche Datasets verhält. Ein Data Mining-Modell ist zuverlässig, wenn es unabhängig von den bereitgestellten Testdaten die gleichen Typen von Vorhersagen erzeugt oder die gleichen Arten von Mustern sucht. Beispielsweise würde sich das Modell, das für die Niederlassung erzeugt wurde, in der die falsche Buchhaltungsmethode verwendet wurde, nicht gut auf andere Niederlassungen verallgemeinern lassen, und daher wäre es nicht zuverlässig.

DieNützlichkeit schließt verschiedene Metriken ein, aus denen hervorgeht, ob das Modell nützliche Informationen liefert. Beispielsweise kann ein Data Mining-Modell, das den Standort einer Niederlassung mit dem Umsatz korreliert, sowohl genau als auch zuverlässig, aber nicht nützlich sein, weil sich dieses Ergebnis nicht dadurch verallgemeinern lässt, dass dem gleichen Standort weitere Niederlassungen hinzugefügt werden. Darüber hinaus beantwortet es die grundlegende Geschäftsfrage nicht, warum an bestimmten Standorten höhere Umsätze erzielt werden. Es kann sich auch herausstellen, dass ein anscheinend erfolgreiches Modell in Wirklichkeit bedeutungslos ist, weil es auf Kreuzkorrelationen der Daten basiert.

Tools zum Testen und Überprüfen von Miningmodellen

SQL Server Analysis Services unterstützt mehrere Ansätze für die Validierung von Data Mining-Lösungen und unterstützt alle Phasen der Data Mining-Testmethodik.

  • Partitionieren der Daten in Test- und Trainingssätze

  • Filtern von Modellen, um verschiedene Kombinationen der gleichen Quelldaten zu schulen und zu testen.

  • Das Messen von Prognosegüte und Gewinn. Ein Prognosegütediagramm ist eine Methode zur visuellen Darstellung der Verbesserung, die verglichen mit dem Anstellen Zufallsvorhersage aus dem Einsatz eines Data Mining-Modells resultiert.

  • Ausführen der Kreuzvalidierung für Datasets

  • Generieren von Klassifikationsmatrizen. Diese Diagramme tragen dazu bei, zutreffende und falsche Vermutungen in eine Tabelle einzufügen und zu sortieren, sodass Sie mühelos messen können, wie genau das Modell den Zielwert vorhersagt.

  • Erstellen von Punktdiagrammen , um die Eignung einer Regressionsformel zu beurteilen.

  • Erstellen von Gewinndiagrammen , in denen finanzielle Gewinne oder Kosten mit dem Miningmodell verknüpft werden, damit Sie den Wert der Empfehlungen beurteilen können.

Der Sinn dieser Metrik liegt nicht darin herauszufinden, ob das Data Mining-Modell die Antwort auf Ihre Geschäftsfrage liefert; vielmehr stellt diese Metrik objektive Messwerte bereit, mit denen Sie die Zuverlässigkeit Ihrer Daten für Vorhersageanalysen beurteilen und entscheiden können, ob bei der Entwicklung eine bestimmte Iteration implementiert werden soll.

Dieser Abschnitt enthält eine Übersicht der einzelnen Methoden und führt Sie durch die Schritte zur Messung der Genauigkeit von Modellen, die Sie mithilfe von SQL Server Data Mining erstellen.

Themen Links
Erfahren Sie mehr darüber, wie Sie ein Testdataset mithilfe eines Assistenten oder mit DMX-Befehlen einrichten können. Trainings- und Testdatasets
Erfahren Sie mehr darüber, wie Sie die Verteilung und die Repräsentativität der Daten in einer Miningstruktur testen können. Kreuzvalidierung (Analysis Services - Data Mining)
Erfahren Sie mehr über die bereitgestellten Genauigkeitsdiagrammtypen. Prognosegütediagramm (Analysis Services – Data Mining)

Gewinndiagramm (Analysis Services – Data Mining)

Punktdiagramm (Analysis Services – Data Mining)
Erfahren Sie mehr darüber, wie Sie eine Klassifikationsmatrix, auch bekannt unter dem Namen Verwirrungsmatrix, erstellen, um die Anzahl von als wahr positiv, falsch positiv, wahr negativ und falsch negativ klassifizierten Ergebnissen zu ermitteln. Klassifikationsmatrix (Analysis Services Data Mining)

Weitere Informationen

Data Mining-Tools
Data Mining-Projektmappen
Tasks und Anweisungen für Test und Überprüfung (Data Mining)