Data Mining-Konzepte

Artikel
12/23/2023

Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Data Mining ist der Prozess der Ermittlung aussagefähiger Informationen aus großen Datensätzen. Data Mining nutzt die mathematische Analyse zur Aufdeckung von Mustern und Trends in Daten. Üblicherweise können diese Muster nicht durch das traditionelle Durchsuchen von Daten ermittelt werden, da die Beziehungen zu komplex sind oder zu viele Daten bestehen.

Diese Muster und Trends können gesammelt und als Data Mining-Modelldefiniert werden. Miningmodelle können auf spezifische Szenarien angewendet werden, beispielsweise:

Planungserstellung: Schätzen des Absatzes, Vorhersagen der Serverlast oder Serverausfallzeiten
Risiko und Wahrscheinlichkeit: Auswählen der besten Kunden für Targeted Mailings, Bestimmen der wahrscheinlichen Gewinnschwelle für Risikoszenarios, Zuweisen von Wahrscheinlichkeiten zu Diagnosen oder anderen Ergebnissen
Empfehlungen: Ermitteln von Produkten mit Cross-Selling-Potenzial und Generieren von Empfehlungen
Ermitteln von Reihenfolgen: Analysieren der Kundenauswahl in einem Einkaufswagen, Vorhersagen der nächsten wahrscheinlichen Ereignisse
Gruppieren: Unterteilen von Kunden oder Ereignissen in Cluster verwandter Elemente, Analysieren und Vorhersagen von Affinitäten

Die Erstellung eines Miningmodells muss als Teil eines größeren Prozesses verstanden werden, der sich von der Fragestellung im Hinblick auf die Daten und die Erstellung eines Modells zur Beantwortung dieser Fragen bis hin zur Implementierung des Modells in einer Arbeitsumgebung erstreckt. Ein Data Mining-Prozess besteht im Wesentlichen aus sechs Schritten:

Definieren der Problemstellung
Vorbereiten von Daten
Durchsuchen von Daten
Erstellen von Modellen
Durchsuchen und Validieren von Modellen
Bereitstellen und Aktualisieren von Modellen

Das folgende Diagramm beschreibt die Beziehungen zwischen den einzelnen Schritten des Prozesses und den Technologien in Microsoft SQL Server, die Sie zum Ausführen der einzelnen Schritte verwenden können.

Wichtige Schritte im Data Mining-Prozess

Der im Diagramm veranschaulichte Prozess ist zyklisch, d. h., dass ein Data Mining-Modell in einem dynamischen, sich wiederholenden Prozess erstellt wird. Nachdem Sie die Daten durchsucht haben, kommen Sie u. U. zu dem Ergebnis, dass Ihr Datenmaterial nicht ausreicht, um die geeigneten Miningmodelle zu erstellen, und dass Sie deshalb nach weiteren Daten suchen müssen. Vielleicht erstellen Sie auch mehrere Modelle und stellen dann fest, dass diese nicht in geeigneter Weise das von Ihnen definierte Problem lösen und dass Sie deshalb das Problem neu definieren müssen. Möglicherweise müssen die Modelle nach ihrer Implementierung angepasst werden, da mehr Daten zur Verfügung stehen. Jeder Schritt des Prozesses kann so oft wiederholt werden, wie es für die Erstellung eines qualifizierten Modells notwendig ist.

Microsoft SQL Server Data Mining stellt eine integrierte Umgebung für die Erstellung und Verwendung von Data Mining-Modellen zur Verfügung. Diese Umgebung umfasst SQL Server Development Studio, das Data Mining-Algorithmen und Abfragetools enthält, die das Erstellen einer umfassenden Lösung für eine Vielzahl von Projekten erleichtern, und SQL Server Management Studio, die Tools zum Durchsuchen von Modellen und zum Verwalten von Data Mining-Objekten enthält. Weitere Informationen finden Sie unter Erstellen mehrdimensionaler Modelle mit SQL Server Data Tools (SSDT).

Ein Beispiel dafür, wie die SQL Server-Tools auf ein Geschäftsszenario angewendet werden können, finden Sie im Data Mining-Basic-Tutorial.

Definieren der Problemstellung

Wie das folgende Diagramm verdeutlicht, besteht der erste Schritt des Data Mining-Prozesses darin, die Problemstellung exakt zu definieren und Möglichkeiten aufzuzeigen, wie das Problem anhand der richtigen Daten gelöst werden kann.

Data Mining erster Schritt: Definieren des Problems

Dieser Schritt schließt das Analysieren der Geschäftsanforderungen, das Festlegen des Problemumfangs, das Definieren der Erfolgsfaktoren für die Modellbewertung und das Formulieren der spezifischen Zielsetzung des Data Mining-Projekts ein. Diese Tasks lassen sich u. a. in folgende Fragen übersetzen:

Wonach suchen Sie? Welche Art von Beziehung versuchen Sie ausfindig zu machen?
Spiegelt das Problem, das Sie lösen möchten, die Richtlinien oder Prozesse des Unternehmens wider?
Möchten Sie mit dem Data Mining-Modell Vorhersagen treffen oder nur interessante Muster oder Zusammenhänge aufdecken?
Welche Ergebnisse oder Attribute sollen vorhergesagt werden?
Welche Art von Daten liegen vor, und welche Informationstypen sind in den einzelnen Spalten enthalten? Wie stehen die Tabellen miteinander in Beziehung, wenn mehrere Tabellen vorhanden sein sollten? Müssen Bereinigungen, Aggregationen oder Verarbeitungsschritte ausgeführt werden, damit die Daten nutzbar werden?
Wie sind die Daten gestreut? Sind die Daten saisonbedingt? Spiegeln die Daten die Prozesse des Unternehmens in geeigneter Weise wider?

Um diese Fragen zu beantworten, müssen Sie u. U. im Rahmen einer Datenverfügbarkeitsstudie den Bedarf von Geschäftsanwendern im Hinblick auf die verfügbaren Daten ermitteln. Wenn die Daten den Bedarf der Benutzer nicht unterstützen, müssen Sie das Projekt evtl. neu definieren.

Darüber hinaus müssen Sie die Art und Weise berücksichtigen, in der die Ergebnisse des Modells in die zur Messung des Geschäftserfolgs verwendeten Key Performance Indicators (KPI) eingebunden werden können.

Vorbereiten der Daten

Wie das folgende Diagramm verdeutlicht, besteht der zweite Schritt des Data Mining-Prozesses im Konsolidieren und Bereinigen der im Schritt Definieren der Problemstellung identifizierten Daten.

Data Mining zweiter Schritt: Vorbereiten von Data

Daten können im gesamten Unternehmen verstreut und in unterschiedlichen Formaten gespeichert sein. Mitunter weisen sie Inkonsistenzen wie falsche oder fehlende Einträge auf. Es kann beispielsweise vorkommen, dass den Daten zufolge ein Produkt gekauft wurde, das auf dem Markt zu diesem Zeitpunkt noch nicht erhältlich war, oder die Daten zeigen, dass ein Kunde regelmäßig in einem Geschäft 2.000 Meilen von seinem Wohnsitz entfernt Einkäufe tätigt.

Beim Data Cleaning geht es nicht nur um das Löschen fehlerhafter Daten oder Interpolieren fehlender Werte, sondern auch um das Auffinden versteckter Beziehungen in den Daten, die Identifikation der genauesten Datenquellen und die Festlegung der Spalten, die für die Analyse am besten geeignet sind. Zum Beispiel: Sollte das Versanddatum oder das Bestelldatum verwendet werden? Ist der beste Verkaufseinflussfaktor die Menge, der Gesamtpreis oder ein diskontierter Preis? Unvollständige Daten, falsche Daten und Eingaben, die separat erscheinen, aber tatsächlich stark korrelieren, können die Ergebnisse des Modells in unerwarteter Weise beeinflussen.

Daher sollten Sie diese Probleme bestimmen, bevor Sie mit der Erstellung der Miningmodelle beginnen, und festlegen, wie Sie sie beheben wollen. Beim Data Mining arbeiten Sie in der Regel mit einem sehr großen Dataset und können nicht jede Transaktion auf Datenqualität untersuchen. Daher müssen Sie möglicherweise eine Form von Datenprofilerstellung und automatisierte Datenbereinigungs- und Filtertools verwenden, z. B. die tools in Integration Services, Microsoft SQL Server 2012 Master Data Services oder SQL Server Data Quality Services, um die Daten zu untersuchen und die Inkonsistenzen zu ermitteln. Weitere Informationen finden Sie in den folgenden Ressourcen:

Wichtig zu erwähnen ist, dass die für das Data Mining verwendeten Daten nicht in einem OLAP-Cube (Online Analytical Processing, Analytische Onlineverarbeitung) oder in einer relationalen Datenbank gespeichert werden müssen, auch wenn beide als Datenquellen verwendet werden können. Sie können Data Mining mit jeder Datenquelle durchführen, die als SQL Server Analysis Services Datenquelle definiert wurde. Hierzu können Textdateien, Excel-Arbeitsmappen oder Daten von anderen externen Anbietern gehören. Weitere Informationen finden Sie unter Unterstützte Datenquellen (SSAS – Mehrdimensional)..

Durchsuchen von Daten

Wie das nachstehende Diagramm verdeutlicht, besteht der dritte Schritt des Data Mining-Prozesses im Durchsuchen der vorbereiteten Daten.

Data Mining dritter Schritt: Untersuchen von Data

Nur wenn Sie Ihre Datensituation verstanden haben, können Sie beim Erstellen der Miningmodelle sinnvolle Entscheidungen treffen. Zu den Durchsuchungstechniken gehören das Berechnen von Mindest- und Maximalwerten, das Ermitteln von mittleren Abweichungen und Standardabweichungen und das Analysieren der Datenstreuung. Beispielsweise können Sie gegebenenfalls durch Prüfung der Maximal-, Mindest- und Mittelwerte ermitteln, dass die Daten nicht repräsentativ für Ihre Kunden oder Geschäftsprozesse sind und dass Sie daher ausgewogenere Daten benötigen oder die Annahmen prüfen müssen, die Grundlage Ihrer Erwartungen sind. Standardabweichungen und andere Streuungswerte können nützliche Informationen über die Stabilität und Genauigkeit der Ergebnisse bieten. Eine große Standardabweichung kann darauf hinweisen, dass ein weiteres Hinzufügen von Daten bei der Verbesserung des Modells hilfreich sein kann. Daten, die stark von einer Standardverteilung abweichen, können verfälscht sein oder ein genaues Abbild eines realen Problems darstellen. In jedem Fall erschweren Sie die Anpassung eines Modells auf die Daten.

Durch das Durchsuchen der Daten angesichts Ihres eigenen Verständnisses des Geschäftsproblems können Sie entscheiden, ob das Dataset verfälschte Daten enthält. Daraufhin können Sie eine Strategie für die Behebung des Problems ausarbeiten oder ein tieferes Verständnis über die Verhaltensweisen erlangen, die für Ihr Unternehmen typisch sind.

Sie können Tools wie Master Data Services verwenden, um verfügbare Datenquellen zu canvass und deren Verfügbarkeit für Data Mining zu bestimmen. Sie können Tools wie SQL Server Data Quality Services oder den Data Profiler in Integration Services verwenden, um die Verteilung Ihrer Daten zu analysieren und Probleme wie falsche oder fehlende Daten zu beheben.

Nachdem Sie Ihre Quellen definiert haben, kombinieren Sie sie in einer Datenquellensicht, indem Sie die datenquellensicht Designer in SQL Server Data Tools verwenden. Weitere Informationen finden Sie unter Datenquellsichten in mehrdimensionalen Modellen. Dieser Designer bietet zusätzlich einige Tools, mit denen Daten durchsucht und sichergestellt werden kann, dass die Daten für die Modellerstellung geeignet sind. Weitere Informationen finden Sie unter Untersuchen von Daten in einer Datenquellensicht (Analysis Services).

Beachten Sie, dass beim Erstellen eines Modells SQL Server Analysis Services automatisch statistische Zusammenfassungen der im Modell enthaltenen Daten erstellt, die Sie abfragen können, um sie in Berichten oder weiteren Analysen zu verwenden. Weitere Informationen finden Sie unter Data Mining-Abfragen.

Erstellen von Modellen

Wie das nachstehende Diagramm verdeutlicht, besteht der vierte Prozessschritt des Data Mining-Prozesses im Generieren eines oder mehrerer Miningmodelle. Sie werden die im Schritt Durchsuchen von Daten gewonnenen Erkenntnisse verwenden, um die Modelle zu definieren und zu erstellen.

Data Mining vierter Schritt: Erstellen von Miningmodellen

Sie definieren die zu verwendenden Datenspalten, indem Sie eine Miningstruktur erstellen. Die Miningstruktur ist zwar mit der Datenquelle verknüpft, enthält bis zu ihrer Verarbeitung jedoch keine Daten. Wenn Sie die Miningstruktur verarbeiten, generiert SQL Server Analysis Services Aggregate und andere statistische Informationen, die für die Analyse verwendet werden können. Diese Informationen können von allen Miningmodellen verwendet werden, die auf der Struktur basieren. Weitere Informationen dazu, wie Miningstrukturen mit Miningmodellen zusammenhängen, finden Sie unter Logische Architektur (Analysis Services – Data Mining).

Bevor die Struktur und das Modell verarbeitet werden, fungiert auch ein Miningmodell lediglich als Container, in dem die Spalten angegeben sind, die für die Eingabe verwendet werden, die Attribute, die Sie vorhersagen, und die Parameter, die den Algorithmus anweisen, wie die Daten verarbeitet werden. Die Modellverarbeitung wird häufig als Trainingbezeichnet. Training bezieht sich auf den Vorgang der Anwendung eines spezifischen mathematischen Algorithmus auf die Daten in der Struktur, um Muster zu extrahieren. Die im Trainingsprozess gefundenen Muster hängen von der Auswahl der Trainingsdaten, dem ausgewählten Algorithmus und dessen Konfiguration ab. SQL Server 2017 enthält viele verschiedene Algorithmen, die jeweils für eine andere Art von Aufgabe geeignet sind und jeweils einen anderen Modelltyp erstellen. Eine Liste der in SQL Server 2017 bereitgestellten Algorithmen finden Sie unter Data Mining-Algorithmen (Analysis Services – Data Mining).

Darüber hinaus können Sie Parameter einsetzen, um jeden Algorithmus anzupassen, und Sie können Filter auf die Trainingsdaten anwenden, um nur eine Teilmenge der Daten zu verwenden, wodurch unterschiedliche Ergebnisse erreicht werden. Nachdem Daten durch das Modell gelaufen sind, enthält das Miningmodellobjekt Zusammenfassungen und Muster, die abgefragt oder für Vorhersagen verwendet werden können.

Sie können ein neues Modell definieren, indem Sie den Data Mining-Assistenten in SQL Server Data Tools oder die Sprache DATA Mining-Erweiterungen (DMX) verwenden. Weitere Informationen zur Verwendung des Data Mining-Assistenten finden Sie unter Data Mining-Assistent (Analysis Services – Data Mining). Weitere Informationen zur Verwendung von DMX finden Sie in der Referenz zu Data Mining-Erweiterungen (DMX).

Es ist zu beachten, dass bei jeder Datenänderung sowohl die Miningstruktur als auch das Miningmodell aktualisiert werden müssen. Wenn Sie eine Miningstruktur aktualisieren, indem Sie sie erneut verarbeiten, ruft SQL Server Analysis Services Daten aus der Quelle ab, einschließlich aller neuen Daten, wenn die Quelle dynamisch aktualisiert wird, und füllt die Miningstruktur erneut auf. Wenn Sie Modelle haben, die auf der Struktur basieren, können Sie auswählen, ob die Modelle, die auf der Struktur basieren, aktualisiert werden sollen, d. h. sie werden mit den neuen Daten erneut trainiert, oder Sie können die Modelle so belassen, wie sie sind. Weitere Informationen finden Sie unter Verarbeitungsanforderungen und Überlegungen (Data Mining).

Durchsuchen und Validieren von Modellen

Wie das folgende Diagramm verdeutlicht, besteht der fünfte Schritt des Data Mining-Prozesses im Durchsuchen der von Ihnen generierten Miningmodelle und im Testen ihrer Wirksamkeit.

Data Mining Fünfter Schritt: Überprüfen von Miningmodellen

Bevor Sie ein Modell in einer Produktionsumgebung einsetzen, möchten Sie wahrscheinlich testen, wie gut das Modell ist. Ferner erstellt man üblicherweise beim Aufbau eines Modells mehrere Modelle mit unterschiedlichen Konfigurationen und testet alle Modelle, um herauszufinden, welches die besten Ergebnisse für das Problem und die Daten erzielt.

SQL Server Analysis Services stellt Tools bereit, mit denen Sie Ihre Daten in Trainings- und Testdatasets unterteilen können, damit Sie die Leistung aller Modelle mit denselben Daten genau bewerten können. Mit dem Trainings-Dataset wird das Modell generiert, während das Test-Dataset mithilfe von Vorhersageabfragen die Genauigkeit des Modells testet. Diese Partitionierung kann beim Erstellen des Miningmodells automatisch durchgeführt werden. Weitere Informationen finden Sie unter Testing and Validation (Data Mining).

Sie können die Trends und Muster untersuchen, die die Algorithmen erkennen, indem Sie die Viewer in Data Mining Designer in SQL Server Data Tools. Weitere Informationen finden Sie unter Data Mining-Modell-Viewer. Darüber hinaus können Sie testen, wie gut die Modelle Vorhersagen erstellen. Für diese Tasks stehen im Designer Tools wie das Prognosegütediagramm und die Klassifikationsmatrix zur Verfügung. Sie können eine statistische Technik mit dem Namen Kreuzvalidierung nutzen, um automatisch Teilmengen der Daten zu erstellen und das Modell gegen jede Teilmenge zu testen, um zu bestimmen, ob das Modell spezifisch für Ihre Daten ist oder verwendet werden kann, um Rückschlüsse auf die allgemeine Population zu ziehen. Weitere Informationen finden Sie unter Testing and Validation (Data Mining).

Wenn die Leistung bei keinem der Modelle, die Sie im Schritt Erstellen von Modellen erstellt haben, befriedigend ist, müssen Sie möglicherweise zu einem vorhergehenden Prozessschritt zurückkehren und das Problem neu definieren oder die Daten im ursprünglichen Dataset neu analysieren.

Bereitstellen und Aktualisieren von Modellen

Wie das folgende Diagramm verdeutlicht, besteht der letzte Schritt des Data Mining-Prozesses darin, in einer Produktionsumgebung diejenigen Modelle bereitzustellen, die die besten Ergebnisse erzielen.

Data Mining Sechster Schritt: Bereitstellen von Miningmodellen

Sobald die Miningmodelle in eine Produktionsumgebung integriert wurden, stehen sie je nach Bedarf für zahlreiche Tasks zur Verfügung. Sie können u. a. folgende Tasks ausführen:

Verwenden Sie die Modelle zum Erstellen von Vorhersagen, mit deren Hilfe Geschäftsentscheidungen getroffen werden können. SQL Server stellt die DMX-Sprache bereit, die Sie zum Erstellen von Vorhersageabfragen verwenden können, und den Generator für Vorhersageabfragen, der Ihnen beim Erstellen der Abfragen hilft. Weitere Informationen finden Sie unter Data Mining-Erweiterungen (DMX) – Referenz.
Erstellen von Inhaltsabfragen, um Statistik, Regeln oder Formeln für das Modell abzurufen. Weitere Informationen finden Sie unter Data Mining-Abfragen.
Data Mining-Funktionen in eine Anwendung integrieren. Sie können Analysis Management Objects (AMO) hinzufügen, das mehrere Objekte enthält, mit denen Ihre Anwendung Miningstrukturen und -modelle erstellen, ändern, verarbeiten und löschen. Alternativ können Sie XML for Analysis-Nachrichten (XML for Analysis, XMLA) direkt an eine instance SQL Server Analysis Services senden. Weitere Informationen finden Sie unter Bereitstellung (Analysis Services – Data Mining).
Verwenden Sie Integration Services, um ein Paket zu erstellen, in dem ein Miningmodell verwendet wird, um eingehende Daten intelligent in mehrere Tabellen zu trennen. Wenn eine Datenbank beispielsweise ständig mit potenziellen Kunden aktualisiert wird, können Sie ein Miningmodell zusammen mit Integration Services verwenden, um die eingehenden Daten auf Kunden aufzuteilen, die wahrscheinlich ein Produkt erwerben, und Kunden, die wahrscheinlich kein Produkt kaufen. Weitere Informationen finden Sie unter Typische Verwendungen von SQL Server Integration Services.
Einen Bericht erstellen, mit dem Abfragen direkt für ein vorhandenes Miningmodell ausgeführt werden können. Weitere Informationen finden Sie unter Reporting Services in SQL Server-Datentools (SSDT).
Nach Überprüfung und Analyse die Modelle aktualisieren. Jedes Update erfordert, dass Sie die Modelle erneut verarbeiten. Weitere Informationen finden Sie unter Processing Data Mining Objects.
Ein dynamischea Update der Modelle, während neue Daten in das Unternehmen kommen, und die konstante Vornahme von Änderungen zur Verbesserung der Effizienz der Lösung sollten Teil der Bereitstellungsstrategie sein. Weitere Informationen finden Sie unter Verwalten von Data Mining-Lösungen und -Objekten.

Weitere Informationen

Data Mining-Projektmappen
Data Mining-Tools