Data Mining-Projekte

Gilt für: SQL Server 2019 und früher Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Ein Data Mining-Projekt ist Teil einer SQL Server Analysis Services Lösung. Während des Entwurfsprozesses sind die Objekte, die Sie in diesem Projekt erstellen, für Tests und Abfragen im Rahmen einer Arbeitsbereichsdatenbank verfügbar. Wenn Sie möchten, dass Benutzer die Objekte im Projekt abfragen oder durchsuchen können, müssen Sie das Projekt in einer instance von SQL Server Analysis Services bereitstellen, die im mehrdimensionalen Modus ausgeführt werden.

In diesem Abschnitt werden Ihnen die grundlegenden Informationen bereitgestellt, die Sie benötigen, um Data Mining-Projekte verstehen und erstellen zu können.

Erstellen von Data Mining-Projekten

Objekte in Data Mining-Projekten

Verwenden eines abgeschlossenen Data Mining-Projekts

Programmgesteuerter Zugriff auf Data Mining-Projekte

Erstellen von Data Mining-Projekten

In SQL Server Data Tools erstellen Sie Data Mining-Projekte mithilfe der Vorlage, OLAP- und Data Mining-Projekt. Mithilfe von AMO können Sie Data Mining-Projekte auch programmgesteuert erstellen. Für einzelne Data Mining-Objekte kann mit der Analysis Services Scripting Language (ASSL) ein Skript erstellt werden. Weitere Informationen finden Sie unter Mehrdimensionaler Modelldatenzugriff (Analysis Services – Mehrdimensionale Daten).

Wenn Sie ein Data Mining-Projekt in einer vorhandenen Projektmappe erstellen, werden die Data Mining-Objekte standardmäßig in einer SQL Server Analysis Services Datenbank mit demselben Namen wie die Projektmappendatei bereitgestellt. Sie können diesen Namen und den Zielserver über das Dialogfeld Projekteigenschaften ändern. Weitere Informationen finden Sie unter Konfigurieren von Analysis Services-Projekteigenschaften (SSDT).

Warnung

Um Ihr Projekt erfolgreich zu erstellen und bereitzustellen, müssen Sie Zugriff auf eine instance von SQL Server Analysis Services haben, die im OLAP-/Data Mining-Modus ausgeführt wird. Sie können keine Data Mining-Lösungen auf einer instance von SQL Server Analysis Services entwickeln oder bereitstellen, die tabellarische Modelle unterstützt, noch können Sie Daten direkt aus einer Power Pivot-Arbeitsmappe oder aus einem tabellarischen Modell verwenden, das den In-Memory-Datenspeicher verwendet. Informationen dazu, ob die instance von SQL Server Analysis Services, über die Sie verfügen, Data Mining unterstützen kann, finden Sie unter Bestimmen des Servermodus einer Analysis Services-Instanz.

Innerhalb jedes einzelnen Data Mining-Projekts, das Sie erstellen, müssen Sie die folgenden Schritte ausführen:

  1. Wählen Sie eine Datenquelleaus, wie z. B. ein Cube, eine Datenbank oder selbst Excel- oder Textdateien, die die Rohdaten enthält, welche Sie zum Erstellen von Modellen verwenden.

  2. Definieren Sie eine Teilmenge der Daten in der Datenquelle, die für die Analyse verwendet werden soll. Speichern Sie die Teilmenge als Datenquellensicht.

  3. Definieren Sie eine Miningstruktur , um das Modellieren zu unterstützen.

  4. Fügen Sie der Miningstruktur Miningmodelle hinzu, indem Sie einen Algorithmus auswählen. Geben Sie an, wie der Algorithmus die Daten verarbeiten soll.

  5. Führen Sie ein Training für die Modelle durch, indem Sie diese mit den ausgewählten Daten oder einer gefilterten Teilmenge der Daten füllen.

  6. Untersuchen, testen und erstellen Sie Modelle neu.

Wenn das Projekt vollständig ist, können Sie es Benutzern zum Durchsuchen oder Abfragen bereitstellen. Oder Sie stellen einen programmgesteuerten Zugriff auf die Miningmodelle in einer Anwendung zur Verfügung, um Vorhersagen und Analysen zu unterstützen.

Objekte in Data Mining-Projekten

Sämtliche Data Mining-Projekte enthalten die folgenden vier Typen von Objekten. Sie können über mehrere Objekte sämtlicher unterschiedlicher Typen verfügen.

  • Datenquellen

  • Datenquellensichten

  • Miningstrukturen

  • Miningmodelle

Ein einzelnes Data Mining-Projekt kann z. B. einen Verweis auf mehrere Datenquellen enthalten. Hierbei kann jede einzelne Datenquelle mehrere Datenquellensichten unterstützen. Andererseits kann auch jede Datenquellensicht mehrere Miningstrukturen unterstützen, die alle eine Vielzahl zugehöriger Miningmodelle aufweisen können.

Darüber hinaus kann das Projekt Plug-In-Algorithmen, benutzerdefinierte Assemblys oder benutzerdefinierte gespeicherte Prozeduren umfassen. Diese Objekte werden hier jedoch nicht beschrieben. Weitere Informationen finden Sie in der Dokumentation für Analysis Services-Entwickler.

Projektmappen-Explorer

Die Datenquelle definiert die Verbindungszeichenfolge- und Authentifizierungsinformationen, die der SQL Server Analysis Services Server zum Herstellen einer Verbindung mit der Datenquelle verwendet. Die Datenquelle kann mehrere Tabellen oder Sichten enthalten. Sie kann so einfach aufgebaut sein wie eine einzelne Excel-Arbeitsmappe oder eine Textdatei. Sie kann aber auch so komplex sein wie eine analytische Onlineverarbeitungsdatenbank (OLAP) oder eine große relationale Datenbank.

Ein einzelnes Data Mining-Projekt kann auf mehrere Datenquellen verweisen. Obwohl ein Miningmodell nur eine Datenquelle zur Zeit verwenden kann, weist das Projekt unter Umständen mehrere Modelle auf, die Daten von verschiedenen Datenquellen beziehen.

SQL Server Analysis Services unterstützt Daten von vielen externen Anbietern, und SQL Server Data Mining kann sowohl relationale daten als auch Cubedaten als Datenquelle verwenden. Wenn Sie jedoch beide Arten von Projektmodellen basierend auf relationalen Quellen und Modellen entwickeln, die auf OLAP-Cubes basieren, sollten Sie diese in separaten Projekten entwickeln und verwalten.

  • In der Regel sollen Modelle, die auf einem OLAP-Cube basieren, innerhalb der OLAP-Entwurfslösung entwickelt werden. Ein Grund hierfür ist, das Modelle auf der Grundlage eines Cubes den Cube verarbeiten müssen, um Daten aktualisieren zu können. Im Allgemeinen sollten Sie Cubedaten nur dann verwenden, wenn diese das hauptsächliche Mittel für Datenspeicherung und -zugriff darstellen oder wenn Sie die Aggregationen, Dimensionen und Attribute benötigen, die über ein mehrdimensionales Projekt erstellt werden.

  • Wenn das Projekt nur relationale Daten verwendet, sollten Sie die relationalen Modelle in einem separaten Projekt erstellen, damit Sie nicht andere Objekte unnötigerweise erneut verarbeiten. In vielen Fällen enthalten die Stagingdatenbank oder das Data Warehouse, die zur Unterstützung der Cube-Erstellung verwendet werden, bereits die Sichten, die zur Ausführung des Data Mining benötigt werden. Außerdem können Sie eher diese Sichten für Data Mining nutzen, anstatt die Aggregationen und die Dimensionen im Cube zu verwenden.

  • Sie können nicht direkt In-Memory- oder Power Pivot-Daten verwenden, um Data Mining-Modelle zu erstellen.

Die Datenquelle identifiziert nur den Server oder den Anbieter sowie den allgemeinen Typ der Daten. Wenn Sie Datenformatierung und Aggregationen ändern müssen, verwenden Sie das Datenquellensichtobjekt.

Um die Art und Weise zu steuern, mit der Daten aus der Datenquelle verarbeitet werden, können Sie abgeleitete Spalten oder Berechnungen hinzufügen, Aggregate ändern oder Spalten der Daten in der Datenquellensicht umbenennen. (Sie können auch mit Daten-Downstream arbeiten, indem Sie Miningstrukturspalten ändern oder Modellierungsflags und Filter auf der Ebene der Miningmodellspalte verwenden.)

Wenn eine Datenbereinigung erforderlich ist oder die Daten im Data Warehouse geändert werden müssen, um zusätzliche Variablen zu erstellen, Datentypen zu ändern oder eine alternative Aggregation zu erstellen, müssen Sie unter Umständen zusätzliche Projekttypen zur Unterstützung von Data Mining erstellen. Weitere Informationen über diese verwandten Projekte finden Sie unter Verwandte Projekte für Data Mining-Lösungen.

Datenquellensichten

Nachdem Sie diese Verbindung zur Datenquelle definiert haben, können Sie eine Sicht erstellen, die die spezifischen Daten identifiziert, die für das Modell relevant sind.

Über die Datenquellensicht können Sie eine Anpassung der Art und Weise vornehmen, auf die die Daten in der Datenquelle dem Miningmodell bereitgestellt werden. Sie können die Struktur der Daten ändern, um diese relevanter für Ihr Projekt zu machen. Darüber hinaus können Sie ausschließlich bestimmte Arten von Daten auswählen.

Durch die Verwendung des Datenquellensicht-Editors können Sie z. B. Folgendes erreichen:

  • Erstellen von abgeleiteten Spalten, z. B. Dateparts, Teilzeichenfolgen usw.

  • Aggregieren von Werten mithilfe von Transact-SQL-Anweisungen wie GROUP BY

  • Temporäres Einschränken von Daten oder Beispieldaten

Weitere Informationen darüber, wie Sie Daten innerhalb einer Datenquellensicht ändern können, finden Sie unter Datenquellensichten in mehrdimensionalen Modellen.

Warnung

Wenn Sie die Daten filtern möchten, können Sie dies in der Datenquellensicht tun. Sie können aber auch Filter zu den Daten auf der Ebene des Miningmodells erstellen. Da die Filterdefinition mit dem Miningmodell gespeichert wird, erleichtert die Verwendung von Modellfiltern die Bestimmung der Daten, die für das Training des Modells verwendet werden. Darüber hinaus können Sie mehrere zugehörige Modelle mit verschiedenen Filterkriterien erstellen. Weitere Informationen finden Sie unter Filter für Miningmodelle (Analysis Services – Data Mining).

Beachten Sie, dass die Datenquellensicht, die Sie erstellen, weitere Daten enthalten kann, die nicht direkt für die Analyse verwendet werden. Sie können z. B. der Datenquellensicht Daten hinzufügen, die für Tests, Vorhersagen oder für Drillthrough verwendet werden. Weitere Informationen zu diesen Verwendungen finden Sie unter Testen und Validierung (Data Mining) und Drillthrough.

Miningstrukturen

Sobald Sie die Datenquelle und die Datenquellensicht erstellt haben, müssen Sie die Spalten jener Daten auswählen, die für Ihr Geschäftsproblem am relevantesten sind, indem Sie die Miningstrukturen innerhalb des Projekts definieren. Eine Miningstruktur informiert das Projekt darüber, welche Spalten der Daten aus der Datenquellensicht bei Modellierung, Training und Tests tatsächlich verwendet werden sollen.

Um eine neue Miningstruktur hinzuzufügen, starten Sie den Data Mining-Assistenten. Dieser Assistent definiert automatisch eine Miningstruktur und führt Sie durch den Prozess der Auswahl der Daten. Außerdem können Sie mit ihm der Struktur optional ein initiales Data Mining-Modell hinzufügen. Innerhalb der Miningstruktur wählen Sie Tabellen und Spalten aus der Datenquellensicht oder von einem OLAP-Cube aus. Sie definieren die Beziehungen unter den Tabellen, wenn die Daten geschachtelte Tabellen umfassen.

Je nachdem, ob Sie relationale Datenquellen oder analytische Onlineverarbeitungsdatenquellen (OLAP) verwenden, kann die Auswahl der Daten im Data Mining-Assistenten hinsichtlich des äußeren Erscheinungsbildes erhebliche Unterschiede aufweisen.

  • Wenn Sie Daten aus einer relationalen Datenquelle auswählen, ist die Einrichtung einer Miningstruktur einfach: Sie wählen die Spalten von den Daten in der Datenquellensicht aus und stellen zusätzliche Anpassungen wie z. B. Aliase ein. Alternativ können Sie auch festlegen, wie Werte in der Spalte gruppiert oder klassifiziert werden sollen. Weitere Informationen finden Sie unter Erstellen einer relationalen Miningstruktur.

  • Wenn Sie Daten von einem OLAP-Cube verwenden, muss sich die Miningstruktur in der gleichen Datenbank wie die OLAP-Lösung befinden. Um eine Miningstruktur zu erstellen, wählen Sie in der OLAP-Lösung Attribute aus den Dimensionen und verwandten Measures aus. In der Regel werden numerische Werte in den Measures und Kategorievariablen in den Dimensionen gefunden. Weitere Informationen finden Sie unter Erstellen einer OLAP-Miningstruktur.

  • Sie können Miningstrukturen auch mithilfe von DMX definieren. Weitere Informationen finden Sie unter Data Mining Extensions (DMX)-Datendefinitionsanweisungen.

Nachdem Sie die anfängliche Miningstruktur erstellt haben, können Sie die Strukturspalten kopieren, ändern oder für diese einen Alias verwenden.

Jede Miningstruktur kann mehrere Miningmodelle enthalten. Nach Abschluss der Aktionen können Sie die Miningstruktur daher erneut öffnen und Data Mining Designer verwenden, um der Struktur weitere Miningmodelle hinzuzufügen.

Sie haben auch die Möglichkeit, die Daten in einem Trainingsdataset, das zum Erstellen von Modellen verwendet wird, oder in einem Dataset für zurückgehaltene Daten, das für das Testen oder Validieren der Miningmodelle verwendet wird, zu separieren.

Warnung

Einige Modelltypen, wie etwa Zeitreihenmodelle, unterstützen die Erstellung von Datasets für zurückgehaltene Daten nicht, da sie für das Training eine kontinuierliche Reihe von Daten benötigen. Weitere Informationen finden Sie unter Training and Testing Data Sets.

Miningmodelle

Das Miningmodell definiert den Algorithmus oder die Analysemethode, die Sie auf die Daten anwenden werden. Jeder Miningstruktur fügen Sie ein oder mehrere Miningmodelle hinzu.

Je nach Anforderungen können Sie in einem einzelnen Projekt viele Modelle kombinieren oder separate Projekte für jeden Modelltyp oder jede analytische Aufgabe erstellen.

Nachdem Sie eine Struktur und ein Modell erstellt haben, verarbeiten Sie jedes Modell, indem Sie die Daten aus der Datenquellensicht an den Algorithmus übergeben, der ein mathematisches Modell der Daten erstellt. Dieser Prozess ist auch bekant als Trainieren des Modells. Weitere Informationen finden Sie unter Verarbeitungsanforderungen und Überlegungen (Data Mining).

Nachdem das Modell verarbeitet wurde, können Sie das Miningmodell entweder visuell untersuchen oder Vorhersageabfragen für das Miningmodell ausführen. Wenn die Daten aus dem Trainingsprozess zwischengespeichert werden, können Sie die Drillthrough -Abfragen verwenden, um detaillierte Informationen über die im Modell verwendeten Fälle zurückzugeben.

Wenn Sie ein Modell für die produktive Umgebung verwenden möchten (z. B. zum Erstellen von Vorhersagen oder zu Untersuchungszwecken für allgemeine Benutzer), können Sie das Modell auf einem anderen Server bereitstellen. Wenn Sie in Zukunft das Modell erneut verarbeiten müssen, so müssen Sie zur gleichen Zeit auch die Definition der zugrunde liegenden Miningstruktur (und notwendigerweise die Definition der Datenquelle und der Datenquellensicht) exportieren.

Wenn Sie ein Modell bereitstellen, müssen Sie auch sicherstellen, dass die richtigen Verarbeitungsoptionen für die Struktur und das Modell festgelegt werden. Außerdem müssen Sie gewährleisten, dass potenzielle Benutzer über die Berechtigungen verfügen, die sie benötigen, um Abfragen, Sichtmodelle oder Drillthrough für die Struktur oder die Modelldaten ausführen zu können. Weitere Informationen finden Sie unter Sicherheitsübersicht (Data Mining).

Verwenden eines abgeschlossenen Data Mining-Projekts

Dieser Abschnitt fasst jene Arten zusammen, auf die Sie das abgeschlossene Data Mining-Projekt verwenden können. Sie können Genauigkeitsdiagramme erstellen, Daten untersuchen und überprüfen oder die Data Mining-Muster für Benutzer verfügbar machen.

Warnung

Die Diagramme, Abfragen und Visualisierungen, die Sie mit Data Mining-Modellen verwenden, werden nicht als Teil des Data Mining-Projekts gespeichert und können nicht bereitgestellt werden. Wenn Sie diese Objekte beibehalten müssen, so müssen Sie entweder den Inhalt speichern, der präsentiert wird, oder für jedes Objekt wie beschrieben ein Skript erstellen.

Anzeigen und Untersuchen von Modellen

Nachdem Sie ein Modell erstellt haben, können Sie visuelle Tools und Abfragen verwenden, um die Muster im Modell zu untersuchen und mehr über die zugrunde liegenden Schemata und Statistiken zu erfahren. Auf der Registerkarte Miningmodell-Viewer in Data Mining Designer stellt SQL Server Analysis Services Viewer für jeden Miningmodelltyp bereit, mit dem Sie die Miningmodelle untersuchen können.

Diese Visualisierungen sind temporär und werden geschlossen, ohne zu speichern, wenn Sie die Sitzung mit SQL Server Analysis Services beenden. Wenn Sie daher diese Visualisierungen in eine andere Anwendung zur Präsentation oder weiteren Analyse exportieren müssen, verwenden Sie die auf jeder Registerkarte oder in jedem Bereich der Viewerschnittstelle bereitgestellten Befehle zum Kopieren .

Die Data Mining Add-Ins für Excel stellen ebenfalls eine Visio-Vorlage bereit, die Sie verwenden können, um die Modelle in einem Visio-Diagramm darstellen und kommentieren sowie um das Diagramm mit Visio-Tools ändern zu können. Weitere Informationen finden Sie unter Microsoft SQL Server 2008 SP2 Data Mining-Add-Ins für Microsoft Office 2007.

Testen und Validieren von Modellen

Nachdem Sie die Modelle verarbeitet haben, können Sie die Ergebnisse analysieren und entscheiden, welche Modelle ihrer Aufgabe am besten gerecht wurden.

SQL Server Analysis Services bietet mehrere Diagramme, die Sie verwenden können, um Tools bereitzustellen, mit denen Sie Miningmodelle direkt vergleichen und das genaueste oder nützlichste Miningmodell auswählen können. Zu diesen Tools gehören ein Prognosegütediagramm, ein Gewinndiagramm und eine Klassifikationsmatrix. Sie können diese Diagramme mit ded Mininggenauigkeitsdiagramm des Data Mining-Designers generieren.

Darüber hinaus können Sie den übergreifenden Überprüfungsbericht verwenden, um eine iterative Unterstichprobe Ihrer Daten durchzuführen, um festzustellen, ob das Modell zu einem bestimmten Dataset tendiert. Die vom Bericht gelieferten Statistiken können für den objektiven Vergleich von Modellen und die Bewertung der Qualität Ihrer Trainingsdaten herangezogen werden.

Beachten Sie, dass diese Berichte und die Diagramme nicht mit dem Projekt oder in der Datenbank ssASnoversion gespeichert werden. Wenn Sie deshalb die Ergebnisse beibehalten oder duplizieren müssen, sollten Sie entweder die Ergebnisse speichern oder mithilfe von DMX oder AMO ein Skript für die Objekte erstellen. Sie können gespeicherte Prozeduren auch für die Kreuzvalidierung verwenden.

Weitere Informationen finden Sie unter Testen und Validierung (Data Mining).

Erstellen von Vorhersagen

SQL Server Analysis Services stellt eine Abfragesprache namens Data Mining Extensions (DMX) bereit, die die Grundlage für das Erstellen von Vorhersagen darstellt und leicht skriptfähig ist. Um DMX-Vorhersageabfragen zu erstellen, stellt SQL Server einen Abfrage-Generator bereit, der in SQL Server Management Studio verfügbar ist. Es gibt auch viele DMX-Vorlagen für den Abfrage-Editor in SQL Server Management Studio. Wenn Sie noch nicht mit Vorhersageabfragen sind, empfiehlt es sich, den Abfrage-Generator zu verwenden, der sowohl in Data Mining Designer als auch in SQL Server Management Studio bereitgestellt wird. Weitere Informationen finden Sie unter Data Mining Tools.

Die Vorhersagen, die Sie entweder in SQL Server Data Tools oder SQL Server Management Studio erstellen, werden nicht beibehalten. Wenn Ihre Abfragen also komplex sind oder Sie die Ergebnisse reproduzieren müssen, empfehlen wir Ihnen, Ihre Vorhersageabfragen in DMX-Abfragedateien zu speichern, sie zu skripten oder die Abfragen als Teil eines Integration Services-Pakets einzubetten.

Programmgesteuerter Zugriff auf Data Mining-Objekte

SQL Server Analysis Services stellt mehrere Tools bereit, mit denen Sie programmgesteuert mit Data Mining-Projekten und den darin enthaltenen Objekten arbeiten können. Die DMX-Sprache stellt Anweisungen bereit, mit denen Sie Datenquellen und Datenquellensichten erstellen sowie Data Mining-Strukturen und -Modelle erstellen, trainieren und verwenden können. Weitere Informationen finden Sie unter Data Mining-Erweiterungen (DMX) – Referenz.

Sie können diese Aufgaben auch mit der Analysis Services Scripting Language (ASSL) oder mithilfe von Analysis Management Objects (AMO) ausführen. Weitere Informationen finden Sie unter Entwickeln mit XMLA in Analysis Services.

In den folgenden Themen wird Verwendung des Data Mining-Assistenten beschrieben, um ein Data Mining-Projekt und zugeordnete Objekte zu erstellen.

Aufgaben Themen
Beschreibt, wie mit Miningstrukturspalten gearbeitet wird Erstellen einer relationalen Miningstruktur
Stellt weitere Informationen darüber bereit, wie neue Miningmodelle hinzugefügt und wie Strukturen und Modelle verarbeitet werden Hinzufügen von Miningmodellen zu einer Struktur (Analysis Services - Data Mining)
Stellt Links für Ressourcen bereit, die Sie bei der Anpassung von Algorithmen unterstützen, welche die Miningmodelle erstellen Anpassen von Miningmodellen und -strukturen
Stellt Links zu Informationen über jeden der Miningmodell-Viewer bereit Data Mining-Modell-Viewer
Informationen zum Erstellen eines Prognosegütediagramms, eines Gewinndiagramms oder einer Klassifikationsmatrix oder zum Testen einer Miningstruktur Tests und Überprüfung (Data Mining)
Informationen über das Verarbeiten von Optionen und Berechtigungen Verarbeiten von Data Mining-Objekten
Bietet weitere Informationen über Analysis Services Mehrdimensionale Modelldatenbanken

Weitere Informationen

Data Mining Designer
Erstellen mehrdimensionaler Modelle mit SQL Server-Datentools (SSDT)
Arbeitsbereichsdatenbank