Grundlegendes zu den Anforderungen für ein Zeitreihenmodell (Data Mining-Lernprogramm für Fortgeschrittene)

 

Gilt für: SQL Server 2016 Preview

Bei der Vorbereitung von Daten für ein Prognosemodell müssen Sie sicherstellen, dass die Daten eine Spalte enthalten, mit der Sie die Schritte in der Zeitreihe identifizieren können. Diese Spalte wird als gekennzeichnet werden die Key Time Spalte. Da es sich um einen Schlüssel handelt, muss die Spalte eindeutige numerische Werte enthalten.

Auswahl der richtigen Einheit für die Key Time Spalte ist ein wichtiger Teil der Analyse. Nehmen Sie zum Beispiel an, dass die Umsatzdaten minütlich aktualisiert werden. Sie würden nicht unbedingt Minuten als Einheit der Zeitreihe verwenden. Sie finden es möglicherweise sinnvoller Umsatzdaten der Tag, Woche oder sogar nur monatlich einen Rollup. Wenn Sie unsicher sind, welche Zeiteinheit verwendet werden soll, erstellen Sie eine neue Datenquellensicht für jede Aggregation. So stellen Sie fest, ob sich auf jeder Aggregationsebene unterschiedliche Trends ergeben.

Für dieses Lernprogramm werden täglich Umsatzdaten in der Transaktionsvertriebsdatenbank erfasst; für Data Mining werden die Daten jedoch mithilfe einer Sicht monatlich vorab aggregiert.

Zudem ist es für die Analyse vorteilhaft, wenn die Daten so wenige Lücken wie möglich aufweisen. Wenn Sie mehrere Datenreihen analysieren möchten, sollten alle Serien nach Möglichkeit einheitliche Start- und Enddaten haben. Wenn die Daten unvollständig sind, aber diese Lücken sich nicht am Anfang oder Ende der Serie befinden, kann die Serie mit dem Parameter MISSING_VALUE_SUBSTITUTION vervollständigt werden. Analysis Services Außerdem bietet mehrere Optionen zum Vervollständigen unvollständiger Daten mit Werten, z. B. Mittelwerte oder Konstanten.

Warnung


Die Tools PivotChart und PivotTable, die in früheren Versionen des Datenquellensicht-Designers enthalten waren, sind nicht mehr enthalten. Es empfiehlt sich, Lücken in Zeitreihendaten im Voraus mit Tools wie dem in Integration Services enthaltenen Daten-Profiler zu identifizieren.

So identifizieren Sie den Zeitschlüssel für das Prognosemodell

  1. Klicken Sie im Bereich SalesByRegion.dsv [Design], mit der rechten Maustaste auf die vTimeSeries-Tabelle, und wählen Sie dann Daten durchsuchen.

    Eine neue Registerkarte geöffnet, mit dem Titel vTimeSeries-Tabelle durchsuchen.

  2. Auf der Tabelle Registerkarte, überprüfen Sie die Daten, die in den Spalten TimeIndex und Reporting Date verwendet wird.

    Beide sind Sequenzen mit eindeutigen Werten und können als Zeitreihenschlüssel verwendet werden; die Datentypen der Spalten unterscheiden sich jedoch. Microsoft Time Series-Algorithmus erfordert keine Datetime -Datentyp nur, dass die Werte unterschiedlich und sortiert werden. Sie können daher beide Spalten als Zeitschlüssel für das Prognosemodell verwenden.

  3. Klicken Sie in der Quelle Entwurfsoberfläche, wählen Sie die Spalte Reporting Date, und wählen Sie Eigenschaften. Als Nächstes klicken Sie auf die Spalte TimeIndex, und wählen Sie Eigenschaften.

    Das Feld TimeIndex enthält der Datentyp System. Int32, die das Feld Reporting Date dem Datentyp "System.DateTime". Viele Data Warehouses konvertieren Datums-/Uhrzeitwerte in ganze Zahlen und verwenden die Ganzzahl-Spalte als Schlüssel, die Indizierungsleistung zu verbessern. Wenn Sie diese Spalte verwenden, trifft der Microsoft Time Series-Algorithmus allerdings Vorhersagen und verwendet hierfür zukünftige Werte wie etwa 201014, 201014 usw. Da Sie mithilfe von Kalenderdaten Prognose die Umsatzdaten darstellen möchten, verwenden Sie die Spalte Reporting Date als Bezeichner für die eindeutige Reihe.

So legen Sie den Schlüssel in der Datenquellensicht fest

  1. Klicken Sie im Bereich SalesByRegion.dsv, wählen Sie die vTimeSeries-Tabelle.

  2. Mit der rechten Maustaste in der Spalte Reporting Date, und wählen Sie logischen Primärschlüssel festlegen.

Behandeln von unvollständigen Daten (optional)

Bei der Verarbeitung von Modellreihen mit unvollständigen Daten wird möglicherweise ein Fehler generiert. Sie haben mehrere Möglichkeiten, dieses Problem zu umgehen:

  • Lassen Sie die unvollständigen Daten von Analysis Services durch Berechnung von Mittelwerten oder Verwendung von vorherigen Werten ergänzen. Zu diesem Zweck legen Sie den MISSING_VALUE_SUBSTITUTION-Parameter für das Miningmodell fest. Weitere Informationen zu diesem Parameter finden Sie unter Technische Referenz für Microsoft Time Series-Algorithmus. Informationen zum Ändern von Parametern für ein vorhandenes Miningmodell finden Sie unter anzeigen oder Ändern der Algorithmusparameter.

  • Ändern Sie die Datenquelle, oder filtern Sie die zugrunde liegende Sicht, um unregelmäßige Reihe auszuschließen oder Werte zu ersetzen. Sie können dies in der relationalen Datenquelle vornehmen, oder Sie können die die Datenquellensicht ändern, indem Sie benutzerdefinierte benannte Abfragen oder benannte Berechnungen erstellen. Weitere Informationen finden Sie unter Datenquellsichten in mehrdimensionalen Modellen. In einer weiteren Aufgabe in dieser Lektion wird ein Beispiel für das Erstellen einer benannten Abfrage sowie einer benutzerdefinierten Berechnung gegeben.

In diesem Szenario fehlen Daten am Anfang einer Reihe: das heißt, es gibt bis zu zum Juli 2007 keine Daten für die T1000-Produktlinie. Ansonsten enden alle Reihen zum selben Datum, und es gibt keine fehlenden Werte.

Die Anforderung des Microsoft Time Series-Algorithmus ist, dass alle Reihen in einem Modell denselben sollten endet zeigen. Das Fahrradmodell T1000 wurde erst im Jahr 2007 eingeführt. Die Daten für diese Reihe liegen daher im Vergleich zu den anderen Modellen erst ab einem späteren Zeitpunkt vor; der Endpunkt ist jedoch gleich, sodass die Daten verwendet werden können.

So schließen Sie den Datenquellensicht-Designer

  • Mit der rechten Maustaste in der Registerkarte vTimeSeries-Tabelle durchsuchen, und wählen Sie Schließen.

Nächste Aufgabe in der Lektion

Erstellen eine Forecasting-Struktur und Modell ( Datamining-Lernprogramm für fortgeschrittene )

Siehe auch

Microsoft Time Series-Algorithmus