Share via


Grundlegendes zu den Anforderungen für ein Zeitreihenmodell (Data Mining-Lernprogramm für Fortgeschrittene)

Bei der Vorbereitung von Daten für ein Vorhersagemodell müssen Sie sicherstellen, dass die Daten eine Spalte enthalten, mit der die Schritte in einer Zeitreihe identifiziert werden können. Diese Spalte wird als Key Time-Spalte verwendet und muss eindeutige numerische Werte enthalten. Unvollständige Daten in einer Reihe können mit dem Parameter MISSING_VALUE_SUBSTITUTION vervollständigt werden; dies gilt nicht für den Anfang oder das Ende einer Reihe. Analysis Services stellt mehrere Optionen zum Vervollständigen unvollständiger Daten durch Mittelwerte oder Konstanten bereit.

Wenn Sie mehrere Datenreihen analysieren möchten, müssen einheitliche Start- und Enddaten verwendet werden.

In dieser Aufgabe untersuchen Sie die Zeitreihendaten, indem Sie eine einfache PivotTable in Business Intelligence Development Studio erstellen. Ferner erfahren Sie, wie Sie unvollständige Daten finden und behandeln können.

So identifizieren Sie den Zeitschlüssel für das Vorhersagemodell

  1. Klicken Sie im Bereich SalesByRegion.dsv [Design] mit der rechten Maustaste auf die Tabelle vTimeSeries, und wählen Sie Daten durchsuchen aus.

    Die Registerkarte vTimeSeries-Tabelle durchsuchen wird geöffnet. Diese Registerkarte enthält vier Registerkarten: Tabelle, PivotTable, Diagramm und PivotChart.

  2. Klicken Sie auf der Registerkarte Tabelle rechts neben den Registerkarten auf die Schaltfläche Stichprobenoptionen.

  3. Im Dialogfeld Optionen zum Durchsuchen von Daten ist unter Stichprobenmethode die Option Anzahl erste Daten als Standardstichprobenoption festgelegt, und die ersten 5000 Zeilen werden für die Stichprobe verwendet.

  4. Ändern Sie die Stichprobenmethode in Zufällige Stichprobe, und ändern Sie die Anzahl für Stichprobe in 1000. Klicken Sie auf OK.

    HinweisHinweis

    Die Änderung der Stichprobenoptionen wirkt sich nicht auf die für Data Mining verwendeten Daten aus. Bei den Diagrammen und Tabellen handelt es sich um Tools, die Ihnen helfen, die Daten zu durchsuchen und zu verstehen.

  5. Überprüfen Sie auf der Registerkarte Tabelle die Daten, die in den Spalten TimeIndex und Reporting Date verwendet werden.

    Dabei handelt es sich jeweils um Sequenzen mit eindeutigen Werten. Sie können den Datentyp der Spalten jedoch bei Bedarf überprüfen.

    HinweisHinweis

    Wenn die Spalte Reporting Date nicht angezeigt wird, verwenden Sie wahrscheinlich eine ältere Version der AdventureWorksDW-Datenbank. Dieses Lernprogramm erfordert die AdventureWorksDW2008R2-Datenbank, um die neuen Datums- und Uhrzeitfunktionen von SQL Server 2008 zu nutzen. Weitere Informationen zu den Änderungen bezüglich Datum und Uhrzeit finden Sie unter Fehlerhafte Änderungen an Funktionen des Datenbankmoduls in SQL Server 2008 R2.

  6. Klicken Sie auf die Registerkarte SalesByRegion.dsv [Design].

  7. Wählen Sie die Spalte Reporting Date aus.

    Im Eigenschaftenfenster wird der Datentyp System.Int32 für das Feld TimeIndex angezeigt. Das Feld Reporting Date weist hingegen den Datentyp System.DateTime auf. Der datetime-Datentyp ist für den Microsoft Time Series-Algorithmus nicht erforderlich; die Werte müssen lediglich unterschiedlich und sortiert sein. Sie können daher beide Spalten als Zeitschlüssel für das Vorhersagemodell verwenden. Da Sie die Vorhersage für die Vertriebsdaten jedoch mithilfe von Datumsangaben darstellen möchten, verwenden Sie jedoch die Spalte Reporting Date als eindeutigen Bezeichner für die Reihe.

So legen Sie den Schlüssel in der Datenquellensicht fest

  1. Wählen Sie im Bereich SalesByRegion.dsv die Tabelle vTimeSeries aus.

  2. Klicken Sie mit der rechten Maustaste auf die Spalte Reporting Date, und wählen Sie Logischen Primärschlüssel festlegen aus.

So überprüfen Sie unvollständige Daten in der Datenreihe mit einem PivotChart

  1. Klicken Sie im Bereich SalesByRegion.dsv [Design] mit der rechten Maustaste auf die Tabelle vTimeSeries, und wählen Sie Daten durchsuchen aus.

  2. Klicken Sie auf die Registerkarte PivotTable.

  3. Wählen Sie im Dialogfeld PivotTable-Feldliste die Felder Quantity und Amount aus und ziehen Sie diese in den Bereich Gesamtsummen oder Detailfelder hierher ziehen der Tabelle.

  4. Ziehen Sie das Feld TimeIndex analog dazu in das Feld Spaltenfelder hierher ziehen.

    HinweisHinweis

    Das Feld TimeIndex wird nicht für die Darstellung der Zeitreihe verwendet; es wird aus Gründen der Abwärtskompatibilität bereitgestellt. Außerdem ermöglicht das Feld TimeIndex eine einfachere Reihensicht beim Durchsuchen von Daten im PivotChart.

  5. Ziehen Sie das Feld ModelRegion in das Feld Zeilenfelder hierher ziehen.

    In der linken Spalte der PivotTable ist die Liste der Produkte und Regionen enthalten; die folgenden Spalten enthalten die Menge sowie den Betrag der Verkäufe für den jeweiligen Monat und das jeweilige Jahr.

  6. Ziehen Sie die Bildlaufleiste nach rechts, um das Startdatum der Vertriebsdaten für die T1000-Reihe anzuzeigen.

    Aus der Tabelle wird ersichtlich, dass erst ab Juli 2003 Daten für die T1000-Produktlinie vorliegen. Eine wichtige Voraussetzung für Reihen im Microsoft Time Series-Algorithmus in SQL Server 2008 ist, dass alle Reihen in einem Modell den gleichen Endpunkt aufweisen sollten. Das Fahrradmodell T1000 wurde erst im Jahr 2003 eingeführt. Die Daten für diese Reihe liegen daher im Vergleich zu den anderen Modellen erst ab einem späteren Zeitpunkt vor; der Endpunkt ist jedoch gleich, sodass die Daten verwendet werden können.

  7. Ändern Sie das Feld für die Darstellung der Zeitreihe, indem Sie TimeIndex aus der Tabelle ziehen.

  8. Ziehen Sie eines der folgenden Felder aus der PivotTable-Feldliste in das Feld Spaltenfelder hierher ziehen. Ziehen Sie Spalten aus der Tabelle, oder wählen Sie unterschiedliche Aggregationen wie Quartal oder Monat aus, um die Zeitreihen auf unterschiedliche Weise anzuzeigen.

    • ReportingDate

    • ReportingDate By Week

    • ReportingDate By Month

Behandeln von unvollständigen Daten (optional)

Bei der Verarbeitung von Modellreihen mit unvollständigen Daten wird möglicherweise ein Fehler generiert. Sie haben mehrere Möglichkeiten, dieses Problem zu umgehen:

  • Lassen Sie die unvollständigen Daten von Analysis Services durch Berechnung von Mittelwerten oder Verwendung von vorherigen Werten ergänzen. Legen Sie dazu beim Erstellen des Miningmodells einen Parameter fest. Weitere Informationen finden Sie unter Technische Referenz für den Microsoft Time Series-Algorithmus.

  • Ändern Sie die Datenquelle, oder filtern Sie die zugrunde liegende Sicht, um die Reihe auszuschließen oder Werte zu ersetzen. Sie können dies in der relationalen Datenquelle tun oder indem Sie die Datenquellensicht durch Erstellen von benannten Abfragen oder benannten Berechnungen für Kunden ändern. Weitere Informationen finden Sie unter Entwerfen von Datenquellensichten (Analysis Services). In einer weiteren Aufgabe in dieser Lektion wird ein Beispiel für das Erstellen einer benannten Abfrage sowie einer benutzerdefinierten Berechnung gegeben.

In diesem Szenario fehlen einige Daten zu Beginn einer Reihe; alle Reihen weisen jedoch das gleiche Enddatum auf, und es liegen keine fehlenden Werte vor. Zusätzliche Änderungen sind daher nicht erforderlich. Alle Anforderungen für ein Zeitreihenmodell werden von den Daten erfüllt.

So schließen Sie den Datenquellensicht-Designer

  • Klicken Sie mit der rechten Maustaste auf die Registerkarte vTimeSeries-Tabelle durchsuchen, und wählen Sie Schließen aus.

Siehe auch

Konzepte