Поделиться через


Основные сведения о требованиях для модели временных рядов (учебник по интеллектуальному анализу данных — средний уровень)

При подготовке данных для модели прогнозирования они должны содержать один столбец, который может быть использован для идентификации этапов временных рядов. Этот столбец будет использоваться как столбец Key Time и должен содержать уникальные числовые значения. Если в данных имеются промежутки (кроме как в начале и в конце ряда), то для заполнения ряда можно использовать параметр MISSING_VALUE_SUBSTITUTION. Службы Analysis Services предоставляют несколько возможностей замены отсутствующих данных средними значениями или константами.

Если планируется анализ нескольких рядов данных, то все ряды должны начинаться и заканчиваться на одну и ту же дату.

В этой задаче будут исследованы данные временных рядов при помощи создания простых сводных таблиц в среде Business Intelligence Development Studio. Будут показаны способы поиска и обработки промежутков в данных.

Идентификация ключа времени для модели прогнозирования

  1. В области SalesByRegion.dsv [Design] правой кнопкой мыши щелкните таблицу vTimeSeries и выберите пункт Просмотр данных.

    Откроется новая вкладка, озаглавленная Просмотр таблицы vTimeSeries. Эта вкладка содержит четыре вкладки: Таблица, Сводная таблица, Диаграмма и Сводная диаграмма.

  2. На вкладке Таблица нажмите кнопку Параметры выборки справа от вкладок.

  3. В диалоговом окне Параметры просмотра данных необходимо отметить, что используемый по умолчанию метод выборки в списке Методы выборки должен использовать параметр Наибольшее количество и выбрать первые 5000 строк.

  4. Измените Метод выборки на Случайная выборка, а Размер выборки — на 1000, после чего нажмите кнопку ОК.

    ПримечаниеПримечание

    Изменение параметров выборки не влияет на данные, используемые для интеллектуального анализа данных. Диаграммы и таблицы являются единственными средствами обзора и исследования данных.

  5. На вкладке Таблица просмотрите данные в столбцах TimeIndex и Reporting Date.

    В обоих столбцах содержатся последовательности уникальных значений; однако необходимо проверить тип данных столбцов.

    ПримечаниеПримечание

    Если столбец Reporting Date не виден, то, вероятно, используется старая версия базы данных AdventureWorksDW. Для этого учебника необходима база данных База данных AdventureWorksDW2008R2, в которой реализованы новые функциональные возможности SQL Server 2008, связанные с датой и временем. Дополнительные сведения об изменении дат и значений времени см. в разделе Критические изменения в функциях компонента Database Engine в SQL Server 2008 R2.

  6. Перейдите на вкладку SalesByRegion.dsv [Design].

  7. Выберите столбец Reporting Date.

    В окне Свойства указано, что поле TimeIndex имеет тип данных System.Int32, в то время как поле Reporting Date имеет тип данных System.DateTime. Алгоритм временных рядов (Майкрософт) не требует наличия типа данных datetime, необходимо только, чтобы значения были отличающимися и упорядоченными. Поэтому в качестве ключа времени для модели прогнозирования может быть использован любой столбец. Однако, поскольку нужно представить прогноз данных продаж с использованием календарных дат, в качестве уникального идентификатора последовательности будет использован столбец Reporting Date.

Задание ключа в представлении источника данных

  1. В области SalesByRegion.dsv выделите таблицу vTimeSeries.

  2. Щелкните правой кнопкой мыши столбец Reporting Date и выберите команду Задать логический первичный ключ.

Проверка промежутков в рядах данных при помощи сводной диаграммы

  1. В области SalesByRegion.dsv [Design], правой кнопкой мыши щелкните таблицу vTimeSeries, а затем выберите Просмотр данных.

  2. Перейдите на вкладку Сводная таблица.

  3. В диалоговом окне Список полей сводной таблицы, выберите поля Количество и Объем и перетащите их в область Перетащите сюда поля итогов или подробностей таблицы.

  4. Аналогично, перетащите поле TimeIndex в окно Перетащите сюда поля столбцов.

    ПримечаниеПримечание

    Поле TimeIndex не будет использоваться для представления временных рядов. Оно предусмотрено для обратной совместимости. Кроме того, поле TimeIndex предоставляет более простое представление ряда, чем то, которое можно использовать при просмотре данных в сводной диаграмме.

  5. Перетащите поле ModelRegion в окно Перетащите сюда поля строк.

    В создаваемой сводной таблице в левом столбце отображается список продуктов и областей, затем идут столбцы, содержащие объем продаж и количество за каждый календарный месяц и год.

  6. Перетащите вправо полосу прокрутки, чтобы видеть начальную дату данных продаж для ряда T1000.

    По этой таблице видно, что для строки продукта T1000 нет данных вплоть до июля 2003 г. Важным требованием алгоритма временных рядов (Майкрософт) в SQL Server 2008 является то, что все ряды, включенные в одну модель, должны иметь одну и ту же конечную дату. Поскольку модель велосипеда T1000 появилась в 2003 г., данные для этого ряда начинаются позже, чем для других моделей велосипедов, но ряд заканчивается на ту же дату, поэтому данные являются приемлемыми.

  7. Измените поле, используемое для представления временного ряда, перетащив поле TimeIndex из таблицы.

  8. Перетащите одно из следующих полей из диалогового окна Список полей сводной таблицы в окно Перетащите сюда поля столбцов. Попробуйте просмотреть временной ряд различными способами, перетаскивая столбцы из таблицы или выбирая другие агрегаты, например квартал или месяц.

    • ReportingDate

    • ReportingDate по неделям

    • ReportingDate по месяцам

Обработка отсутствующих данных (необязательно)

Если в каком-либо ряду имеются отсутствующие данные, то при попытке обработать модель может быть выдана ошибка. Устранить эту проблему можно несколькими способами.

  • Дать службам Analysis Services возможность заполнить отсутствующее значение вычисленным средним или предыдущим значением. Для этого необходимо задать параметр при создании модели интеллектуального анализа данных. Дополнительные сведения см. в разделе Технический справочник по алгоритму временных рядов (Майкрософт).

  • Изменить источник данных или отфильтровать базовое представление для устранения ряда или замены значений. Это можно сделать в реляционном источнике данных, либо можно изменить представление источника данных, создавая пользовательские именованные запросы или именованные вычисления. Дополнительные сведения см. в разделе Проектирование представлений источников данных (службы Analysis Services). Последняя задача этого занятия представляет пример того, как построить именованный запрос и пользовательское вычисление.

Для этого сценария некоторые данные отсутствуют в начале ряда, но все ряды оканчиваются в одну и ту же дату и не содержат пропусков. Поэтому нет необходимости выполнять дополнительные изменения, поскольку данные удовлетворяют требованиям для модели временных рядов.

Закрытие конструктора представлений источников данных

  • Щелкните правой кнопкой мыши вкладку Просмотр таблицы vTimeSeries и выберите Закрыть.

См. также

Основные понятия