Compartir a través de


Descripción de los requisitos de un modelo de serie temporal (tutorial intermedio de minería de datos)

Cuando vaya a preparar los datos para un modelo de previsión, debe asegurarse de que sus datos contienen una sola columna que se pueda utilizar para identificar los pasos de un serie temporal. Esa columna se utilizará como la columna Key Time y debe contener valores numéricos únicos. Si faltan datos en medio de una serie, puede utilizar el parámetro MISSING_VALUE_SUBSTITUTION para rellenar la serie. Analysis Services proporciona varias opciones para reemplazar los datos que faltan por valores, como medias o constantes.

Si piensa analizar varias series de datos, debe asegurarse de que toda la serie empieza y termina en la misma fecha.

En esta tarea, explorará los datos de la serie temporal creando una tabla dinámica simple en Business Intelligence Development Studio. Aprenderá también a buscar y manejar espacios en los datos.

Para identificar la clave temporal del modelo de previsión

  1. En el panel, SalesByRegion.dsv [Diseño], haga clic con el botón secundario en la tabla vTimeSeries y, a continuación, seleccione Explorar datos.

    Se abre una nueva ficha, Explorar la tabla vTimeSeries. Esta ficha contiene cuatro fichas: Tabla, Tabla dinámica, Gráfico y Gráfico dinámico.

  2. En la ficha Tabla, haga clic en el botón Opciones de muestreo situado a la derecha de las fichas.

  3. En el cuadro de diálogo Opciones de exploración de datos, observe que el método de muestreo predeterminado, en Métodos de muestreo, es utilizar la opción Primeros puestos y probar las primeras 5.000 filas.

  4. Cambie Método de muestreo a Muestra aleatoria y cambie Recuento de muestras a 1000; a continuación, haga clic en Aceptar.

    Nota

    El cambio de las opciones de muestreo no afecta a los datos que se utilizan para la minería de datos. Los gráficos y tablas son solo las herramientas que le ayudan a examinar y entender los datos.

  5. En la ficha Tabla, revise los datos que se utilizan en las columnas TimeIndex y Reporting Date.

    Ambos datos son secuencias con valores únicos; sin embargo, tal vez desee comprobar el tipo de datos de las columnas.

    Nota

    Si no ve la columna Reporting Date, es probable que tenga una versión anterior de la base de datos AdventureWorksDW. Este tutorial requiere la base de datos AdventureWorksDW2008R2 para poder utilizar la nueva funcionalidad de fecha y hora de SQL Server 2008. Para obtener más información sobre los cambios en las fechas y horas, vea Principales cambios en las características del Motor de base de datos de SQL Server 2008 R2.

  6. Haga clic en la ficha, SalesByRegion.dsv [Diseño].

  7. Seleccione la columna, Reporting Date.

    La ventana Propiedades indica que el campo TimeIndex tiene el tipo de datos System.Int32, mientras que el campo Reporting Date tiene el tipo de datos System.DateTime. El algoritmo de serie temporal de Microsoft no requiere un tipo de datos datetime; solo exige que los valores sean distintos y estén ordenados. Por tanto, se puede utilizar cualquier columna como clave temporal para el modelo de previsión. Sin embargo, como desea representar la previsión de los datos de ventas mediante fechas del calendario, utilizará la columna Reporting Date como el identificador único de la serie.

Para establecer la clave en la vista del origen de datos

  1. En el panel SalesByRegion.dsv, seleccione la tabla vTimeSeries.

  2. Haga clic con el botón secundario en la columna, Reporting Date, y seleccione Establecer clave principal lógica.

Para comprobar si faltan datos en la serie mediante un gráfico dinámico

  1. En el panel, SalesByRegion.dsv [Diseño], haga clic con el botón secundario en la tabla vTimeSeries y, a continuación, seleccione Explorar datos.

  2. Haga clic en la ficha Tabla dinámica.

  3. En el cuadro de diálogo Lista de campos de tabla dinámica, seleccione los campos Quantity y Amount y arrástrelos hasta el área Drag Totals or Detail Fields Here de la tabla.

  4. De igual forma, arrastre el campo TimeIndex hasta el cuadro, Drop Column Fields Here.

    Nota

    El campo TimeIndex no es el campo que utilizará para representar la serie temporal, pero se proporciona para la compatibilidad con versiones anteriores. Además, el campo TimeIndex proporciona una vista más simple de la serie que puede utilizar al examinar los datos en el gráfico dinámico.

  5. Arrastre el campo ModelRegion hasta el cuadro, Drop Row Fields Here.

    La tabla dinámica que se crea muestra la lista de productos y regiones en la columna izquierda, seguida de las columnas que contienen la cantidad y el importe de ventas de cada mes y año del calendario.

  6. Arrastre la barra de desplazamiento hacia la derecha para ver la fecha de inicio de los datos de ventas de la serie T1000.

    En esta tabla puede ver que no hay datos para la línea de productos T1000 hasta julio de 2003. Un requisito importante del algoritmo de serie temporal de Microsoft de SQL Server 2008 es que cualquier serie que se incluya en un modelo único debe tener el mismo punto final. Como el modelo de bicicletas T1000 se introdujo en 2003, los datos de esta serie empiezan después que los de otros modelos de bicicletas, pero la serie termina en la misma fecha, por lo que se aceptan los datos.

  7. Cambie el campo utilizado para representar la serie temporal arrastrando TimeIndex fuera de la tabla.

  8. Arrastre uno de los campos siguientes de la Lista de campos de tabla dinámica al cuadro, Drop Column Fields Here. Intente ver la serie temporal de maneras diferentes, arrastrando columnas fuera de la tabla o seleccionando agregaciones diferentes, como trimestre o mes.

    • ReportingDate

    • ReportingDate por semana

    • ReportingDate por mes

Manejar la ausencia de datos (opcional)

Si faltan datos en alguna serie, puede aparecer un error al intentar procesar el modelo. Existen varias formas de solucionar la ausencia de datos:

  • Dejar que Analysis Services rellene los valores que faltan, mediante el cálculo de la media o utilizando un valor anterior. Para ello, es necesario establecer un parámetro al crear el modelo de minería de datos. Para obtener más información, vea Referencia técnica del algoritmo de serie temporal de Microsoft.

  • Modificar el origen de datos o filtrar la vista subyacente para eliminar la serie o reemplazar los valores. Esto se realiza en el origen de datos relacionales, o bien puede modificar la vista del origen de datos creando consultas con nombre de clientes o cálculos con nombre. Para obtener más información, vea Diseñar vistas de origen de datos (Analysis Services). En la última tarea de esta lección se proporciona un ejemplo de cómo generar una consulta con nombre y un cálculo personalizado.

En este ejemplo, faltan algunos datos al principio de una serie, pero todas las series terminan en la misma fecha y no falta ningún valor. Por tanto, no es necesario realizar ningún cambio adicional ya que los datos satisfacen los requisitos de un modelo de serie temporal.

Para cerrar el diseñador de vistas de origen de datos

  • Haga clic con el botón secundario en la ficha, Explorar la tabla vTimeSeries, y seleccione Cerrar.