Share via


Descripción de los requisitos de un modelo de serie temporal (tutorial intermedio de minería de datos)

 

Se aplica a: SQL Server 2016 Preview

Cuando vaya a preparar datos para un modelo de pronóstico, debe asegurarse de que los datos contengan una columna que se pueda usar para identificar los pasos en la serie temporal. Esa columna se definirá como la Key Time columna. Dado que es una clave, la columna debe contener valores numéricos únicos.

Elegir la unidad correcta para el Key Time columna es una parte importante del análisis. Por ejemplo, suponga que los datos de ventas se actualizarán a cada minuto. No sería necesario usar minutos como unidad de la serie temporal; podría ser más relevante acumular los datos de ventas por día, semana o incluso mes. Si no está seguro de qué unidad de tiempo debe usar, puede crear una nueva vista del origen de datos para cada agregación y compilar modelos relacionados para ver si surgen distintas tendencias en cada nivel de agregación.

Para este tutorial, los datos de ventas se recopilan diariamente en la base de datos transaccional de ventas, pero para la minería de datos, los datos se han agregado previamente por mes mediante una vista.

Además, es conveniente para el análisis que los datos tengan tan pocos huecos como sea posible. Si piensa analizar varias series de datos, todas ellas deben empezar y terminar preferiblemente en la misma fecha. Si faltan datos que no corresponden al comienzo o al final de una serie, puede usar el parámetro MISSING_VALUE_SUBSTITUTION para rellenar la serie. Analysis Services También ofrece varias opciones para reemplazar los datos que faltan por valores, como medias o constantes.

Advertencia


Las herramientas de gráfico dinámico y tabla dinámica que se incluyeron en versiones anteriores del diseñador de vistas de origen de datos ya no se proporcionan. Se recomienda identificar los huecos en los datos de serie temporal de antemano, mediante herramientas tales como el generador de perfiles de datos incluido en Integration Services.

Para identificar la clave temporal del modelo de pronóstico

  1. En el panel SalesByRegion.dsv [Diseño], haga clic en la tabla vTimeSeries y, a continuación, seleccione explorar datos.

    Abre una nueva pestaña, titulada Explorar la tabla vTimeSeries.

  2. En el tabla ficha, revise los datos que se usan en las columnas TimeIndex y Reporting Date.

    Ambas son secuencias con valores únicos y se pueden usar como clave de serie temporal; sin embargo, los tipos de datos de las columnas son distintos. El algoritmo de serie temporal de Microsoft no requiere un datetime tipos de datos, sólo que los valores sean distintos y ordenada. Por tanto, se puede utilizar cualquier columna como clave temporal para el modelo de pronóstico.

  3. En la superficie de diseño de la vista del origen de datos, seleccione la columna, Reporting Date y seleccione propiedades. A continuación, haga clic en la columna TimeIndex y seleccione propiedades.

    El campo TimeIndex tiene el tipo de datos System.Int32, mientras que el campo Reporting Date tiene el tipo System.DateTime. Muchos almacenamientos de datos convierten los valores de fecha y hora en enteros y usan la columna de enteros como clave para mejorar el rendimiento de la indización. Sin embargo, si usa esta columna, el algoritmo de serie temporal de Microsoft realizará las predicciones con valores futuros como 201014, 201014, etc. Como desea representar los datos de ventas mediante fechas del calendario de previsión, se utilizará la columna Reporting Date como el identificador único de la serie.

Para establecer la clave en la vista del origen de datos

  1. En el panel de SalesByRegion.dsv, seleccione la tabla vTimeSeries.

  2. Haga clic en la columna, Reporting Date y seleccione Establecer clave principal lógica.

Manejar la ausencia de datos (opcional)

Si faltan datos en alguna serie, puede aparecer un error al intentar procesar el modelo. Existen varias formas de solucionar la ausencia de datos:

  • Puede hacer que Analysis Services rellene los valores que faltan, ya sea mediante el cálculo de la media o mediante un valor anterior. Para ello, establezca el parámetro MISSING_VALUE_SUBSTITUTION en el modelo de minería de datos. Para obtener más información acerca de este parámetro, consulte referencia técnica del algoritmo de serie temporal Microsoft. Para obtener información acerca de cómo cambiar los parámetros en un modelo de minería de datos existente, vea Ver o cambiar parámetros del algoritmo.

  • Puede modificar el origen de datos o filtrar la vista subyacente para eliminar la serie irregular o reemplazar los valores. Esto se puede hacer en el origen de datos relacionales, o bien puede modificar la vista del origen de datos creando consultas con nombre personalizadas o cálculos con nombre. Para más información, vea Vistas del origen de datos en modelos multidimensionales. En la última tarea de esta lección se proporciona un ejemplo de cómo generar una consulta con nombre y un cálculo personalizado.

En este escenario, faltan algunos datos al principio de una serie; es decir, no hay datos para la línea de productos T1000 hasta julio de 2007. Por lo demás, todas las series terminan en la misma fecha y no falta ningún valor.

El requisito del algoritmo de serie temporal de Microsoft es que cualquier serie que se incluya en un único modelo debe tener el mismo final punto. Como el modelo de bicicletas T1000 se introdujo en 2007, los datos de esta serie empiezan después que los de otros modelos de bicicletas, pero la serie termina en la misma fecha; por tanto, se pueden usar los datos.

Para cerrar el diseñador de vistas del origen de datos

  • Haga clic en la ficha Explorar la tabla vTimeSeries, y seleccione Cerrar.

Siguiente tarea de la lección

Crear una estructura de previsión y modelo ( Tutorial de minería de datos intermedios )

Vea también

Algoritmo de serie temporal de Microsoft