Algoritmo de regresión lineal de Microsoft

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

El algoritmo de regresión lineal de Microsoft es una variación del algoritmo de árboles de decisión de Microsoft que le ayuda a calcular una relación lineal entre una variable dependiente e independiente y, a continuación, usar esa relación para la predicción.

La relación toma la forma de una ecuación para la línea que mejor represente una serie de datos. Por ejemplo, la línea del siguiente diagrama muestra la mejor representación lineal de los datos.

Línea que modela un conjunto de datos

Cada punto de datos del diagrama tiene un error asociado con su distancia con respecto a la línea de regresión. Los coeficientes a y b de la ecuación de regresión ajustan el ángulo y la ubicación de la recta de regresión. Puede obtener la ecuación de regresión ajustando a y b hasta que la suma de los errores asociados a todos los puntos alcance su valor mínimo.

Hay otros tipos de regresión que utilizan varias variables y también hay métodos no lineales de regresión. Sin embargo, la regresión lineal es un método útil y conocido para modelar una respuesta a un cambio de algún factor subyacente.

Ejemplo

Puede utilizar la regresión lineal para determinar una relación entre dos columnas continuas. Por ejemplo, puede utilizar la regresión lineal para calcular una línea de tendencias en los datos de fabricación o ventas. También podría utilizar la regresión lineal como precursor para el desarrollo de modelos de minería de datos más complejos, con el fin de evaluar las relaciones entre las columnas de datos.

Aunque hay muchas maneras de calcular la regresión lineal que no requieren herramientas de minería de datos, la ventaja de usar el algoritmo de regresión lineal de Microsoft para esta tarea es que todas las posibles relaciones entre las variables se calculan y prueban automáticamente. No tiene que seleccionar un método de cálculo, como por ejemplo para resolver los mínimos cuadrados. Sin embargo, la regresión lineal podría simplificar en exceso las relaciones en escenarios en los que varios factores afectan al resultado.

Cómo funciona el algoritmo

El algoritmo de regresión lineal de Microsoft es una variación del algoritmo de árboles de decisión de Microsoft. Al seleccionar el algoritmo de regresión lineal de Microsoft, se invoca un caso especial del algoritmo de árboles de decisión de Microsoft, con parámetros que restringen el comportamiento del algoritmo y requieren determinados tipos de datos de entrada. Además, en un modelo de regresión lineal, el conjunto de datos completo se utiliza para calcular las relaciones en el paso inicial, mientras que en un modelo de árboles de decisión estándar los datos se dividen repetidamente en árboles o subconjuntos más pequeños.

Datos requeridos para los modelos de regresión lineal

Cuando se preparan datos para utilizarse en un modelo de regresión lineal, se deben entender los requisitos del algoritmo determinado. Esto incluye saber cuántos datos se necesitan y cómo se utilizan. Los requisitos para este tipo de modelo son los siguientes:

  • Una columna de una sola clave : cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas.

  • Una columna de predicción . Se requiere al menos una columna de predicción. Se pueden incluir varios atributos de predicción en un modelo, pero deben ser tipos de datos numéricos continuos. No se puede utilizar un tipo de datos de fecha y hora como atributo de predicción aunque el almacenamiento nativo para los datos sea numérico.

  • Columnas de entrada Deben contener datos numéricos continuos y se les debe asignarse el tipo de datos adecuado.

Para obtener más información, vea la sección Requisitos de Referencia técnica del algoritmo de regresión lineal de Microsoft.

Ver un modelo de regresión lineal

Para examinar el modelo, puede utilizar el Visor de árboles de Microsoft. La estructura de árbol de un modelo de regresión lineal es muy simple, con toda la información sobre la ecuación de regresión contenida en un nodo único. Para obtener más información, vea Examinar un modelo usando el Visor de árboles de Microsoft.

Si desea obtener información más detallada sobre la ecuación, también puede ver los coeficientes y otros detalles utilizando el Visor de árbol de contenido genérico de Microsoft.

En un modelo de regresión lineal, el contenido incluye metadatos, la fórmula de regresión y estadísticas sobre la distribución de los valores de entrada. Para obtener más información, vea Contenido del modelo de minería de datos para modelos de regresión lineal (Analysis Services - minería de datos).

Crear predicciones

Una vez procesado el modelo, los resultados se almacenan como un conjunto de estadísticas junto con la fórmula de regresión lineal, que se puede utilizar para calcular tendencias futuras. Para obtener ejemplos de consultas que se usan con un modelo regresión lineal, vea Ejemplos de consultas de modelos de regresión lineal.

Para obtener información general sobre cómo crear consultas con modelos de minería de datos, vea Consultas de minería de datos.

Además de crear un modelo de regresión lineal seleccionando el algoritmo de regresión lineal de Microsoft, si el atributo de predicción es un tipo de datos numérico continuo, puede crear un modelo de árbol de decisión que contenga regresiones. En este caso, el algoritmo dividirá los datos cuando encuentre puntos de separación adecuados, pero en cambio creará una fórmula de regresión para algunas regiones de datos. Para obtener más información sobre los árboles de regresión dentro de un modelo de árboles de decisión, vea Contenido del modelo de minería de datos para modelos de árbol de decisión (Analysis Services - Minería de datos).

Comentarios

  • No se admite el uso del Lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.

  • No admite la creación de dimensiones de minería de datos.

  • Admite la obtención de detalles.

  • Admite el uso de modelos de minería de datos OLAP.

Consulte también

Algoritmos de minería de datos (Analysis Services: Minería de datos)
Referencia técnica del algoritmo de regresión lineal de Microsoft
Ejemplos de consultas de modelos de regresión lineal
Contenido del modelo de minería de datos para los modelos de regresión lineal (Analysis Services - Minería de datos)