Algoritmos de minería de datos (Analysis Services: Minería de datos)

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

Un algoritmo en minería de datos (o aprendizaje automático) es un conjunto de heurísticas y cálculos que permiten crear un modelo a partir de datos. Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos específicos de patrones o tendencias. El algoritmo usa los resultados de este análisis en un gran número de iteraciones para determinar los parámetros óptimos para crear el modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.

El modelo de minería de datos que crea un algoritmo a partir de los datos puede tomar diversas formas, incluyendo:

  • Un conjunto de clústeres que describe cómo se relacionan los casos de un conjunto de datos.

  • Un árbol de decisión que predice un resultado y que describe cómo afectan a este los distintos criterios.

  • Un modelo matemático que predice las ventas.

  • Un conjunto de reglas que describen cómo se agrupan los productos en una transacción, y las probabilidades de que dichos productos se adquieran juntos.

Los algoritmos proporcionados en SQL Server Minería de datos son los métodos más populares y bien investigados de derivar patrones de datos. Para tomar un ejemplo, la agrupación en clústeres K-means es uno de los algoritmos de agrupación en clústeres más antiguos y está disponible ampliamente en muchas herramientas diferentes y con muchas implementaciones y opciones diferentes. Sin embargo, la implementación concreta de la agrupación en clústeres K-means usada en SQL Server minería de datos fue desarrollada por Microsoft Research y luego optimizada para el rendimiento con SQL Server Analysis Services. Todos los algoritmos de minería de datos de Microsoft se pueden personalizar ampliamente y usar mediante programación con las API proporcionadas. También puede automatizar la creación, el entrenamiento y el reciclaje de modelos mediante los componentes de minería de datos de Integration Services.

También puede usar algoritmos de minería de datos desarrollados por terceros que cumplan la especificación OLE DB para minería de datos, o desarrollar algoritmos personalizados que se pueden registrar como servicios para usarlos a continuación en el marco de la minería de datos de SQL Server.

Elegir el algoritmo correcto

La elección del mejor algoritmo para una tarea analítica específica puede ser un desafío. Aunque puede usar diferentes algoritmos para realizar la misma tarea, cada uno de ellos genera un resultado diferente, y algunos pueden generar más de un tipo de resultado. Por ejemplo, puede usar el algoritmo de árboles de decisión de Microsoft no sólo para la predicción, sino también como una forma de reducir el número de columnas de un conjunto de datos, porque el árbol de decisión puede identificar columnas que no influyen en el modelo final de minería de datos.

Elegir un algoritmo por tipo

SQL Server Minería de datos incluye los siguientes tipos de algoritmo:

  • Algoritmos de clasificación , que predicen una o más variables discretas, basándose en los demás atributos del conjunto de datos.

  • Algoritmos de regresión , que predicen una o más variables numéricas continuas, como pérdidas o ganancias, basándose en otros atributos del conjunto de datos.

  • Algoritmos de segmentación , que dividen los datos en grupos, o clústeres, de elementos que tienen propiedades similares.

  • Algoritmos de asociación , que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de reglas de asociación, que pueden usarse en un análisis de la cesta de compra.

  • Losalgoritmos de análisis de secuencias resumen las secuencias frecuentes o episodios en los datos, como una serie de clics en un sitio web o una serie de eventos de registro que preceden al mantenimiento del equipo.

Sin embargo, no hay ninguna razón por la que deba limitarse a un algoritmo en sus soluciones. Los analistas experimentados usarán a veces un algoritmo para determinar las entradas más eficaces (es decir, variables) y luego aplicarán un algoritmo diferente para predecir un resultado concreto basado en esos datos. SQL Server minería de datos permite crear varios modelos en una única estructura de minería de datos, por lo que dentro de una única solución de minería de datos podría usar un algoritmo de agrupación en clústeres, un modelo de árboles de decisión y un modelo Bayes naïve para obtener vistas diferentes sobre los datos. También puede usar varios algoritmos en una única solución para realizar tareas independientes (por ejemplo, puede usar la regresión para obtener previsiones financieras, o bien un algoritmo de red neuronal para realizar un análisis de los factores que influyen en las previsiones).

Elegir un algoritmo por tarea

Con el fin de ayudarle a seleccionar un algoritmo para su uso con una tarea específica, la tabla siguiente proporciona sugerencias para los tipos de tareas para las que se usa normalmente cada algoritmo.

Ejemplos de tareas Algoritmos de Microsoft que se pueden usar
Predecir un atributo discreto:

Marcar los clientes de una lista de posibles compradores como clientes con buenas o malas perspectivas.

Calcular la probabilidad de que un servidor genere un error en los próximos 6 meses.

Clasificar la evolución de los pacientes y explorar los factores relacionados.
Algoritmo de árboles de decisión de Microsoft

Microsoft Naive Bayes Algorithm

Algoritmo de clústeres de Microsoft

Microsoft Neural Network Algorithm
Predecir un atributo continuo:

Pronosticar las ventas del año próximo.

Predecir los visitantes del sitio a partir de tendencias históricas y estacionales proporcionadas.

Generar una puntuación de riesgo a partir de datos demográficos.
Algoritmo de árboles de decisión de Microsoft

Algoritmo de serie temporal de Microsoft

Algoritmo de regresión lineal de Microsoft
Predecir una secuencia:

Realizar un análisis clickstream del sitio web de una empresa.

Analizar los factores que dan como resultado errores en el servidor.

Capturar y analizar secuencias de actividades durante las visitas de pacientes externos, para formular las prácticas recomendadas en las actividades comunes.
Algoritmo de clústeres de secuencia de Microsoft
Buscar grupos de elementos comunes en las transacciones:

Usar el análisis de la cesta de la compra para determinar la posición del producto.

Sugerir a un cliente la compra de productos adicionales.

Analizar los datos de una encuesta a los visitantes a un evento, para descubrir qué actividades o stands estaban correlacionados con el fin de programar actividades futuras.
Algoritmo de asociación de Microsoft

Algoritmo de árboles de decisión de Microsoft
Buscar grupos de elementos similares:

Crear grupos de pacientes con perfiles de riesgo en función de atributos como datos demográficos y comportamientos.

Analizar usuarios mediante patrones de búsqueda y compra de productos.

Identificar servidores con características de uso similares.
Algoritmo de clústeres de Microsoft

Algoritmo de clústeres de secuencia de Microsoft

En la sección siguiente se proporcionan vínculos a recursos de aprendizaje para cada uno de los algoritmos de minería de datos que se proporcionan en SQL Server Minería de datos:

Tema. Descripción
Determinar el algoritmo usado por un modelo de minería de datos Consultar los parámetros usados para crear un modelo de minería de datos
Crear un algoritmo complementario personalizado Algoritmos de complemento
Explorar un modelo con un visor específico para algoritmos Visores de modelos de minería de datos
Ver el contenido de un modelo con un formato de tabla genérico Examinar un modelo usando el Visor de árbol de contenido genérico de Microsoft
Obtener información sobre cómo configurar los datos y usar algoritmos para crear modelos Estructuras de minería de datos (Analysis Services - Minería de datos)

Modelos de minería de datos (Analysis Services - Minería de datos)

Consulte también

Herramientas de minería de datos