Conceptos de minería de datos

Artículo
12/15/2008

La minería de datos suele describirse como "el proceso de extraer información válida, auténtica y que se pueda procesar de las bases de datos de gran tamaño." En otras palabras, la minería de datos deriva patrones y tendencias que existen en los datos. Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes:

Predecir ventas.
Dirigir correo a clientes específicos.
Determinar los productos que se pueden vender juntos.
Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra.

Un concepto importante reside en que la generación de un modelo de minería de datos forma parte de un proceso mayor que incluye desde la definición del problema básico que resolverá el modelo hasta la implementación del modelo en un entorno de trabajo. Este proceso se puede definir mediante los seis pasos básicos siguientes:

Definir el problema
Preparar los datos
Explorar los datos
Generar modelos
Explorar y validar los modelos
Implementar y actualizar los modelos

El siguiente diagrama describe las relaciones entre cada paso del proceso y las tecnologías de Microsoft SQL Server 2005 que se pueden utilizar para completar cada paso.

Pasos clave del proceso de minería de datos

Aunque el proceso que se ilustra en el diagrama es circular, esto no significa que cada paso conduzca directamente al siguiente. La creación de un modelo de minería de datos es un proceso dinámico e iterativo. Una vez que ha explorado los datos, puede que descubra que resultan insuficientes para crear los modelos de minería de datos adecuados y que, por tanto, debe buscar más datos. Puede generar varios modelos y descubrir que no responden al problema planteado cuando lo definió y que, por tanto, debe volver a definir el problema. Es posible que deba actualizar los modelos una vez implementados debido a que haya más datos disponibles. Por esto, es importante comprender que la creación de un modelo de minería de datos es un proceso, y que cada paso del proceso puede repetirse tantas veces como sea necesario para crear un modelo válido.

SQL Server 2005 ofrece un entorno integrado para crear y trabajar con modelos de minería de datos denominado Business Intelligence Development Studio. El entorno incluye algoritmos y herramientas de minería de datos que facilitan la generación de una solución completa para diversos proyectos. Para obtener más información acerca de cómo usar BI Development Studio, vea Desarrollar soluciones y proyectos de Analysis Services.

Para obtener más información sobre cómo aplicar herramientas de SQL Server en las situaciones empresariales mencionadas anteriormente en este tema, vea Tutorial de minería de datos.

Definir el problema

El primer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en definir claramente el problema empresarial.

Primer paso de minería de datos: definir el problema

Este paso incluye analizar los requisitos empresariales, definir el ámbito del problema, definir las métricas por las que se evaluará el modelo y definir el objetivo final del proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:

¿Qué está buscando?
¿Qué atributo del conjunto de datos desea intentar predecir?
¿Qué tipos de relaciones intenta buscar?
¿Desea realizar predicciones a partir del modelo de minería de datos o sólo buscar asociaciones y patrones interesantes?
¿Cómo se distribuyen los datos?
¿Cómo se relacionan las columnas? o en caso de haber varias tablas, ¿cómo se relacionan las tablas?

Para responder a estas preguntas, es probable que deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que deba volver a definir el proyecto.

Preparar los datos

El segundo paso del proceso de minería de datos, como se indica en el siguiente diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el problema.

Segundo paso de minería de datos: preparar datos

Microsoft SQL Server 2005 Integration Services (SSIS) contiene todas las herramientas necesarias para completar este paso, incluidas las transformaciones para automatizar la consolidación y la limpieza de datos.

Los datos pueden estar dispersos en la empresa y almacenados en distintos formatos; también pueden contener incoherencias como entradas que faltan o contienen errores. Por ejemplo, los datos pueden mostrar que un cliente adquirió un producto incluso antes de haber nacido o que el cliente compra regularmente en una tienda situada a 3.000 kilómetros de su casa. Antes de empezar a generar modelos, debe solucionar estos problemas. Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada transacción. Por lo tanto, se debe utilizar algún método de automatización, como en Integration Services, para explorar los datos y encontrar incoherencias.

Explorar los datos

El tercer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en explorar los datos preparados.

Tercer paso de minería de datos: explorar datos

Debe comprender los datos para tomar las decisiones adecuadas al crear los modelos. Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos, calcular la media y las desviaciones estándar y examinar la distribución de los datos. Una vez explorados los datos, se puede decidir si el conjunto de datos contiene datos con errores y, a continuación, crear una estrategia para solucionar los problemas.

El Diseñador de vistas de origen de datos de BI Development Studio contiene varias herramientas que se pueden utilizar para explorar los datos.

Generar modelos

El cuarto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en generar los modelos de minería de datos.

Paso cuarto de minería de datos: generar modelos de minería de datos

Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobación independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de comprobación para comprobar la precisión del modelo mediante la creación de consultas de predicción. Puede utilizar la Transformación Muestreo de porcentaje de Integration Services para dividir el conjunto de datos.

Utilizará los conocimientos adquiridos en el paso Explorar los datos para definir y crear un modelo de minería de datos. Normalmente, los modelos contienen columnas de entrada, una columna de identificación y una columna de predicción. Puede definir estas columnas en un modelo nuevo mediante el lenguaje DMX (Extensiones de minería de datos) o el Asistente para minería de datos de BI Development Studio. Para obtener más información sobre cómo utilizar DMX, vea Referencia de Extensiones de minería de datos (DMX). Para obtener más información sobre cómo utilizar el Asistente para minería de datos, vea Asistente para minería de datos.

Una vez definida la estructura del modelo de minería de datos, la procesa rellenando la estructura vacía con los patrones que describen el modelo. Esto se conoce como entrenar el modelo. Los patrones se encuentran al pasar los datos originales por un algoritmo matemático. SQL Server 2005 contiene un algoritmo diferente para cada tipo de modelo que se puede generar. Puede utilizar parámetros para ajustar cada algoritmo.

El modelo de minería de datos se define mediante un objeto de estructura de minería de datos, un objeto de modelo de minería de datos y un algoritmo de minería de datos.

Para obtener más información:Estructuras de minería de datos (Analysis Services), Algoritmos de minería de datos

Microsoft SQL Server 2005 Analysis Services (SSAS) incluye los siguientes algoritmos:

Explorar y validar los modelos

El quinto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en explorar los modelos que ha generado y comprobar su eficacia.

Quinto paso de minería de datos: validar modelos de minería de datos

No se debe implementar un modelo en un entorno de producción sin comprobar primero si el modelo funciona correctamente. Además, puede que haya creado varios modelos y deba decidir cuál funciona mejor. Si ninguno de los modelos que ha creado en el paso Generar modelos funciona correctamente, puede que deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos original.

Puede explorar las tendencias y patrones que los algoritmos descubren mediante los visores del Diseñador de minería de datos de BI Development Studio. También puede comprobar si los modelos crean predicciones correctamente mediante herramientas del diseñador como el gráfico de elevación y la matriz de clasificación. Estas herramientas requieren los datos de comprobación que separó del conjunto de datos original en el paso de generación del modelo.

Para obtener más información:Ver un modelo de minería de datos, Validar modelos de minería de datos, Gráfico de elevación, Matriz de clasificación

Implementar y actualizar los modelos

El último paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en implementar los modelos que funcionan mejor en un entorno de producción.

Sexto paso de minería de datos: implementar modelos de minería de datos

Una vez que los modelos de minería de datos se encuentran en el entorno de producción, puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Éstas son algunas de las tareas que puede realizar:

Utilizar los modelos para crear predicciones que pueda utilizar para tomar decisiones empresariales. SQL Server ofrece el lenguaje DMX, que puede utilizar para crear consultas de predicción, y el Generador de consultas de predicción, que le ayuda a generar las consultas.
Incrustar la funcionalidad de minería de datos directamente en una aplicación. Puede incluir Objetos de administración de análisis (AMO) o un ensamblado que contenga un conjunto de objetos que la aplicación pueda utilizar para crear, cambiar, procesar y eliminar estructuras y modelos de minería de datos. También puede enviar mensajes XML for Analysis (XMLA) directamente a una instancia de Analysis Services.
Utilizar Integration Services para crear un paquete en el que se utilice un modelo de minería de datos para separar de forma inteligente los datos entrantes en varias tablas. Por ejemplo, si una base de datos se actualiza continuamente con clientes potenciales, puede utilizar un modelo de minería de datos junto con Integration Services para dividir los datos entrantes en clientes que probablemente compren un producto y clientes que probablemente no compren un producto.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente.

La actualización del modelo forma parte de la estrategia de implementación. A medida que la organización recibe más datos, debe volver a procesar los modelos para mejorar así su eficacia.

Para obtener más información:Procesamiento en Analysis Services, Crear consultas de predicción DMX, Referencia de Extensiones de minería de datos (DMX), Analysis Services Administration Programming (SSAS)

Vea también

Conceptos de minería de datos

Definir el problema

Preparar los datos

Explorar los datos

Generar modelos

Explorar y validar los modelos

Implementar y actualizar los modelos

Vea también

Conceptos

Otros recursos

Ayuda e información

Recursos adicionales