Artículo
03/30/2012

Arquitectura lógica (Analysis Services - Minería de datos)

La minería de datos es un proceso que implica la interacción de varios componentes. Puede tener acceso a orígenes de datos en una base de datos de SQL Server o cualquier otro origen de datos y usarlos para el entrenamiento, las pruebas o la predicción. Use Business Intelligence Development Studio o Visual Studio 2005 para definir estructuras y modelos de minería de datos. Puede administrar objetos de minería de datos y crear predicciones y consultas mediante SQL Server Management Studio. Cuando la solución esté completa, puede implementarla en una instancia de Analysis Services.

Proyectos y soluciones de minería de datos

Para crear un proyecto de minería de datos, debe definir los orígenes de datos y las estructuras y modelos de minería de datos. El proyecto de minería de datos que cree también puede contener conjuntos de pruebas para validar el modelo. Después de haber implementado un proyecto en el servidor, puede continuar desarrollando y probando nuevos modelos en la solución original.

Datos de origen de la minería de datos

No es necesario usar un cubo u otro origen de datos especializado para realizar la minería de datos. La minería de datos se puede llevar a cabo rápida y fácilmente en tablas de datos relacionales, o en cualquier otro origen de datos que se haya definido como una vista del origen de datos de Analysis Services. Los datos que se usan en la minería de datos no se almacenan en la solución de minería de datos; solo se almacenan los enlaces. Los datos podrían residir en una base de datos creada en una versión anterior de SQL Server, en un sistema CRM o incluso en un archivo plano. Una vista del origen de datos de Analysis Services le permite mezclar varios orígenes de datos especificando combinaciones entre varias tablas. También puede agregar tablas que tienen una relación de varios a uno para crear columnas de tabla anidadas.

Cuando se necesita usar los datos en la solución de minería de datos, Analysis Services lee los datos del origen y genera una caché de agregados y otra información necesaria. Puede conservar la información almacenada en memoria caché y usarla para crear nuevos modelos de minería de datos, o puede eliminarla para ahorrar espacio de almacenamiento.

Puede actualizar continuamente su solución de minería de datos con nuevos datos o, si encuentra un modelo que funcione bien, puede implementar el modelo tal como está y no agregar nunca nuevos datos.

SQL Server 2008 Analysis Services también proporciona la capacidad de separar los datos en conjuntos de datos de prueba y de entrenamiento, para que pueda probar sus modelos de minería de datos en un conjunto de datos representativo y seleccionado de forma aleatoria.

Para obtener más información acerca de cómo crear y usar orígenes de datos y vistas del origen de datos de Analysis Services, vea Definir orígenes de datos (Analysis Services).

Estructuras de minería de datos

Una estructura de minería de datos es una estructura de datos lógica que define el dominio de datos a partir del cual se generan los modelos de minería de datos. Una misma estructura de minería de datos puede admitir varios modelos de minería de datos que comparten el mismo dominio. La estructura de minería de datos también se puede dividir en un conjunto de pruebas y un conjunto de entrenamiento, especificando un porcentaje o una cantidad de datos como un HOLDOUT. Este particionamiento se puede realizar automáticamente al definir la estructura de minería de datos

Para obtener más información, vea Estructuras de minería de datos (Analysis Services - Minería de datos).

Una estructura de minería de datos puede contener tablas anidadas. Una tabla anidada proporciona detalles adicionales sobre el caso que se modela en la tabla de datos principal. Para obtener más información, vea Tablas anidadas (Analysis Services - Minería de datos)

Modelos de minería de datos

Un modelo de minería de datos representa una combinación de datos, un algoritmo de minería de datos y una colección de parámetros y configuraciones de filtro que afectan a los datos usados y a la forma en la que se procesan. Para obtener más información, vea Modelos de minería de datos (Analysis Services - Minería de datos).

Puede definir un modelo de minería de datos con el lenguaje DMX (Extensiones de minería de datos) o mediante el Asistente para minería de datos de BI Development Studio. Para obtener más información sobre cómo utilizar el Asistente para minería de datos, vea Asistente para minería de datos (Analysis Services - Minería de datos). Para obtener más información sobre cómo utilizar DMX, vea Referencia de Extensiones de minería de datos (DMX).

Una vez definida la estructura del modelo de minería de datos, la procesará rellenando la estructura vacía con los patrones que describen el modelo. Esto se conoce como entrenar el modelo. Los patrones se encuentran al pasar los datos originales por un algoritmo matemático. Puede usar parámetros para ajustar cada algoritmo. Para obtener más información sobre cómo seleccionar un algoritmo de minería de datos, vea Algoritmos de minería de datos (Analysis Services: Minería de datos). Para obtener más información sobre cómo establecer parámetros en algoritmos de minería de datos individuales para ajustar los resultados de un modelo, vea Personalizar un modelo de minería de datos (Analysis Services - Minería de datos).

A medida que genera nuevos modelos de minería de datos, debe probarlos de forma iterativa realizando predicciones y, a continuación, efectuar los cambios necesarios para mejorar los resultados. Los cambios pueden incluir la adición de datos o la modificación de los parámetros del modelo para conseguir un mejor ajuste con los datos. Para obtener información sobre cómo probar la precisión de las predicciones, vea Validar modelos de minería de datos (Analysis Services - Minería de datos).

Implementación

El objetivo definitivo del desarrollo de la minería de datos es crear un modelo que puedan usar tanto los usuarios finales como los analistas para realizar predicciones y llevar a cabo análisis detallados. Por lo tanto, cuando esté satisfecho con los resultados generados por un modelo, podrá implementarlo en un entorno de producción. Es este tipo de entorno, los modelos de minería de datos podrían usarse para distintos propósitos, dependiendo de sus necesidades. La lista siguiente proporciona algunos ejemplos de tareas que puede realizar mediante un modelo de minería de datos:

Usar los modelos para crear predicciones que pueda utilizar en la toma de decisiones empresariales. SQL Server ofrece el lenguaje DMX, que puede utilizar para crear consultas de predicción, y el Generador de consultas de predicción, que le ayuda a generar las consultas.
Incrustar la funcionalidad de minería de datos directamente en una aplicación. Puede incluir Objetos de administración de análisis (AMO) o un ensamblado que contenga un conjunto de objetos que la aplicación pueda utilizar para crear, cambiar, procesar y eliminar estructuras y modelos de minería de datos. También puede enviar mensajes XML for Analysis (XMLA) directamente a una instancia de Analysis Services.
Utilizar Integration Services para crear un paquete en el que se utilice un modelo de minería de datos para separar de forma inteligente los datos entrantes en varias tablas. Por ejemplo, si una base de datos se actualiza continuamente con clientes potenciales, puede utilizar un modelo de minería de datos junto con Integration Services para dividir los datos entrantes en clientes que probablemente compren un producto y clientes que probablemente no compren un producto.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente. Es posible que los usuarios deseen crear distintas predicciones, o que los analistas deseen tener acceso directo al contenido del modelo de minería de datos para poder explorar patrones interesantes en los datos.

La actualización del modelo forma parte de la estrategia de implementación. A medida que la organización recibe más datos, debe volver a procesar los modelos para mejorar así su eficacia. Para obtener más información, vea Implementación (Analysis Services - Minería de datos) y Crear consultas de predicción DMX