Proyectos de minería de datos

Un proyecto de minería de datos forma parte de una solución de Analysis Services. Durante el proceso de diseño, los objetos que crea en este proyecto están disponibles para probarlos y consultarlos como parte de una base de datos del área de trabajo. Cuando desee que los usuarios puedan consultar o examinar los objetos del proyecto, debe implementarlo en una instancia de Analysis Services que se ejecute en modo multidimensional.

En este tema se proporciona la información básica necesaria para comprender y crear proyectos de minería de datos.

Crear proyectos de minería de datos

Objetos de proyectos de minería de datos

  • Orígenes de datos

  • Vistas del origen de datos

  • Estructuras de minería de datos

  • Modelos de minería de datos

Usar el proyecto completado de minería de datos

  • Ver y explorar modelos

  • Probar y validar modelos

  • Crear predicciones

Acceso a proyectos de minería de datos mediante programación

Crear proyectos de minería de datos

En SQL Server Data Tools (SSDT), los proyectos se crean con la plantilla Proyecto de minería de datos y OLAP . También puede crear proyectos de minería de datos mediante programación, mediante AMO. Los objetos individuales de minería de datos pueden crearse usando el lenguaje de scripting de Analysis Services (ASSL). Para obtener más información, vea Acceso a datos de modelos multidimensionales (Analysis Services: datos multidimensionales).

Si crea un proyecto de minería de datos en una solución existente, de forma predeterminada los objetos de minería de datos se implementan en una base de datos de Analysis Services con el mismo nombre que el archivo de solución. Puede cambiar este nombre y el servidor de destino mediante el cuadro de diálogo Propiedades del proyecto. Para obtener más información, vea Configurar las propiedades de un proyecto de Analysis Services (SSDT).

Nota de advertenciaAdvertencia

Para generar e implementar correctamente el proyecto, debe tener acceso a una instancia de Analysis Services que se ejecute en modo de minería de datos y OLAP. No puede desarrollar ni implementar soluciones de minería de datos en una instancia de Analysis Services que admita modelos tabulares, ni puede utilizar directamente los datos de un libro PowerPivot o de un modelo tabular que use el almacén de datos en memoria. Para determinar si la instancia de Analysis Services que tiene admite la minería de datos, vea Determinar el modo de servidor de una instancia de Analysis Services.

Dentro de cada proyecto de minería de datos que cree, seguirá estos pasos:

  1. Elija un origen de datos, como un cubo, una base de datos o incluso archivos de texto o de Excel, que contenga los datos sin formato que utilizará para generar los modelos.

  2. Defina un subconjunto de los datos del origen de datos que se usarán para el análisis y guárdelos como vista del origen de datos.

  3. Defina una estructura de minería de datos para el modelado.

  4. Agregue modelos de minería de datos a la estructura de minería de datos, elija un algoritmo y especifique el modo en que el algoritmo controlará los datos.

  5. Entrene los modelos rellenándolos con los datos seleccionados o con un subconjunto filtrado de los datos.

  6. Explore, pruebe y genere modelos.

Cuando el proyecto esté completo, puede implementarlo para que los usuarios lo examinen o lo consulten, o puede proporcionar acceso mediante programación a los modelos de minería de datos en una aplicación, para permitir las predicciones y el análisis.

Volver al principio

Objetos de proyectos de minería de datos

Todos los proyectos de minería de datos contienen los cuatro tipos siguientes de objetos. Puede tener varios objetos de todos los tipos.

  • Orígenes de datos

  • Vistas del origen de datos

  • Estructuras de minería de datos

  • Modelos de minería de datos

Por ejemplo, un solo proyecto de minería de datos puede contener una referencia a varios orígenes de datos y cada origen de datos puede admitir varias vistas del origen de datos. A su vez, cada vista del origen de datos puede admitir varias estructuras de minería de datos, cada una con varios modelos de minería de datos relacionados.

Además, el proyecto puede incluir algoritmos de complemento, ensamblados personalizados o procedimientos almacenados personalizados; sin embargo, estos objetos no se describen aquí. Para obtener más información, vea Guía del desarrollador (Analysis Services).

Volver al principio

Orígenes de datos

El origen de datos define la cadena de conexión e información de autenticación que el servidor Analysis Services utilizará para conectarse al origen de datos. El origen de datos puede contener varias varias tablas o vistas; puede ser tan simple como un único libro de Excel o un archivo de texto, o tan complejo como una base de datos de procesamiento analítico en línea (OLAP) o una base de datos relacional grande.

Un solo proyecto de minería de datos puede hacer referencia a varios orígenes de datos. Aunque un modelo de minería de datos puede utilizar un origen de datos cada vez, el proyecto podría tener varios modelos que dibujen en orígenes de datos diferentes.

Analysis Services admite datos de muchos proveedores externos y la minería de datos de SQL Server puede usar tanto los datos relacionales como los datos de cubo como origen de datos. Sin embargo, si desarrolla ambos tipos de proyecto (modelos basados en orígenes relacionales y modelos basados en cubos OLAP), puede que desee desarrollarlos y administrarlos en proyectos diferentes.

  • Normalmente, los modelos que se basaban en un cubo OLAP se deben desarrollar dentro de la solución de diseño OLAP. Una razón es que los modelos basados en un cubo deben procesar el cubo para actualizar los datos. Generalmente, debe utilizar los datos de un cubo solo cuando ese sea el medio principal de almacenamiento y acceso de los datos, o cuando se requieran agregaciones, dimensiones y atributos creados por el proyecto multidimensional.

  • Si el proyecto usa datos relacionales, solo debe crear modelos relacionales en un proyecto independiente, de modo que no vuelva a procesar innecesariamente otros objetos. En muchos casos, la base de datos de ensayo o el almacenamiento de datos utilizado para admitir la creación del cubo ya contiene las vistas que se necesitan para realizar la minería de datos y puede utilizar estas vistas para la minería de datos en lugar de las agregaciones y las dimensiones del cubo.

  • No puede usar los datos en memoria o PowerPivot directamente para crear modelos de minería de datos.

El origen de datos solo identifica el servidor o el proveedor y el tipo general de los datos. Si tiene que cambiar las agregaciones y el formato de los datos, utilice el objeto de vista del origen de datos.

Para controlar la manera en que los datos del origen de datos se controlan, puede agregar columnas derivadas o cálculo, modificar los agregados o cambiar el nombre de las columnas de datos en la vista del origen de datos. (También puede trabajar con los datos de nivel inferior, modificando las columnas de la estructura de minería de datos o empleando marcas de modelado y filtros en la columna de minería de datos).

Si se requiere una limpieza de los datos o los datos del almacén de datos deben modificarse para crear variables adicionales, cambiar los tipos de datos o crear agregaciones alternativas, puede que tenga que crear tipos de proyecto adicionales que sirvan para la minería de datos. Para obtener más información acerca de estos proyectos relacionados, vea Proyectos relacionados en las soluciones de minería de datos.

Volver al principio

Vistas del origen de datos

Después de definir esta conexión a un origen de datos, crea una vista que identifica los datos concretos pertinentes para el modelo.

La vista del origen de datos también le permite personalizar la manera en que los datos del origen de datos se proporcionan al modelo de minería de datos. Puede modificar la estructura de los datos para hacerla más pertinente para el proyecto o elegir únicamente ciertos tipos de datos.

Por ejemplo, mediante el Asistente para vistas del origen de datos, puede:

  • Crear columnas derivadas, como partes, subcadenas, etc.

  • Agregar valores mediante instrucciones de Transact-SQL como GROUP BY

  • Restringir los datos temporalmente o los datos de ejemplo

Para obtener más información sobre cómo puede modificar datos en una vista del origen de datos, vea Vistas del origen de datos en modelos multidimensionales.

Nota de advertenciaAdvertencia

Si desea filtrar los datos, puede hacerlo en la vista del origen de datos, pero también puede crear filtros en los datos en el nivel del modelo de minería de datos. Dado que la definición del filtro se almacena junto con el modelo de minería de datos, el uso de filtros de modelo facilita más determinar los datos que se utilizaron para entrenar el modelo. Además, puede crear varios modelos relacionados, con diversos criterios de filtro. Para obtener más información, vea Filtros para modelos de minería (Analysis Services - Minería de datos).

Observe que la vista del origen de datos que cree puede contener datos adicionales que no se usen directamente para el análisis. Por ejemplo, puede agregar a la vista del origen de datos los datos que se utilizan para las pruebas, las predicciones o para la obtención de detalles. Para obtener más información acerca de estos usos, vea Prueba y validación (minería de datos) y Obtención de detalles.

Volver al principio

Estructuras de minería de datos

Cuando haya creado la vista del origen de datos y el origen de datos, debe seleccionar las columnas de datos que sean más pertinentes para el problema de negocio definiendo estructuras de minería de datos dentro del proyecto. Una estructura de minería de datos indica al proyecto qué columnas de datos de la vista del origen de datos se deben utilizar realmente en el modelado, el entrenamiento y las pruebas.

Para agregar una nueva estructura de minería de datos, inicie el Asistente para minería de datos. El asistente define de forma automática una estructura de minería de datos, le guía por el proceso de elección de los datos y, si lo desea, le permite agregar un modelo de minería de datos inicial a la estructura. En la estructura de minería de datos, elija las tablas y columnas de la vista del origen de datos o de un cubo OLAP, y defina relaciones entre las tablas, si los datos incluyen tablas anidadas.

La elección de los datos será muy diferente en el Asistente para minería de datos, en función de si utiliza orígenes de datos relacionales o de procesamiento analítico en línea (OLAP).

  • Si elige datos de un origen de datos relacional, la configuración de una estructura de minería de datos es fácil: elija las columnas de datos en la vista del origen de datos y establezca personalizaciones adicionales como alias o defina el modo en que los valores de la columna deberían agruparse o discretizarse. Para obtener más información, vea Crear una estructura de minería de datos relacional.

  • Si usa los datos de un cubo OLAP, la estructura de minería de datos debe estar en la misma base de datos que la solución OLAP. Para crear una estructura de minería de datos, puede seleccionar atributos de las dimensiones y las medidas relacionadas en la solución OLAP. Los valores numéricos se encuentran normalmente en las medidas y las variables de categorías en las dimensiones. Para obtener más información, vea Crear una estructura de minería de datos OLAP.

  • También puede definir estructuras de minería de datos mediante DMX. Para obtener más información, vea Instrucciones de definición de datos de Extensiones de minería de datos (DMX).

Después de crear la estructura de minería de datos inicial, puede copiar, modificar y crear alias de las columnas de la estructura.

Cada estructura de minería de datos puede contener varios modelos de minería de datos. Por tanto, cuando termine, puede abrir la estructura de minería de datos de nuevo y utilizar Diseñador de minería de datos para agregar más modelos de minería de datos a la estructura.

También tiene la opción de separar los datos en un conjunto de datos de entrenamiento, que se usan para generar modelos y un conjunto de datos de exclusión para usarlos al probar o validar los modelos de minería de datos.

Nota de advertenciaAdvertencia

Algunos tipos de modelo, como los modelos de serie temporal, no admiten la creación de conjuntos de datos de exclusión que requieren una serie continua de datos para el entrenamiento. Para obtener más información, vea Conjuntos de datos de entrenamiento y de prueba.

Volver al principio

Modelos de minería de datos

El modelo de minería de datos define el algoritmo o método de análisis que utilizará en los datos. Para cada estructura de minería de datos, agrega uno o varios modelos de minería de datos.

Según sus necesidades, puede combinar varios modelos en un solo proyecto o crear proyectos distintos para cada tipo de tarea analítica o modelo.

Una vez creada una estructura y un modelo, procese cada modelo ejecutando los datos de la vista del origen de datos a través del algoritmo, lo que genera un modelo matemático de los datos. Este proceso también se conoce como entrenar el modelo. Para obtener más información, vea Requisitos y consideraciones de procesamiento (minería de datos).

Una vez procesado el modelo, a continuación puede explorar visualmente el modelo de minería de datos y crear las consultas de predicción con él. Si los datos del proceso de entrenamiento se almacenan en la memoria caché, puede utilizar las consultas de obtención de detalles para devolver información detallada sobre los casos que se usan en el modelo.

Si desea usar un modelo de producción (por ejemplo, para usarlo en la realización de predicciones, o para la exploración de los usuarios en general) puede implementar el modelo en un servidor diferente. Si necesita volver a procesar el modelo en el futuro, también debe exportar la definición de la estructura de minería de datos subyacente (y, necesariamente, la definición del origen de datos y de la vista del origen de datos) al mismo tiempo.

Al implementar un modelo, también debe asegurarse de que las opciones de procesamiento correctas están establecidas en la estructura y el modelo, y de que los posibles usuarios tienen los permisos que necesitan para realizar consultas, ver modelos u obtener detalles para estructurar o modelar los datos. Para obtener más información, vea Información general de Seguridad (minería de datos).

Volver al principio

Usar el proyecto completado de minería de datos

En esta sección se resumen las formas en que puede utilizar el proyecto completado de minería de datos. Puede crear gráficos de precisión, explorar y validar los datos, y colocar los modelos de minería de datos a disposición de los usuarios.

Nota de advertenciaAdvertencia

Los gráficos, las consultas y las visualizaciones que se utilizan con los modelos de minería de datos no se guardan como parte del proyecto de minería de datos y no se pueden implementar. Si necesita conservar estos objetos, debe guardar el contenido que se muestra o escribirlo tal como se describió para cada objeto.

Volver al principio

Ver y explorar modelos

Después de crear un modelo, puede utilizar herramientas visuales y consultas para explorar los patrones del modelo y para obtener más información sobre los patrones y las estadísticas subyacentes. En la pestaña Visor de modelos de minería de datos en el Diseñador de minería de datos, Analysis Services proporciona visores para cada tipo de modelo de minería de datos, que puede utilizar para explorar los modelos.

Estas visualizaciones son temporales y se cierran sin guardar cuando se cierra la sesión con Analysis Services. Por consiguiente, si necesita exportar estas visualizaciones a otra aplicación para mostrarlas o realizar un análisis adicional, utilice los comandos Copiar que se proporcionan en cada pestaña o panel de la interfaz del visor.

Los Complementos de minería de datos de Excel también proporcionan una plantilla de Visio que puede utilizar para representar modelos en un diagrama de Visio y para comentar y modificar el diagrama mediante las herramientas de Visio. Para obtener más información, vea Complementos de minería de datos para Excel.

Volver al principio

Probar y validar modelos

Después de crear un modelo, puede investigar los resultados y decidir qué modelos se comportan mejor.

Analysis Services proporciona varios gráficos que puede usar para proporcionar las herramientas que permiten comparar directamente los modelos de minería de datos y elegir el más preciso o útil. Estas herramientas incluyen un gráfico de elevación, el gráfico de beneficios y una matriz de clasificación. Puede generar estos gráficos utilizando la pestaña Gráfico de precisión de minería de datos del Diseñador de minería de datos.

También puede utilizar el informe de validación cruzada para realizar un submuestreo reiterativo de los datos y determinar si el modelo se inclina a un conjunto determinado de datos. Las estadísticas que el informe proporciona se pueden utilizar para comparar objetivamente los modelos y evalúa la calidad de los datos de entrenamiento.

Tenga en cuenta que estos informes y gráficos no se almacenan con el proyecto o en la base de datos de Analysis Services, por lo que, si necesita mantener o duplicar los resultados, debe guardar los resultados o escribir los objetos utilizando DMX o AMO. También puede utilizar procedimientos almacenados para la validación cruzada.

Para obtener más información, vea Prueba y validación (minería de datos).

Volver al principio

Crear predicciones

Analysis Services ofrece un lenguaje de consulta denominado Extensiones de minería de datos (DMX) que es la base para crear predicciones y es fácilmente convertible en scripts. Para ayudarle a generar consultas de predicción DMX, SQL Server proporciona un generador de consultas, disponible en SQL Server Management Studio. También hay muchas plantillas DMX para el editor de consultas en SQL Server Management Studio. Si no está familiarizado con las consultas de predicción, se recomienda utilizar el generador de consultas que se proporciona en el Diseñador de minería de datos y SQL Server Management Studio. Para obtener más información, vea Herramientas de minería de datos.

Las predicciones que cree en SQL Server Data Tools (SSDT) o en SQL Server Management Studio no son persistentes, de modo que si las consultas son complejas o necesita reproducir los resultados, se recomienda que guarde las consultas de predicción en archivos de consulta DMX, los incluya en scripts o inserte las consultas como parte de un paquete de Integration Services.

Volver al principio

Acceso a objetos de minería de datos mediante programación

Analysis Services proporciona varias herramientas que puede usar para trabajar mediante programación con proyectos de minería de datos y con los objetos contenidos en ellas. El lenguaje DMX proporciona instrucciones que puede usar para crear orígenes de datos y vistas del origen de datos, y para crear, entrenar y usar estructuras y modelos de minería de datos. Para obtener más información, vea Referencia de Extensiones de minería de datos (DMX).

También puede llevar a cabo estas tareas mediante el Lenguaje de scripting de Analysis Services (ASSL) o bien usando Objetos de administración de análisis (AMO). Para obtener más información, vea Desarrollar con XMLA en Analysis Services.

Volver al principio

Tareas relacionadas

En los temas siguientes se describe el uso del Asistente para minería de datos para crear un proyecto de minería de datos y sus objetos asociados.

Tareas

Temas

Describe cómo trabajar con columnas de estructura de minería de datos

Crear una estructura de minería de datos relacional

Proporciona más información sobre cómo agregar nuevos modelos de minería de datos y procesar una estructura y los modelos

Agregar modelos de minería de datos a una estructura (Analysis Services - Minería de datos)

Proporciona vínculos a recursos que ayudan a personalizar los algoritmos que generan modelos de minería de datos

Personalizar la estructura y los modelos de minería de datos

Proporciona vínculos a información sobre cada uno de los visores de modelos de minería de datos

Visores de modelos de minería de datos

Proporciona información sobre cómo crear un gráfico de elevación, un gráfico de beneficios o una matriz de clasificación, o probar una estructura de minería de datos

Prueba y validación (minería de datos)

Proporciona información sobre los permisos y las opciones de procesamiento

Procesar objetos de minería de datos

Proporciona información acerca de Analysis Services

Bases de datos de modelos multidimensionales (SSAS)

Vea también

Conceptos

Diseñador de minería de datos

Crear modelos multidimensionales utilizando las herramientas de datos de SQL Server (SSDT)

Base de datos del área de trabajo (SSAS tabular)