Asistente para minería de datos (Analysis Services - Minería de datos)

El Asistente para minería de datos de Microsoft SQL Server Analysis Services se ejecuta cada vez que se agrega una nueva estructura de minería de datos a un proyecto de minería de datos. Ayuda a definir estructuras de minería de datos nuevas y elige los orígenes de datos que se utilizarán para la minería de datos. El asistente también puede crear particiones para los datos de la estructura de minería de datos en conjuntos de pruebas y entrenamiento, y ayuda a agregar un modelo de minería de datos inicial para cada estructura.

El contenido de una estructura de minería de datos se deriva de una vista de origen de datos o de un cubo existentes. Puede elegir qué columnas desea incluir en la estructura de minería de datos. Todos los modelos que están basados en esa estructura pueden utilizar esas columnas. Puede permitir a los usuarios de un modelo de minería de datos explorar en profundidad los resultados del modelo para ver columnas adicionales de la estructura de minería de datos que no se incluyeron en el propio modelo de minería de datos.

Debe tomar las decisiones siguientes a la hora de crear una estructura y un modelo de minería de datos mediante el Asistente para minería de datos:

  • Si va a generar la estructura y los modelos de minería de datos desde una base de datos relacional o desde un cubo existente de una base de datos OLAP.

  • Cuántos datos se utilizarán para el entrenamiento y cuántos datos se dejarán para la prueba. Al crear particiones de una estructura de minería de datos en conjuntos de prueba y entrenamiento, todos los modelos que estén basados en esa estructura podrán utilizar ese conjunto de prueba.

  • Qué columnas o atributos se utilizarán para la predicción y qué columnas o atributos se utilizarán como entrada para el análisis. Cada estructura también debe contener una clave que identifique de forma única al registro del caso.

  • Qué algoritmo utilizar. Los algoritmos proporcionados en SQL Server Analysis Services tienen características diferentes y generan resultados distintos. Puede crear varios modelos utilizando los diferentes algoritmos o cambiar los parámetros de los algoritmos para crear modelos distintos. .

El Asistente para minería de datos proporciona toda la funcionalidad necesaria para ayudarle a tomar estas decisiones:

  • Páginas del asistente en las que va a definir el conjunto de casos. Puede elegir tablas de casos y tablas anidadas de un origen de datos relacional, o elegir un origen de datos OLAP, seleccionar después las columnas de nivel de caso y de clave de caso, y establecer a continuación filtros en el cubo, si lo desea.

  • Cuadros de diálogo que analizan los datos de las columnas y recomiendan un uso para dichas columnas.

  • Detección automática del contenido y los tipos de datos de columna.

  • Segmentación automática del cubo, si el modelo de minería de datos se basa en un origen de datos OLAP.

Después de completar el Asistente para minería de datos, puede utilizar el Diseñador de minería de datos para modificar la estructura y los modelos de minería de datos, ver la precisión del modelo, ver las características de la estructura y de los modelos, o realizar predicciones utilizando los modelos.

Para obtener más información:Diseñador de minería de datos

Usar el Asistente para minería de datos

Para iniciar el Asistente para minería de datos, agregue una nueva estructura de minería de datos a un proyecto de Analysis Services usando el Explorador de soluciones o el menú Proyecto de Business Intelligence Development Studio.

El Asistente para minería de datos tiene dos bifurcaciones, dependiendo de si el origen de datos es relacional o está en un cubo:

  • Modelos relacionales de minería de datos

  • Modelos OLAP de minería de datos

Nota

No necesita tener un cubo o una base de datos OLAP para realizar minería de datos. A menos que los datos ya estén almacenados en un cubo o desee minar las dimensiones OLAP o los resultados de agregaciones o cálculos OLAP, se recomienda usar una tabla relacional o un origen de datos para la minería de datos.

Modelos relacionales de minería de datos

Cuando se crea un modelo de minería de datos desde un origen de datos relacional de Analysis Services, previamente se especifica en el Asistente para minería de datos que se desea usar una base de datos relacional para definir la estructura del modelo. También tiene la opción de crear únicamente la estructura de minería de datos, o crear la estructura de minería de datos y un modelo de minería de datos asociado. Si elige crear un modelo de minería de datos, deberá especificar la técnica de minería de datos que se va a utilizar, seleccionando el algoritmo más apropiado para el tipo de análisis de minería de datos que se desea.

Para obtener más información:Algoritmos de minería de datos (Analysis Services: Minería de datos)

Especificar la vista de origen de datos y los tipos de tablas

Los siguientes pasos en el asistente consisten en seleccionar la vista de origen de datos específica que se desea usar para definir la estructura de minería de datos y en especificar una tabla de casos. La tabla de casos se utilizará para entrenar el modelo de minería de datos y opcionalmente para probarlo. También puede especificar una tabla anidada.

Seleccionar la tabla de casos es una decisión importante. La tabla de casos debería contener las entidades que desea analizar: por ejemplo, clientes y su información demográfica. Normalmente, la tabla anidada contiene información adicional sobre las entidades de la tabla de casos, como las transacciones realizadas por el cliente o los atributos que tienen una relación de varios a uno con la entidad. Por ejemplo, una tabla anidada combinada con la tabla de casos Customers puede incluir una lista de los productos comprados por cada cliente, o una lista de aficiones. Para obtener más información:Tablas anidadas (Analysis Services - Minería de datos)

Especificar el uso de columnas

Después de especificar la tabla de casos y las tablas anidadas, determina el tipo de uso de cada columna de las tablas que se incluirán en la estructura de minería de datos. Si no define un tipo de uso para una columna, ésta no se incluirá en la estructura de minería de datos.

Las columnas de minería de datos pueden ser de cuatro tipos: de clave, de entrada, de predicción o una combinación de entrada y predicción. Las columnas de clave contiene un único identificador para cada fila de una tabla. Algunos modelos de minería de datos, como los que se basan en la agrupación en clústeres de secuencia o en algoritmos de serie temporal, pueden contener varias columnas de clave. Sin embargo, estas claves no son claves compuestas en el sentido relacional, pero deben seleccionarse de esta forma para proporcionar soporte a las series temporales y al análisis de agrupación en clústeres de secuencia. Para obtener más información, vea Algoritmo de serie temporal de Microsoft o Algoritmo de clústeres de secuencia de Microsoft.

Las columnas de entrada proporcionan la información desde la cual se crean las predicciones. Las columnas de predicción contienen la información que se intenta predecir en el modelo de minería de datos.

Por ejemplo, una serie de tablas puede contener los identificadores de los clientes, información demográfica y la cantidad de dinero que cada cliente gasta en una tienda determinada. El identificador de cliente define de forma única el cliente y también relaciona la tabla de casos con las tablas anidadas; por lo tanto, se podría utilizar como columna de clave. Puede usar una selección de columnas de información demográfica como columnas de entrada, y la columna que describe la cantidad de dinero que gasta cada cliente como columna de predicción. De esta forma, podría crea un modelo de minería de datos que relacione los datos demográficos con la cantidad de dinero que un cliente gasta en una tienda. Puede usar este modelo como base para la comercialización directa.

El Asistente para minería de datos ofrece la característica Sugerir, que se habilita cuando se selecciona una columna de predicción. Los conjuntos de datos contienen, a menudo, más columnas de las que necesita para generar el modelo de minería de datos. La característica Sugerir calcula una puntuación numérica, de 0 a 1, que describe la relación de cada columna del conjunto de datos con la columna de predicción. Basándose en esta puntuación, la característica sugiere las columnas que se pueden usar como entrada para el modelo de minería de datos. Si utiliza la característica Sugerir, puede usar las columnas sugeridas, modificar las selecciones para que se ajusten a sus necesidades o pasar por alto las sugerencias.

Especificar el contenido y los tipos de datos

Después de seleccionar una o más columnas de predicción y de entrada, puede especificar el contenido y los tipos de datos de cada columna.

Para obtener más información:Tipos de datos (minería de datos), Tipos de contenido (minería de datos)

Dividir datos en conjuntos de entrenamiento y de prueba

El paso final antes de completar el asistente es crear particiones de sus datos en conjuntos de prueba y de entrenamiento. La capacidad de ofrecer una parte de los datos para la prueba es nuevo en SQL Server 2008 y proporciona un mecanismo sencillo para asegurarse de que un conjunto de datos de pruebas esté disponible para su uso con todos los modelos de minería asociados a la nueva estructura de minería de datos.

Puede especificar que un cierto porcentaje de los datos se utilice para pruebas, y el restante para entrenamiento. También puede especificar el número de casos que se han de utilizar para pruebas. La definición de la partición se almacena junto con la estructura de minería de datos, para que siempre que cree un nuevo modelo basado en la estructura, el conjunto de datos de pruebas esté disponible para evaluar la precisión del modelo.

Para obtener más información: Validar modelos de minería de datos (Analysis Services - Minería de datos), Crear particiones de los datos en conjuntos de entrenamiento y de pruebas (Analysis Services - Minería de datos)

Finalizar el Asistente

El último paso del asistente es dar nombre a la estructura de minería de datos y al modelo asociado. Si selecciona Permitir obtención de detalles, habilitará la funcionalidad de obtención de detalles del modelo. Esto permitirá a los usuarios que tengan los permisos adecuados explorar los datos de origen que se utilizan para generar el modelo.

Para obtener más información:Usar la obtención de detalles en los modelos y estructuras de minería (Analysis Services - Minería de datos)

Volver al principio

Modelos OLAP de minería de datos

Cuando se crea un modelo de minería de datos multidimensional desde un origen de datos OLAP de Analysis Services, previamente se especifica en el Asistente para minería de datos que se desea usar un cubo existente para definir la estructura del modelo. Tiene la opción de crear únicamente la estructura de minería de datos o crear la estructura de minería de datos además de un modelo de minería de datos asociado. Si decide crear un modelo de minería, debe especificar la técnica de minería de datos que desea utilizar, seleccionando el algoritmo que sea más adecuado para su problema.

Para obtener más información:Algoritmos de minería de datos (Analysis Services: Minería de datos)

Especificar el origen de datos y la clave de caso

A continuación, se selecciona la dimensión de cubo que se va a utilizar como origen de datos para definir la estructura de minería de datos. Después, se selecciona un atributo que se va a usar como la clave, o clave de caso, del modelo de minería de datos.

Nota

El modelo de minería de datos OLAP que se crea y el cubo de origen que se utiliza para crear el modelo deben encontrarse en la misma base de datos de Analysis Services.

Especificar las columnas de nivel de caso y el uso de columnas

Después de seleccionar una clave de caso, los atributos y las medidas asociadas con la clave aparecerán en una vista de árbol en la siguiente página del asistente. En esta lista, selecciona los atributos y las medidas que se van a usar como las columnas de la estructura. Estas columnas se conocen como columnas de nivel de caso. Como en el modelo relacional, también debe especificar cómo se va a utilizar cada columna de la estructura. Esto se puede hacer en la siguiente página del asistente. Las columnas pueden ser de clave, de entrada, de predicción, de entrada y predicción o no seleccionado.

Agregar tablas anidadas

La bifurcación OLAP del Asistente para minería de datos incluye la opción de agregar tablas anidadas a la estructura del modelo de minería de datos. En la página Especificar el uso de las columnas del modelo de minería de datos del asistente, haga clic en Agregar tablas anidadas para abrir un cuadro de diálogo independiente que le guiará por los pasos para agregar tablas anidadas. Sólo aparecen los grupos de medida que se aplican a la dimensión. Seleccione un grupo de medida que contenga la clave externa de la dimensión de caso. Después, especifique el uso de cada columna del grupo de medida, ya sea de entrada o de predicción. El asistente agregará la tabla anidada a la tabla de casos. El nombre predeterminado de la tabla anidada es el nombre de la dimensión anidada, pero puede dar otro nombre a esta tabla y a sus columnas. Para obtener más información:Tablas anidadas (Analysis Services - Minería de datos)

Especificar el contenido y los tipos de datos

Después de seleccionar una o más columnas de predicción y de entrada, puede especificar el contenido y los tipos de datos de cada columna.

Para obtener más información:Tipos de datos (minería de datos), Tipos de contenido (minería de datos)

Segmentar el cubo de origen

En la bifurcación OLAP del asistente, puede limitar el ámbito del modelo de minería de datos mediante la segmentación del cubo de origen antes de entrenar el modelo. Segmentar un cubo es similar a agregar una cláusula WHERE a una instrucción SQL. Por ejemplo, si un cubo contiene información sobre la compra de productos, podría limitar un atributo de edad a más de 30, una columna de género a solo mujer, y una fecha de compra que no sea anterior a marzo de 2000. De este modo, puede limitar el modelo para que abarque el ámbito de una mujer de más de 30 años de edad y que haya comprado un producto después de marzo de 2000.

Dividir datos en conjuntos de entrenamiento y de prueba

El paso final antes de completar el asistente es crear particiones de los datos que están disponibles en el cubo para generar conjuntos de prueba y entrenamiento. La definición de la partición se almacena junto con la estructura de minería de datos, para que siempre que cree un nuevo modelo basado en la estructura, el conjunto de datos de pruebas esté disponible para evaluar la precisión del modelo.

Para obtener más información: Validar modelos de minería de datos (Analysis Services - Minería de datos), Crear particiones de los datos en conjuntos de entrenamiento y de pruebas (Analysis Services - Minería de datos)

Finalizar el Asistente

El último paso del asistente es dar nombre a la estructura de minería de datos y al modelo asociado. Si selecciona Permitir obtención de detalles, habilitará la funcionalidad de obtención de detalles del modelo. Esto permitirá a los usuarios que tengan los permisos adecuados explorar los datos de origen que se utilizan para generar el modelo. También puede especificar si desea agregar una nueva dimensión al cubo de origen que se basa en el modelo de minería de datos o crear un nuevo cubo desde el modelo de minería de datos.

Para obtener más información:Usar la obtención de detalles en los modelos y estructuras de minería (Analysis Services - Minería de datos)

Volver al principio