Crear predicciones en un modelo de agrupación en clústeres de secuencia (Tutorial intermedio de minería de datos)

Después de examinar el modelo de agrupación en clústeres de secuencia en el visor y conocerlo más a fondo, puede crear consultas de predicción mediante el Generador de consultas de predicción de la pestaña Predicción de modelo de minería de datos del Diseñador de minería de datos. Para crear una predicción, seleccione primero el modelo de agrupación en clústeres de secuencia y, a continuación, seleccione los datos de entrada. Para las entradas, puede utilizar un origen de datos externo o puede crear una consulta singleton y proporcionar los valores en un cuadro de diálogo.

En esta lección se presupone que sabe utilizar el Generador de consultas de predicción y desea obtener información acerca de cómo se crean consultas específicas para un modelo de agrupación en clústeres de secuencia. Para obtener información general acerca de cómo se utiliza el Generador de consultas de predicción, vea Crear consultas de predicción DMX o la sección del tutorial básico de minería de datos Crear predicciones (Tutorial básico de minería de datos).

Crear predicciones en el modelo regional

En este escenario, primero creará algunas consultas de predicción singleton para hacerse una idea del modo en que las predicciones pueden variar según la región.

Para crear una consulta singleton en un modelo de agrupación en clústeres de secuencia

  1. Haga clic en la ficha Predicción de modelo de minería de datos del Diseñador de minería de datos.

  2. En el menú de columna Modelo de minería de datos , seleccione Consulta singleton.

    Se abren los paneles Modelo de minería de datos y Entrada de consulta singleton.

  3. En el panel Modelo de minería de datos, haga clic en Seleccionar modelo. (Puede omitir este paso si el agrupación en clústeres de secuencia ya está seleccionado).

    Se abrirá el cuadro de diálogo Seleccionar modelo de minería de datos.

  4. Expanda el nodo que representa la estructura de minería de datos Sequence Clustering with Region y seleccione el modelo Sequence Clustering with Region. Haga clic en Aceptar. De momento haga caso omiso al panel de entrada. Especificará los datos de entrada cuando haya configurado las funciones de predicción.

  5. En la cuadrícula, haga clic en una celda vacía de Origen y seleccione Función de predicción. En la celda de Campo, seleccione PredictSequence.

    Nota

    También puede utilizar la función Predict. Si lo hace, asegúrese de elegir la versión de la función Predict que toma una columna de tabla como argumento.

  6. En el panel Modelo de minería de datos, seleccione la tabla anidada v Assoc Seq Line Items y arrástrela hasta la cuadrícula, al cuadro Criterios o argumento de la función PredictSequence.

    Al arrastrar y colocar la tabla y los nombres de columna, podrá crear instrucciones complejas sin errores sintácticos. Sin embargo, se reemplazará el contenido actual de la celda, que contiene otros argumentos opcionales de la función PredictSequence. Para consultar los demás argumentos, puede agregar provisionalmente una segunda instancia de la función a la cuadrícula como referencia.

  7. Haga clic en el botón Resultado situado en la esquina superior del Generador de consultas de predicción.

Los resultados esperados contienen una única columna con el encabezado Expresión. La columna Expresión contiene una tabla anidada con tres columnas:

$SEQUENCE

Número de línea

Modelo

1

  

Mountain-200

¿Qué significan estos resultados? Recuerde que no especificó ninguna entrada. Por tanto, la predicción se realiza con todos los datos de casos rellenados, y Analysis Services devuelve la predicción que, en términos generales, es más probable.

Agregar entradas a una consulta de predicción singleton

Hasta ahora, no había especificado ninguna entrada. En la tarea siguiente, usará el recuadro Entrada de consulta singleton para especificar algunas entradas en la consulta. En primer lugar, usará [Region] como entrada del modelo de agrupación en clústeres de secuencia regional para determinar si las secuencias predichas son las mismas en todas las regiones. A continuación, aprenderá a modificar la consulta para agregar la probabilidad de cada predicción y simplificará los resultados para que resulte más sencillo consultarlos.

Para generar predicciones de un grupo de clientes concreto

  1. Haga clic en el botón Diseño situado en la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de generación de consultas.

  2. En el cuadro de diálogo Entrada de consulta singleton, haga clic en el cuadro Valor de Region y seleccione Europe.

  3. Haga clic en el botón Resultado para ver las predicciones de los clientes de Europa.

  4. Haga clic en el botón Diseño situado en la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de generación de consultas.

  5. En el cuadro de diálogo Entrada de consulta singleton, haga clic en el cuadro Valor de Region y seleccione North America.

  6. Haga clic en el botón Resultado para ver las predicciones de los clientes de Norteamérica.

Agregar probabilidades utilizando una expresión personalizada

Generar la probabilidad de cada predicción resulta algo más complicado, pues la probabilidad es un atributo de predicción y se genera como una tabla anidada. Si conoce las extensiones de minería de datos (DMX), puede modificar con facilidad la consulta y agregar una instrucción sub-SELECT a la tabla anidada. No obstante, también puede crear una instrucción sub-SELECT en el Generador de consultas de predicción mediante una expresión personalizada.

Para generar probabilidades de una secuencia de predicción utilizando una expresión personalizada

  1. Haga clic en el botón Diseño situado en la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de generación de consultas.

  2. En la cuadrícula, en Origen, haga clic en una nueva fila y seleccione Expresión personalizada.

  3. Deje en blanco el cuadro situado bajo Campo.

  4. En Alias, escriba t.

  5. En el cuadro Criterios o argumento, escriba la instrucción sub-SELECT completa tal y como aparece en el siguiente ejemplo de código. No olvide incluir los paréntesis de apertura y cierre.

    (SELECT PredictProbability([Model]) FROM PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]))
    
  6. Haga clic en el botón Resultado para ver las predicciones de los clientes de Europa.

Los resultados contienen dos tablas anidadas: una con la predicción y otra con la probabilidad de la predicción. Si la consulta no funciona, puede cambiar a la vista de diseño de consultas y revisar toda la instrucción de consulta, que debería ser como la siguiente:

SELECT
  PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]),
  ( (SELECT PredictProbability([Model]) FROM PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]))) as [t]
FROM
  [Sequence Clustering with Region]
NATURAL PREDICTION JOIN
(SELECT 'Europe' AS [Region]) AS t

Trabajar con resultados

Cuando hay muchas tablas anidadas en los resultados, es posible que desee simplificar los resultados para facilitar su consulta. Para ello, puede modificar la consulta manualmente y agregar la palabra clave FLATTENED.

Para simplificar los conjuntos de filas anidados de una consulta de predicción

  1. Haga clic en el botón Consulta situado en la esquina del Generador de consultas de predicción.

    La cuadrícula cambia a un panel abierto donde puede ver y modificar la instrucción DMX que creó el Generador de consultas de predicción.

  2. Después de la palabra clave SELECT, escriba FLATTENED.

    El texto completo de la consulta debería ser similar al siguiente:

    SELECT FLATTENED
      PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]),
      ( (SELECT PredictProbability([Model]) FROM PredictSequence([Sequence Clustering with Region].[v Assoc Seq Line Items]))) as [t]
    FROM
      [Sequence Clustering with Region]
    NATURAL PREDICTION JOIN
    (SELECT 'Europe' AS [Region]) AS t
    
  3. Haga clic en el botón Resultados situado en la esquina superior del Generador de consultas de predicción.

Después de editar la consulta manualmente, no podrá volver a la vista Diseño sin perder los cambios. Sin embargo, puede guardar la instrucción DMX que creó manualmente en un archivo de texto y, a continuación, cambiar de nuevo a la vista Diseño. Al hacer esto, la consulta se revierte a la última versión que fue válida en la vista Diseño.

Crear predicciones en el modelo relacionado

En los ejemplos anteriores se usó una columna de una tabla de casos, Region, como entrada de la consulta de predicción singleton, porque lo que se pretendía era saber si el modelo encontraba diferencias entre las regiones. Sin embargo, después de analizar el modelo, decidió que las diferencias no eran lo suficientemente sólidas como para justificar que las recomendaciones del producto se personalizaran según la región. Lo que realmente le interesa predecir son los artículos que seleccionan los clientes. Por tanto, en las consultas siguientes, empleará el modelo de agrupación en clústeres de secuencia que no incluye Region para generar las recomendaciones de todos los clientes.

Usar las columnas de una tabla anidada como entrada

En primer lugar, creará una consulta de predicción singleton que tome un único elemento como entrada y devuelva el siguiente elemento más probable. Para obtener una predicción de este tipo, deberá usar una columna de tabla anidada como valor de entrada. Esto se debe a que el atributo que está prediciendo, Model, forma parte de la tabla anidada. Analysis Services proporciona el cuadro de diálogo Entrada de tabla anidada para simplificar la creación de consultas de predicción a partir de atributos de tabla anidada mediante el Generador de consultas de predicción.

Para utilizar una tabla anidada como entrada de una predicción

  1. Haga clic en el botón Diseño situado en la esquina superior izquierda del Generador de consultas de predicción para volver a la cuadrícula de generación de consultas.

  2. En el cuadro de diálogo Entrada de consulta singleton, haga clic en el cuadro Valor de Region y seleccione la fila vacía para borrar la entrada de este campo.

  3. En el cuadro de diálogo Entrada de consulta singleton, haga clic en el cuadro Valor de vAssocSeqLineItems y, a continuación, haga clic en el botón (…).

  4. En el cuadro de diálogo Entrada de tabla anidada, haga clic en Agregar.

  5. En la nueva fila, haga clic en el cuadro situado bajo Modelo y seleccione Touring Tire en la lista. Haga clic en Aceptar.

  6. Haga clic en el botón Resultado para ver las predicciones.

El modelo recomienda los elementos siguientes para todos los clientes que eligen Touring Tire como primer artículo. Al examinar el modelo, ya sabe que los clientes compran con frecuencia los productos Touring Tire de y Touring Tire Tube juntos, por lo que estas recomendaciones parecen buenas.

$SEQUENCE

Número de línea

Modelo

1

  

Touring Tire Tube

2

  

Sport-100

3

  

Long-Sleeve Logo Jersey

Crear una consulta de predicción masiva utilizando entradas de una tabla anidada

Ahora que el modelo crea el tipo de predicciones adecuado, por lo que se puede utilizar para realizar recomendaciones, creará una consulta de predicción que se asignará a un origen de datos externo. Ese origen de datos proporcionará valores que representan los productos actuales. Dado que lo que le interesa es crear una consulta de predicción que proporcione un identificador de cliente y una lista de productos como entrada, incorporará la tabla de clientes como la tabla de casos y la tabla de compras como la tabla anidada. A continuación, agregará funciones de predicción, tal y como hizo anteriormente, para crear recomendaciones.

Este procedimiento es el mismo que el que utilizó para crear predicciones en el escenario de la cesta de compra de la lección 3; sin embargo, en un modelo de agrupación en clústeres de secuencia, las predicciones también necesitan el pedido como entrada.

Para crear una consulta de predicción usando las entradas de una tabla anidada

  1. En el recuadro Modelo de minería de datos, seleccione el modelo Sequence Clustering si aún no está seleccionado.

  2. En el cuadro de diálogo Seleccionar tabla(s) de entrada, haga clic en Seleccionar tabla de casos.

  3. En el cuadro de diálogo Seleccionar tabla, en Origen de datos, seleccione Orders. En la lista Nombre de tabla o vista, seleccione vAssocSeqOrders y, a continuación, haga clic en Aceptar.

  4. En el cuadro de diálogo Seleccionar tabla(s) de entrada, haga clic en Seleccionar tabla anidada.

  5. En el cuadro de diálogo Seleccionar tabla, en Origen de datos, seleccione Orders. En la lista Nombre de tabla o vista, seleccione vAssocSeqLineItems y, a continuación, haga clic en Aceptar.

    Analysis Services intentará detectar las relaciones y crearlas automáticamente si los tipos de datos coinciden y los nombres de columna son similares. Si las relaciones que crea son erróneas, puede hacer clic con el botón secundario del mouse en la línea de unión y seleccionar Modificar conexiones para editar la asignación de columna, o bien puede hacer clic con el botón secundario del mouse en la línea de unión y seleccionar Eliminar para quitar definitivamente la relación. En este caso, dado que las tablas ya estuvieron unidas en la vista del origen de datos, esas relaciones se agregan automáticamente al panel de diseño.

  6. Agregue una nueva fila a la cuadrícula. En Origen, seleccione vAssocSeqOrders y en Campo, seleccione CustomerKey.

  7. Agregue una nueva fila a la cuadrícula. En Origen, seleccione Función de predicción y en Campo, seleccione PredictSequence.

  8. Arrastre vAssocSeqLineItems al cuadro Criterios o argumento. Haga clic al final del cuadro Criterios y argumento y, a continuación, escriba los argumentos siguientes: 2.

    El texto completo del cuadro Criterios o argumento debería ser: [Sequence Clustering].[v Assoc Seq Line Items],2

  9. Haga clic en el botón Resultado para ver las predicciones de cada cliente.

Ha completado el tutorial sobre modelos de agrupación en clústeres de secuencia.

Pasos siguientes

Si ha finalizado todas las secciones de Tutorial intermedio de minería de datos (Analysis Services - Minería de datos), el paso siguiente podría ser aprender a utilizar Extensiones de minería de datos (DMX) para generar modelos y predicciones. Para obtener más información, vea Tutoriales: usar DMX.

Si tiene algunos conceptos de programación, también puede utilizar Objetos de administración de análisis (AMO) para trabajar mediante programación con objetos de minería de datos. Para obtener más información, vea Clases de minería de datos de AMO.