Marcas de modelado (Minería de datos)

Puede utilizar marcas de modelado en SQL Server Analysis Services para proporcionar información adicional a un algoritmo de minería de datos acerca de los datos que se definen en una tabla de casos. El algoritmo puede usar esta información para crear un modelo de minería de datos más preciso.

Puede usar las Extensiones de minería de datos (DMX) para definir las marcas de modelado mediante programación o bien puede definirlas en el Diseñador de minería de datos de Business Intelligence Development Studio. Para obtener más información sobre cómo definir estas marcas en instrucciones DMX, vea Columnas del modelo de minería de datos.

Algunas marcas de modelado se definen en la estructura de minería de datos, mientras que otras se definen en la columna del modelo de minería de datos. Por ejemplo, la marca de modelado NOT NULL se utiliza con las columnas de la estructura de minería de datos. Puede definir marcas adicionales de modelado en la columna del modelo de minería de datos.

En la lista siguiente se describen las marcas de modelado compatibles con Analysis Services. Para obtener información acerca de las marcas de modelado compatibles con determinados algoritmos, vea el tema de referencia técnica correspondiente al algoritmo individual.

  • NOT NULL
    Indica que los valores de la columna de atributos nunca deben incluir un valor NULL. Se producirá un error si Analysis Services encuentra un valor NULL para esta columna de atributos durante el proceso de entrenamiento de modelos.

  • MODEL_EXISTENCE_ONLY
    Indica que la columna se tratará como si tuviera dos estados posibles: Missing y Existing. Si el valor es NULL, se trata como Ausente.

    Nota

    Ausente es un estado especial utilizado por el algoritmo, y no debe confundirse con el valor de texto "Ausente" de una columna. Para obtener más información, vea Valores ausentes (Analysis Services - Minería de datos).

    Un uso típico de esta marca de modelado es indicar los atributos en los que el estado NULL tiene un significado implícito; el valor explícito del estado NOT NULL podría no ser tan importante como el hecho de que la columna tenga cualquier valor. Por ejemplo, una columna [DateContractSigned] podría ser NULL si nunca se llegó a firmar el contrato y NOT NULL si se llegó a firmar. Por tanto, si la finalidad del modelo es predecir si se firmará el contrato, podría utilizar la marca MODEL_EXISTENCE_ONLY para omitir el valor de fecha exacto en los casos NOT NULL y hacer distinciones únicamente en los casos donde el valor es Missing o Existing.

  • REGRESSOR
    Indica que la columna es candidata para utilizarse como regresor durante el procesamiento. Esta marca se define en una columna de modelo de minería de datos y solo se puede aplicar a las columnas que tienen un tipo de datos numéricos continuo. Para obtener más información sobre el uso de esta marca, vea la sección correspondiente más adelante en este tema.

Nota

Los complementos de otros proveedores podrían tener otras marcas de modelado, además de las predefinidas por Analysis Services.

Ver y cambiar marcas de modelado

En el Diseñador de minería de datos, puede ver y modificar las marcas de modelado asociadas a una estructura de minería de datos o a una columna de minería de datos examinando las propiedades de la estructura o del modelo.

Para ver o cambiar la marca de modelado para una columna de estructura o una columna del modelo

  1. En BI Development Studio, en Solution Explorer, haga doble clic en la estructura de minería de datos.

  2. Para establecer la marca de modelado NOT NULL, haga clic en la pestaña Estructura de minería de datos.

    Para establecer las marcas REGRESSOR o MODEL_EXISTENCE_ONLY, haga clic en la pestaña Modelo de minería de datos.

  3. Haga clic con el botón secundario en la columna que desea ver o cambiar y seleccione Propiedades.

  4. Para agregar una nueva marca de modelado, haga clic en el cuadro de texto situado junto a la propiedad ModelingFlags y active la casilla o casillas de las marcas de modelado que desea utilizar.

    Las marcas de modelado solo se muestran si son adecuadas para el tipo de datos de la columna.

    Nota

    Después de cambiar una marca de modelado, debe volver a procesar el modelo.

No puede cambiar las marcas de modelado utilizadas en un modelo y en una estructura de minería de datos existentes utilizando DMX. Deberá crear un nuevo modelo de minería de datos utilizando la sintaxis ALTER MINING STRUCTURE….ADD MINING MODEL.

Si no está seguro de las marcas de modelado que se están utilizando en la estructura actual, puede crear una consulta que devuelva dichas marcas empleando la sintaxis siguiente:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_STRUCTURE_COLUMNS
WHERE STRUCTURE_NAME = '<structure name>'

Usar la marca de modelado REGRESSOR

Cuando se establece la marca de modelado REGRESSOR en una columna, se indica al algoritmo que la columna contiene regresores potenciales. Los regresores reales que se utilizan en el modelo los determina el algoritmo. Se puede descartar un regresor potencial si no modela el atributo de predicción.

Cuando se genera un modelo mediante el Asistente para minería de datos, todas las columnas de entrada continuas se marcan como posibles regresores. Por tanto, aunque no establezca explícitamente la marca REGRESSOR en una columna, la columna podría utilizarse como regresor en el modelo.

Puede determinar los regresores que se utilizaron realmente en el modelo procesado realizando una consulta en el conjunto de filas de esquema para el modelo de minería de datos, tal y como se muestra en el ejemplo siguiente:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_columnS
WHERE MODEL_NAME = '<model name>'

Nota   Si modifica un modelo de minería de datos y cambia el tipo de contenido de una columna de continuo a discreto, deberá cambiar manualmente la marca en la columna de minería de datos y, a continuación, volver a procesar el modelo.

Regresores en modelos de regresión lineal

Los modelos de regresión lineal se basan en el algoritmo de árboles de decisión de Microsoft. Aun cuando no utilice el algoritmo de regresión lineal de Microsoft, cualquier modelo de árbol de decisión puede contener un árbol o nodos que representen una regresión en un atributo continuo.

No es necesario especificar que una columna continua representa un regresor. El algoritmo de árboles de decisión de Microsoft dividirá el conjunto de datos en regiones con patrones significativos aunque no establezca la marca REGRESSOR en la columna. La diferencia estriba en que al establecer la marca de modelado, el algoritmo intentará buscar ecuaciones de regresión con el formato a*C1 + b*C2 + ... que se ajusten a los patrones de los nodos del árbol. Se calcula la suma de los valores residuales y, si la desviación es demasiado grande, se fuerza una división en el árbol.

Por ejemplo, si está prediciendo los hábitos de compra de los clientes utilizando Income como atributo y ha establecido la marca de modelado REGRESSOR en la columna, el algoritmo intentará en primer lugar ajustar los valores de Income mediante una fórmula de regresión estándar. Si la desviación es demasiado grande, se abandona la fórmula de regresión y el árbol se dividirá de acuerdo con algún otro atributo. A continuación, el algoritmo de árboles de decisión intentará ajustar un regresor para los ingresos en cada una de las ramas después de la división.

Puede utilizar el parámetro FORCE_REGRESSOR para garantizar que el algoritmo utilizará un regresor determinado. Este parámetro se puede utilizar con el algoritmo de árboles de decisión y el algoritmo de regresión lineal.