Share via


Marcadores de modelado (Minería de datos)

Puede utilizar marcadores de modelado en SQL Server 2008 Analysis Services (SSAS) para proporcionar información adicional a un algoritmo de minería de datos acerca de los datos que se definen en una tabla de casos. El algoritmo puede usar esta información para crear un modelo de minería de datos más preciso.

Puede usar las Extensiones de minería de datos (DMX) para definir los indicadores de modelado mediante programación o bien puede definirlos en el Diseñador de minería de datos de Business Intelligence Development Studio. Para obtener más información acerca del modo de definir estos marcadores, vea Columnas del modelo de minería de datos.

Algunos marcadores de modelado se definen en la estructura de minería de datos, mientras que otros se definen en la columna del modelo de minería de datos. Por ejemplo, el marcador de modelado NOT NULL se utiliza con las columnas de la estructura de minería de datos. Puede definir indicadores adicionales de modelado en la columna del modelo de minería de datos.

En la lista siguiente se describen los marcadores de modelado compatibles con Analysis Services. Para obtener información acerca de los marcadores de modelado compatibles con algoritmos concretos, vea el tema de referencia técnica correspondiente al algoritmo.

  • NOT NULL
    Indica que los valores de la columna de atributos nunca deben incluir un valor NULL. Se producirá un error si Analysis Services encuentra un valor NULL para esta columna de atributos durante el proceso de entrenamiento de modelos.

  • MODEL_EXISTENCE_ONLY
    Indica que la columna se tratará como si tuviera dos estados posibles: Missing y Existing. Si el valor es NULL, se trata como Ausente.

    [!NOTA]

    Ausente es un estado especial utilizado por el algoritmo, y no debe confundirse con el valor de texto "Ausente" de una columna. Para obtener más información, vea Valores ausentes (Analysis Services - Minería de datos).

    Un uso típico de este marcador de modelado es indicar los atributos en los que el estado NULL tiene un significado implícito; el valor explícito del estado NOT NULL podría no ser tan importante como el hecho de que la columna tenga cualquier valor. Por ejemplo, una columna [DateContractSigned] podría ser NULL si nunca se llegó a firmar el contrato y NOT NULL si se llegó a firmar. Por tanto, si la finalidad del modelo es predecir si se firmará el contrato, podría utilizar el marcador MODEL_EXISTENCE_ONLY para omitir el valor de fecha exacto en los casos NOT NULL y hacer distinciones únicamente en los casos donde el valor es Missing o Existing.

  • REGRESSOR
    Los valores de la columna de atributos no son tan importantes como la presencia del atributo. Este marcador se define en una columna del modelo de minería de datos.

[!NOTA]

Los complementos de otros proveedores podrían tener otros propios marcadores de modelado, además de los predefinidos por Analysis Services.

Ver y cambiar marcadores de modelado

En el Diseñador de minería de datos, puede ver y modificar los marcadores de modelado asociados a una estructura de minería de datos o a una columna de minería de datos examinando las propiedades de la estructura o del modelo.

Para ver o cambiar el marcador de modelado para una columna de estructura o una columna del modelo

  1. En BI Development Studio, en Solution Explorer, haga doble clic en la estructura de minería de datos.

  2. Para establecer el marcador de modelado NOT NULL, haga clic en la ficha Estructura de minería de datos.

    Para establecer los marcadores REGRESSOR o MODEL_EXISTENCE_ONLY, haga clic en la ficha Modelo de minería de datos.

  3. Haga clic con el botón secundario en la columna que desea ver o cambiar y seleccione Propiedades.

  4. Para agregar un nuevo marcador de modelado, haga clic en el cuadro de texto situado junto a la propiedad ModelingFlags y active la casilla o casillas de los marcadores de modelado que desea utilizar.

    Los marcadores de modelado sólo se muestran si son adecuados para el tipo de datos de la columna.

    [!NOTA]

    Después de cambiar un marcador de modelado, debe volver a procesar el modelo.

No puede cambiar los marcadores de modelado utilizados en un modelo y en una estructura de minería de datos existentes utilizando DMX. Deberá crear un nuevo modelo de minería de datos utilizando la sintaxis ALTER MINING STRUCTURE….ADD MINING MODEL.

Si no está seguro de los marcadores de modelado que se están utilizando en la estructura actual, puede crear una consulta que devuelva dichos marcadores empleando la sintaxis siguiente:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_STRUCTURE_COLUMNS
WHERE STRUCTURE_NAME = '<structure name>'

Usar el marcador de modelado REGRESSOR

Cuando se establece el marcador de modelado REGRESSOR en una columna, se indica al algoritmo que la columna contiene regresores potenciales. Los regresores reales que se utilizan en el modelo los determina el algoritmo. Se puede descartar un regresor potencial si no modela el atributo de predicción.

Cuando se genera un modelo mediante el Asistente para minería de datos, todas las columnas de entrada continuas se marcan como posibles regresores. Por consiguiente, incluso en el caso de que no establezca explícitamente el marcador REGRESSOR en una columna, ésta podría utilizarse como regresor en el modelo final.

Puede determinar los regresores que se utilizaron en el modelo final realizando una consulta en el conjunto de filas de esquema para el modelo de minería de datos, tal y como se muestra en el ejemplo siguiente:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_columnS
WHERE MODEL_NAME = '<model name>'

Nota   Si modifica un modelo de minería de datos y cambia el tipo de contenido de una columna de continuo a discreto, deberá cambiar manualmente el marcador en la columna de minería de datos y, a continuación, volver a procesar el modelo.

Regresores en modelos de regresión lineal

Los modelos de regresión lineal se basan en el algoritmo de árboles de decisión de Microsoft. Aun cuando no utilice el algoritmo de regresión lineal de Microsoft, cualquier modelo de árbol de decisión puede contener un árbol o nodos que representen una regresión en un atributo continuo.

No es necesario especificar que una columna continua representa un regresor. El algoritmo de árboles de decisión de Microsoft dividirá el conjunto de datos en regiones con patrones significativos aunque no establezca el marcador REGRESSOR en la columna. La diferencia estriba en que al establecer el marcador de modelado, el algoritmo intentará buscar ecuaciones de regresión con el formato a*C1 + b*C2 + ... que se ajusten a los patrones de los nodos del árbol. Se calcula la suma de los valores residuales y, si la desviación es demasiado grande, se fuerza una división en el árbol.

Por ejemplo, si está prediciendo los hábitos de compra de los clientes utilizando Income como atributo y ha establecido el marcador de modelado REGRESSOR en la columna, el algoritmo intentará en primer lugar ajustar los valores de Income mediante una fórmula de regresión estándar. Si la desviación es demasiado grande, se abandona la fórmula de regresión y el árbol se dividirá de acuerdo con algún otro atributo. A continuación, el algoritmo de árboles de decisión intentará ajustar un regresor para los ingresos en cada una de las ramas después de la división.

Puede utilizar el parámetro FORCED_REGRESSOR para garantizar que el algoritmo utilizará un regresor determinado. Este parámetro se puede utilizar con el algoritmo de árboles de decisión y el algoritmo de regresión lineal.