Contenido del modelo de minería de datos para los modelos Bayes naive (Analysis Services - Minería de datos)

En este tema se describe el contenido del modelo de minería de datos específico de los modelos que utilizan el algoritmo Bayes naive de Microsoft. Para obtener una explicación de cómo interpretar las estadísticas y la estructura compartidas por todos los tipos de modelos, y las definiciones generales de los términos relacionados con el contenido del modelo de minería de datos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).

Descripción de la estructura de un modelo Bayes naive

Un modelo Bayes naive tiene un nodo primario único que representa el modelo y sus metadatos, y debajo de dicho nodo, varios árboles independientes que representan los atributos de predicción seleccionados. Además de los árboles para los atributos, cada modelo contiene un nodo de estadísticas marginales (NODE_TYPE = 26) que proporciona estadísticas descriptivas sobre el conjunto de casos de entrenamiento. Para obtener más información, vea Información en el nodo de estadísticas marginales.

Para cada atributo de predicción y valor, el modelo genera un árbol que contiene información que describe cómo afectaron las columnas de entrada al resultado de ese atributo de predicción concreto. Cada árbol contiene el atributo de predicción y su valor (NODE_TYPE = 9) y, a continuación, una serie de nodos que representan los atributos de entrada (NODE_TYPE = 10). Dado que los atributos de entrada normalmente tienen varios valores, cada uno de dichos atributos (NODE_TYPE = 10) puede tener varios nodos secundarios (NODE_TYPE = 11), uno para cada estado específico del atributo.

Nota

Dado que un modelo Bayes naive no admite tipos de datos continuos, todos los valores de las columnas de entrada se tratan como discretos o discretizados. Si lo desea, puede especificar cómo se discretiza un valor. Para obtener más información, vea Cómo cambiar la discretización de una columna en un modelo de minería de datos.

estructura del contenido del modelo para naive bayes

Contenido del modelo para un modelo Bayes naive

En esta sección solo se proporcionan detalles y ejemplos de las columnas del contenido del modelo de minería de datos que tienen una relevancia especial para los modelos Bayes naive.

Para obtener información sobre las columnas de uso general en el conjunto de filas de esquema, como MODEL_CATALOG y MODEL_NAME, que no se describen aquí, o para obtener una explicación de la terminología del modelo de minería de datos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).

  • MODEL_CATALOG
    Nombre de la base de datos en la que se almacena el modelo.

  • MODEL_NAME
    Nombre del modelo.

  • ATTRIBUTE_NAME
    Nombres de los atributos que corresponden a este nodo.

    Raíz del modelo: nombre del atributo de predicción.

    Estadísticas marginales: no aplicable.

    Atributo de predicción: nombre del atributo de predicción.

    Atributo de entrada: nombre del atributo de entrada.

    Estado de atributo de entrada: solo el nombre del atributo de entrada. Para obtener el estado, use MSOLAP_NODE_SHORT_CAPTION.

  • NODE_NAME
    Nombre del nodo.

    Esta columna contiene el mismo valor que NODE_UNIQUE_NAME.

    Para obtener más información sobre las convenciones de nomenclatura de nodos, vea Usar nombres de nodo e identificadores.

  • NODE_UNIQUE_NAME
    Nombre único del nodo. Los nombres únicos se asignan según una convención que proporciona información sobre las relaciones entre los nodos. Para obtener más información sobre las convenciones de nomenclatura de nodos, vea Usar nombres de nodo e identificadores.

  • NODE_TYPE
    Un modelo Bayes naive genera los tipos de nodos siguientes:

    Identificador del tipo de nodo

    Descripción

    26 (NaiveBayesMarginalStatNode)

    Contiene estadísticas que describen el conjunto completo de casos de entrenamiento para el modelo.

    9 (atributo de predicción)

    Contiene el nombre del atributo de predicción.

    10 (atributo de entrada)

    Contiene el nombre de una columna de atributos de entrada, así como nodos secundarios que contienen los valores para el atributo.

    11 (estado de atributo de entrada)

    Contiene los valores o los valores discretizados de todos los atributos de entrada que se emparejaron con un atributo de salida determinado.

  • NODE_CAPTION
    Etiqueta o título asociado al nodo. Esta propiedad se usa principalmente para la presentación.

    Raíz del modelo: en blanco.

    Estadísticas marginales: en blanco.

    Atributo de predicción: nombre del atributo de predicción.

    Atributo de entrada: nombre del atributo de predicción y del atributo de entrada actual. Ej.:

    Bike Buyer -> Age

    Estado de atributo de entrada: nombre del atributo de predicción y del atributo de entrada actual, más el valor de la entrada. Ej.:

    Bike Buyer -> Age = Missing

  • CHILDREN_CARDINALITY
    Número de elementos secundarios que tiene el nodo.

    Raíz del modelo: recuento de los atributos de predicción del modelo, más 1 para el nodo de estadísticas marginales.

    Estadísticas marginales: por definición, no tiene elementos secundarios.

    Atributo de predicción: recuento de los atributos de entrada que estaban relacionados con el atributo de predicción actual.

    Atributo de entrada: recuento de los valores discretos o discretizados para el atributo de entrada actual.

    Estado de atributo de entrada: siempre es 0.

  • PARENT_UNIQUE_NAME
    Nombre único del nodo primario. Para obtener más información sobre cómo relacionar nodos primarios y secundarios, vea Usar nombres de nodo e identificadores.

  • NODE_DESCRIPTION
    Coincide con el título del nodo.

  • NODE_RULE
    Representación XML del título del nodo.

  • MARGINAL_RULE
    Coincide con la regla del nodo.

  • NODE_PROBABILITY
    Probabilidad asociada a este nodo.

    Raíz del modelo: siempre es 0.

    Estadísticas marginales: siempre es 0.

    Atributo de predicción: siempre es 1.

    Atributo de entrada: siempre es 1.

    Estado de atributo de entrada: número decimal que representa la probabilidad del valor actual. Los valores de todos los estados de los atributos de entrada bajo el nodo de atributo de entrada primario suman 1.

  • MARGINAL_PROBABILITY
    Coincide con la probabilidad del nodo.

  • NODE_DISTRIBUTION
    Tabla que contiene el histograma de probabilidad del nodo. Para obtener más información, vea Tabla NODE_DISTRIBUTION.

  • NODE_SUPPORT
    Número de casos que admiten este nodo.

    Raíz del modelo: recuento de todos los casos de los datos de entrenamiento.

    Estadísticas marginales: siempre es 0.

    Atributo de predicción: recuento de todos los casos de los datos de entrenamiento.

    Atributo de entrada: recuento de todos los casos de los datos de entrenamiento.

    Estado de atributo de entrada: recuento de los casos de los datos de entrenamiento que solo contienen este valor concreto.

  • MSOLAP_MODEL_COLUMN
    Etiqueta que se usa para la visualización. Normalmente, coincide con ATTRIBUTE_NAME.

  • MSOLAP_NODE_SCORE
    Representa la importancia del atributo o valor dentro del modelo.

    Raíz del modelo: siempre es 0.

    Estadísticas marginales: siempre es 0.

    Atributo de predicción: siempre es 0.

    Atributo de entrada: Puntuación interestingness para el atributo de entrada actual en relación con el atributo de predicción actual.

    Estado de atributo de entrada: siempre es 0.

  • MSOLAP_NODE_SHORT_CAPTION
    Cadena de texto que representa el nombre o el valor de una columna.

    Raíz del modelo: en blanco.

    Estadísticas marginales: en blanco.

    Atributo de predicción: nombre del atributo de predicción.

    Atributo de entrada: nombre del atributo de entrada.

    Estado de atributo de entrada: valor o valor discretizado del atributo de entrada.

Usar nombres de nodo e identificadores

La denominación de los nodos en un modelo Bayes naive proporciona información adicional sobre el tipo de nodo, lo que facilita la comprensión de las relaciones entre los tipos de información del modelo. En la tabla siguiente se muestra la convención para los identificadores asignados a los distintos tipos de nodos.

Tipo de nodo

Convención para el identificador de nodo

Raíz del modelo (1)

Siempre equivale a 0.

Nodo de estadísticas marginales (26)

Un valor de identificador arbitrario.

Atributo de predicción (9)

Número hexadecimal a partir de 10000000.

Ejemplo: 100000001, 10000000b

Atributo de entrada (10)

Un número hexadecimal de dos partes en el que la primera siempre es 20000000, y la segunda comienza con el identificador hexadecimal del atributo de predicción relacionado.

Ejemplo: 20000000b00000000

En este caso, el atributo de predicción relacionado es 10000000b.

Estado de atributo de entrada (11)

Un número hexadecimal de tres partes en el que la primera siempre es 30000000, la segunda comienza con el identificador hexadecimal del atributo de predicción relacionado y la tercera representa el identificador del valor.

Ejemplo: 30000000b00000000200000000

En este caso, el atributo de predicción relacionado es 10000000b.

Puede usar los identificadores para relacionar los atributos de entrada y sus estados con un atributo de predicción. Por ejemplo, la consulta siguiente devuelve los nombres y los títulos de los nodos que representan las posibles combinaciones de atributos de entrada y de predicción para el modelo TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

Resultados esperados:

NODE_NAME

NODE_CAPTION

20000000000000001

Bike Buyer -> Commute Distance

20000000000000002

Bike Buyer -> English Education

20000000000000003

Bike Buyer -> English Occupation

20000000000000009

Bike Buyer -> Marital Status

2000000000000000a

Bike Buyer -> Number Children At Home

2000000000000000b

Bike Buyer -> Region

2000000000000000c

Bike Buyer -> Total Children

A continuación, puede usar los identificadores de los nodos primarios para recuperar los nodos secundarios. La consulta siguiente recupera los nodos que contienen valores para el atributo Marital Status, junto con la probabilidad de cada nodo.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'

Nota

El nombre de la columna, PARENT_UNIQUE_NAME, debe ir entre corchetes para distinguirla de la palabra clave reservada con la misma denominación.

Resultados esperados:

NODE_NAME

NODE_CAPTION

NODE_PROBABILITY

3000000000000000900000000

Bike Buyer -> Marital Status = Missing

0

3000000000000000900000001

Bike Buyer -> Marital Status = S

0.457504004

3000000000000000900000002

Bike Buyer -> Marital Status = M

0.542495996

Tabla NODE_DISTRIBUTION

La columna de tabla anidada, NODE_DISTRIBUTION, normalmente contiene estadísticas sobre la distribución de los valores en el nodo. En un modelo Bayes naive, esta tabla se rellena solo para los nodos siguientes:

Tipo de nodo

Contenido de la tabla anidada

Raíz del modelo (1)

En blanco.

Nodo de estadísticas marginales (24)

Contiene información de resumen para todos los atributos de predicción y de entrada, para el conjunto completo de datos de entrenamiento.

Atributo de predicción (9)

En blanco.

Atributo de entrada (10)

En blanco.

Estado de atributo de entrada (11)

Contiene estadísticas que describen la distribución de los valores de los datos de entrenamiento para esta combinación concreta de un valor de predicción y un valor de atributo de entrada.

Puede usar los identificadores de nodo o los títulos de nodo para recuperar un mayor nivel de detalle. Por ejemplo, la consulta siguiente recupera columnas concretas de la tabla NODE_DISTRIBUTION solo para aquellos nodos de atributo de entrada que están relacionados con el valor 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

Resultados esperados:

NODE_CAPTION

t.ATTRIBUTE_NAME

t.ATTRIBUTE_VALUE

t.SUPPORT

t.PROBABILITY

t.VALUETYPE

Bike Buyer -> Marital Status = S

Bike Buyer

Missing

0

0

1

Bike Buyer -> Marital Status = S

Bike Buyer

0

3783

0.472934117

4

Bike Buyer -> Marital Status = S

Bike Buyer

1

4216

0.527065883

4

En estos resultados, el valor de la columna SUPPORT le indica el recuento de clientes con el estado civil especificado que compraron una bicicleta. La columna PROBABILITY contiene la probabilidad de cada valor de atributo, calculada solo para este nodo. Para obtener definiciones generales de los términos usados en la tabla NODE_DISTRIBUTION, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).

Información en el nodo de estadísticas marginales

En un modelo Bayes naive, la tabla anidada para el nodo de estadísticas marginales contiene la distribución de los valores para el conjunto completo de datos de entrenamiento. Por ejemplo, la tabla siguiente contiene una lista parcial de las estadísticas de la tabla anidada NODE_DISTRIBUTION para el modelo TM_NaiveBayes:

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

SUPPORT

PROBABILITY

VARIANCE

VALUETYPE

Bike Buyer

Missing

0

0

0

1

Bike Buyer

0

8869

0.507263784

0

4

Bike Buyer

1

8615

0.492736216

0

4

Marital Status

Missing

0

0

0

1

Marital Status

S

7999

0.457504004

0

4

Marital Status

M

9485

0.542495996

0

4

Total Children

Missing

0

0

0

1

Total Children

0

4865

0.278254404

0

4

Total Children

3

2093

0.119709449

0

4

Total Children

1

3406

0.19480668

0

4

La columna Bike Buyer se incluye porque el nodo de estadísticas marginales siempre contiene una descripción del atributo de predicción y sus valores posibles. El resto de columnas incluidas representan atributos de entrada, junto con los valores que se usaron en el modelo. Los valores solo pueden ser ausentes, discretos o discretizados.

En un modelo Bayes naive, no puede haber atributos continuos; por lo tanto, todos los datos numéricos se representan como discretos (VALUE_TYPE = 4) o discretizados (VALUE_TYPE = 5).

Se agrega un valor Missing (VALUE_TYPE = 1) a cada atributo de entrada y de salida para representar valores potenciales que no estaban presentes en los datos de entrenamiento. Debe tener cuidado de distinguir entre "missing" como cadena y el valor Missing predeterminado. Para obtener más información, vea Valores ausentes (Analysis Services - Minería de datos).