Algoritmo de regresión logística de Microsoft

Artículo
12/15/2008

El algoritmo Regresión logística de Microsoft es una variación del algoritmo Red neuronal de Microsoft, donde el parámetro HIDDEN_NODE_RATIO se establece en 0. Esta configuración crea un modelo de red neuronal que no contiene una capa oculta y que, por tanto, es equivalente a una regresión logística.

Supongamos que la columna de predicción sólo contiene dos estados, pero que aún así desea realizar un análisis de regresión, relacionando las columnas de entrada con la probabilidad de que la columna de predicción contenga estado específico. El siguiente diagrama muestra los resultados que obtendrá si asigna 1 y 0 a los estados de la columna de predicción, calcula la probabilidad de que la columna contenga un estado específico y realiza una regresión lineal en una variable de entrada.

Datos con modelo incorrecto creado con regresión linear

El eje x contiene los valores de una columna de entrada. El eje y contiene las probabilidades de que la columna de predicción tenga un estado o el otro. El problema que puede surgir es que la regresión lineal no limite la columna a los valores 0 y 1, a pesar de que son los valores máximo y mínimo de la columna. Una forma de resolver el problema es llevar a cabo una regresión logística. En vez de crear un línea recta, el análisis de regresión logística crea una curva con forma de "S" que contiene las restricciones máxima y mínima. Por ejemplo, el siguiente diagrama muestra los resultados que se obtienen si lleva a cabo una regresión logística con los mismos datos utilizados en el ejemplo anterior.

Datos con modelo creado con regresión logística

Observe cómo la curva nunca va por encima del 1 ni por debajo del 0. Puede utilizar la regresión logística para describir qué columnas de entrada son importantes a la hora de determinar el estado de la columna de predicción.

Usar el algoritmo

Utilice el Visor de redes neuronales de Microsoft para explorar un modelo de minería de datos de regresión lineal.

Un modelo de minería de datos de regresión lineal debe contener una columna de clave, una o más columnas de entrada y una o más columnas de predicción.

El algoritmo Regresión logística de Microsoft admite los tipos de contenido de columna de entrada, tipos de contenido de columna de predicción e indicadores de modelado específicos que se enumeran en la siguiente tabla.

Tipos de contenido de columna de entrada	Continuous, Cyclical, Discrete, Discretized, Key, Table y Ordered
Tipos de contenido de columna de predicción	Continuous, Cyclical, Discrete, Discretized y Ordered
Indicadores de modelado	MODEL_EXISTENCE_ONLY y NOT NULL

Todos los algoritmos de Microsoft son compatibles con un conjunto común de funciones. No obstante, el algoritmo Regresión logística de Microsoft admite las funciones adicionales que se enumeran en la siguiente tabla.

IsDescendant	PredictStdev
PredictAdjustedProbability	PredictSupport
PredictHistogram	PredictVariance
PredictProbability

Para consultar una lista de las funciones comunes a todos los algoritmos de Microsoft, vea Algoritmos de minería de datos. Para obtener más información acerca del modo de utilizar estas funciones, vea Referencia de funciones de Extensiones de minería de datos (DMX).

Los modelos que utilizan el algoritmo Regresión logística de Microsoft no son compatibles con la obtención de detalles ni con las dimensiones de minería de datos, porque la estructura de nodos del modelo de minería de datos no siempre se corresponde directamente con los datos subyacentes.

El algoritmo Regresión logística de Microsoft es compatible con varios parámetros que influyen en el rendimiento y la precisión del modelo de minería de datos resultante. Estos parámetros se describen en la tabla siguiente.

Parámetro	Descripción
HOLDOUT_PERCENTAGE	Especifica el porcentaje de escenarios de los datos de entrenamiento utilizados para calcular el error de exclusión. HOLDOUT_PERCENTAGE se utiliza como parte de los criterios de detención durante el entrenamiento del modelo de minería de datos. El valor predeterminado es 30.
HOLDOUT_SEED	Especifica un número que se utiliza para inicializar el generador pseudoaleatorio cuando se determinan aleatoriamente los datos de exclusión. Si HOLDOUT_SEED se establece en 0, el algoritmo genera la inicialización basada en el nombre del modelo de minería de datos, para garantizar que el contenido del modelo sigue siendo el mismo durante el nuevo procesamiento. El valor predeterminado es 0.
MAXIMUM_INPUT_ATTRIBUTES	Define el número de atributos de entrada que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características. El valor predeterminado es 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Define el número de atributos de salida que puede administrar el algoritmo antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características. El valor predeterminado es 255.
MAXIMUM_STATES	Especifica el número máximo de estados de atributo que admite el algoritmo. Si el número de estados que tiene un atributo es mayor que el número máximo de estados, el algoritmo utiliza los estados más conocidos del atributo y pasa por alto los estados restantes. El valor predeterminado es 100.
SAMPLE_SIZE	Especifica el número de escenarios que se van a utilizar para entrenar el modelo. El proveedor de algoritmos utiliza el valor menor entre este número o el porcentaje del total de los escenarios que no están incluidos en el porcentaje de exclusión según se especifica en el parámetro HOLDOUT_PERCENTAGE. En otras palabras, si HOLDOUT_PERCENTAGE está establecido en 30, el algoritmo utilizará el valor de este parámetro o un valor que sea igual al 70 por ciento del número total de escenarios, según cuál sea menor. El valor predeterminado es 10000.

Vea también

Share via

Algoritmo de regresión logística de Microsoft

Usar el algoritmo

Vea también

Conceptos

Otros recursos

Ayuda e información

Recursos adicionales