Personalizar la estructura y los modelos de minería de datos

Después de seleccionar un algoritmo que satisfaga sus necesidades empresariales, puede personalizar el modelo de minería de datos de las maneras siguientes para intentar mejorar los resultados.

  • Utilice columnas de datos diferentes en el modelo o cambie el uso, el tipo de contenido o el método de discretización de las columnas.

  • Cree filtros en el modelo de minería de datos para restringir los datos que se usan al entrenarlo.

  • Cambie el algoritmo que se usó para analizar los datos.

  • Establezca los parámetros del algoritmo para controlar los umbrales, las divisiones del árbol y otras condiciones importantes.

En este tema se describen estas opciones.

Cambiar los datos que usa el modelo

Las decisiones que tome sobre qué columnas de datos se han de utilizar en el modelo y cómo usar y procesar esos datos, pueden afectar en gran medida a los resultados del análisis. Los temas siguientes proporcionan información para ayudar a entender estas opciones.

Usar la selección de características

La mayor parte de los algoritmos de minería de datos de Analysis Services utiliza un proceso denominado selección de características para seleccionar solo los atributos más útiles e incorporarlos a un modelo. Reducir el número de columnas y atributos puede mejorar el rendimiento y la calidad del modelo. Los métodos de selección de características disponibles difieren dependiendo del algoritmo que se elija.

Selección de características (minería de datos).

Cambiar el uso

Puede cambiar las columnas que están incluidas en un modelo de minería de datos y cómo se utiliza cada columna. Si no obtiene los resultados esperados, debe muestrear las columnas que utilizó como entrada y preguntarse si las columnas son una buena elección y si hay algo que pueda hacer para mejorar el tratamiento de los datos, como podría ser:

  • Identificar las variables de categorías que ha etiquetado equivocadamente como números.

  • Agregar categorías para contraer el número de atributos y facilitar la búsqueda de correlaciones.

  • Cambiar la manera en que los números se discretizan, o se combinan.

  • Quitar las columnas que tienen muchos valores únicos, o las columnas que son en realidad datos de referencia y no resultan de utilidad para el análisis, como las direcciones o el segundo nombre.

No necesita quitar físicamente las columnas de la estructura de minería de datos; basta con marcar la columna como Omitir. La columna se quita del modelo de minería de datos, pero otros modelos de minería de datos de la estructura aún podrán utilizarla o hacer referencia a ella en una consulta de obtención de datos.

Crear alias para las columnas de modelo

Cuando Analysis Services crea el modelo de minería de datos, usa los mismos nombres de columna que se encuentran en la estructura de minería de datos. Puede agregar un alias a cualquier columna del modelo de minería de datos. Esto podría facilitar la comprensión del uso o el contenido de la columna o acortar el nombre por comodidad en la creación de consultas. Los alias también son útiles si desea crear una copia de una columna y asignarle un nombre descriptivo.

Cree un alias modificando la propiedad Name de la columna de minería de datos. Analysis Services continúa usando el nombre original como el identificador de la columna y el nuevo valor que escribe para Nombre se convierte en el alias de columna y aparece en la cuadrícula entre paréntesis junto al uso de la columna.

alias en columnas de un modelo de minería de datos

El gráfico muestra los modelos relacionados que tienen varias copias de una columna de estructura de minería de datos, todos relacionados con los ingresos. Cada copia de la columna de estructura se ha hecho de datos discretos de una manera diferente. Cada uno de los modelos del diagrama usan una columna diferente de la estructura de minería de datos; sin embargo, para comodidad en la comparación de las columnas por los modelos, se ha cambiado el nombre de la columna de cada modelo a [Income].

Agregar filtros

Puede agregar un filtro a un modelo de minería de datos. Un filtro es un conjunto de condiciones WHERE que restringe los datos en los casos de modelo a algún subconjunto. El filtro se usa en el aprendizaje del modelo y se puede usar opcionalmente al probar el modelo o crear gráficos de precisión.

Agregando filtros, puede reutilizar las estructuras de minería de datos pero crea modelos basados en subconjuntos muy diferentes de los datos. O bien, simplemente puede usar filtros para eliminar algunas filas y mejorar la calidad del análisis.

Para obtener más información, vea Filtros para modelos de minería (Analysis Services - Minería de datos).

Cambiar el algoritmo

Aunque los modelos nuevos que agregue a una estructura de minería de datos comparten el mismo conjunto de datos, puede obtener resultados diferentes utilizando un algoritmo distinto (si los datos lo admiten) o cambiando los parámetros del algoritmo. También puede establecer marcas de modelado.

La elección de algoritmo determina qué tipo de resultados se van a obtener. Para obtener información general sobre cómo funciona un algoritmo concreto o sobre los escenarios empresariales donde se beneficiaría del uso de un algoritmo determinado, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).

Vea el tema de referencia técnica de cada algoritmo para obtener una descripción de los requisitos y las restricciones, así como información detallada sobre las personalizaciones que cada algoritmo admite.

Algoritmo de árboles de decisión de Microsoft

Algoritmo de serie temporal de Microsoft

Algoritmo de clústeres de Microsoft

Algoritmo de red neuronal de Microsoft

Algoritmo Bayes naive de Microsoft

Algoritmo de regresión logística de Microsoft

Algoritmo de asociación de Microsoft

Algoritmo de regresión lineal de Microsoft

Algoritmo de clústeres de secuencia de Microsoft

  

Personalizar los parámetros de algoritmo

Cada algoritmo admite parámetros que sirven para personalizar su comportamiento y ajustar los resultados del modelo. Para obtener información sobre cómo se utiliza cada parámetro, consulte los temas siguientes:

El tema correspondiente a cada tipo de algoritmo también enumera las funciones de predicción que se pueden utilizar con modelos basados en ese algoritmo.

Nombre de la propiedad

Se aplica a

AUTO_DETECT_PERIODICITY

Referencia técnica del algoritmo de serie temporal de Microsoft

CLUSTER_COUNT

Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de clústeres de secuencia de Microsoft

CLUSTER_SEED

Referencia técnica del algoritmo de clústeres de Microsoft

CLUSTERING_METHOD

Referencia técnica del algoritmo de clústeres de Microsoft

COMPLEXITY_PENALTY

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de serie temporal de Microsoft

FORCE_REGRESSOR

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Marcas de modelado (Minería de datos)

FORECAST_METHOD

Referencia técnica del algoritmo de serie temporal de Microsoft

HIDDEN_NODE_RATIO

Referencia técnica del algoritmo de red neuronal de Microsoft

HISTORIC_MODEL_COUNT

Referencia técnica del algoritmo de serie temporal de Microsoft

HISTORICAL_MODEL_GAP

Referencia técnica del algoritmo de serie temporal de Microsoft

HOLDOUT_PERCENTAGE

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

[!NOTA]

Este parámetro es diferente del valor de porcentaje de exclusión que se aplica a una estructura de minería de datos.

HOLDOUT_SEED

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

[!NOTA]

Este parámetro es diferente del valor de inicialización de exclusión que se aplica a una estructura de minería de datos.

INSTABILITY_SENSITIVITY

Referencia técnica del algoritmo de serie temporal de Microsoft

MAXIMUM_INPUT_ATTRIBUTES

Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Referencia técnica del algoritmo Bayes naive de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft

MAXIMUM_ITEMSET_COUNT

Referencia técnica del algoritmo de asociación de Microsoft

MAXIMUM_ITEMSET_SIZE

Referencia técnica del algoritmo de asociación de Microsoft

MAXIMUM_OUTPUT_ATTRIBUTES

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo Bayes naive de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

MAXIMUM_SEQUENCE_STATES

Referencia técnica del algoritmo de clústeres de secuencia de Microsoft

MAXIMUM_SERIES_VALUE

Referencia técnica del algoritmo de serie temporal de Microsoft

MAXIMUM_STATES

Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Referencia técnica del algoritmo de clústeres de secuencia de Microsoft

MAXIMUM_SUPPORT

Referencia técnica del algoritmo de asociación de Microsoft

MINIMUM_IMPORTANCE

Referencia técnica del algoritmo de asociación de Microsoft

MINIMUM_ITEMSET_SIZE

Referencia técnica del algoritmo de asociación de Microsoft

MINIMUM_DEPENDENCY_PROBABILITY

Referencia técnica del algoritmo Bayes naive de Microsoft

MINIMUM_PROBABILITY

Referencia técnica del algoritmo de asociación de Microsoft

MINIMUM_SERIES_VALUE

Referencia técnica del algoritmo de serie temporal de Microsoft

MINIMUM_SUPPORT

Referencia técnica del algoritmo de asociación de Microsoft

Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de clústeres de secuencia de Microsoft

Referencia técnica del algoritmo de serie temporal de Microsoft

MISSING_VALUE_SUBSTITUTION

Referencia técnica del algoritmo de serie temporal de Microsoft

MODELLING_CARDINALITY

Referencia técnica del algoritmo de clústeres de Microsoft

PERIODICITY_HINT

Referencia técnica del algoritmo de serie temporal de Microsoft

PREDICTION_SMOOTHING

Referencia técnica del algoritmo de serie temporal de Microsoft

SAMPLE_SIZE

Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

SCORE_METHOD

Referencia técnica del algoritmo de árboles de decisión de Microsoft

SPLIT_METHOD

Referencia técnica del algoritmo de árboles de decisión de Microsoft

STOPPING_TOLERANCE

Referencia técnica del algoritmo de clústeres de Microsoft

Vea también

Conceptos

Algoritmos de minería de datos (Analysis Services: Minería de datos)

Arquitectura física (Analysis Services - Minería de datos)