Procesar estructuras y modelos (Analysis Services - Minería de datos)

Un objeto de minería de datos solo es un contenedor vacío hasta que se procesa. El procesamiento de un modelo de minería de datos también se denomina entrenamiento.

Procesar estructuras de minería de datos: una estructura de minería de datos obtiene los datos de un origen de datos externo, definido por los enlaces de columna y el uso de los metadatos, y los lee. Se leen todos los datos y, a continuación, se analizan para extraer varias estadísticas. Analysis Services almacena una representación compacta de los datos, que puede ser analizada por los algoritmos de minería de datos, en una caché local. Una vez procesados los modelos, puede conservar esta caché o eliminarla. De forma predeterminada, la caché se almacena. Para obtener más información, vea Cómo procesar una estructura de minería de datos.

Procesar modelos de minería de datos: un modelo de minería de datos está vacío y sólo contiene definiciones, hasta que se procesa. Para procesar un modelo de minería de datos, se debe haber procesado antes la estructura de minería de datos en la que está basado. El modelo de minería de datos obtiene los datos de la caché de la estructura de minería de datos, aplica los filtros que se han creado en el modelo y, a continuación, pasa el conjunto de datos por el algoritmo para detectar patrones. Una vez procesado el modelo, éste solo almacena los resultados del procesamiento, no los propios datos. Para obtener más información, vea Cómo procesar un modelo de minería de datos.

El siguiente diagrama muestra el flujo de datos cuando se procesa una estructura de minería de datos y cuando se procesa un modelo de minería de datos.

Procesamiento de datos: origen de la estructura del modelo.

Consultas en el almacén relacional durante el procesamiento

Hay tres fases para el procesamiento: consultar los datos de origen, determinar las estadísticas sin tratar y usar la definición del modelo y el algoritmo para entrenar el modelo de minería de datos.

El servidor de Analysis Services emite consultas a la base de datos que proporciona los datos sin procesar. Esta base de datos puede ser una instancia de SQL Server 2008 o una versión anterior del motor de base de datos de SQL Server. Cuando se procesa una estructura de minería de datos, los datos del origen se transfieren a la estructura de minería de datos y se conservan en el disco en un nuevo formato comprimido. No se procesan todas las columnas del origen de datos sino únicamente aquellas que están incluidas en la estructura de minería de datos, de acuerdo con la definición de los enlaces.

Con estos datos, Analysis Services genera un índice de todos los datos y columnas de datos discretos, y crea un índice independiente para las columnas continuas. Se emite una consulta por cada tabla anidada para crear el índice y se genera una consulta adicional por cada tabla anidada para procesar las relaciones entre cada par de una tabla anidada y tabla de casos. La razón para crear varias consultas es procesar un cubo de procesamiento analítico en línea (OLAP) interno especial. Puede limitar el número de consultas que Analysis Services envía al almacén relacional estableciendo la propiedad del servidor DatabaseConnectionPoolMax. Para obtener más información, vea Propiedades OLAP.

Al procesar el modelo, éste no vuelve a leer directamente los datos del origen de datos, sino que recibe el resumen de los datos de la estructura de minería de datos. Utilizando el cubo que se creó, junto con el índice y los datos del caso almacenados en memoria caché, el servidor crea subprocesos independientes para entrenar los modelos.

En SQL Server Enterprise, todo el procesamiento tiene lugar en paralelo. En SQL Server Standard, el proceso se serializa.

Ver los resultados del procesamiento

Una vez procesada una estructura de minería de datos, ésta contiene una representación compacta de los datos para usarse en el análisis estadístico. Si no se ha borrado la caché, puede tener acceso a los datos que contiene de las formas siguientes:

Una vez procesado un modelo de minería de datos, éste solo contiene los patrones derivados del análisis y las asignaciones de los resultados del modelo a los datos de entrenamiento almacenados en caché. Puede examinar o consultar los resultados del modelo, denominados contenido del modelo, o puede consultar el modelo y los casos de la estructura, si se han almacenado en caché.

El contenido del modelo para cada modelo de minería de datos depende del algoritmo usado para crearlo. Por ejemplo, si un modelo es un modelo de agrupación en clústeres y otro es un modelo de árboles de decisión, el contenido del modelo es muy diferente aunque ambos usen exactamente los mismos datos. Para obtener más información, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).