Tipos de contenido (minería de datos)

En Microsoft SQL Server Analysis Services, puede definir tanto el tipo de datos físico de una columna en una estructura de minería como un tipo de datos lógico de la columna cuando se utilice en un modelo.

El tipo de datos determina el modo en que los algoritmos procesan los datos de esas columnas cuando se crean modelos de minería. La definición del tipo de datos de una columna proporciona al algoritmo información sobre el tipo de datos de las columnas y el modo de procesar los datos. Cada tipo de datos de Analysis Services admite uno o varios tipos de contenido para la minería de datos.

El tipo de contenido describe el comportamiento del contenido incluido en la columna. Por ejemplo, si el contenido de una columna se repite en un intervalo concreto, como los días de la semana, puede especificar el tipo de contenido de esa columna como cíclico.

Algunos algoritmos requieren tipos de datos y de contenido específicos para que funcionen correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede utilizar columnas continuas como entrada ni predecir valores continuos. Algunos tipos de contenido, como Key Sequence, sólo son utilizados por un algoritmo concreto. Para obtener una lista de los algoritmos y los tipos de contenido que admite cada uno, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).

En la lista siguiente se describen los tipos de contenido que se usan en la minería de datos y se identifican los tipos de datos que admiten cada tipo.

Discrete

El tipo de contenido discreto indica que la columna contiene un número finito de valores no continuos. Por ejemplo, una columna de género es una columna de atributos discreta muy habitual, en la que los datos representan un número específico de categorías.

Los valores de una columna de atributos discreta no pueden implicar la ordenación, aun cuando los valores sean numéricos. Además, aunque los valores utilizados para la columna discreta sean numéricos, no se pueden calcular valores fraccionarios. Los códigos telefónicos de cada zona son un buen ejemplo de datos numéricos discretos.

El tipo de contenido Discrete es compatible con todos los tipos de datos de minería de datos.

Continuo

Continuo indica que la columna contiene valores que representan datos numéricos en una escala que permite valores intermedios. A diferencia de una columna discreta, que representa datos numerables y finitos, una columna continua representa medidas escalables; además, es posible que los datos contengan un número infinito de valores fraccionarios. Una columna de temperaturas es un ejemplo de una columna de atributos continua.

Cuando una columna contiene datos numéricos y se sabe cómo deben distribuirse los datos, se podrían obtener análisis más exactos especificando la distribución prevista de los valores. La distribución de columnas se especifica en el nivel de la estructura de minería. Por tanto, la configuración se aplica a todos los modelos basados en la estructura. Para obtener más información, vea Distribuciones de columnas (minería de datos).

El tipo de contenido Continuous es compatible con los siguientes tipos de datos: Date, Double y Long.

Discretizado

La discretización es el proceso mediante el cual los valores de un conjunto de datos continuo se incluyen en grupos o depósitos para que haya un número limitado de valores posibles. Sólo se pueden discretizar los datos numéricos.

Por tanto, el tipo de contenido discretizado indica que la columna contiene valores que representan grupos o depósitos de valores que se derivan de una columna continua. Los depósitos se tratan como si fueran valores ordenados y discretos.

Se pueden discretizar los datos manualmente, para asegurarse de que se obtienen los depósitos deseados, o se pueden utilizar los métodos de discretización proporcionados en SQL Server Analysis Services. Algunos algoritmos realizan la discretización automáticamente. Para obtener más información, vea Cómo cambiar la discretización de una columna en un modelo de minería de datos.

El tipo de contenido Discretized es compatible con los siguientes tipos de datos: Date, Double, Long y Text.

Clave

El tipo de contenido clave indica que la columna identifica una fila de forma inequívoca. Normalmente, en una tabla de casos, la columna de clave es un identificador numérico o de texto. Establezca el tipo de contenido en key para indicar que la columna no debe utilizarse para el análisis, sino para realizar el seguimiento de los registros.

Las tablas anidadas también tienen claves, pero el uso de la clave de tabla anidada es ligeramente diferente. En una tabla anidada debe establecer el tipo de contenido en key si la columna es el atributo que desea analizar. Los valores de la clave de tabla anidada deben ser únicos para cada caso, pero puede haber duplicados en todo el conjunto de casos.

Por ejemplo, si está analizando los productos que compran los clientes, debe establecer el tipo de contenido en Key para la columna CustomerID de la tabla de casos, y también debe establecer el tipo de contenido en Key para la columna PurchasedProducts de la tabla anidada.

Nota

Las tablas anidadas sólo están disponibles si utiliza los datos de un origen de datos externo definido como una vista del origen de datos (Analysis Services).

Este tipo de contenido es compatible con los siguientes tipos de datos: Date, Double, Long y Text.

Secuencia de claves

El tipo de contenido secuencia de claves solamente se puede utiliza en modelos de agrupación en clústeres de secuencia. Cuando se establece el tipo de contenido en key sequence, se indica que la columna contiene valores que representan una secuencia de eventos. Los valores están ordenados y no tienen que estar separados por una distancia equivalente.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long, Text y Date.

Clave temporal

El tipo de contenido clave temporal solamente se puede utilizar en modelos de serie temporal. Cuando se establece el tipo de contenido en key time, se indica que los valores están ordenados y que representan una escala de tiempo.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long y Date.

Tabla

El tipo de contenido tabla indica que la columna contiene otra tabla de datos, con una o más columnas y una o más filas. Para cualquier fila concreta de la tabla de casos, esta columna puede contener varios valores, todos ellos relacionados con el registro del caso primario. Por ejemplo, si la tabla de casos principal contiene una lista de clientes, podría tener varias columnas con tablas anidadas, como una columna ProductosComprados, donde la tabla anidada muestre una lista de los productos que este cliente ha comprado en el pasado, y una columna Aficiones que muestre las aficiones del cliente.

El tipo de datos de esta columna siempre es Table.

Cíclico

El tipo de contenido cíclico indica que la columna contiene valores que representan un conjunto ordenado cíclico. Por ejemplo, los días numerados de la semana es un conjunto ordenado cíclico, ya que el día número uno sigue al día número siete.

Las columnas cíclicas se consideran ordenadas y discretas en términos de tipo de contenido.

Este tipo de contenido es compatible con todos los tipos de datos de minería de datos de Analysis Services. Sin embargo, la mayoría de los algoritmos tratan los valores cíclicos como valores discretos y no realizan ningún procesamiento especial.

Ordenado

El tipo de contenido ordenado indica también que la columna contiene valores que definen una secuencia u orden. Sin embargo, en este tipo de contenido los valores utilizados para la ordenación no implican ninguna relación de distancia o magnitud entre los valores del conjunto. Por ejemplo, si una columna de atributos ordenados contiene información acerca de una lista de niveles de especialización que vayan del uno al cinco, no existe información implícita entre los niveles de especialización; un nivel cinco de especialización no es necesariamente cinco veces mejor que un nivel uno de especialización.

Las columnas de atributos ordenados se consideran discretas en términos de tipo de contenido.

Este tipo de contenido es compatible con todos los tipos de datos de minería de datos en Analysis Services. Sin embargo, la mayoría de los algoritmos tratan los valores ordenados como valores discretos y no realizan ningún procesamiento especial.

Classified

Además de los tipos de contenido anteriores cuyo uso es común en todos los modelos, para algunos tipos de datos puede utilizar columnas clasificadas para definir tipos de contenido. Para obtener más información acerca las columnas clasificadas, vea Columnas clasificadas (Minería de datos).