Tipos de contenido (minería de datos)

Artículo
07/30/2013

En Microsoft SQL Server Analysis Services, puede definir tanto el tipo de datos físico de una columna en una estructura de minería como un tipo de datos lógico que define cómo se usa la columna en un modelo.

El tipo de datos determina el modo en que los algoritmos procesan los datos de esas columnas cuando se crean modelos de minería. La definición del tipo de datos de una columna proporciona al algoritmo información sobre el tipo de datos de las columnas y el modo de procesar los datos. Cada tipo de datos de Analysis Services admite uno o varios tipos de contenido para la minería de datos.
El tipo de contenido describe el comportamiento de los valores incluidos en la columna. Por ejemplo, si los valores de datos de una columna tienden a repetirse en un intervalo concreto, como los días de la semana, puede especificar el tipo de contenido de esa columna como cíclico.

Algunos algoritmos requieren tipos de datos y/o de contenido específicos para que funcionen correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede utilizar columnas continuas como entrada ni predecir valores continuos. Por lo tanto, tales columnas deben o bien excluirse del modelo o discretizarse. Algunos tipos de contenido, como Key Sequence, solo son utilizados por un algoritmo concreto. Para obtener una lista de los algoritmos y los tipos de contenido que admite cada uno, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).

En la lista siguiente se describen los tipos de contenido que se usan en la minería de datos y se enumeran los tipos de datos que admite cada tipo de contenido.

Discreto

El tipo de contenido discreto indica que la columna contiene un número finito de valores no continuos. Por ejemplo, una columna como la del género es una columna de atributos discreta muy habitual en la que los datos representan un número específico de categorías. Si la columna contiene texto, el tipo se establece automáticamente en discrete. Sin embargo, si la columna contiene valores discretos que tienen etiquetas numéricas (por ejemplo, en una columna de género, hombre podría etiquetarse como 0 y mujer como 1), podría necesitar cambiar el tipo de contenido de continuo a discreto.

Incluso si los valores utilizados para la columna discreta son numéricos, no se pueden calcular valores fraccionarios. Los códigos telefónicos de zona son un buen ejemplo de datos discretos que son numéricos pero no deben usarse para los cálculos. Además, los valores de una columna de atributos discreta no pueden implicar la ordenación, aun cuando los valores sean numéricos.

El tipo de contenido Discrete puede aplicarse a las columnas de todos los tipos de datos de minería.

Continuo

Continuo indica que la columna contiene valores que representan datos numéricos en una escala que permite valores intermedios. A diferencia de una columna discreta, que representa datos numerables y finitos, una columna continua representa medidas escalables; además, es posible que los datos contengan un número infinito de valores fraccionarios. Una columna de temperaturas es un ejemplo de una columna de atributos continua.

Cuando una columna contiene datos numéricos y se sabe cómo deben distribuirse los datos, se podrían obtener análisis más exactos especificando la distribución prevista de los valores. La distribución de columnas se especifica en el nivel de la estructura de minería. Por lo tanto, la opción se aplica a todos los modelos basados en la estructura. Para obtener más información, vea Distribuciones de columnas (minería de datos).

El tipo de contenido Continuous puede aplicarse a las columnas de los siguientes tipos de datos: Date, Double y Long.

Discretos

La discretización es el proceso mediante el cual los valores de un conjunto de datos continuo se incluyen en depósitos para que haya un número limitado de valores posibles. Solo se pueden discretizar los datos numéricos.

Por tanto, el tipo de contenido discretized indica que la columna contiene valores que representan grupos o depósitos de valores que se derivan de una columna continua. Los depósitos se tratan como si fueran valores ordenados y discretos.

Se pueden discretizar los datos manualmente, para asegurarse de que se obtienen los depósitos deseados, o se pueden utilizar los métodos de discretización proporcionados en SQL Server Analysis Services. Algunos algoritmos realizan la discretización automáticamente. Para obtener más información, vea Cambiar la discretización de una columna en un modelo de minería de datos.

El tipo de contenido Discretized puede aplicarse a las columnas de los siguientes tipos de datos: Date, Double, Long y Text.

Clave

El tipo de contenido clave indica que la columna identifica una fila de forma inequívoca. Normalmente, en una tabla de casos, la columna de clave es un identificador numérico o de texto. Cuando establece el tipo de contenido en key, está indicando que la columna no debe utilizarse para el análisis, sino para realizar el seguimiento de los registros.

Las tablas anidadas también tienen claves, pero el uso de la clave de tabla anidada es ligeramente diferente. En una tabla anidada debe establecer el tipo de contenido en key si la columna es el atributo que desea analizar. Los valores de la clave de tabla anidada deben ser únicos para cada caso, pero puede haber duplicados en todo el conjunto de casos.

Por ejemplo, si está analizando los productos que compran los clientes, debe establecer el tipo de contenido en key para la columna CustomerID de la tabla de casos, y también debe establecer el tipo de contenido en key para la columna PurchasedProducts de la tabla anidada.

[!NOTA]

Las tablas anidadas solo están disponibles si utiliza los datos de un origen de datos externo definido como una vista del origen de datos de Analysis Services.

Este tipo de contenido es compatible con los siguientes tipos de datos: Date, Double, Long y Text.

Secuencia de claves

El tipo de contenido secuencia de claves solamente se puede utiliza en modelos de agrupación en clústeres de secuencia. Cuando se establece el tipo de contenido en key sequence, se indica que la columna contiene valores que representan una secuencia de eventos. Los valores están ordenados y no tienen que estar separados por una distancia equivalente.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long, Text y Date.

Clave temporal

El tipo de contenido clave temporal solamente se puede utilizar en modelos de serie temporal. Cuando se establece el tipo de contenido en key time, se indica que los valores están ordenados y que representan una escala de tiempo.

Este tipo de contenido se puede aplicar a las columnas que tienen los siguientes tipos de datos: Double, Long y Date.

Tabla

El tipo de contenido tabla indica que la columna contiene otra tabla de datos, con una o más columnas y una o más filas. Para cualquier fila concreta de la tabla de casos, esta columna puede contener varios valores, todos ellos relacionados con el registro del caso primario. Por ejemplo, si la tabla de casos principal contiene una lista de clientes, podría tener varias columnas con tablas anidadas, como una columna ProductosComprados, donde la tabla anidada muestre una lista de los productos que este cliente ha comprado en el pasado, y una columna Aficiones que muestre las aficiones del cliente.

El tipo de datos de esta columna siempre es Table.

Cíclico

El tipo de contenido cíclico indica que la columna contiene valores que representan un conjunto ordenado cíclico. Por ejemplo, los días numerados de la semana es un conjunto ordenado cíclico, ya que el día número uno sigue al día número siete.

Las columnas cíclicas se consideran ordenadas y discretas en términos de tipo de contenido.

Este tipo de contenido puede aplicarse a las columnas de todos los tipos de datos de Analysis Services excepto table y Boolean. Sin embargo, la mayoría de los algoritmos tratan los valores cíclicos como valores discretos y no realizan ningún procesamiento especial.

Ordenado

El tipo de contenido ordenado indica también que la columna contiene valores que definen una secuencia u orden. Sin embargo, en este tipo de contenido los valores utilizados para la ordenación no implican ninguna relación de distancia o magnitud entre los valores del conjunto. Por ejemplo, si una columna de atributos ordenados contiene información acerca de una lista de niveles de especialización que vayan del uno al cinco, no existe información implícita entre los niveles de especialización; un nivel cinco de especialización no es necesariamente cinco veces mejor que un nivel uno de especialización.

Las columnas de atributos ordenados se consideran que contienen valores discretos.

Este tipo de contenido se puede aplicar a todos los tipos de datos de minería de datos de Analysis Services. Sin embargo, la mayoría de los algoritmos tratan los valores ordenados como valores discretos y no realizan ningún procesamiento especial.

Classified

Además de los tipos de contenido anteriores cuyo uso es común en todos los modelos, para algunos tipos de datos puede utilizar columnas clasificadas para definir tipos de contenido. Para obtener más información acerca las columnas clasificadas, vea Columnas clasificadas (Minería de datos).

Vea también