Generar perfiles de datos con la tarea de generación de perfiles de datos y el visor

La tarea de generación de perfiles de datos proporciona la funcionalidad para generar perfiles de datos dentro del proceso de extracción, transformación y carga de datos. El uso de esta tarea le permitirá:

  • Analizar los datos de origen de forma más eficaz.

  • Comprender mejor la estructura de los datos de origen.

  • Evitar problemas de calidad en los datos antes de incluirlos en el almacenamiento de datos.

Nota importanteImportante

La tarea de generación de perfiles de datos solo funciona con datos que estén almacenados en SQL Server 2000 o en versiones posteriores. No funciona con orígenes de datos de otros fabricantes o basados en archivos.

¿Qué es la generación de perfiles de datos?

La calidad de los datos es importante en todos los negocios. A medida que las empresas desarrollan sistemas analíticos y de inteligencia empresarial sobre sus sistemas transaccionales, la fiabilidad de los indicadores clave de rendimiento y de las predicciones de la minería de datos dependerán por completo de la validez de los datos en los que se basan. Pero aunque la importancia de disponer de datos válidos para la toma de decisiones empresariales está aumentando, también lo hace en la misma medida el desafío de garantizar la validez de los mismos. La información fluye de forma ininterrumpida en la empresa procedente de diversos sistemas y orígenes, y de un gran número de usuarios.

Las métricas para determinar la calidad de los datos pueden ser difíciles de definir porque son específicas del dominio o de la aplicación. Un método común para definir la calidad de los datos es la generación de perfiles de datos.

Un perfil de datos es una colección de estadísticas acumuladas sobre los datos que puede incluir la siguiente información:

  • El número de filas de la tabla de clientes.

  • El número de valores distintos en la columna Estado.

  • El número de valores nulos o ausentes en la columna Código postal.

  • La distribución de los valores en la columna Ciudad.

  • La solidez de la dependencia funcional entre la columna Estado y la columna Código postal; es decir, el estado siempre debería ser el mismo para un valor de código postal determinado.

Las estadísticas proporcionadas por un perfil de datos le ofrecen la información que necesita para minimizar de forma eficaz los problemas de calidad derivados del uso de los datos de origen.

Cómo funciona la generación de perfiles de datos en Integration Services

En Integration Services, el proceso de generación de perfiles de datos consta de los pasos siguientes:

  • Paso 1: Preparar la tarea de generación de perfiles de datos
    La tarea de generación de perfiles de datos es una tarea que se utiliza para configurar los perfiles que se desean calcular. A continuación, se ejecuta el paquete que contiene la tarea de generación de perfiles de datos para calcular los perfiles. La tarea guarda el perfil generado en formato XML en un archivo o en una variable de paquete.

    Para obtener más información:Configurar la tarea de generación de perfiles de datos

  • Paso 2: Revisar los perfiles calculados por la tarea de generación de perfiles de datos
    Para ver los perfiles de datos calculados por la tarea de generación de perfiles de datos, se envía la salida a un archivo y, a continuación, se utiliza el Visor de perfil de datos. Este visor es una utilidad independiente que muestra el perfil generado tanto en formato resumen como en formato detallado, y que también permite la obtención de detalles.

    Para obtener más información:Ver la salida de perfiles en el visor de perfiles de datos

Agregar la lógica condicional al flujo de trabajo que genera perfiles de datos

La tarea de generación de perfiles de datos no tiene características integradas que le permitan utilizar lógica condicional para conectar esta tarea a las tareas de nivel inferior según el perfil generado. Sin embargo, puede agregar fácilmente esta lógica, con una pequeña cantidad de programación, en una tarea Script. Por ejemplo, la tarea Script puede realizar una consulta XPath en el archivo de salida de la tarea de generación de perfiles de datos. La consulta podría determinar si el porcentaje de valores nulos en una columna determinada supera un cierto umbral. Si el porcentaje supera el umbral, puede interrumpir el paquete y resolver el problema en los datos de origen antes de continuar. Para obtener más información, vea Usar la tarea de generación de perfiles de datos en un flujo de trabajo de paquetes.

Icono de Integration Services (pequeño) Manténgase al día con Integration Services

Para obtener las más recientes descargas, artículos, ejemplos y vídeos de Microsoft, así como soluciones seleccionadas de la comunidad, visite la página de Integration Services en MSDN o TechNet:

Para recibir notificaciones automáticas de estas actualizaciones, suscríbase a las fuentes RSS disponibles en la página.