Cómo usar la tarea de generación de perfiles de datos (vídeo de SQL Server)

Se aplica a: SQL Server 2008 Integration Services

Autores: Douglas Laudenschlager, Microsoft Corporation

Duración: 00:10:12

Tamaño: 8,96 MB

Tipo: archivo WMV

Ver este vídeo

Temas de ayuda relacionados:

Tarea de generación de perfiles de datos

Generar perfiles de datos con la tarea de generación de perfiles de datos y el visor

Resumen del vídeo

Aprenda a utilizar esta nueva y eficaz tarea en SQL Server 2008 para familiarizarse con una base de datos no conocida o buscar problemas en datos existentes. Eche un vistazo rápido a los ocho perfiles que esta tarea puede calcular.

Transcripción del vídeo

Hola, me llamo Douglas Laudenschlager y trabajo en el equipo de documentación de Microsoft SQL Server Integration Services.

Hoy aprenderá a familiarizarse con una base de datos no conocida o buscar problemas en datos existentes con la Tarea de generación de perfiles de datos, que es nuevo en Integration Services de SQL Server 2008.

Aprenderá a:

  • Configurar y ejecutar la Tarea de generación de perfiles de datos en un paquete de Integration Services.
  • Ejecutar el Visor de perfil de datos independiente para ver la salida de la tarea.
  • Y comprender y analizar el resultado de la tarea en el Visor de perfil de datos.

Nos encontramos en Business Intelligence Development Studio, donde he creado un nuevo proyecto de Integration Services y he abierto el nuevo paquete en el diseñador. Buscaremos la Tarea de generación de perfiles de datos entre los elementos del Flujo de control en el Cuadro de herramientas y la arrastraremos a la superficie de diseño.

Ahora, antes de configurar la tarea, es necesario configurar los dos administradores de conexiones desde los que la tarea obtendrá las entradas y salidas. La Tarea de generación de perfiles de datos obtiene sus entradas de una conexión ADO; por eso, vamos a crear un nuevo administrador de conexiones de ADO.NET que apunta a la base de datos de ejemplo AdventureWorks. La Tarea de generación de perfiles solamente utiliza conexiones ADO.NET y, en esta versión, perfila solamente orígenes de datos de Microsoft SQL Server. La tarea envía su salida a un archivo con formato XML por lo que también necesitaremos un administrador de conexiones de archivos. Configuraremos nuestro administrador de conexiones de archivos para que sobrescriba un archivo de salida existente desde una ejecución anterior. Ya podemos configurar la tarea de generación de perfiles de datos.

Al abrir el editor para la tarea, lo primero que debemos hacer es asignar el administrador de conexiones de archivos que acabamos de crear como el destino de la salida de la tarea. Como queremos sobrescribir un archivo existente, debemos cambiar también el valor de la propiedad OverwriteDestination de False a True.

Si miramos en la página Solicitudes de perfil, podemos ver que hay ocho tipos diferentes de perfiles que la tarea puede calcular. Para muchos de ellos puede especificar numerosas opciones. Sin embargo, todas estas opciones adquirirán más sentido si echamos primero un vistazo a un ejemplo de salida de la tarea de generación de perfiles de datos. Vamos a tomar un atajo.

Volvamos a la ficha General y seleccionemos la opción Perfil rápido. Lo que hace el perfil rápido es ejecutar hasta siete perfiles disponibles con opciones predeterminadas contra una única tabla de nuestra elección. Para nuestra presentación, seleccionaremos la tabla Person.Address en la base de datos AdventureWorks y seleccionaremos los siete perfiles que podemos ejecutar.

La tarea ya está lista y ya podemos utilizarla. Puesto que tarda un minuto en ejecutarse, analizaremos el resultado de una ejecución anterior. Para eso necesitamos utilizar el Visor de perfil de datos, que es una aplicación independiente. Este es el archivo de salida en el Visor de perfil de datos. Expandamos el árbol aquí, en el panel Perfiles (Profiles) situado a la izquierda para ver la estructura de nuestros datos y los perfiles calculados.

Antes de analizar los resultados, dediquémonos un momento a ver los paneles que se muestran en la ventana Visor de perfil de datos. En la página Perfiles (Profiles) situada a la izquierda, puede ver la estructura de los datos y los perfiles que ha seleccionado para ejecutar. En la parte superior derecha, en el panel Resultados (Results), puede ver un resumen de los resultados del perfil, que generalmente consta de una única línea. En la parte central, a la derecha, en el panel Detalles (Details), puede ver los detalles de los datos y ordenarlos fácilmente ya que se presentan tanto en texto como en gráficos. Y, si el origen de datos contra el que ejecutó el perfil sigue disponible, puede ver los detalles de cada conjunto de datos en el panel detallado en la parte inferior derecha.

Ahora, echemos un vistazo a los perfiles disponibles. La tarea de generación de perfiles de datos puede calcular cinco perfiles que examinan columnas individuales y tres perfiles adicionales que vigilan las relaciones entre columnas.

Para una única columna, el perfil más simple es el perfil de proporción de columnas nulas, que calcula el porcentaje de valores nulos en una columna concreta y le puede ayudar a identificar valores null donde no debería haberlos. Obviamente, no nos gustaría tener valores null en una columna de código postal y el resultado de este perfil nos dice que, en la tabla Address, en AdventureWorks, no hay de hecho ningún valor null.

También puede calcular un perfil de distribución de longitud de columnas, que le muestra la longitud máxima y mínima de una columna. Este perfil le ayuda a identificar valores de cadena no aceptables que son más largos o más cortos de lo que requiere la columna. Aquí podemos ver que las entradas que no son null para AddressLine2 en AdventureWorks tienen entre 1 y 28 caracteres. La longitud habitual es de 5 caracteres, y si profundizamos más, podemos ver que generalmente se trata de números de apartamento.

También podemos calcular un perfil de distribución de valores de columna, que nos indica, por ejemplo que en la columna AddressLine2 en AdventureWorks, hay 195 valores diferentes. Esto puede ayudar a alertarnos si hay valores incorrectos o fuera de intervalo; por ejemplo, si encontró más de 50 valores en una tabla de búsqueda de los 50 Estados de EE.UU. Por lo tanto, si esta columna contiene 195 valores distintos, ¿por qué solo vemos uno en el panel Detalles (Details)? Esto ocurre porque la configuración predeterminada para este perfil devuelve detalles únicamente para los valores que representan más de una décima parte del 1% de los datos. Esta es una de las numerosas opciones que puede establecer a la hora de configurar la tarea.

El Perfil de estadísticas de columnas, que se calcula para las columnas numéricas y de datos, nos muestra el valor mínimo, el valor máximo, el promedio y la desviación estándar para una columna numérica. Para las columna de fecha, nos muestra la fecha más antigua y más reciente en el intervalo de fechas. De nuevo, esto nos puede ayudar a detectar los números o las fechas que están fuera del intervalo.

Y un último perfil que se puede calcular par una columna individual es el Perfil de patrón de columnas. Este perfil es más inusual porque devuelve un conjunto de expresiones regulares que cubren todos los valores de a columna. Puede utilizar todas estas expresiones regulares en una aplicación personalizada para validar los datos existentes o para validar la entrada de usuario antes de escribir los datos en la base de datos.

Ahora echemos un vistazo a los perfiles que analizan las relaciones entre columnas.

El Perfil de claves candidatas identifica columnas con un alto grado de unicidad, que pueden ser candidatas a convertirse en una clave principal. Si no se cumple esa unicidad, también podremos verlo aquí. Por supuesto, aquí no se incumple, puesto que la unicidad de esta clave ya viene impuesta por una restricción.

En el resultado del ejemplo no podemos ver el Perfil de inclusión de valores ya que no está controlado por la opción Perfil rápido (Quick Profile), pero este perfil muestra las relaciones de clave externa de una manera similar a como hace el Perfil de claves candidatas con las relaciones de clave principal.

El Perfil de dependencia funcional es uno de los más eficaces. Veamos un ejemplo de una dependencia funcional. En un código postal determinado, siempre se espera que el Estado o la provincia sean fijos y predecibles. Sin embargo, en nuestros resultados podemos ver que solo hay un 99% de verdad en esto en AdventureWorks. Esto nos indica inmediatamente que algunos valores de StateProvinceID no son válidos. Si analizamos uno de los códigos postales con algún incumplimiento, podemos ver las filas que tienen los valores correctos y aquella que tiene el valor incorrecto.

En este vídeo ha aprendido a familiarizarse con una base de datos no conocida, o a buscar problemas en datos existentes con la Tarea de generación de perfiles de datos, nueva en Integration Services de SQL Server 2008.

También ha aprendido a:

  • Configurar y ejecutar la Tarea de generación de perfiles de datos en un paquete de Integration Services.
  • Ejecutar el Visor de perfil de datos independiente para ver la salida de la tarea.
  • Y comprender y analizar el resultado de la tarea en el Visor de perfil de datos.

Esperamos que haya obtenido nueva información de este vídeo y haya aprendido técnicas útiles. Cuando cierre esta reproducción y vuelva a la página web, podrá ver otros vídeos de Integration Services disponibles. Gracias.