SQL Server Integration Services 2008 incorporó como una de sus novedades más interesantes, y desde mi punto de vista, muy útil, la tarea Generación de perfiles y además, incorporó una herramienta llamada Visor de perfiles de datos.
Si nosotros nos encontramos enfrascados en la tarea de navegar por los datos para detectar su contenido, estructura, patrones, longitudes, dependencias funcionales, posibles columnas para convertirse en claves, en fin, lo que sería un diagnóstico completo de nuestros datos, nada mejor que crear un perfil completo desde la tarea Generación de Perfiles de datos que encontramos en las herramientas del Flujo de control de SSIS 2008 y 2008 R2.
Este perfil se almacena en un fichero TXT o XML según se decida y se puede abrir como cualquier otro fichero, o, mejor aun y es lo suyo para poder sacar provecho de todo, lo abrimos con el Visor de Perfiles de datos o Data Profile Viewer que se instala junto con SSIS.
Estos temas, la generación y la exploración de perfiles, los cubrí con bastante amplitud cuando comencé mi viaje por SSIS, así es que me limito hoy a volver a aconsejar su uso, porque evita muchos dolores de cabeza, ayuda no solo a conocer el contenido del dato y la cantidad de población o casos que tiene cada valor de la columna, permite sobre todo detectar anomalías y patrones, esto es muy importante en labores de integración y creación de Datawarehouse para futura creación de cubos OLAP.
1.- Tarea generación de perfiles I – Configuración
2.- Tarea generación de perfiles II – Visualización – Caso A
3.- Tarea generación de perfiles II – Visualización – Caso B
4.- Tarea generación de perfiles III – Visualización – Caso C
5.- Tarea generación de perfiles SSIS 2008 – Patrones exactos y aproximados.
Les dejo con una imagen, que como siempre vale más que mil palabras, en las que se demuestra la anomalía existente en esta tabla que contiene direcciones y donde no coincidentodas las direcciones correspondientes a la ciudad Berlin tienen asociado el mismo identificador de Provincias, esto es un error muy grave si lo que pretendemos es realizar análisis de resultados por provincias, o predicciones para provincias o seleccionar los clientes de una provincia y ciudad determinadas en una jerarquía.
Todo esto y mucho más ofrecen los perfiles creados en SSIS y mostrados a través de este visor, podemos saber, por ejemplo, qué columnas sería posible recomendar como columnas claves, a partir de tener datos únicos y libres de valores NULL, cuál es la dependencia entre columnas, como se vio en la imagen anterior, cuál es la distribución de las longitudes que hay en las columnas, esto es básico si no coinciden con la longitud del destino, y además nos refleja inmediatamente la presencia de datos no válidos para el análisis, como es el caso del código postal para España que tenía valores de longitud de cero a 10, cuando el correcto es 5. Podemos además saber la distribución de estos valores, cuánta población hay en cada caso, lo que refleja de inmediato existencia de datos anómalos o cuanto menos, sospechosos ya que aparecen escasas veces dentro de la muestra, se alejan del umbral de los datos «normales». Así mismo contamos con la posibilidad de conocer los distintos patrones que tienen los datos para una columna, si regresamos al código postal, pues es importantísimo, el patrón para España está clato 99999, todo lo que salga de esto hay que transformarlo.
A partir de la próxima entrega vamos a centrarlos en MS Office Excel 2010, y aquí nos quedaremos en el transcurso de la serie sobre Examinar datos.