Tarea generación de perfiles II – Visualización – Caso B

Vamos a ver hoy, el resultado de crear un perfil a una tabla no tan limpia como la vista en el caso anterior.

Desde el mismo proyecto creado aquí y siguiendo los pasos indicados aquí, creamos una nueva Tarea de Generación de perfiles, esta vez para la tabla Person.Address

tareageneraperfiladdress

Una vez ejecutada la tarea, vamos a examinar el perfil de los datos con el Visor de perfil de datos, o Data Profiler Viewer

Veamos el Perfil de dependencias funcionales. Al principio, la dependencia se muestra al 100%, que es lo deseado.

perfildependennook

Luego, empezamos a ver problemas que ocurren hasta en un 3% de los datos. Esto es mucho o poco según sea el caso, vamos a pensar que es mucho, así que lo miramos detenidamente.

perfildependennook

Ahora conviene mirar el panel Infracciones de dependencia funcional y ordenar por la columna Porcentaje válido para obtener las de menor porcentaje válido que son las que verdaderamente nos afectan. Las columnas tienen la funcionalidad de ordenación interactiva, basta con hacer clic del ratón sobre el encabezado.

perfildependeninfracciones

Quien está en peor estado es la ciudad de Berlín, así que la seleccionamos y pasamos a ver los Perfiles de dependencia funcional, las filas admitidas y muy especialmente las no admitidas.

Recordemos que estamos analizando la dependencia entre las columnas City y StateProvinceID, y de lo que se trata es que cada aparición de cada ciudad, por ejemplo Berlín, se corresponda con la aparición del mismo StateProvinceID, en este caso 19. Hay 129 casos en que a esta City se le asocian varios StateProvinceID diferentes a 19, que son 20,53,70 y 85. En este caso también es posible obtener la ordenación interactiva.

perfildependenfilas

Pues ya está todo, ahora corresponde ir al origen de datos y depurar todo lo que haga falta, hacer “limpieza” para que todas las direcciones de una ciudad tengan el mismo ID de Provincia, como debe ser no?

El segundo aspecto que quiero compartir con ustedes es el referido al patrón de los datos. Vamos a seleccionar la columna PostalCode y el Perfil de patrón de columnas, este es el resultado.

perfilpatron

En este caso, como se trata de países diferentes es normal encontrar tipos de Códigos postales diferentes, con 4 ó 5 números, e incluso que empiecen con letras. Es importante conocer el dato; pero yo diría que es posible que estos datos sean correctos. Para confirmar esta teoría podríamos mirar el Perfil de distribución de longitud para esta columna.

perfildistribucion

Ya les digo, hay que conocer el negocio; pero esta herramienta nos brinda suficiente información para estar prevenidos ante rarezas y anomalías.

Por hoy es todo, el tercer caso que vamos a ver es un caso real de Códigos Postales, les aseguro que es bastante más divertido ver datos reales que los de prueba de Microsoft.

Hasta entonces,

Saludos,

Ana