Hola,
Hoy comienzo una nueva serie dedicada a describir un poco algunas herramientas que tenemos a nuestra disposición para Analizar datos que no conocemos. Nuestro objetivo es saber qué tipo de datos nos está enviando el cliente, cuál es su estructura y su contenido, ver si es válido y limpio para lo que necesitamos y ver si hay que retocar esta estructura y contenido de alguna forma para que se ajuste a nuestras necesidades.
Vamos a apoyarnos en herramientas Microsoft, concretamente MS Office Excel (2007-2010) y MS SQL Server 2008 R2. Veremos el visor de perfiles creado con tareas de MS SQL Server Integration Services, tablas dinámicas de Excel que consumen datos relacionales o datos multidimensionales creados con MS SQL Server Analysis Services, veremos T-SQL, MDX, DMX, y veremos, cómo no, las herramientas de Minería de datos que se han integrado a MS Office Excel.
Cuando he tenido la oportunidad de participar en proyectos BI con SQL Server me encuentro con que el cliente no es dueño de su dato, o siendo dueño no lo conoce, o conociéndolo no conoce sus anomalías y partimos de supuestos inciertos. De momento no he tenido ocasión de participar en un proyecto en el que el cliente sea dueño, conozca sus datos y estén limpios !!! 🙂
Algunos ejemplos reales: no a todos los productos se les ha asignado una clasificación y se pretende analizar según clasificación, no todos los datos de una columna de tabla se refieren conceptualmente a lo mismo (en la columna provincia nos encontramos provincias, ciudades y hasta países, que luego hay que desmenuzar porque en realidad se requieren divididos), hay columnas que admiten lo que sea (según la aplicación de entrada que no restringe el dato) y provoca que el código postal o la profesión, contienen literalmente “de todo” y que un libro aparezca con títulos diversos y de los autores ya ni hablamos … un sinfín de incongruencias, anomalías y suciedades … 😦
Antes de empezar siquiera a procesar, lo primero es ver qué tenemos y a eso es a lo que me voy a dedicar en las primeras entradas de esta serie.