Introducción a la serie Examinar datos

Hola,

Hoy comienzo una nueva serie dedicada a describir un poco algunas herramientas que tenemos a nuestra disposición para Analizar datos que no conocemos. Nuestro objetivo es saber qué tipo de datos nos está enviando el cliente, cuál es su estructura y su contenido, ver si es válido y limpio para lo que necesitamos y ver si hay que retocar esta estructura y contenido de alguna forma para que se ajuste a nuestras necesidades.

Vamos a apoyarnos en herramientas Microsoft, concretamente MS Office Excel (2007-2010) y MS SQL Server 2008 R2. Veremos el visor de perfiles creado con tareas de MS SQL Server  Integration Services, tablas dinámicas de Excel que consumen datos relacionales o datos multidimensionales creados con MS SQL Server Analysis Services, veremos T-SQL, MDX, DMX,  y veremos, cómo no, las herramientas de Minería de datos que se han integrado a MS Office Excel.

Cuando he tenido la oportunidad de participar en proyectos BI con SQL Server me encuentro con que el cliente no es dueño de su dato, o siendo dueño no lo conoce, o conociéndolo no conoce sus anomalías y partimos de supuestos inciertos. De momento no he tenido ocasión de participar en un proyecto en el que el cliente sea dueño, conozca sus datos y estén limpios !!! 🙂

Algunos ejemplos reales:   no a todos los productos se les ha asignado una clasificación y se pretende analizar según clasificación, no todos los datos de una columna de tabla se refieren conceptualmente a lo mismo (en la columna provincia nos encontramos provincias, ciudades y hasta países, que luego hay que desmenuzar porque en realidad se requieren divididos),  hay columnas que  admiten lo que sea (según la aplicación de entrada que no restringe el dato) y provoca que el código postal o la profesión, contienen literalmente “de todo” y que un libro aparezca con títulos diversos y de los autores ya ni hablamos … un sinfín de incongruencias, anomalías y suciedades … 😦

Antes de empezar siquiera a procesar, lo primero es ver qué tenemos y a eso es a lo que me voy a dedicar en las primeras entradas de esta serie.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.