Limpiar datos cambiando etiquetas (II)

Posted by anabisbe on diciembre 16, 2011
Analizar Datos, Excel 2010 y Minería de Datos

Vamos a continuar, justo donde lo dejamos la pasada entrega. Para ponernos en situación, recordemos que estamos hablando de cambiar etiquetas de los datos que forma parte de las acciones de Limpieza de datos que a su vez forma parte de las acciones de Preparación de datos con el Cliente de Minería de datos.

Otro caso podría ser cambiar las etiquetas de los datos para reemplazar los códigos numéricos utilizados en los resultados de una encuesta por una descripción de texto con el significado de los códigos numéricos. A partir de los datos que tenemos digamos que necesitamos dividir la población entre familias numerosas o no. En España se considera que existe Familia Numerosa cuando hay 3 ó más hijos. Esta condición es muy importante para acceso a determinados beneficios. Nosotros no tenemos cuáles son numerosas y cuáles no; pero tenemos la columna número de hijos y es todo lo que necesitamos.

La tabla que nos muestra el asistente es la siguiente:

Una vez introducido el texto de la etiqueta y seleccionado según sea el caso, tenemos el siguiente resultado.

Aquí tenemos la tabla con las dos columnas.

Otra funcionalidad de Cambiar Etiquetas es crear nuevos grupos de valores de datos. El ejemplo que acabamos de terminar nos sirve para comentarlo. Según la columna Children tenemos 6 grupos (de 0 a 5), ahora contamos con dos grupos (FamiliaNumerosa y FamiliaNoNumerosa).  En un análisis posterior, por ejemplo en una tabla dinámica (con o sin cubo OLAP), podemos utilizar ambas columnas dentro de una jerarquía de usuarios.  Por otra parte, hay que tener en cuenta que una segunda columna que repita o consolide los datos de la columna original puede sesgar los resultados de análisis de datos posteriores, como siempre, dependerá de la situación, si al final vemos que no necesitamos las dos columnas podemos realizar una copia de la tabla, eliminar la columna original y usar la tabla que tiene la columna con las nuevas etiquetas para análisis posteriores.  O bien, cuando seleccionemos las columnas usadas en el análisis, tenemos que tener en cuenta no seleccionar al mismo tiempo la columna original y la columna cuyas etiquetas han cambiado y seleccionar solo una columna.

Teniendo en cuenta que las nuevas etiquetas se usan como encabezados de columna en los gráficos generados por otros asistentes para minería de datos, deben ser breves a la vez que descriptivas. Acabamos de dejar un texto que quizás sería mejor cambiar por FNN (en lugar de FamiliaNoNumerosa)  y FN (en lugar de FamiliaNumerosa) para garantizar lo de breve, aunque habría que preguntarse si al usuario final le resulta suficientemente descriptiva, y aquí como siempre, va a depender de la situación real que estemos analizando.

Antes de terminar, me gustaría aclarar que hay casos en los que tenemos demasiados valores posibles y el asistente nos avisa de esta situación. El mayor número de valores a mostrar es 500. Para reproducir este caso a partir del juego de datos con que contamos, voy a seleccionar la columna ID… que evidentemente no constituye una columna descriptiva del dato ni sirve para referir ningún comportamiento o patrón; pero es el ID y pa’esto nos vale :).

Una vez seleccionado aquí tenemos el error.

Como vemos, a partir de los datos con que contamos inicialmente, podemos realizar muchas modificaciones para conseguir tener la información agrupada de tal forma que garantice el buen resultado de los análisis. En la próxima entrega estaremos hablando de Preparación de datos, específicamente de Datos de muestra.

Tags: , , ,

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>