Limpiar datos cambiando etiquetas (I)

Cuando comencé esta serie, allá por el mes de abril de este año 2011 comentaba que nuestro objetivo es saber qué tipo de datos nos está enviando el cliente, cuál es su estructura y su contenido, ver si es válido y limpio para lo que necesitamos y ver si hay que retocar esta estructura y contenido de alguna forma para que se ajuste a nuestras necesidades. Pues bien, justamente este sigue siendo nuestro objetivo cuando vamos a utilizar la opción Limpiar datos cambiando sus etiquetas, desde el menú Preparación de datos del Cliente de Minería de datos para Excel. Antes hemos estado centrados en la exploración de datos y limpieza de datos atípicos. Vamos a trabajar con las etiquetas y modificar los datos para que resulten más fáciles de leer y usar.

El origen de datos que vamos a utilizar es el mismo. Como no puede ser de otra forma, vamos a basarnos en un asistente para realizar esta transformación, por ejemplo, podemos reemplazar los valores numéricos por etiquetas de texto o asignar una etiqueta de grupo a intervalos de datos continuos, en fin, reorganizar los datos y a crear columnas nuevas para su uso en la minería de datos.  El primer paso del asistente será la selección del origen de datos y la columna específica, como en el resto de casos que hemos estado viendo. Recordemos que al explorar o limpiar datos, sólo se puede trabajar con una columna cada vez.

Una razón para necesitar esta opción podría ser asignar un valor que sea más comprensible al usuario final, es posible que nos resulte difícil leer o interpretar algunos valores debido al método usado a la hora de especificarlos. En nuestro ejemplo los datos relativos al Género aparecen en inglés, pues bien, por ejemplo, nos puede interesar cambiar Female por Mujer y Male por Hombre. El asistente Cambiar etiquetas de datos agrupa los datos por valores para que pueda cambiar las etiquetas de los datos. El resultado es una tabla en la que en la primera columna, Recuento, muestra el número de filas que contienen el valor,en la segunda,  Etiquetas originales, muestra el valor o la etiqueta actual usada para el valor, en este caso nos muestra dos únicos valores posibles: Female y Male.


La tercera columna, Nuevas etiquetas, nos permite seleccionar un valor de etiqueta nueva en la lista de valores o resaltar la etiqueta y escribir una nueva. En este caso vamos a cambiar las dos etiquetas por valores no existentes en la lista, aunque podíamos crear grupos aprovechando algunas de las etiquetas existentes.

En el cuadro de diálogo Seleccionar destino, tal y como vimos en casos anteriores, vamos a especificar dónde desea almacenar los datos cuyas etiquetas ha cambiado. Podemos sobrescribir los valores existentes, crear una nueva hoja de cálculo o agregar una nueva columna a la hoja de cálculo existente.

Vamos a agregar una nueva columna para que se vea el resultado de lo que acabamos de hacer.

La tabla con las dos columnas tendría este aspecto.

En la próxima entrada veremos otro caso que representa la necesidad de utilizar Cambiar Etiquetas dentro de Limpieza de datos en el Cliente de Minería de datos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.