Explorar datos discretos sin anomalías con DM desde MS Excel

Como habíamos dicho antes, comenzamos hoy el recorrido por los grupos y opciones de menú correspondientes a la ficha Minería de Datos desde MS Excel 2007-2011.

Vamos a recordar los datos con los que venimos trabajando en esta serie. Se trata de los ejemplos que podemos descargar con el Add-ins de Minería de Datos para Excel. Un subconjunto de estos datos los podemos ver en la siguiente imagen

.

Pues bien, supongamos que tenemos muchas más columnas y sobre todo, muchos, muchísimos más registros. El propietario de los datos nos ha asegurado que todos son “buenos”, coherentes y que no hay anomalías.

No nos fiamos y hacemos bien. 🙂 Vamos a Explorar los datos para de esta forma obtener una vista previa de los mismos y recopilar información estadística que nos resultará útil para decidir las, necesarias o no, tareas de limpieza y/o el diseño de la fase de modelado de datos.

Para ello, vamos a la opción de MenúMinería de Datos, concretamente al grupo Preparación de datos y más concretamente al botón Explorar Datos y llamamos al Asistente Explorar datos. Lo primero será seleccionar los datos de origen, sólo se admiten tablas o intervalos de datos de tablas Excel, nada de datos externos por ahora. Seleccionamos toda la tabla y luego podemos ir analizando columna a columna. Vamos a empezar por Estado Civil o lo que es lo mismo Marital Status.

El asistente nos permite conocer la composición de nuestra columna, mediante una representación gráfica de su distribución y  valores.  El tipo de información de este cuadro de diálogo cambia en función de la columna de datos seleccionada. Veamos qué resultados tenemos tras la exploración.

Marital Status es una columna de datos de tipo Discreto, en este caso hay 2 posibles valores “Married” y “Single”. Según vemos las cantidades con cada uno están equilibradas y de momento no detectamos anomalías. Esta columna tal cual está ahora la damos por buena. Aunque… como siempre, que no falte un “pero” 🙂 ¿Qué tal si este es un listado de una gestoría que atiende a parejas en trámites de divorcio? Lo normal, para divorciarse, entre otras cosas, 🙂 sería estar casado, en cuyo caso estos datos no serían del todo coherentes con una realidad en concreto.

Para los datos discretos se ofrecen menos opciones de exploración y procesamiento que para los continuos. Con los discretos, apenas podemos ver el gráfico de barras y copiar el gráfico a una hoja de Excel, tal cual está. Para copiar disponemos de un pequeño botón de comando en la esquina inferior derecha  con el icono acostumbrado para copiar.

Este gráfico lo pegamos como imagen, no proporciona interactividad, en el lugar que deseemos de nuestro libro de Excel, por ejemplo, en una nueva hoja como en la figura que se muestra a continuación.

Podríamos mostrar así el resto de columnas discretas cuyo resultado seguiría este patrón.

En la próxima entrega, seguiremos explorando datos, en este caso, veremos anomalías sobre nuestros datos discretos, con la opción Explorar datos del menú Minería de Datos con Excel 2010.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.