Detectar valores atípicos discretos con DM desde Excel 2010

En días pasados hemos visto algunas labores de Preparación de datos, concretamente las referidas a Explorar datos con las Herramientas de Minería de datos desde MS Excel 2007-2010. A partir de hoy vamos a estar hablando de Limpieza de datos.

Vamos a comenzar hablando de la Limpieza de datos detectando Valores atípicos. ¿Cuáles son los valores atípicos? Pues, pueden ser aquellos valores, que aunque se corresponden con la realidad estén fuera de intervalo, o datos especificados de forma incorrecta que deberían corregirse, o sin valor o un dato cuyo valor puede sesgar la distribución del modelo, ya sea por desproporcionado o por mostrar espacio o cadena de tipo NULL. Hay muchas razones posibles, y sea cuál sea en cada caso, nuestra misión es limpiar el dato de esos valores atípicos para enfrentar las tareas a las que está destinado este dato en el futuro. El Cliente de minería de datos para Excel nos ayuda a detectar estos datos y a actualizar los valores o  suprimirlos. Por ejemplo, podemos  reemplazar los valores extremos por una media aritmética o podemos eliminar las filas que sean susceptibles de contener valores erróneos.

No olvidemos lo aprendido antes, es decir, primero, podemos explorar los datos para entender mejor la distribución de los valores y la relación de los valores atípicos con los otros datos. Es decir, utilizar la ya conocida tarea Explorar datos para revisar y luego, corregir los valores.

Desde MS Excel 2007 y 2010 nuevamente nos apoyamos en Asistentes, los que hacen más fácil la limpieza de datos antes del proceso de minería. El primer paso, será seleccionar el origen de datos, aquí nos encontramos con la misma situación que al Explorar datos, podemos seleccionar la tabla y luego la columna o con la columna seleccionada pasar al siguiente paso. No admite datos externos.

El Asistente para quitar valores atípicos aplica sofisticados análisis de patrones a los datos y representa gráficamente, en un gráfico de líneas o de barras, la distribución de los valores de los datos y permite quitar o cambiar los valores extremos que sean considerados atípicos.  El método que utilicemos dependerá de si los valores son discretos o continuos.

Tal y como hemos visto durante la Exploración de datos, el asistente muestra los valores discretos en un gráfico de barras, donde cada barra representa un valor concreto y el alto de la barra indica el número de casos para cada valor.  A diferencia de lo visto antes, aquí los valores aparecen ordenados en dependencia de la cantidad de casos y además tenemos la posibilidad de especificar el umbral mínimo para los valores. Deslizando el control de umbral en el gráfico, podemos cortar barras que representen grupos de valores extremos o potencialmente erróneos.


Por ejemplo, en este caso, para que se tengan en cuenta las 3 Regiones (Regions) el mínimo de casos aceptables es 192, si subimos apenas una cifra, veremos que ya los registros cuyo valor sea Pacific para la columna  Regions pasan a señalarse como valores atípicos.

Lo mismo ocurre con Europe si pasamos de 300 a 301.

Veamos otro caso, hace unos días mostramos el efecto de provocar un error intencionado sobre un dato, en concreto sobre la columna Marital Status. Si mantenemos ese error, veamos lo que sucede con el umbral para datos atípicos en el análisis.
Exacto, el valor Casada existe solamente cuando el umbral mínimo sea 1, porque no se admite cero, claro está. En cuanto subamos a 2, este dato visiblemente atípico queda fuera.

En la próxima entrega veremos cómo se tratan los datos continuos con el Asistente para Valores atípicos, de la Herramienta Limpiar datos del Cliente de Minería de datos de MS Excel 2010.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.