Obtener Sobremuestreo de Datos con Minería de datos en Excel

Hemos visto antes cómo ejecutar el Asistente para datos de Muestra en el grupo Preparación de Datos del Cliente de Minería de datos para Excel 2010. Antes hablé de Muestreo de datos con datos Excel, hoy hablaré de Sobremuestreo, también con datos Excel, porque esta opción no admite trabajo con datos externos.

El sobremuestreo crea un conjunto de datos que contiene una relación específica de un elemento de datos seleccionado. Por ejemplo, puede usarse para garantizar un número igual de elementos masculinos y femeninos en los datos, incluso aunque haya una gran diferencia en la relación de los datos de origen.  El valor de destino para el sobremuestreo debe ser un valor discreto; no se puede realizar un sobremuestreo de datos numéricos continuos.

En la ventana Sobremuestreo de estados con escasa representación, se especifica el elemento de datos que se desea equilibrar, la relación deseada para este elemento en el conjunto de datos resultante y el número máximo de filas que contendrá el conjunto resultante. Las filas que no contienen el elemento de datos especificado se seleccionan aleatoriamente para rellenar el conjunto de datos en el tamaño especificado, si hay suficientes filas para ello. Vamos a reproducir la problemática que acabamos de plantear, 50% de mujeres y hombres.

Primero, seleccionamos la columna cuyos datos se obtendrán, luego en Estado del destino, seleccionamos de la lista un valor que está representado de forma insuficiente en el conjunto de datos original. El sobremuestreo aumentará la proporción de filas de datos que incluyen este estado. Para finalizar, indicamos el porcentaje de elementos del conjunto de datos completado que deberían contener el estado de destino y el número de filas que se van a extraer. Este valor representa el tamaño del conjunto de datos final.

Por tanto, podemos dirigir el asistente para que alcance un porcentaje concreto o cree un cierto número de filas. El conjunto de resultados se colocará en una nueva hoja de cálculo con los datos de muestra que se acaban de equilibrar cuyo nombre predeterminado es Datos muestreados. No se crea una hoja independiente para datos no seleccionados de forma predeterminada ni hay opción para hacerlo.

Este método se usa normalmente cuando el elemento de datos que interesa ocurre muy raramente en los datos de origen y queremos un valor de destino que no abunde en los datos y dirigir el asistente para que recopile más filas de ese tipo. Aumentar la distribución de dicho estado puede a menudo mejorar los resultados de minería de datos. Las pruebas deben realizarse en un conjunto de datos que no se haya equilibrado previamente con este método.

Para comprobar que el resultado es el que esperábamos, no tenemos más que regresar a Explorar datos y seleccionar la columna Gender de la hoja Datos Muestreados.

La imagen demuestra que el resultado se ajusta exactamente a lo que hemos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida ¡! 🙂 ¿Es posible cumplir siempre con la solicitud realizada en la página Sobremuestreo de estados con escasa representación del Asistente? Les dejo la pregunta … en la próxima entrada la respuesta 🙂

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.