Obtener Datos de muestra con Minería de datos en Excel

La última tarea que vamos a describir en el grupo Preparación de datos es Datos de muestra. Se trata de un asistente que ofrece dos  métodos para crear conjuntos de datos equilibrados para entrenar y probar modelos. Las dos posibilidades son: muestrear aleatoriamente los datos de conjuntos de datos grandes y sobremuestrear datos para reequilibrar un conjunto de datos.  Aquí vamos a describir las dos.

Lo primero sería pensar, ¿para qué necesitamos dividir el conjunto de datos? Cuando hablamos de minería de datos, hablamos de estructuras y modelos de minería y estos modelos requieren entrenamiento. El entrenamiento de los modelos no lo hacemos con la totalidad de los datos, basta con una muestra aleatoria de los datos que se encuentran almacenados en Excel o en un origen de datos externos y por eso los dividimos. El muestreo aleatorio es la mejor manera de asegurarse de que los datos usados para probar un modelo constituyen una buena representación de los datos usados para crear el modelo.

En algunos casos necesitamos que la muestra sea representativa de lo que necesitamos modelar, por ejemplo, un tanto porciento de mujeres, o de una determinada profesión, etc. Para estos casos hacemos Sobremuestreo. Vamos por partes, como nos enseñó Jack 🙂

Lo primero que tenemos al llamar al Asistente es la posibilidad de Seleccionar datos de origen y esta vez además de la tabla y el intervalo de datos, tenemos la opción de seleccionar un origen de datos externos.

De momento nos quedamos con la tabla con que venimos trabajando.

Como comenté antes, tenemos dos opciones cuando seleccionamos el tipo de muestreo, de momento vamos a quedarnos con la primera: Muestreo aleatorio.

Cuando seleccionamos la opción de muestreo aleatorio, el Asistente para datos de muestra crea conjuntos de datos de entrenamiento y de prueba automáticamente y los sitúa en hojas de cálculo de Excel independientes para que podamos consultarlos posteriormente.

En cualquier caso, muestreo aleatorio o sobremuestreo, tenemos que indicar cómo queremos dividir la muestra, y esto lo hacemos indicando el tamaño de la muestra, ya sea su porcentaje con relación a la totalidad de la muestra o la cantidad de filas a tener en cuenta. Para el muestreo aleatorio, especificamos el porcentaje de los datos originales que desea usar para pruebas o el número total de filas que desea usar en el conjunto de datos de prueba. Los valores predeterminados son 70.0 y 700 respectivamente. Los datos de la hoja original no se verán afectados.

Para finalizar, sólo nos queda indicar un nombre para la nueva hoja de cálculo en que se almacenarán de forma aleatoria los datos muestreados. El nombre predeterminado es Datos seleccionados. Al crear un muestreo aleatorio de los datos, no es obligatorio obtener como resultado los datos que no se muestrearon. Para obtenerlo, o no, seleccionamos, o no, la casilla Crear una hoja de trabajo para datos no seleccionados. Si optamos por guardar los datos no seleccionados en una hoja de cálculo independiente, escribimos un nombre para la nueva hoja de cálculo. El nombre predeterminado es Datos no seleccionados.

El resultado es la creación de dos hojas de cálculo nuevas para cada conjunto de datos como se muestra en la figura:

Aunque regresaremos a este tema en la medida que avancemos con las opciones de Modelado, es bueno dejar constancia dentro de este tema que la mayoría de los asistentes del Cliente de minería de datos para Excel también disponen de una opción que permite separar los datos aleatoriamente en conjuntos de entrenamiento y de prueba. Sin embargo, si utilizamos los asistentes, los datos permanecen en la misma hoja de cálculo u otro origen de datos y la información sobre si una determinada fila es un caso de prueba o un caso de entrenamiento se almacena internamente. Por el contrario, si utilizamos el Asistente para datos de muestra, los datos de entrenamiento y de prueba se sitúan en hojas de cálculo independientes para facilitar su consulta.

Hemos visto cómo podemos utilizar el Asistente para datos de Muestra en el grupo Preparación de Datos del Cliente de Minería de datos para Excel 2010 para crear conjuntos de datos de entrenamiento y de prueba mediante el método de muestreo aleatorio. La próxima vez estaremos hablando de Sobremuestreo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.