Rellenar desde ejemplo

La herramienta Rellenar desde ejemplo analiza los datos de origen y proporciona una lista de las columnas de la tabla en las que faltan datos.  Veamos nuestro ejemplo, que es el aportado por el Addins de MS en la hoja Fill From Example.

En la preparación de los datos tenemos que tener en cuenta que esta columna la creamos y rellenamos de inicio nosotros,  escribiendo ejemplos de los valores que deseamos predecir. Tenemos que asegurarnos de que existe al menos un ejemplo para cada valor que desea predecir. El tipo de dato puede ser cualquiera admitido por Excel. Es importante que tengamos en cuenta como requisito que sólo puede trabajar con datos en columnas, por lo que si la serie que deseamos rellenar está almacenada en una fila, podemos usar la función Pegar, y Transponer de Excel para cambiar los datos a un formato de columna.

Como vemos, contamos con un grupo de datos llenos para todas las filas y una columna en la que aparecen apenas algunos valores, en nuestro caso, con el título “Cliente muy valioso”, con  valores “Sí” y “No” escritos en varias filas como ejemplo de cómo se pueden clasificar los clientes. Esta columna es la que vamos a rellenar empleando esta herramienta que crea un modelo de minería de datos que analiza las correlaciones entre las columnas de los datos y predice los valores que hay que rellenar, aplicado a una única columna cada vez.

Vamos al asistente y lo primero que nos ofrece es la posibilidad de escoger esa única columna con la que vamos a trabajar. Y nos está mostrando justo la que estamos deseando y esto se debe a que de manera predeterminada, la herramienta selecciona la columna que contiene menos valores o más valores NULL.

Aunque la herramienta realiza recomendaciones sobre las columnas que conviene utilizar para el análisis, puede invalidar estas recomendaciones y seleccionar otras columnas. Para ello vamos al enlace Elija las columnas que desea utilizar en el análisis. Se pueden seleccionar y/o descartar tantas columnas se desee.

Como hemos comentado en otras herramientas descartamos la columna ID como criterio de análisis por no ser este número representativo.

Como resultado, se crea un modelo de minería que trabaja en la detección de patrones que permiten rellenar la columna, la herramienta analiza los patrones existentes en los datos junto con los ejemplos especificados y rellena los valores para el resto de la columna. Una vez completado el análisis, crea una hoja de cálculo nueva que contiene los resultados, esta hoja, denominada Patrones de <nombre de columna>, indica las reglas, o influenciadores clave, detectados para la columna y muestra la probabilidad de cada regla, proporcionando más información sobre los patrones detectados, los que se usan para extrapolar nuevos valores de datos.  El informe de patrones muestra los influenciadores clave de cada valor que se predijo y cada patrón o regla se describe como una combinación de una columna, el valor de la misma y el impacto relativo de la regla en la predicción.

Para leer este resultado, podemos decir que el valor 2-5 Miles de la columna Commute Distance predice a un cliente como valioso en un 34%, mientras que 5-10 Miles para la misma columna predice a un cliente No valioso, en este caso con un 34% también. Como vimos antes Impacto relativo aparece como una barra sombreada, y cuanto más larga sea, mayor será la probabilidad de que esa regla sirva para predecir el valor rellenado.

En la siguiente entrega veremos cómo se ha actualizado nuestra tabla de datos y comprobaremos la influencia de los valores mostrados en este informe en el dato que se ha asignado a cada línea en nuestra columna con la herramienta Rellenar desde ejemplo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.