Rellenar desde ejemplo (III)

Hoy terminamos la mini serie dedicada a la herramienta de tabla Rellenar desde ejemplo, dentro de la serie dedicada a Analizar datos con MS Excel 2007 y 2010. Hemos hablado antes de cómo crear los datos para rellenarlos, cómo seleccionar los elementos que integrarán la estructura y modelo de minería de datos y hemos estado analizando los resultados.

Veamos hoy qué ocurre si cambiamos las columnas a tener en cuenta, ya que también podemos  personalizar los resultados especificando las columnas con más probabilidad de ser útiles en la predicción de los valores de los datos que faltan, podríamos encontrarnos con que existe un efecto causal entre una columna y la columna con valores ausentes, por lo que podríamos desear anular su selección para obtener mejores resultados. Para mostrarlo voy a quitar precisamente las 3 columnas de las que tenían más influencia en el resultado anterior y son: Children, Commute Distance y Region.

Veamos entonces el informe que se obtiene.

Como es de suponer los patrones son diferentes, ahora las columnas que más favorecen a ambos datos (Si y No) son otras y su impacto relativo también es diferente. Para ver cómo llegamos a este punto y el significado de cada elemento de este informe veamos aquí.

Por último, en la tabla también hay diferencias, era de esperar, en esta primera imagen vemos los resultados de predicción en ambos casos para que se resalte la diferencia entre ellos.

Y en esta última tabla nos quedaremos con las columnas que son influenciadores clave: Education, Occupation, Home Owner y Cars.


Siguiendo el ejemplo anterior filtramos por el elemento que más influye sobre el Si y es Home Owner con valor No, en un 43%. Por lo que si filtramos por el valor No tenemos 95 filas y en todas el valor propuesto es Yes.

No nos podemos despistar con la falsa conclusión de que si filtramos por el Home Owner con valor Yes tendríamos todos los valores propuestos como No, tal y como se ve en la figura, en este extracto de las 151  filas, se predicen valores tanto Yes como No.

Esto se debe a que la influencia de este dato sobre el No, alcanza apenas el 15% como podemos ver si nos movemos por el informe de patrones obtenido para esta columna bajo estas condiciones.

De esta manera concluimos nuestro viaje por Rellenar desde ejemplo y pasamos a Pronósticos dentro de las Herramientas de Análisis de tablas con Excel 2007 y 2010.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.