La herramienta Resaltar excepciones usa el análisis de patrones para ayudarnos a encontrar valores peculiares en una hoja de datos, ya sea porque están fuera del intervalo de la mayoría de los demás valores (la lista de edades de propietarios de casas podría empezar en cinco años), faltan o que son incorrectos, se dirige fundamentalmente a la detección de errores de entrada de datos y cálculos erróneos. Una de las ventajas es que puede analizar muchas columnas al mismo tiempo, y en ese caso se analizan los patrones globales, encontrando cualquier valor de cada columna que no se ajuste al modelo. Estos valores, denominados con frecuencia valores atípicos, podrían ser erróneos debido a un error en la entrada de datos o podrían indicar tendencias poco habituales. De cualquier modo, las excepciones pueden afectar a la calidad del análisis. La herramienta Resaltar excepciones nos permite localizar estos valores y revisarlos para poder llevar a cabo una acción posterior.
Cuando ejecutamos el Asistente para resaltar excepciones nos brinda la posibilidad de seleccionar las columnas a analizar como se muestra en esta figura.
¿Qué debemos tener en cuenta? Pues el aporte que realiza cada columna para obtener el patrón general que estamos buscando y nos permita detectar anomalías.
En nuestro primer ejemplo, hemos seleccionado casi todas las columnas indicando que sobre todas las marcadas deseamos buscar excepciones y crear un patrón general, por otra parte anulamos la selección de la columna ID, ya que no contribuye al análisis.
Hay que evitar usar columnas de entrada que tienen información no relevante, porque contienen valores únicos como los identificadores, o que contienen un alto porcentaje de valores erróneos, o con muchos valores ausentes. Hay algunos casos en que resulta útil incluir columnas de entrada que tienen muchos valores ausentes, hay que determinar caso por caso si los datos están ausentes debido a una omisión o si su ausencia tiene un significado. Por otra parte, una columna que tiene el mismo valor en todas las filas no agrega ninguna información de utilidad para generar patrones. Puede incluir columnas que no contengan valores erróneos si éstos contienen información que podría ser útil en la predicción de otras filas.
En la próxima entrega veremos el resultado obtenido tras ejecutar la herramienta Resaltar excepciones, el Informe de excepciones resaltadas, así como la tabla con los datos originales y las líneas con las excepciones resaltadas.