En el escrito anterior, estuve comentando sobre cómo utilizar la herramienta Resaltar excepciones, cuál es su objetivo y qué debemos tener en cuenta a la hora de estimar o desestimar una columna para el análisis, finalmente seleccioné todas menos el ID por considerarlo irrelevante. Veamos qué ocurrió al ejecutar el asistente.
Al completar el análisis, la herramienta crea una hoja de cálculo nueva que se llama Valores atípicos de <nombre de tabla> y que contiene un informe de resumen sobre el número de valores atípicos que se encontraron en cada una de las columnas analizadas. La herramienta también resalta las excepciones en la tabla de datos original. Puesto que la herramienta analiza tendencias globales, quizás encuentre que la mayoría de los valores de una fila son normales y resalte sólo una celda de esa fila.
El valor inicial para el umbral de excepción siempre es 75, lo que significa que el algoritmo ha calculado que existe un 75% de posibilidad de que los datos resaltados sean erróneos. La herramienta establece automáticamente este umbral para la fase de análisis inicial, pero el valor puede cambiarse en el informe. Después de revisar las celdas resaltadas, en la próxima entrada, regresaremos al informe resumido y cambiaremos el valor de Umbral de excepción.
En la tabla vemos algunas filas resaltadas y en ellas, una columna con un color de fondo diferente al resto, esto se debe a que la herramienta Resaltar excepciones resalta las celdas sospechosas en la tabla de datos original. El resaltado oscuro quiere decir que la fila necesita atención. El resaltado claro indica que el valor de esa celda en particular se identificó como sospechoso. Si cambia el umbral para las excepciones, los valores resaltados cambiarán según corresponda. El gráfico de resumen muestra el número de celdas de cada columna que estaban por encima del umbral de excepción.
La herramienta Resaltar excepciones usa el algoritmo de clústeres de Microsoft. Un modelo de clústeres detecta grupos de filas que comparten características similares. El Cliente de minería de datos para Excel proporciona una ventana Examinar que usa gráficos y perfiles de características que le permiten explorar modelos de minería de datos creados mediante clústeres.
En la siguiente entrada veremos el efecto de descartar algunas columnas en el análisis con la herramienta Resaltar excepciones