Dentro de nuestro recorrido por la categoría de Gráficos estadísticos, totalmente nuevos en Excel 2016, vamos a trabajar hoy con los gráficos Cajas y bigotes.
Categoría gráficos estadísticos
Recomiendo un artículo muy interesante, que me sirvió para aclarar algunas dudas
Los gráficos estadísticos se dividen en dos grupos: el primero es histograma, que incluye histograma y pareto y el segundo es cajas y bigotes.
Gráficos de Cajas y bigotes
Estos gráficos nos permiten visualizar la distribución de los datos. Rápidamente podemos ver el rango de los datos, la media o promedio, mediana, los cuartiles y los valores atípicos o fuera de rango. Se utilizan para realizar comparaciones de varias series y analizar su distribución.
Veamos cómo se reflejan las cajas, para estos datos, analizados por Categorías.
El observar esta imagen podemos sacar las siguientes conclusiones:
- Los valores para la categoría A están relativamente concentrados, no hay valores atípicos y el rango de valores va de poco más de -50 a poco menos de 100. Mirando, con lupa en la tabla vemos que en efecto, los valores concretos son: el mínimo -45 y el máximo 90, para un rango total de 145.
- Los valores para la categoría B están muy concentrados y además hay valores fuera de rango o valores atípicos. Veamos solo el gráfico, sin mirar a la tabla. Entre los valores considerados en rango, el mínimo está entre 0 y 50, más cerca de 50, sin mirar la tabla sospechamos que ande por los 28-30, más o menos, el máximo por su parte, tampoco llega a los 50, ¿serán 43-45 quizás? Buscando los datos en la tabla vemos que en efecto, los valores considerados en rango van de 30 a 45. Y tenemos anomalías, hay dos puntos situados por encima y por debajo de los bigotes del gráfico, a la altura del -10 y el 90.
- Los valores para la categoría C están más dispersos, no presentan anomalías. El máximo es claramente el 150 y el mínimo ronda los -75 ó -80, el rango final de distribución de los valores es de 230.
Aunque el origen de datos cubra varias columnas, ignora las columnas más alejadas y devuelve el análisis según la columna Categoría. Lo mismo que si hubiésemos seleccionado solo dos columnas. Como vemos este gráfico, al igual que el resto de gráficos nuevos en Excel 2016, no permite filtrar.
Configurar gráficos de cajas y bigotes
Las opciones predeterminadas son:
Veamos el efecto de modificar esta configuración para ajustarla a nuestras necesidades.
Mostrar puntos internos
Nos da una mejor idea de cómo se distribuyen todos los puntos y no solo los valores significativos.
Mostrar línea de valores medios o promedios
Se muestra una línea que une los puntos correspondientes a la media de cada serie.
Cálculo de cuartiles
En la próxima entrada vamos a detenernos un momento en el significado que tiene para la representación de la muestra que tengamos o no en cuenta el valor de la mediana para el cálculo de cuartiles. De la imagen ya podemos deducir, que al incluir la mediana la representación tiende a ser más compacta.
Puntos en el gráfico de caja y bigotes
Vamos a analizar el significado de cada uno de los elementos señalados en este tipo de gráficos.
Valores atípicos – En rojo, visible solamente para categoría B, se aprecian fuera de la caja, por encima y/o por debajo de los bigotes.
Máximo – Rojo para C, se corresponde con el bigote superior.
Mínimo – Verde, se corresponde con el bigote inferior.
Valor medio – Azul, una x, media aritmética.
Mediana – Amarillo, una línea en algún punto dentro de la caja, pudiera, según el conjunto de datos, coincidir con uno de los bordes de la caja y no apreciarse.
Quartil1 o 25 percentil – Naranja, se corresponde con el borde inferior de la caja.
Quartil3 o 75 percentil – Magenta, se corresponde con el borde superior de la caja.
Los valores que van del bigote inferior (mínimo), que está señalado en verde, a la parte inferior de la caja se corresponden con el primer cuartil de los datos, la parte que contiene los valores más pequeños, que son igual o menos al 25% del resto de la muestra para esa categoría.
Desde la parte inferior de la caja que representa el primer cuartil y está señalado en naranja a la línea dentro de la caja, la mediana, señalada en amarillo se corresponde con el segundo cuartil y es el segundo 25% de la muestra, lo que sumados hace el 50%, lo que es la mediana. Como nuestros datos están organizados y son apenas 8 valores podemos distinguir fácilmente, desde la tabla, que la mediana es un valor entre 55 y 70, que son los que están en el centro. Y no es cualquier valor, es el valor medio entre 55 y 70, es decir 62.5.
Desde la mediana al borde superior de la caja, en magenta tenemos el siguiente 25% de la muestra que corresponde con el tercer cuartil.
Y para finalizar desde el tercer cuartil y borde superior de la caja hasta el bigote superior (máximo) tenemos los valores máximos, que representan otro 25% y el cuarto cuartil, en rojo.
El promedio aritmético de los valores, es la media aritmética y se señala con una x
Media vs Mediana
Existe diferencia entre media y mediana, ambos en realidad cumplen un role parecido para poder entender la distribución central de un conjunto de valores. La media es el promedio aritmético, tiene en cuenta todos los valores del conjunto, incluyendo los atípicos, mientras la mediana separa la primera mitad de la población de la segunda y su valor se define como el punto medio de la muestra. Si la muestra es impar es directamente ese punto central si la muestra es par, se calcula como la media de los dos valores centrales, que es nuestro caso.
A continuación, los ejemplos para dos muestras diferentes y los cálculos devueltos por las fórmulas Excel.
Para una serie par, se calcula la media de los valores centrales, 55+70/2 = 62.5
Para una serie impar, se obtiene directamente del valor que está en el centro.
En la próxima entrega vamos a continuar analizando aspectos de este gráfico de cajas y bigotes, de tipo estadístico que es realmente bienvenido a la familia de gráficos de Excel 2016.
Este artículo forma parte de la serie dedicada a MS Office Excel 2016.