10/14/2015

ESTADÍSTICA DESCRIPTIVA: Diagramas de caja

El diagrama de caja es una presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, la simetría o asimetría y la identificación de observaciones atípicas. El diagrama de caja representa los tres cuartiles, y los valores mínimo y máximo de los datos sobre un rectángulo (caja), alineado horizontal o verticalmente.

A continuación, te dejamos algunas palabras que debes tener en cuenta cuando graficas diagramas de caja:
  • Q1 – Cuartil 1, la mediana de la mitad menor de los datos.
  • Q2 – Cuartil 2, la mediana de todos los datos.
  • Q3 – Cuartil 3, la mediana de la mitad mayor de los datos.
  • IQR – Rango intercuartil, la diferencia entre Q3 y Q1.
  • Valores extremos, Los valores más pequeños y los más grandes de los datos.
A veces, los diagramas de caja reciben el nombre de diagramas de caja y bigotes. Nótese que el rectángulo o caja representa el 50% de los datos que particularmente están ubicados en la zona central de la distribución. La caja representa el cuerpo de la distribución y los bigotes sus colas.

Un diagrama de caja de la puntuación en el examen de geometría:

90,   94,   53,   68,   79,     84,   87,   72,   70,   69,   65,   89,   85,   83,   72

Paso 1: ordena los datos de menor a mayor.
53   65   68   69   70   72   79   83   84   85   87   89   90   94

Paso 2: encuentra la mediana de los datos.
Llamado también cuartil 2 (Q2).

Paso 3: encuentra la mediana de los datos menores que Q2.
Este sería el cuartil menor (Q1).

Paso 4: encuentra la mediana de la data mayor que Q2.
Este sería el cuartil mayor (Q3).






Paso 5: encuentra los valores extremos.
Estos serían los valores más grandes y más pequeños.
Valores extremos = 53 y 94.

Paso 6: crea una recta real que contenga todos los datos.

Deja que se extienda un poco más allá de los valores extremos.





Paso 7: dibuja una caja de Q1 a Q3 divididas por una recta en Q2. Luego extiende los "bigotes" por cada lado de la caja hacia los valores extremos.










Esta gráfica está dividida en cuatro grupos distintos: el bigote menor, la mitad menor de la caja, la mitad mayor de la caja y el bigote mayor (Como en cada grupo hay una misma cantidad de datos, cada sección representa el 25% de los mismos.










A través de este diagrama vemos que el 50% de los estudiantes obtuvo entre 69 y 87 puntos, el 75% de los estudiantes obtuvo menos de 87 puntos y el 50% obtuvo más de 79.

Valores atípicos:

Los valores atípicos son aquellos mucho más grandes o mucho más pequeños que el resto de los datos. Se representan con un punto en cualquier extremo del diagrama. En nuestro ejemplo no hubo ningún valor atípico; y aunque 53 parece ser mucho más pequeño que el resto, en realidad no fue lo suficientemente pequeño.

Para ser considerado un valor atípico, el valor debe ser:

  • mayor que Q3 por, al menos, 1.5 veces el rango intercuartil (IQR), ó
  • menor que Q1 por, al menos, 1.5 veces el IQR.

Los valores atípicos son aquellos que:

1.5(IQR) > Q3
1.5(IQR) < Q1

A continuación, te presentamos los resultados individuales finales de salto de esquí masculino de los Juegos Olímpicos de invierno.













Los cuartiles quedan así: Q1 sería 208.5, Q2 sería 222.3 y Q3 sería 236.45. La puntuación más baja (111) parece ser un valor atípico, ya que es mucho más pequeña que el resto de los datos. Sin embargo, no podemos estar seguros hasta que saquemos las cuentas.

Primero debemos calcular el IQR, que es Q3 – Q1. Luego lo multiplicamos por 1.5 para obtener el número que necesitamos para saber si hay algún valor atípico.

IQR = 236.45 – 208.50 = 27.95
1.5(IQR) = 1.5(27.95) = 41.93
208.5 – 41.93 = 166.57

Para que el número en cuestión (111) califique como un valor atípico, debe ser menor a 166.57, que es la diferencia entre Q1 (208.5) y 41.93.

¡Sí, es! Como 111 es menor a 166.57, entonces declaramos oficialmente a 111 como un valor atípico. Al hacer el diagrama de caja, representamos a 111 con un punto y extendemos el bigote menor solo hasta el siguiente valor menor (que sería 182.4).










Quizá deberíamos verificar que no haya ningún valor atípico hacia la mitad mayor de los datos.

236.45 + 41.93 = 278.38

Hay un valor cerca de 278.38, así que éste también es un valor atípico.

Copyright © 2015-2016 All Rights Reserved | Designed By : DLGT & AdMiDes

Top