Vous êtes sur la page 1sur 7

Diagramas de caja (boxplots o box and whiskers) 

Este diagrama constituye una síntesis muy buena para la presentación grafica de un conjunto de datos numéricos su
sencillez la hace más útil para visualizar el comportamiento del conjunto de datos, sobre todo en aquellas situaciones
donde se hace necesario comparar dos o más grupos. Para su realización se requieren de los tres cuartiles y los
valores mínimo  y  máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.

Percentiles.

El  percentil es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor,
el  valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo de
observaciones.

Por ejemplo, el percentil  20 es el  valor bajo el cual se encuentran el 20 de los datos y lo denotaremos con
p20

De esta forma los percentiles


p10 ; p20 ; p 30 ; p40 ; p50 ; p60 ; p 70 ; p80 ; p 90 llamados deciles y denotados con
d 1 ;d 2 ;d 3 ;d 4 ;d 5 ;d 6 ;d 7 ;d 8 ;d 9 dividen un conjunto de datos en 10 partes iguales, cada parte incluye el 10% de

los datos. Observe que el quinto decil (


d 5 ) o percentil 50( p50 ) recibe el nombre de mediana siendo el dato que
se encuentra en toda la mitad del conjunto.

Así mismo, los percentiles


p25 , p50 , p75 llamados cuartiles y denotados con
Q1 ,Q2 ,Q3 dividen un conjunto

de datos en 4 partes iguales, cada parte incluye el 25% de los datos. Observe que el segundo cuartil (
Q2 ) es la
mediana.

PROCESO CÁLCULO DE LOS CUARTILES

Ejemplo nro. 6

Para los siguientes datos


⟨2,5,3,6,7,4,9⟩ , encuentre los diferentes cuartiles.

El primer paso consiste en ordenar los datos en forma no decreciente, al realizar este proceso se tiene:

2, 3, 4, 5, 6, 7, 9.

El primer cuartil es dado por el dato que está en la posición 0 .25 (7+1)=2 , es decir el dato que está en la
posición 2 corresponde al primer cuartil que para el caso es el valor 3.

Q 1 =X ( 2 )=3

El segundo cuartil es dado por el dato que está en la posición 0 .50 (7 +1)=4 , es decir el dato que está en la
posición 4 corresponde al segundo cuartil o mediana que para el caso es el valor 5.
Q2 =X ( 4 ) =5

El tercer cuartil es dado por el dato que está en la posición 0 .75 (7 +1)=6 , es decir el dato que está en la
posición 6 corresponde al tercer cuartil que para el caso es el valor 7.

Q3 =X ( 6 )=7

Ejemplo nro. 7

Considere los siguientes datos observados en una muestra 7, 12, 5, 2, 9. Al ordenar los datos en forma no decreciente se
tiene:

2, 5, 7, 9, 12.

El primer cuartil es dado por el dato que está en la posición 0 .25 (5+1)=1 . 5 Para obtenerlo se realiza la
siguiente operación:

Q 1 =X ( 1. 5 )= X (1 ) +0 . 5 ( X ( 2 )− X ( 1 ) )=2+ 0. 5 ( 5−2 ) =3. 5

El segundo cuartil, la mediana es dada por el dato que se encuentra en la 3 posición, siendo este valor el número 7. Es
Q2 =X ( 3 )=7
decir, .

El tercer cuartil es dado por el dato que está en la posición 0 .75 (5+1)=4 . 5 y para obtenerlo se realiza la
siguiente operación:

Q 3 =X ( 4 . 5 )=X (4 ) +0 .5 ( X ( 5 )−X (4 ) ) =9+0 . 5 ( 11−9 )=10

Ejemplo nro. 8

Considere los siguientes datos observados en una muestra 7, 12, 5, 2, 9, 8. Al ordenar los datos en forma no decreciente
se tiene

2, 5, 7, 8, 9, 12

El primer cuartil es dado por el dato que está en la posición 1.75 y para obtenerlo se realiza la siguiente operación:

Q 1 =X ( 1. 75)= X ( 1 )+ 0 .75 ( X (2 ) −X ( 1 ) ) =2+ 0 .75 ( 5−2 )=4 .25


Q 2 =X ( 3. 5 )=7 . 5
La mediana es dada por . Es decir, es el dato que previamente ordenados los resultados ocupa
la posición 3.5. En este caso en dato que se encuentra en la mitad entre los datos de las posiciones 3 y 4.

Q 2 =X ( 3. 5 )= X ( 3 )+ 0 .5 ( X ( 4 )− X ( 3 ) )=7 +0 .5 ( 8−7 ) =7. 5

El tercer cuartil es dado por el dato que está en la posición 5.25 y para obtenerlo se realiza la siguiente operación:

Q3 =X ( 5. 25 )=X ( 5 ) +0 . 25 ( X ( 6 ) −X ( 5 ) ) =9+0 . 25 ( 12−9 )=9. 75

Ejemplo nro. 9

Considere los siguientes datos correspondientes al número de ausencia a la clase de estadística, de cada uno de los
estudiantes en un semestre.
2 0 0 0 2 1 4 6 1 2
1 3 2 5 4 3 3 4 0 0
2 1 1 3 1 3 2 2 3 4
3 5 2 1 2 3 0 2 4 1

El primer cuartil es el valor de la posición 10.25 una vez ordenado los datos. Por tanto, para conocer el primer cuartil
debe tener identificados los datos de las posiciones 10 y 11. De los datos podemos observar que estos corresponden al
Q 1 =1
valor 1.Asi,
El dato de la posición 20.5 es el segundo cuartil. Por ser los datos de las posiciones 20 y 21 el valor 2, se tiene que
Q2 =2 Q3 =3
y

Construcción del diagrama de caja

La información necesaria para la construcción del diagrama de caja son los valores mínimo y máximo y los cuartiles; con
esta información se procede así: la caja se construye entre los cuartiles Q1 y Q3, con un ancho arbitrario. Dentro de la
caja se marca Q2, con un trazo. Las líneas que salen de Q 1 y Q 3, van hasta el dato mínimo y máximo.

El diagrama da caja para los datos del ejemplo nro. 9 , se presenta a continuación:
Usos del diagrama de caja.

1. Puede formarse una idea de la dispersión de los datos, basándose en la longitud de la caja (rango intercuartílico),
pues siempre la caja, corresponde al 50% de los datos que están en la parte central. Además se aprecia el rango de los
datos, el cual corresponde a la distancia entre las observaciones más extremas.

El rango intercuartilico se define como:


RI =Q3−Q 1
2. El diagrama de cajas, nos permite hacernos una idea sobre el grado de asimetría de una distribución, al comparar la
proporción de la caja que queda a la izquierda de la mediana (segundo cuartil), con la que queda a la derecha,
igualmente la longitud de las líneas respectivas.
3. El diagrama es útil para identificar posibles OUTLIERS (datos atípicos), siendo estos los valores fuera de las cercas
Q 1−1 . 5 ( Q3 −Q1 )
(
Q +1 .5 ( Q −Q
3 3 1)
definidas por:
4. Una utilidad grande de los diagramas de caja, es comparar varias poblaciones, a través de sus representaciones
gráficas. En este caso se construye un diagrama para cada conjunto de datos y se dibujan en una misma escala (sobre un
mismo plano), lo cual permite muy fácilmente hacerse una idea de las semejanzas y las diferencias de los rasgos más
importantes de las distribuciones.

Al comparar las edades de dos conjuntos de personas usando sus diagramas de caja se obtiene la siguiente presentación.
EJERCICIOS PARA PRACTICAR

1. El cuadro siguiente recoge el salario mensual, en euros, de 50 trabajadores:

1702 1048 2383 3218 2802 3458 2756 1094 783 2910
2537 3363 1078 1912 2289 573 2828 2600 944 3189
2358 2091 816 1430 3029 1998 1039 1828 1944 989
1652 1848 3470 3199 3051 2402 3046 2252 2025 630
3252 945 2094 2752 2592 1751 3364 2369 986 1243

 Represente los resultados para esta variable mediante un diagrama de caja.

 Como interpretar los valores obtenidos para el primer, segundo y tercer cuartil.

 Que puede decir respecto a la asimetría y la existencia de datos atípicos (outlier).

2. Los siguientes datos representan los montos en el mes de agosto de los préstamos personales de un
hipotético banco a sus clientes (en millones de pesos).

4. 5. 5. 2. 3. 6. 8. 4. 5. 3.
4 0 7 5 6 4 2 6 3 9
8. 4. 6. 7. 3. 4. 6. 6. 7. 3.
0 5 0 8 1 5 3 7 5 2
5. 6. 7. 5. 5. 1. 5. 8. 7. 6.
8 1 2 9 2 6 6 5 1 5
3. 9. 4. 3. 5. 4. 3. 9. 6. 5.
0 3 8 6 4 3 5 8 6 7

 halle la mediana de estos datos


 encuentre e interprete el primer cuartil
 construya el diagrama de caja para esta variable
 qué tipo de asimetría presentan estos datos?
 que puede decir de la existencia de datos atípicos?

TABLAS DE DISTRIBUCION DE FRECUENCIAS PARA VARIABLES CONTINUAS.

La técnica que usaremos para construir una tabla de distribución de frecuencias para una variable continua es la de
los diagramas de ramas y hojas.

El primer paso consiste en dividir todos y cada uno de los datos en dos partes que consisten en rama y hoja. Las ramas
deben estar conformadas por el primer o los dos primeros dígitos que forman nuestros datos y el resto del dato(los
dígitos finales) se convierten en hojas. Tenga en cuenta que cada una de las ramas define un rango de valores que más
adelante permitirán definir los intervalos de clase que usaremos para la agrupación de los resultados.

Para la construcción de la tabla de frecuencias a partir del diagrama de ramas y hojas, tenga en cuenta las siguientes
recomendaciones:

 El número de categorías (intervalos) usadas para la clasificación debe estar entre 5 y 15.
 El valor que registramos para una variable continua es siempre aproximado, por ejemplo si un estudiante
dice que su edad es 19 años, peso 56 kilos y su estatura 1.63 metros, sabemos que su verdadera edad es
algún valor en el rango 18.5 a 19.5 años, su peso debe un valor en el rango entre 55.5 y 56.5 kilos y su
estatura debe estar entre 1.625 y 1.635 metros.
 El límite o extremo inferior de la primera categoría se ajusta de acuerdo al valor mínimo y para la última
categoría se debe ajustar considerando el valor máximo.
 No deben existir categorías que no contengan datos. Si esto ocurre deberán reagruparse los datos de tal
forma que no existan categorías vacías (sin datos).

Ejercicio nro. 1

Una empresa tiene 120 trabajadores. Se propone una investigación sobre el sexo, el tiempo de servicio,
escolaridad y la edad de los trabajadores, las edades observadas en una muestra aleatoria de 30 de ellos son
las siguientes:

1 3 1 2 3 2 1 3 4 4 5 3 2 2 3
8 0 9 9 2 7 8 4 8 6 0 5 4 7 4
3 3 3 4 4 6 3 3 3 4 3 2 2 5 4
8 7 1 2 5 4 3 8 4 2 5 9 7 4 1

Construir una tabla de distribución de frecuencias para estos resultados, incluyendo las frecuencias absolutas y
relativas e interpretar los resultados de la tercera fila de la tabla. Construya el histograma y la ojiva.

Ejercicio nro. 2

Los siguientes datos corresponden a los tiempos de atención (en minutos) de pacientes en el "filtro" del servicio de
urgencias de un hospital:

13.1, 7.1, 14.8, 19.0, 10.2, 18.0, 19.8, 15.0, 17.3, 10.8, 22.3, 14.5, 17.1, 14.9, 12.0, 14.0, 18.4, 10.2, 15.8, 16.5, 15.0, 17.6,
4.2, 13.4, 21.2, 14.7, 13.8, 21.0, 14.3, 11.1, 18.9, 8.3, 16.6, 11.2, 20.2, 14.4, 13.5, 18.2,12.4, 17.0, 26.7, 15.5, 22.0, 12.9,
17.9, 7.4, 18.0, 19.8, 16.0, 21.2.
Construya la tabla de frecuencias

Ejercicio nro. 3

Para obtener información acerca de la distribución de los tiempos de atención a los clientes, se obtuvo una muestra de
60 clientes y se anotó el tiempo empleado en atender a cada uno de ellos.

3.6 1.9 2.1 0.3 0.8 0.2 1.0 1.4 1.8 1.6 1.1 1.8 0.3 1.1 0.5 1.2 0.6 1.1 0.8 1.7 1.4 0.2 1.3 3.1 0.4 2.3 1.8 4.5 0.9 0.7 0.6 2.8 2.5
1.1 0.4 1.2 0.4 1.3 0.8 1.3 1.1 1.2 0.8 1.0 0.9 0.7 3.1 1.7 1.1 2.2 1.6 1.9 5.2 0.5 1.8 0.3 1.1 0.6 0.7 0.6 

 Construya el diagrama de ramas y hojas para este caso.


 Presente la tabla de distribución de frecuencias
 Interprete las frecuencias absolutas y relativas de la tercera fila de la tabla.

Ejercicio nro. 4

Construya tablas de frecuencia para los ejercicios 1y 2 del tema de diagramas de caja.

MEDIDAS ESTADISTICAS

Vous aimerez peut-être aussi