Académique Documents
Professionnel Documents
Culture Documents
iguales. Q 1 , Q 2 y Q 3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q 2 coincide con la mediana.
Clculo de los cuartiles 1 Ordenamos los datos de menor a mayor. 2 Buscamos el lugar que ocupa cada cuartil mediante la expresin .
Clculo de los cuartiles para datos agrupados En encuentra acumuladas. primer lugar , buscamos en la tabla la clase donde de las se
frecuencias
L i es el lmite inferior de la clase donde se encuentra el cuartil. N es la suma de las frecuencias absolutas. F i - 1 es la frecuencia acumulada anterior a la clase del cuartil. a i es la amplitud de la clase. Ejercicio de cuartiles Calcular los cuartiles de la distribucin de la tabla: Clases [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) Total fi 8 10 16 14 10 5 2 65 Fi 8 18 34 48 58 63 65
EJEMPLO DISTRIBUCIN DE EDADES. Utilizamos la ya usada distribucin de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40
1. ORDENAR LOS DATOS. Para calcular los parmetros estadstico, lo primero es ordenar la distribucin 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 2. CALCULO DE CUARTILES. Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribucin. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmtica de dicho valor y el siguiente: Q1=(24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribucin, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10; la mediana es la media aritmtica de dicho valor y el siguiente: Me= Q2 = (33 + 34)/ 2 =33,5 Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribucin. En nuestro caso, como 3N / 4 = 15, resulta Q2=(39 + 39) / 2 = 39
El bigote de la izquierda representa al colectivo de edades ( Xmn, Q1) La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmx).
INFORMACIN DEL DIAGRAMA Podemos obtener abundante informacin de una distribucin a partir de estas representaciones. Veamos alguna: La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la poblacin est ms dispersa que entre el 50% y el 75%. El bigote de la izquierda (Xmm, Q1) es ms corto que el de la derecha; por ello el 25% de los ms jvenes estn ms concentrados que el 25% de los mayores. El rango intercuartlico = Q3 - Q1 = 14,5; es decir, el 50% de la poblacin est comprendido en 14,5 aos.
Comparar distribuciones. La mayor utilidad de los diagramas caja-bigotes es para comparar dos o ms conjuntos de datos. Comparacin distribucin de edades Comparacin entrenamientos de un corredor Comparacin clasificacin liga
COMPARACIN DISTRIBUCIN DE EDADES. Anlogamente a lo realizado con los diagramas de tallo y hojas, comparamos, mediante estos diagramas, esta distribucin con la del otro ejemplo de distribucin de edades. 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22
A partir de dicha comparacin puede obtenerse bastante informacin de ambas distribuciones. COMPARACIN ENTRENAMIENTOS DE UN CORREDOR Un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100m, durante 10 das consecutivos (cada da se toman varios tiempos y se calculan mediana, cuartiles, valores mnimo y mximo).
Observamos que el desplazamiento de las grficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el mximo y el mnimo menor, como as tambin la diferencia intercuartlica.
COMPARACIN CLASIFICACIN LIGA. Las puntuacin de los equipos de la liga de la temporada 01/02 y 02/03 en primera divisin se pueden comparar con un diagrama caja y bigotes, como aparece aqu,
Comentarios: No hay datos muy atpicos, es decir que no hay equipo que se haya destacado por arriba o por abajo del resto de los equipos. Hay ms diferencia de puntos entre el primer y el ltimo clasificado para la liga 02/03 que en la liga anterior. Los quipos del tercer cuarto de la clasificacin estn ms apelotonados en la liga 02/03.
Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi) cada uno de los valores, () la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuacin se interpretan:
(g1 = 0): Se acepta que la distribucin es Simtrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difcil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos ( 0.5). (g1 > 0): La curva es asimtricamente positiva por lo que los valores se tienden a reunir ms en la parte izquierda que en la derecha de la media. (g1 < 0): La curva es asimtricamente negativa por lo que los valores se tienden a reunir ms en la parte derecha de la media. Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la distancia que separa la aglomeracin de los valores con respecto a la media. Con la frmula de Pearson tambin se puede estimar el coeficiente de asimetra:
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, () la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta frmula se interpretan: (g2 = 0) la distribucin es Mesocrtica: Al igual que en la asimetra es bastante difcil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos ( 0.5 aprox.). (g2 > 0) la distribucin es Leptocrtica (g2 < 0) la distribucin es Platicrtica Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g1 = 0.5) y un coeficiente de Curtosis de (g2 = 0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayora de los procedimientos de la estadstica de inferencia se requiere que los datos se distribuyan normalmente. La principal ventaja de la distribucin normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estndar de la media aritmtica (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviacin y despus le restamos a la media dos desviaciones, el 95% de los casos se encontrara dentro del rango que compongan estos valores.
Desde luego, los conceptos vistos hasta aqu, son slo una pequea introduccin a las principales medidas de Estadstica Descriptiva; es de gran importancia que los lectores profundicen en estos temas ya que la principal dificultad de los paquetes SPSS y Stat Graphics, radica en el desconocimiento de los conceptos estadsticos. 10