Académique Documents
Professionnel Documents
Culture Documents
n
i
i
n
x
n
x ... x x
x
1
2 1
_
Moda muestral
Es el valor que ms se repite (puede no existir y si existe puede no ser nica).
Mediana muestral
Es el valor que est en el centro de los datos ordenados
Sean X1, X2, ... , Xn los datos
X(1), X(2), ... , X(n) son los datos ordenados en forma creciente
Se define la mediana muestral como:
'
,
_
+
+
par es n si , x x
2
1
impar es n si , x
X
~
) 1
2
n
( )
2
n
(
)
2
1 n
(
Ejemplo: Si los datos son 3, 5, 7, 7, 8, 9
= 6.5;
x
~
= 7; moda = 7
Debe notarse que las medidas de tendencia central no son suficientes para describir de manera nica el comportamiento de los
datos pues adems se necesita conocer cuan dispersos estn y la forma como se distribuyen.
Medidas de dispersin
Son nmeros que proveen ms informacin acerca del comportamiento de los datos, describiendo numricamente cuan
dispersos estn.
Rango
Si X(i) representa cada uno de los datos ordenados en forma creciente, i=1,2,n
se define el rango como: X(n) X(1)
Ejemplo: Si los datos son 3, 5, 7, 7, 8, 9
el rango es: 9 3 = 6
Varianza o variancia muestral
Esta medida cuantifica el total de las distancias de los datos con respecto al valor de la media
El motivo de que en el denominador se escriba n-1 en lugar de n que parece natural, se entender en el captulo de estadstica
inferencial.
Ejemplo: Si los datos son 3, 5, 7, 7, 8, 9
se tiene que = 6.5, entonces la varianza es
s
2
=
5
5 6 9 5 6 5 5 6 3
2 2 2
) . ( ... ) . ( ) . ( + + +
= 4.7
Para el clculo puede usar la siguiente frmula alterna cuya equivalencia puede demostrarse mediante frmulas de sumatorias
Desviacin tpica o estndar
Es la raz cuadrada positiva de la variancia. Est expresada en las mismas unidades de medicin que los datos
Para el ejemplo anterior,
s =
7 4.
= 2.168
Cuantiles
Son nmeros que dividen al grupo de datos ordenados en en grupos de aproximadamente igual nmero de datos.
Cuartiles
Cada grupo tiene aproximadamente el 25% de los datos
Primer Cuartil (Q1)
A la izquierda de Q1 estn incluidos 25% de los datos
A la derecha de Q1 estn el 75% de los datos
Segundo Cuartil (Q2)
Igual que la mediana divide al grupo de datos en dos partes, cada una con el 50% de los datos
Tercer Cuartil (Q3)
A la izquierda de Q3 estn incluidos 75% de los datos
A la derecha de Q3 estn el 25% de los datos
Ejemplo. Suponer que una muestra contiene 40 datos ordenados:
X(1), X(2), ... , X(40)
Cuartil Q1: 25% de 40 = 10, por lo tanto
Q1 = (X(10) + X(11))/2
Cuartil Q2: 50% de 40 = 20, por lo tanto
Q2 = (X(20) + X(21))/2
Cuartil Q3: 75% de 40 = 30, por lo tanto
Q3 = (X(30) + X(31))/2
Deciles
Dividen al grupo de datos en grupos de aproximadamente 10% de los datos
Primer Decil (D1)
A la izquierda de D1 estn incluidos 10% de los datos
A la derecha de D1 estn el 90% de los datos
Segundo Decil (D2)
A la izquierda de D2 estn incluidos 20% de los datos
A la derecha de D2 estn el 80% de los datos
Etc.
Ejemplo. Suponer que una muestra contiene 40 datos ordenados:
X(1), X(2), ... , X(40)
Decil D1: 10% de 40 = 4, por lo tanto
D1 = (X(4) + X(5))/2
Percentiles
Dividen al grupo de datos en grupos de aproximadamente 1% de los datos
Primer Percentil (P1)
A la izquierda de P1 estn incluidos 1% de los datos
A la derecha de P1 estn el 99% de los datos
Segundo Percentil (P2)
A la izquierda de P2 estn incluidos 2% de los datos
A la derecha de P2 estn el 98% de los datos
Etc.
Ejemplo. Suponer que una muestra contiene 400 datos ordenados:
X(1), X(2), ... , X(400)
Percentil P1: 1% de 400 = 4, por lo tanto
P1 = (X(4) + X(5))/2
Percentil P82: 82% de 400 = 328, por lo tanto
P82 = (X(328) + X(329))/2
Coeficiente de variacin
Para comparar la variabilidad de los datos de diferentes grupos, es adecuado definir una medida adimensional, el coeficiente de
variacin v:
v = s/
x
Ejemplo:
Para un grupo de datos
x
=20, s=4, entonces v=4/20=0.2=20%
Para un segundo grupo de datos
x
=48, s=6, entonces v=6/48=0.125=12.5%
Se concluye que el segundo grupo tiene mayor variabilidad (respecto a su media)
Frmulas para datos Agrupados
Si los datos disponibles estn disponibles en una Tabla de Frecuencia, se pueden usar frmulas para calcular algunas de las
medidas estadsticas en forma aproximada
Suponer que se tiene la Tabla de Frecuencia
Clase
i
Marca de clase
mi
Frecuencia
fi
1 m1 f1
2 m2 f2
... ... ...
... ... ...
k mk fk
n: nmero de datos
k: nmero de clases
mi: marca de la clase i (centro del intervalo de la clase)
fi: Frecuencia de la clase i
Media de los n datos:
x
=
i
k
i
i
f m
n
1
1
Variancia de los n datos:
2
1
2
1
1
) x m ( f
n
s
i
k
i
i
Ejercicio propuesto:
Calcule
x
y s
2
con los datos originales y con los datos agrupados del ejemplo usado anteriormente. Por que los resultados no
son iguales?
Diagrama de Caja
Es un dispositivo grfico que usan los estadsticos para expresar en forma resumida algunas de las medidas estadsticas.
El Diagrama de Caja describe grficamente el rango de los datos, el rango intercuartlico (Q3 Q1) los valores extremos y la
ubicacin de los cuartiles.
Es una representacin til para comparar grupos de datos.
Diagrama de Puntos
Si la cantidad de datos es pequea, (alrededor de 20 o menos), se los puede representar mediante puntos directamente sin
resumirlos en intervalos.
Diagrama de Pareto
Es un dispositivo grfico til para identificar los efectos importantes en un proceso y las causas que los originan. La Ley de Pareto
dice que cualquier conjunto de eventos consiste de unos pocos principales y muchos secundarios. Casi siempre 2 o 3 causas
explican mas de la mitad de las frecuencias.
Para obtener el Diagrama de Pareto se sigue el siguiente procedimiento
1) Categorice los datos por tipo de problema
2) Determine la frecuencia y ordnela en forma creciente
3) Represente con barras la frecuencia relativa
4) Superponga la ojiva de la frecuencia relativa acumulada
5) Detecte cuales son las causas mas importantes y su incidencia
Ejemplo
Un fabricante ha realizado un conteo de los tipos de defectos de sus productos y su frecuencia. Los resultados se resumen en el
siguiente cuadro
Defecto f f/n (%) F F/n (%)
A 52 32.1 52 32.1
B 41 25.3 93 57.4
C 28 17.3 121 74.7
D 16 9.8 137 84.5
E 12 7.4 149 91.9
F 10 6.2 159 98.1
G 3 1.8 162 100
Diagrama de Pareto
Se puede observar que ms del 70% de los defectos de produccin corresponden a los tipos A, B y C. As, puede decidirse
concentrar recursos en solucionar estos tipos de problemas pues son los que ocurren con mayor frecuencia
Diagrama de Tallo y Hojas
Es un dispositivo til cuando la cantidad de datos es pequea. Se usa para describir la distribucin de frecuencia de los datos
agrupados pero manteniendo la informacin de cada dato.
Se construye escribiendo verticalmente algunas cifras de los datos (tallo) y escribiendo las restantes cifras horizontalmente
(hojas)
Ejemplo. Los siguientes datos corresponden a la cantidad de artculos defectuosos producidos en una fbrica en 20 das:
65, 36, 49, 84, 79, 56, 28, 43, 67, 36, 43, 78, 37, 40, 68, 72, 55, 62, 22, 82
Se usar la cifra de las decenas como tallo y la cifra de las unidades como hojas:
2 2 8
3 6 6 7
4 0 3 3 9
5 5 6
6 2 5 7 8
7 2 8 9
8 2 4
La longitud de cada fila de hojas ayuda a visualizar la frecuencia en forma parecida a un histograma pero sin perder la
informacin individual de los datos