Académique Documents
Professionnel Documents
Culture Documents
PRESENTACIONES ESTADISTICAS
Distribuciones de frecuencia:
Son tablas en las que se agrupan lo valores posibles de una variable y se registra el
número de valores observados que corresponden a cada clase.
Como ejemplo se verá la distribución de frecuencias de los salarios semanales para
100 trabajadores:
140 – 159 07
160 – 179 20
180 – 199 33
200 – 219 25
220 – 239 11
240 – 259 04
Total=100 (tamaño de la
muestra)
Intervalos de Clase:
Un ejemplo de ellos lo constituye 140 - 159, los límites de clase superior e inferior
son: 159 y 140 respectivamente. Estos indican los valores incluidos dentro de la clase. Las
fronteras de clase o límites exactos son puntos específicos de la escala que sirven para
"separar clases adyacentes". Se pueden determinar identificando los puntos que están en la
mitad entre los límites superior e inferior de las clases adyacentes.
Por ejemplo, para 140 - 159 y 160 - 179 la frontera de clase está en 159.50.
El intervalo de clase indica el rango de valores incluídos dentro de una clase y se
puede determinar restando la frontera de clase inferior de la frontera de clase superior.
Puede ser útil el punto medio de clase, que se determina sumando la mitad del intervalo de
clase a la frontera inferior de clase.
______________________________________________________________________ 1
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Resumiendo:
Conviene que los intervalos de clase sean iguales. Se puede determinar el intervalo
de clase en forma aproximada del siguiente modo:
Para el caso anterior, supuesto que los valores menores y mayores de los datos no
agrupados fueran 142 y 258 respectivamente, y se desean 6 clases:
258 142
Int_aprox Int_aprox 19.333
6
______________________________________________________________________ 2
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Es posible trabajar con estas figuras de resumen en forma más dinámica a través de
la utilización de Matlab.
Para la realización del histograma, se deben definir el vector que comprenda a los
datos no agrupados y el vector de los intervalos. Luego, mediante una operación que se
verá más adelante, se podrá observar cómo se calcula un tercer vector correspondiente a la
distribución de frecuencia en cada intervalo.
La forma más sencilla de representar el histograma es cuando se tienen los datos
agrupados como en el ejemplo. Para esto basta representar "la función" en diagrama de
barras", mediante el siguiente segmento de programa que utiliza la función bar:
function barras
% Permite representar graficamente en un diagrama de barras elvector
% de puntos medios de clase y el de frecuencias
% Entradas: puntos: vector de puntos medios de clase
______________________________________________________________________ 3
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
% Vectores de entrada
puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000];
frecuencias =[7 20 33 25 11 4];
% Grafico de barras
bar(puntos,frecuencias)
Si se poseen los datos no agrupados, como podrían ser 1000 números aleatorios
comprendidos entre 0 y 10, se procede del siguiente modo utilizando la función hist:
function aleatorio
% Permite ver el histograma de un conjunto de datos no agrupados, como podrían
% ser 1000 números aleatorios comprendidos entre 0 y 10
% Entrada: datos, vector de datos
%
% Salida: Histograma
% Vector de datos
for i=1:1000, datos(i)=rand*10;end
% Vector con los centros de intervalos
x=0.5:1:9.5;
% Histograma
m=hist(datos,x);
hist(datos,x)
m %vector de frecuencias en cada intervalo
______________________________________________________________________ 4
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
y el histograma correspondiente:
% Vectores de entrada
puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000];
frecuencias =[7 20 33 25 11 4];
% Grafico
plot(puntos,frecuencias)
______________________________________________________________________ 5
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
% Vectores de entrada
puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000];
frecuencias =[7 20 33 25 11 4];
______________________________________________________________________ 6
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
______________________________________________________________________ 7
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
% Vectores de entrada
puntos =[149.5000 169.5000 189.5000 209.5000 229.5000 249.5000];
frecuencias =[7 20 33 25 11 4];
% Grafico
plot(puntos,f_acumulada)
______________________________________________________________________ 8
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
POBLACIONES Y MUESTRAS
Cada xi es un valor de una variable aleatoria cuya distribución tiene los valores
conforme a f(x)
Estas n variables aleatorias son independientes
______________________________________________________________________ 9
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
x f(x)
1 0.25
2 0.25
3 0.25
4 0.25
listar las 16 muestras posibles de tamaño 2 (24 = 16) y construir la distribución de para
muestras aleatorias de tamaño 2 de la población.
1 1.5 2 2.5
1.5 2 2.5 3
2 2.5 3 3.5
2.5 3 3.5 4
frecuencia
1.0-1.49 1
1.5-1.99 2
2.0-2.49 3
2.5-2.99 4
3.0-3.49 3
3.5-3.99 2
4.0-4.49 1
______________________________________________________________________ 10
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Ejemplo II: Hallar 500 muestras aleatorias de tamaño n=10 extraída de una población que
tiene distribución uniforme discreta que responde a la siguiente función densidad:
function muestras
% Permite obtener un vector de n medias de muestras de tamaño 10 de
% una poblacion uniformemente distribuida
%
% Salida: vector de medias
n=500;
for i=1:n,a=0;
for j=1:10, a=a+floor(rand*10); end
m(i)=a/10;
end
m
% guarda el resultado en el archivo ascii m.prn
save m.prn -ascii m
function hist_muestras
% Permite obtener el histograma del conjunto de valores que conforman
% el archivo "m.prn"
______________________________________________________________________ 11
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
2.455 2.965 3.475 3.985 4.495 5.005 5.515 6.025 6.535 7.045
17 27 46 84 101 105 64 42 11 3
y el siguiente histograma:
______________________________________________________________________ 12
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
>> var(m)
ans =
0.8715
La teoría dice que la media de la distribución dada por f(x) está dada por:
9
xi pi ( 0 1 2 3 4 5 6 7 8 9)
1
10
4.5
i 1
y la varianza por:
Con lo que se puede apreciar la proximidad entre los valores reales (4.5874, 0.8715) y
teóricos de media y varianza (4.5, 0.825).
FÓRMULAS PARA y
Si una muestra aleatoria de tamaño n se elige de una población que tiene la media
y varianza 2, entonces es un valor de una variable aleatoria cuya distribución tiene la
media .
Prueba: sea una muestra de tamaño n de una población con media y varianza 2 con
notación (x1, x2, … , xn). La misma se puede individualizar como n valores observados de
una variable aleatoria X. También se pueden considerar a estos n valores como
observaciones simples de n variables aleatorias X1, X2, … , Xn que tienen la distribución
de X (media y varianza 2) y que son independientes (ya que los valores de la muestra
independientes). Luego la media muestral vale:
______________________________________________________________________ 13
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
X1 X2 Xn
X ....
n n n
X1 X2 Xn
var X var var .... var
n n n
La varianza de una constante por una variable aleatoria es:
2
var ( c X) c var ( X)
2 2 2 2 2
X
2
n
n
....
n
n
n
2
n
Para muestras tomadas de poblaciones finitas de tamaño N, la varianza de esta
distribución es:
TEOREMA DE CHEBYSHEV
k k
f ( x) x f ( x) x dx
2 2 2
dx
k
f ( x) x dx
2
k
______________________________________________________________________ 14
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
y también que:
k
f ( x) x f ( x) x dx
2 2 2
dx
k
x k y x 2 2
k
2
Luego:
k
2
2
f ( x) k
2
dx 2 2 dx
f ( x) k
k
2
k
2 2
k f ( x) dx
f ( x) dx
k
P x k P x k
1 1
o bien
2 2
k k
También:
P x k 1
1
2
k
______________________________________________________________________ 15
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
P x k 1
1
x
k
2
haciendo , queda:
Para que | – | sea pequeño (menor o igual que ) basta con hacer n grande.
Ejemplo I: Para una muestra de tamaño n=15 tubos de TV, la vida útil media de operación
es = 8900 con una desviación estándar de s = 500. Construir un intervalo de confianza
90% para la media de la población si en este caso la vida útil media de operación de todos
los tubos no puede suponerse normalmente distribuida.
1
1 0.90 k 3.16
2
k
Si la media proviene de una población grande (n > 30, aún suponiendo que no se
conozca la varianza de la misma) es posible definir una variable aleatoria llamada media
estandarizada cuyos valores están dados por:
Ejemplo II: Supóngase los datos del problema anterior, pero con la misma media extraída
de una muestra de tamaño n=40.
Como la confianza debe ser del 90%, a ambos lados de la “campana” deben quedar
colas con áreas de 5%. Esto implica la siguiente desigualdad que define el intervalo de
confianza:
______________________________________________________________________ 16
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Gráficamente:
lo que lleva a:
500 500
8900 1.645 8900 1.645
40 40
Y n
zn
n
Más generalmente, cuando las variables aleatorias individuales sólo hacen una
contribución “relativamente pequeña” respecto a la suma total, este teorema se cumple aún
cuando las variables sumandos no tengan idéntica distribución. Esta es una propiedad que
se utiliza en Teoría de Errores en el campo de las medidas con instrumentos, ya que
usualmente los errores consisten de la suma de muchos componentes independientes y
pequeños.
Si las variables aleatorias individuales que conforman la muestra tienen una
distribución desconocida y su número no es suficientemente grande, no puede suponerse
que la distribución de la media muestral es normal.
______________________________________________________________________ 18
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
2
x 2 x F( x) 0
% Generacion de la muestra
for i=1:n, T(i)=1-sqrt(1-rand);end
Ejecutando la sentencia:
>> trian(1000)
se obtiene:
______________________________________________________________________ 19
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Una población triangular tiene una media y una varianza que se calculan del
siguiente modo:
Para verificar el Teorema Central del Límite, se habrán de tomar 1000 muestras de
tamaño 5 y a cada una de ellas se les extraerá la media para posteriormente estudiar la
distribución de estas. Para ello se plantea:
function central(n,m)
% Verificacion del Teorema Central del Limite para una distribucion triangular
% Entrada: n, entero, numero de elementos cada muestra
% m, entero, numero de medias para la prueba
% Salida: M, vector, con elementos distribuidos normalmente
______________________________________________________________________ 20
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Ejecutando:
>> central(5,1000)
se obtiene:
ans =
0.3354 media
ans =
0.0115 varianza
que significa una gran concordancia con los resultados teóricos. Recuérdese que la media
de la distribución de medias coincide con la de la población, pero la varianza es la
correspondiente a la misma pero dividida por el tamaño de la muestra sobre la que se
obtiene la media.
El resultado gráfico muestra cómo la distribución de las medias conforma una
normal.
k1 0 n1 1 índice auxiliar
______________________________________________________________________ 21
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
intervalos.
Como se ha dicho más arriba, cuando n es grande (mayor de 30) no hay problema
en reemplazar a por s (desviación estándar de la muestra).
Si se supone que la muestra no es grande (n menor que 30) pero que proviene de
una población normal, se puede probar el siguiente teorema:
Hay tablas de valores de para t (valor de t para el cual el área bajo la distribución a
la derecha de él es igual a . Por ejemplo t0.75 para =3, vale 0.765. Gráficamente:
Ejemplo: Un fabricante de fusibles asegura que, con una sobrecarga del 20%, sus fusibles
fundirán al cabo de 12.40 minutos () en promedio. Para probar esta afirmación, una
______________________________________________________________________ 22
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
muestra de n=20 de los fusibles fue sometida a una sobrecarga del 20% y los tiempos que
tardaron en fundirse tuvieron una media de 10.63 minutos ( ), y la desviación estándar de
2.48 minutos (s). Si se supone que los datos constituyen una muestra aleatoria de una
población normal ¿tienden a apoyar o a refutar la afirmación del fabricante?.
x 10.63 12.4
t 3.192 n1 19
s 2.48
n 20
Como t < t0.005 (un valor razonable el de 0.005 para el nivel de significación), los
datos tienden a refutar la afirmación.
Los fusibles con sobrecarga del 20% fundirán en menos de 12.40 minutos
______________________________________________________________________ 23
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
function dis_var(n,m)
Ejecutando la instrucción:
>> dis_var(5,1000)
______________________________________________________________________ 24
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
______________________________________________________________________ 25
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
2
2 s
( n 1)
2
es un valor de una variable aleatoria que tiene la distribución chi-cuadrado con
parámetro =n-1.
Ejemplo II: Una población normal tiene una varianza de 15. Si se extraen muestras de
tamaño 5 de esta población ¿Qué porcentaje puede tener varianzas a) menores que 10, (b)
mayores que 20, (c) entre 5 y 10.
a) se calcula el estadístico
function chicuadrado(chi,n)
______________________________________________________________________ 26
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
M=0;
for x=0:0.01:chi;
M1=1/(2^(n/2)*gamma(n/2))*exp(-x/2)*x^(n/2-1)*0.01;M=M+M1;
end
M
>> chicuadrado(2.667,4)
M=
0.3846
>> 0.7454-0.3846
ans =
0.3608
______________________________________________________________________ 27
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
M=0;K=gamma((nu1+nu2)/2)/gamma(nu1/2)/gamma(nu2/2)*nu1^(nu1/2)*nu2^(nu2/2);
for x=0:0.01:f;
M1=K*x^((nu1-2)/2)/(nu1*x+nu2)^((nu1+nu2)/2)*0.01;M=M+M1;
end
1-M
>> F(3,6,12)
______________________________________________________________________ 28
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
ans =
0.0496
esto se puede apreciar, a partir del trabajo con tablas, para =0.95, 1=7 y 2= 13, resulta:
F0.95( 7 13) 2.832 F0.05( 13 7) 0.353
dichos números son evidentemente uno el recíproco del otro.
function eficiente(m,n)
______________________________________________________________________ 29
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
end
M=var(mediana)/var(media)
>> eficiente(1000,20)
ans =
M=
1.5771
x x
z z o bien z
2 n 2 n 2
será satisfecha.
Donde es una abscisa tal que el área bajo la curva normal estándar a su derecha
es de /2.
______________________________________________________________________ 30
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
E es el valor máximo de x o sea, el Error Máximo de Estimación:
se puede asegurar con una probabilidad del 99% que el error será a lo sumo 1.304.
Si al recoger los datos se obtiene x 69.5 ¿Se puede asegurar aún con probabilidad
99% que el error es a lo sumo 1.304?
Se hacen afirmaciones de probabilidad acerca de valores futuros de variables
aleatorias (digamos error potencial de una estimación) y afirmaciones de confianza una vez
que los datos han sido obtenidos.
Luego, se diría que el supervisor puede tener una confianza del 99% de que el error
de estimación para x 69.5 sea a lo sumo 1.304.
Un Intervalo de Confianza para la media es un intervalo estimado construido con
respecto a la media de la muestra, por el cual puede especificarse la probabilidad que el
intervalo incluya el valor de la media poblacional.
El Grado de Confianza, asociado con un intervalo de confianza, indica el porcentaje
de los intervalos que incluirán el parámetro que se está estimando.
Si se desea usar la media de una muestra grande aleatoria para estimar la media de
una población y que se quiere asegurar con probabilidad 1- que el error será a lo sumo una
cantidad predeterminada E, el número de elementos de la muestra debe ser:
2
E z
n
n z
E
2 2
Ejemplo II: Una investigación quiere determinar el tiempo promedio que un mecánico tarda
en intercambiar los neumáticos de un auto, y además desea poder asegurar con una
______________________________________________________________________ 31
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
confianza del 95% que el error de su muestra sea a lo sumo de E=0.50 minutos. Si puede
presumir, por experiencia que =1.6 minutos. ¿Qué tamaño deberá tener la muestra?.
1 0.95 0.05 0.025
2
2 2
1.96 1.6
n z0.025 39.338
E 0.5
Los valores de E para 95% (=0.05) y para 99% (=0.01) con =n-1=9
0.15 0.15
E95 t 0.025 2.262 0.107
10 10
0.15 0.15
E99 t 0.005 3.25 0.154
10 10
y para =0.01
10.95 0.154 x 10.95 0.154 10.796 x 11.104
con lo que se puede decir en la confianza del 95% que el valor verdadero de la media se
encuentra entre 10.843 y 11.057, o en la confianza del 995 que se encuentra entre 10.796 y
______________________________________________________________________ 32
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
11.104.
x z x z
n n
2 2
Ejemplo I: Las medidas de los diámetros de una muestra de 200 cojinetes de bolas hechos
por una determinada máquina durante una semana dieron una media de 2.06 cm y una
desviación típica de 0.105 cm. Hallar los límites de confianza del a) 95% y b) 99% para el
diámetro de todos los cojinetes.
a) para =0.05
0.105
E z 1.96 0.015
n 200
2
luego, el intervalo de confianza es:
2.06 0.015 2.06 0.015 2.045 2.075
b) para =0.01
0.105
E z 2.576 0.019
n 200
2
luego, el intervalo de confianza es:
2.06 0.019 2.06 0.019 2.041 2.079
ESTIMACIÓN BAYESIANA
______________________________________________________________________ 33
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
REGLA DE BAYES
Ejemplo I: Una urna contiene 3 monedas C1 C2 y C3 con probabilidad de caer cara iguales a
0.4, 0.5 y 0.6 respectivamente. Una moneda se extrae aleatoriamente y se arroja 20 veces.
Aparece cara hacia arriba 11 veces. Encontrar la probabilidad de que la moneda elegida sea
la legal (p=0.5).
y la respuesta es:
______________________________________________________________________ 34
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
1 (x )2
f ( x) exp función densidad de la distribución 'a priori'
2 2 2
19
f ( x) dx 0.146487 Probabilidad que la emisión esté entre 18 y 19
18
gráficamente:
______________________________________________________________________ 35
Cátedra Estadística Aplicada II
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
19
f1( x) dx 0.547674 Probabilidad que la emisión esté entre 18 y 19
18
gráficamente:
19
f2( x) dx 0.51014
18
______________________________________________________________________ 36
Cátedra Estadística Aplicada II