Académique Documents
Professionnel Documents
Culture Documents
CAPTULO IX
Intervalos de confianza
En el captulo anterior estudiamos los estimadores. Vimos que los estimadores son
una determinada funcin de los resultados que se obtienen en un experimento, y que
nos sirven para estimar el valor de algn determinado parmetro. Estudiamos
asimismo cmo evaluarlos para saber si eran "buenos" o "malos".
Sin embargo, el hecho de saber que un estimador es "bueno" o "malo" no nos da
una idea numrica de cunto es el error que podemos estar cometiendo al usar el
estimador para estimar el parmetro. Dicho de otra forma, no nos da una idea
concreta de cunta (en trminos numricos) confianza le podemos tener.
Para solucionar este problema, har su aparicin en escena otra herramienta: el
intervalo de confianza. El mismo es un intervalo entre dos nmeros, tal que hay una
determinada probabilidad de que el verdadero valor del parmetro (desconocido)
pertenezca al intervalo.
En rigor, deberamos decir que el intervalo tiene una determinada probabilidad de
contener al verdadero valor del parmetro. Esto es as porque en realidad el valor
del parmetro, aunque es desconocido, existe y es una constante. Lo que son
variables aleatorias son los lmites del intervalo. Por eso en rigor es ms correcto
decir que es el intervalo el que tiene una determinada probabilidad de contener al
verdadero valor, y no que es el verdadero valor el que tiene una determinada
probabilidad de estar contenido en el intervalo.
De todos modos, ms all de la discusin filosfica, la probabilidad de la que
estamos hablando se denomina nivel de confianza (NC).
Por ejemplo, dada una poblacin normal cuyo parmetro desconocemos, nos
pueden pedir que indiquemos el intervalo de confianza del 95% para estimarla. Esto
significa que debemos dar dos nmeros L 1 y L 2 tales que haya un 95% de
probabilidad de que el verdadero valor de se encuentre entre ellos. Es decir, que
haya un 95% de probababilidad de que el intervalo que determinemos contenga al
verdadero valor de . Dicho de otro modo, debemos encontrar los lmites tal que
haya un nivel del 95% de confianza de que el intervalo que determinemos contenga
al verdadero valor de .
Cuanto mayor sea el nivel de confianza que se pida, mayor ser la longitud del
intervalo que se construya, para poder garantizar la probabilidad pedida de que el
verdadero valor est contenido dentro del intervalo dado.
Cuanto mayor sea el tamao de la muestra, menor ser la longitud del intervalo de
confianza, porque los estimadores que usemos se parecern ms a los parmetros
que desconocemos.
En general, nos interesa obtener intervalos lo ms pequeos posibles, para tener una
idea ms precisa del valor del parmetro que desconocemos.
L1;2 = X
n
z
no normal
L1;2 = X
t
L1;2 = X
debemos pedir n 30
L1;2 = X
1 ;n 1
2
n
z S
1
debemos pedir n 50
donde:
X es el promedio muestral.
n es el tamao de la muestra.
es el desvo poblacional.
S es el desvo muestral (calculado a partir de la muestra).
= 1 - NC. Es decir, si nos piden 95% de confianza, = 1 - 0,95 = 0,05.
1 ;n 1
2
Explicacin y justificacin
Comenzaremos por estudiar el caso en que la poblacin es normal y conocemos el
desvo poblacional ( ), y queremos estudiar mediante una muestra el valor del
parmetro de la distribucin.
Segn la definicin que dimos de intervalo de confianza, construir dicho intervalo
consiste en proveer los lmites L 1 y L 2 tales que la probabilidad de que contengan al
verdadero valor del parmetro (es decir, lo que no sabemos) sea una determinada
probabilidad alta que nos piden, por ejemplo, 90%. A esa probabilidad alta con la
que debemos cumplir, en este caso 90%, la denominamos nivel de confianza (NC).
x
n
x 1 + x 2 + ... + x n 1
1
1
= x 1 + x 2 + ... + x n
n
n
n
n
n
1
1
n
1
1
1
1
=
E (X )= E x 1 + x 2 + ... + x n = E ( x 1 ) + E ( x 2 ) + ... + E ( x n ) =
n
n
n
n
n
n
n
X=
2x =
i =1
i =1
1 2
x =
2
n
n
X : N ;
Con lo cual
Z=
n
Por lo tanto, como se vio en el captulo 6, si tomamos
entonces Z tiene
una distribucin normal estndar.
Si quisiramos encontrar dos valores h 1 y h 2 tales que la probabilidad de que Z est
entre ellos sea una determinada probabilidad, tendramos infinitas formas de lograrlo:
En los grficos vemos 3 de las infinitas formas posibles de tomar h 1 y h 2 tales que la
probabilidad de que Z est entre ellos (el rea encerrada) valga A.
De todas esas infinitas formas de elegir h 1 y h 2, nos quedaremos con la representada
por el grfico de la izquierda, es decir, aquella en la cual el rea es simtrica
respecto del eje vertical. Esto lo hacemos por dos razones:
porque es la que opcin que nos proporciona h 1 y h 2 ms cercanos (intervalo ms
chico).
porque es lo ms natural (lo entenderemos intuitivamente).
Entonces, decidiendo que el rea ser simtrica alrededor del cero (es decir, h 1 = -h 2)
, y h1 =
porque h 1 = -h 2.
P z < Z < z = 1
1
1 2
2
Z=
< z = 1
P z <
1
1
2
2
z
z
1
1
P X 2 < < X + 2 = 1
n
n
z
L 1; 2 = X
X
S
n
entonces tomando
, Z no es una variable normal estndar. Es algo
parecido , pero en rigor no lo es. Su distribucin recibe el nombre de "t de student"
o bien "t-student", y fue estudiada en el captulo 7. Dicha distribucin, a diferencia
de la normal estndar, depende de n, por eso para calcular su fractil necesitamos no
solamente el rea acumulada sino tambin el valor de n.
T=
X
S
n
Por lo tanto, si tomamos
, donde n es el tamao de una muestra cuya
media es , X es el promedio muestral y S el desvo muestral, entonces T tiene una
distribucin t-Student con parmetro = n - 1. La distribucin t-Student tambin es
simtrica, con lo cual podemos usar, al igual que hicimos antes con la normal, que h 1
t
= -h 2, con lo cual
;n 1
= t
1 ;n 1
2
1 ;n 1
2
El fractil
puede obtenerse de su correspondiente tabla, al igual que los
fractiles de la normal estndar.
En resumen, al no conocer el desvo poblacional, cambiamos por S, lo cual
por
1 ;n 1
2
, y queda:
t
L1; 2 = X
1 ;n 1
2
1 ;n 1
2
2
en vez de y
. Pero en el captulo 7 vimos que cuando n es lo
suficientemente grande, la distribucin t-Student se parece mucho a la distribucin
1 ;n 1
2
Errores
z
L1;2 = X
Esto se cumple tambin para los otros 3 casos que hemos estudiado.
Problemas tpicos
1) La duracin de unas determinadas bateras es una variable aleatoria
normal, cuya media se desea estimar, para lo cual se toma una muestra de 9
bateras, cuyas duraciones, en horas, resultan: 6.3, 6.8, 7.3, 5.4, 8.1, 7.9, 6.9,
6.2, 8.3.
Se pide:
a) Calcular el intervalo del 95% de confianza para estimar la media.
b) Suponga que se averigua que el desvo poblacional de la duracin es
1, cmo sera el intervalo de confianza?
c) Si se desea reducir un 20% el intervalo obtenido en b), manteniendo
el nivel de confianza, cuntas bateras adicionales se deberan probar?
d) Si se desea que el mximo error sea 0.15, cuntas bateras se
deberan probar en total?
e) Volviendo a la situacin que tenamos en b, cuntas bateras
adicionales debemos revisar, para aumentar la confianza al 99%?
Resolucin
a) Como no conocemos el desvo poblacional, usaremos
t S
1 ;n 1
L1; 2 = X 2
n
El tamao de la muestra es n = 9.
Vamos a necesitar calcular X y S.
X = 7.02
(X X )
n
Sx =
i =1
n 1
= 0.97
= 1 - NC = 0.05
1
= 0.975
t 0.975;8 = 2.306
= 1.96
z
Buscamos el fractil de la normal estndar en la tabla, y obtenemos 0.975
El intervalo de confianza nos queda: (6.37 ; 7.68).
Vemos que aunque el desvo poblacional es un poco mayor que el desvo muestral
que habamos utilizado, de todas formas el intervalo nos qued ms chico. Esto es
porque si conocemos el desvo poblacional, tenemos ms informacin sobre el
parmetro desconocido, y entonces podemos garantizar la misma probabilidad, con
un intervalo ms chico.
z
2
z
0 .8 = 2
n'
z
0 .8 2
n'
n
= 3 .75
0 .8
=>
n ' 14 .06
=>
n ' = 15
0 .15
n'
0 .15
= 13 .067
=>
=>
n ' = 171
= 0 .65
0 .01
2
1
0 .65
n'
0 .01
2
0 .65
1
= 3 .96
=>
n ' 15 .7
=>
n ' = 16
(n 1)S2
L1 = 2
(n 1)S2
L2 = 2
1 ;n 1
2
;n 1
donde:
n es el tamao de la muestra. Si la poblacin no es normal, debe pedirse n
30.
S 2 es la varianza muestral.
= 1 - NC. Es decir, si nos piden 95% de confianza, = 1 - 0,95 = 0,05.
1 ;n 1
2
, 2
;n 1
Explicacin y justificacin
2 =
( n 1)S 2
2
Si tomamos
, donde n es el tamao de una muestra tomada de una
2
poblacin normal, S es la varianza muestral y 2 es la varianza poblacional,
P 2 < 2 < 2 = 1
1 ;
2 ;
2
( n 1)S 2
< 2 = 1
P 2 <
2
1 ;
2 ;
2
(n 1)S 2
(n 1)S 2
< 2 <
P 2
2
;
1
;
2
2
=1
Problemas tpicos
1) La duracin de unas determinadas bateras es una variable aleatoria
normal, y de desea estimar su varianza y su desvo. Para eso se toma una
muestra de 9 bateras, cuyas duraciones, en horas, resultan: 6.3, 6.8, 7.3,
5.4, 8.1, 7.9, 6.9, 6.2, 8.3.
Cul es el intervalo del 90% de confianza para estimar la varianza y el
desvo?
Resolucin
Usaremos:
L1 =
( n 1)S 2
2
L2 =
1 ; n 1
2
( n 1)S 2
2
2
; n 1
Calculamos:
(X X )
n
S 2x =
i =1
n 1
= 0.94
= 0.05
= 1 - NC = 0.1
Buscamos los fractiles en la tabla:
2
= 0.95
estimar p mediante = X / n.
Se requiere que n sea lo suficientemente grande para que se cumplan:
n p 5 y n (1 p ) 5
.
Los lmites L 1 y L 2 del intervalo de confianza son:
L1;2 = p z
p(1 p)
n
donde:
p =
X
n
n es el tamao de la muestra.
X la cantidad de xitos en esa muestra.
= 1 - NC. Es decir, si nos piden 95% de confianza, = 1 - 0,95 = 0,05.
captulo 6.
Tambin hay otra frmula, que es ligeramente ms exacta, pero que requiere hacer
muchas ms cuentas:
2 n p + z
L1;2 =
4nz
2(n + z
(p p 2 ) + z
Explicacin y justificacin
Estamos buscando L 1 y L 2 tales que:
P(L 1 < p < L 2) = 1-
Tomamos una muestra de tamao n, y obtenemos X xitos. Para estimar p usamos
p =
X
n
X : N n.p ; n.p.(1 p)
p =
X
n
Si
entonces es una funcin lineal de una variable normal, y
consecuentemente tambin tiene una distribucin aproximadamente normal:
p : N p ;
p.(1 p)
p p
p.(1 p)
Z=
P z < Z < z = 1
1
1 2
2
Z=
p p
p.(1 p)
n
p p
< z = 1
P z <
1
1
p.(1 p)
2
2
p.(1 p)
p.(1 p)
< p < p + z
P p z
= 1
1
1
n
n
2
2
p.(1 p)
poblacional. Sin embargo, cuando n es grande, el error que se comete al usar esa
p
p.(1 p)
n
p.(1 p)
n
en vez de
es
p.(1 p)
p.(1 p)
< p < p + z
P p z
= 1
1
1
n
n
2
2
p (1 p )
n
p.(1 p)
n
. Volvamos a la doble
p.(1 p)
p.(1 p)
< p < p + z
P p z
= 1
1
1
n
n
2
2
El problema con esa definicin del intervalo es que nos queda en funcin del p
desconocido. Pero abstrayndonos de eso, el lmite superior del intervalo es el p tal
p = p + z
que:
p.(1 p)
n
p = p z
p.(1 p)
n
(p p)2 = z
p.(1 p)
n
1
2 +
2
p 1
z 2
1
2p + 2
n
p + p 2 = 0
2 n p + z
L1;2 =
4nz
2(n + z
(p p2 ) + z
Problemas tpicos
1) De la produccin de una fbrica de chips, se revisan 200 chips,
encontrndose 12 defectuosos. Halle el intervalo del 99% de confianza para
la verdadera proporcin de chips defectuosos en la produccin de la fbrica.
Resolucin
Usaremos:
L 1; 2 = p z
p =
p (1 p )
n
X
12
=
= 0.06
n 200
z 0.995 = 2.58
0 . 06 (1 0 . 06 )
= 0 . 06 2 . 58 0 . 01679
200
2
2
1
n1 n2
poblacionales 1 y 2
2
2) No se conocen 12
y 22. Se las estima
con las varianzas
muestrales S 12 y S 22.
L1;2 = X1 X 2 t
1 ;
2
S12 S22
+
n1 n2
S12 S22 2
+
n1 n2
con =
S12 2 S22 2
n1 + n2
n1 1 n2 1
3) No se conocen 12
(n1 1)S12 + (n2 1)S22 1 1
2
L1;2 = X1 X 2 t
y 2 , pero se sabe
+
+
1 ;n1 +n2 2
n
n
2
n1 n2
que son iguales. Se las
1
2
2
estima con S 12 y S 22.
donde:
1 ;
2
Problemas tpicos
1) Se desea comparar el servicio de dos proveedores de internet. A tal efecto,
se miden en varias ocasiones los tiempos que tardan en trasmitir un paquete
de 1 Mb. Las mediciones estn expresadas en segundos.
Proveedor 1: Se hicieron 9 mediciones. Se obtuvieron los valores 30, 33,
32, 34, 30, 23, 33, 31, 33.
Proveedor 2: Se hicieron 11 mediciones. Se obtuvieron, en kb/s, los valores
26, 17, 22, 18, 21, 17, 23, 13, 24, 20, 19.
Estime mediante un intervalo del 90% confianza la diferencia entre los
tiempos medios que tardan los dos proveedores en transmitir 1 Mb.
Resolucin
El tiempo que tarda el proveedor 1 en transmitir 1 Mb es una variable aleatoria, con
media 1 y varianza 12. Anlogamente, el tiempo que tarda el proveedor 2 en
transmitir 1 Mb es una variable aleatoria, con media 2 y varianza 22. Nos estn
pidiendo estimar la diferencia entre 1 y 2, es decir, la diferencia entre las medias
de los tiempos que tardan los proveedores en transmitir 1 Mb. Se pide estimar esa
diferencia mediante un intervalo de confianza. Esto servir para sacar una
conclusin del estilo "el proveedor 2 tarda entre 2.5 y 4.1 segundos menos que el
proveedor 1 en transmitir 1 Mb".
No conocemos las varianzas poblacionales 12 y 22, por lo cual deberemos
estimarlas con las varianzas muestrales S 12 y S 22. Estamos en lo que hemos
denominado caso 2 .
Calculamos las medias muestrales:
X 1 = 31
X 2 = 20
L1;2 = X1 X 2 t
1 ;
2
S12 S22
11 13.8
+
= 31 20 t0.975;
+
= 11 1.574 t0.95;
n1 n2
9 11
S12 S22 2
+
n1 n2
S12 2 S22 2
n1 + n2
n1 1 n2 1
11 13.8 2
+
9
11
=
=
17.83 18
2
2
11 13.8
9 + 11
9 1
11 1
Luego:
L1;2 = 31 20 t0.95;9+112
(9 1) 11 + (11 1) 13.8 1 1
+ = 11 t0.95;181.28
+
9 11 2
9 11
informacin.
3) Los dos proveedores que estbamos estudiando han informado las
varianzas de sus respectivos tiempos de transferencia habituales de 1 Mb: el
proveedor 1 ha informado que su varianza es 10, y el proveedor 2 ha
informado que su varianza es 15. Repita el anlisis.
Resolucin
Ahora las varianzas poblacionales son conocidas, por lo cual ya no hay necesidad
de aproximarlas mediante las muestrales. Estamos en lo que denominamos caso 1 .
Se sabe que:
12 = 10
22 = 15
Usamos la frmula:
L1;2 = X1 X 2 z
1
2
12
n1
22
n2
= 31 20 z0.95
10 15
+ = 11 1.645 1.573
9 11
Se estimarn p 1 y p 2 mediante 1 = X 1 / n 1 y 2 = X 2 / n 2.
Se requiere que n 1 y n 2 sean lo suficientemente grandes para que se cumplan:
n 1 p 1 5 ; n 1 (1 p 1 ) 5 ; n 2 p 2 5 ; n 2 (1 p 2 ) 5
L1;2 = p 1 p 2 z
p 1 (1 p 1 ) p 2 (1 p 2 )
+
n1
n2
donde:
p1 =
X1
n1
p 2 =
X2
n2
;
n1 y n2 son los tamaos de las muestras.
X1 y X2 las cantidades de xitos en esas muestras.
= 1 - NC. Es decir, si nos piden 95% de confianza, = 1 - 0,95 = 0,05.
captulo 6.
Problemas tpicos
1) Se cree que en la provincia de Santa Fe hay ms gente con ojos claros que
en la provincia de Entre Ros. Para eso se toma una muestra de 200
personas de Sante Fe y 500 de Entre Ros, obtenindose 70 y 120 personas
con ojos claros respectivamente.
Indique un intervalo de confianza del 95% para la diferencia entre las
proporciones de personas con ojos claros en ambas provincias.
Resolucin
Las proporciones muestrales son:
X
120
X
70
= 0 .24
= 0 .35 p E = E =
p S = S =
nE
500
nS
200
;
Usamos la frmula: