Académique Documents
Professionnel Documents
Culture Documents
La estadstica descriptiva tal como la hemos visto hasta aqu, no requiere de la teora de
probabilidades para describir el conjunto de datos x" ,x# ,...,xn . Como su nombre lo indica, slo son
tcnicas para describir, sin importar el orgen de los datos. En particular, no se hace ningn intento
para generalizar ms all de la informacin que se tiene en ese momento. La inferencia estadstica,
sin embargo, est fundamentalmente interesada en la poblacin, fuente u origen de los datos. Ella
supone que los nmeros x" ,x# ,...,xn son valores observados de variables aleatorias, los que han
sido recolectados como resultados de realizar, por ejemplo, un experimento que sigue un modelo
probabilstico. Este modelo probabilstico puede entonces ser utilizado para realizar inferencias
acerca del fenmeno estudiado en el experimento.
de llegar atrasada a su clase de Estadstica cada da?. En este caso !xi corresponde al nmero de
n
i"
das, del total de n, en que ella llega atrasada, por lo que parece intuitivamente claro que
x =
i"
En este ejemplo hemos observado valores de variables aleatorias independientes X" , X# ,..., Xn ,
donde cada una de las Xi tiene la misma distribucin de probabilidades. En estos casos hablamos
de muestra aleatoria de tamao n, un concepto que ya habamos adelantado en la Seccin 4.9.
Formalmente, y a modo de recuerdo, si X" , X# ,..., Xn son variables aleatorias independientes y
estn idnticamente distribudas, cada una con la misma distribucin de alguna variable aleatoria
X, entonces llamamos a X" ,X# ,...,Xn una muestra aleatoria (m.a.) de la variable aleatoria X.
1
Si X" , X# ,..., Xn es una muestra aleatoria de una variable aleatoria X, entonces se acostumbra a
llamar a X variable aleatoria poblacional o sencillamente poblacin.
_ ( X" , X# ,..., Xn ) es una muestra aleatoria, entonces su distribucin de
Por otra parte, si X=
probabilidades conjunta est completamente especificada por sus distribuciones marginales. Esto
es.
fX_ (x" ,x# ,...,xn ) = fX1 (x1 ).fX2 (x2 ).....fXn (xn )
= fX (x1 ).fX (x2 ).....fX (xn )
si X es una variable continua y
pX_ (x" ,x# ,...,xn ) = pX1 (x1 ).pX2 (x2 ).....pXn (xn )
= pX (x1 ).pX (x2 ).....pX (xn )
si X es una variable discreta.
Los valores observados x" , x# ,..., xn son llamados valores de la muestra aleatoria seleccionados
desde la poblacin en estudio.
La definicin que estamos manejando para una muestra aleatoria no es vlida para poblaciones
finitas, cuando por ejemplo n nmeros son seleccionados al azar y sin reemplazo desde una
poblacin de tamao N (N n); sin embargo, si una muestra de tamao n se selecciona al azar,
sin reemplazo, desde una poblacin finita y n es pequeo comparado con N, entonces X" , X# ,...,
Xn , satisface, aproximadamente, la definicin de muestra aleatoria.
Cuando X" , X# ,..., Xn es una muestra aleatoria de una poblacin X, y conocemos la distribucin
de probabilidades de X, entonces conocemos tambin la distribucin conjunta de X" , X# ,..., Xn y
podemos evaluar inmediatamente la distribucin de cada Xi . Generalmente, por supuesto, uno o
ms aspectos de la distribucin de probabilidades para la poblacin sern desconocidos para
nosotros, por ejemplo l o los parmetros que caracterizan a la distribucin o incluso podemos
desconocer la densidad o funcin de probabilidad, y por lo tanto, debemos slo suponer que X" ,
X# ,..., Xn son independientes y nuestra interrogante es saber si tienen alguna distribucin
especfica conocida, tal como una distribucin normal, exponencial etc. Nuestro propsito en la
inferencia, es utilizar los elementos de la muestra para determinar todos los aspectos desconocidos
de nuestro inters, en la mejor forma posible, al considerar la distribucin de probabilidades de la
poblacin.
Veremos que ciertas funciones de los elementos de una muestra aleatoria tales como
!Xi
n
X =
i"
(Media Muestral)
S# =
n
!(Xi
X)#
i"
n 1
(Varianza Muestral)
= (1/n) !E(Xi )
i"
i"
= (1/n) ! .
n
i"
= (1/n)(n.) = .
y su varianza es
media, 5
X = 5/ n .
Notemos que 5
X decrece a medida que el tamao de la muestra crece. Esto significa que cuando n
" # #
= e.t # t 5 n
5n
Dxi n.
(X .)n
5
Ejemplo. Una maquina puede ser regulada de modo que descarge un promedio de . kilos por hora
(. desconocido). Se ha observado que la cantidad descargada por la maquina se distribuye normal
con 5# =1.0 kg. Se selecciona al azar una muestra de tamao n = 9 horas de descarga, pesando el
total descargado en cada hora seleccionada. Se desea encontrar la probabilidad que la media
muestral est entre +/- 0.3 kg. de la verdadera media ..
Si definimos la variable aleatoria Yi como el peso total descargado en la hora i, entonces Yi se
distribuye N(., 1), para todo i=1,...,9, por lo tanto, de acuerdo al Teorema 6.2, Y se distribuye
N(., 1/9). La probabilidad que deseamos determinar es
D(Xi
X)#
n 1
1
#
#
#
#
= n
1 ((n5 +n . ) 5 n. )
(n1)5#
n 1
= 5# .
D(x
x )#
D(Xi
X)# (n1)S#
= 5#
#
5
Xi .
5
, i = 1,...,n,
D(Xi .)/5
X.
Z = DZi /n =
=
n
5 .
#
Entonces Z N(0,1/n) y n Z N(0,1). Por lo tanto nZ es una variable aleatoria Chicuadrado con 1 grado de libertad.
Ahora, como Z" ,...,Zn son variables aleatorias normales independientes, ellas estn no
(ver ejemplo de seccin 4.9). Ms an, Z y Zi Z son independientes ya que ellas tienen
distribucin normal bivariante para todo i=1,2,....,n. Por Teorema 4.6, Z y D(Zi Z )# son
#
D(Zi
Z)#
D(Xi
X)#
nZ = X y 5# n
=
= S#
1
n 1
#
D(Zi Z )# = D Z#i nZ
tenemos que
#
D Z#i = D(Zi Z )# + nZ .
Por otra parte, la funcin generadora de momentos de !Zi# es por definicin
n
i=1
#
#
#
E[et D Zi ] = E[et D(ZiZ) + tnZ ]
#
#
= E[et D(ZiZ) ] E[etnZ ]
P(b" S# b# ) = 0.9
Notemos en este ejemplo que
P(b" S# b# ) = P[(n 1)b" /5# (n 1)S# /5# (n 1)b# )/5# ].
Dado que 5# =1 y n=10, se sigue que (n 1)S# /5# = 9S# , tiene distribucin ;# con 9 grados de
libertad. Usando las tablas ;# (9) podemos encontrar los dos nmeros 9b" y 9b# tales que
P(9b" 9S# 9 b# ) = 0.90
Los valores correspondientes de la tabla son: 9b" = 3.325 y 9b# = 16.919, de donde se tiene que b"
= 0.396 y b# = 1.88. Luego, el intervalo (0.369, 1.88) contiene a S# con probabilidad 0.90.
De los resultados del Teorema 1.5 es fcil ver que la distribucin de la variable aleatoria
n(X
.)/S, cuando X" ,...,Xn es una muestra aleatoria de una poblacin normal, es t-student
con n 1 grados de libertad. En efecto, sabemos que n(X .)/5 se distribuye N(0,1) y que
(n 1)S# /5# se distribuye ;# (n 1). Adems, estas dos variables son independientes, por lo que,
de acuerdo a la definicin de una variable t-student con / grados de libertad,
n(X .)/5
T = Z# =
= n (X .)/S
(n1)S /5# (n1)
; //
varianza 5# , entonces n(X .)/S tiene distribucin t-student con n 1 grados de libertad.
Lo ms importante de este resultado es que el parmetro 5 se cancela al formar el cuociente en la
(X.)
S
y Z=
(X.)
5
.)
(X
S/n
y Z=
(X.)
5 / n
estimadas mediante X y S# , respectivamente. Encuentre la probabilidad que X est entre +/2S/n veces la verdadera media poblacional ...
Deseamos encontrar la probabilidad
P
2S
n
(X .)
2S
n
n(X
.)
S
.)
n(X
2 = P(-2 T 2)
donde T =
tiene distribucin t-student con n 1 = 5 gl. Esta probabilidad corresponde
S
aproximadamente a
P( 2.015 T 2.015) = 0.90.
Por lo tanto, hay una probabilidad de 0.90 de que X est entre +/- dos desviaciones estndar de la
verdadera media. Si 5# hubiese sido conocida, esta probabilidad se habra obtenido mediante la
relacin
.)
n(X
25
25
P
(X .)
= P 2
2
5
n
n
= P( 2 Z 2)
= 0.9544.
i=1
M" = 1/n ! Xi = X
i"
10
Ejemplo. Supongamos que queremos estimar, por el mtodo de momentos, la varianza, 5# , de una
poblacin cualquiera X.
Sabemos que 5# = E(X# ) (E(X)# ) = .# .#" = h(." , .# ) Luego, si consideramos una muestra
aleatoria X" ,...,Xn de esta poblacin, tenemos que el estimador por momento de la varianza
poblacional 5# es
T(X" ,...,Xn ) = h(M" ,M# ) = M# M#"
= 1n DX#i 1n DXi #
#
= 1n DX#i X
=
D(Xi
X)#
n
Como ) = E(X), entonces un estimador por momentos de ) es M" = X , pero como tambin ) = 5# ,
1 #
en una distribucin Poisson, tenemos que un estimador por momentos tambin sera n
n S . Si
n=5 y los valores observados de la muestra aleatoria son: 1, 2, 2, 3, 1,. podemos reportar como
valor estimado de ) a s) = 1.8 o s) = 0.56.
11
Parece entonces razonable elegir el valor tres como estimador de ) el nmero de bolas rojas en la
caja, dado que con este valor se maximiza la probabilidad de la muestra observada. Por cierto, es
probable que la caja contenga slo dos bolas rojas, pero la evidencia de la muestra otorga mayor
credibilidad o verosimilitud a la existencia de tres rojas por sobre slo dos.
Definicin. Suponga que x x" ,...,xn son los valores observados de una muestra aleatoria de una
poblacin X con funcin de probabilidad (o densidad), f(x.)), que depende de un parmetro
desconocido ). La funcin de probabilidad o densidad conjunta de la muestra aleatoria considerada
como funcin de ) define a la funcin de verosimilitud.
L()) = f(x" ,))f(x# ,) ... f(xn ,))
El mtodo de mxima verosimilitud consiste en obtener, como estimadores, aquellos valores de
los parmetros que maximizan la funcin de verosimilitud, L())=L(); x" ,...,xn ), considerada como
una funcin de ).
dL())
=0
Dado que L()) es siempre no negativa y logra su mximo para el mismo valor de ) que ln(L),
generalmente resulta ms simple obtener el EMV de ) resolviendo
dlnL();x)
d)
)=)^
=0
= 0 ; j =1,2,...,m .
i"
Para encontrar el valor de ) que maximiza L, notemos que L es igual a cero para )=0 y 1, y es
dL())
continua para valores entre 0 y 1. Luego podemos encontrar el punto mximo haciendo d) = 0 y
resolviendo la ecuacin resultante para ). Adems, dado que L es una funcin montona creciente,
ln(L) y L sern maximizados por el mismo valor de ), determinaremos el valor que maximiza
ln(L) (denotado habitualmente como l();x)); esto es,
l();x) = !xi ln()) + (n !xi )ln(1 )),
cuya derivada es
dl();x- )/d) = !xi (1/)) + (n !xi )( 1/(1 )))
Luego, el valor de ) que maximiza l();x)
- es la solucin de la ecuacin:
!xi /) (n !xi )/(1 )) = 0
cuya solucin es
s) = !xi /n =
x
que corresponde precisamente a la fraccin de xitos en los n ensayos.
Ejemplo. Supongamos que X" ,..., Xn representan los tiempos de fallas para una cierta pieza de un
equipo y que los tiempos de vida son exponenciales e independientes con parmetro (desconocido). Queremos encontrar el estimador mximo verosmil para -.
Sean x- = x" ,... xn los valores observados de X" ,..., Xn . La funcin de verosimilitud es entonces
L(-;x- ) = -n e-Dxi , xi > 0; i = 1,n
lnL(-;x- ) = nln- -Dxi .
dlnL(-;x- )
d-
n
-
Dxi
1
s e igualando a cero, tenemos que s= n =
Evaluando en - = Dxi
x .
13
Ejemplo. En el ejemplo anterior vimos que el estimador mximo verosmil para -, el parmetro
s=1/X
de una distribucin exponencial es . La propiedad de invarianza, dice que el estimador
s
mximo verosmil para la media de una variable con distribucin exponencial, . = 1/- es .
s = 1/
= X y el estimador mximo verosmil para P(X > c) es exp( c/x ) , para c>0 fijo.
14
De acuerdo a lo que hemos visto hasta aqu, si utilizamos X y S# como estimadores de la media
poblacional . y la varianza poblacional 5# , stos seran insesgados. Ahora, si usamos
1
n 1
5
s # = n D(Xi X )# como estimador de la varianza encontramos que su media es n 5# 5# , y por
tanto 5
s # sera un estimador sesgado de 5# . Parece natural que un buen estimador no slo debe ser
tal que su media est cercana al verdadero valor del parmetro, sino que tambin debera variar
poco. Por lo tanto, debemos considerar estadsticos que adems de ser insesgados tengan varianza
tan pequea como sea posible.
a)
b)
c)
^
Figura 1.1. Distribuciones de ) centradas en ) . a) y b) muestran mayor varianza
que c).
Las Figuras 6.1 corresponden a distribuciones de un estimador insesgado )^. Es evidente que la
representada por Figura 6.1 c) es preferida pues tiene una menor varianza, lo que implica que s)
estar ms "cerca" de ) que en las otras distribuciones mostradas.
Definicin. Sea s) un estimador insesgado de ). Decimos que s) es un estimador insesgado de
mnima varianza para ) , si para cualquier otro estimador insesgado ) de ) se tiene que
Var()^) Var() ), a ).
Lo anterior nos permite formular la siguiente regla: Dados dos estimadores para el parmetro ), y
siendo todo el resto de las condiciones equivalentes para ambos, se elegir siempre aquel de
menor varianza.
averiguar si la calidad de X mejora cuando n crece. E(X ) = . que no depende de n; pero V(X ) =
15
1
` lnf(x,))
nE( ` ) )2
(1.1)
(1.2)
16
1 `
f(xj ;)) f(x" ;))...f(xn ;))dx" ...dxn
f(xj ;)) ` )
`
lnf(xj ;)) f(x" ;))...f(xn ;))dx" ...dxn
`)
j"
n
j"
(1.3)
`
f(xj ;)) dxj , j = 1,n
`)
`
lnf(xj ;))f(xj ;))dxj ,
`)
j=1,n.
(1.4)
`
Si hacemos Y = ! `)
lnf(xj ;)) obtenemos de (1.4) y (1.3) que
n
j"
E(Y) = 0 y E(TY) = 1.
Adems,
`
Var(Y) = Var ! `)
lnf(xj ;))
n
j"
n
`
= ! Var( `)
lnf(xj ;)))
j"
n
#
`
= ! E `)
lnf(xj ;))
j"
#
`
= nE `)
lnf(xj ;)) .
3TY = 5 5
T Y
17
donde 5T# = Var (T) y 5]# = Var (Y) y 3T] es la correlacin entre T e ] . Entonces
E(TY) = 3TY 5T 5Y
o
1 = 3TY 5T 5Y
Finalmente, notando que 3# 1, tenemos que
1
Var (s)) = Var(T) 51# =
.
`
nE( `) lnf(x;)))2
]
Si s) no es un estimador insesgado de ), se puede probar que la cota de Cramer-Rao est dada por
la expresin
5s)#
(1+B(s)))#
`
nE( `)
lnf(x;)))2
(1+B(s)))#
I())
donde :
s es un estimador insesgado de :.
Dado un estimador insesgado s) de ), la razn de su cota de Cramer-Rao a su varianza, se llama
eficiencia de s
) . Notemos que segn esta definicin, la eficiencia de cualquier estimador insesgado
es siempre menor o igual que uno. Un estimador insesgado con eficiencia uno se dice eficiente.
18
_
As, con respecto a la pregunta, Es X el mejor estimador para . en trminos de insesgamiento y
mnima varianza?, para responderla consideremos, por ejemplo, la funcin de densidad
correspondiente a una poblacin N(., 5# ), donde slo . es desconocido. Entonces,
ln f(X; .) = ln 1
21 5
` ln f(X; .)
`.
(X.)#
25 #
(X.)
5#
y
E
` ln f(X; .) #
`.
= E 5# = 1/5# .
X. 2
19
_
El CME(s)" )=Var(s)" )=1/(2-# ), por ser X un estimador insesgado de .. Ahora,
x"/# -e-x dx =
>(3/2)
= (1/-)"/# /2
-"/#
Por lo tanto
1#
Var(X1 X2 ) = 1/-# 1# /(16-# ) = 16
16-#
20
o equivalentemente
lim P(|s)n )| > %) = 0 .
n_
Notemos que, de la desigualdad de Chebyshev
E(s)n ))#
CME(s)n )
P(|s)n )|> )
=
%#
%#
de donde se sigue que si el CME(s)n ) tiende a cero cuando n tiende a infinito; esto es, tanto la
varianza como el sesgo de s)n tienden a cero cuando n tiende a infinito, entonces s)n es un
estimador consistente de ).
Teorema 1.8 . Un estimador insesgado s)n de ) es consistente si
lim Var(s)n ) = 0.
n_
Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una
_ poblacin con distribucin de probabilidades
#
con media . y varianza 5 <_. Verifiquemos que X es un estimador consistente de ..
_
_
_
#
Sabemos
que
E(X)=
.
y
Var(X)=
5
/n.
Dado
que
X
es un estimador insesgado para ., y como
_
Var(X) p 0, cuando n crece, el teorema anterior se aplica directamente.
_
Equivalentemente se puede decir que X converge en probabilidad a .. Este hecho es tambin
conocido como la Ley de los Grandes Nmeros.
Hasta el momento hemos utilizado la informacin contenida _en una muestra de tamao n para
calcular el valor de estadsticos de inters, como por ejemplo X y S# . Debemos preguntarnos, sin
embargo, si este proceso de condensacin de la informacin ha retenido toda la informacin
disponible acerca de . y 5# , o bien, si se ha perdido alguna informacin acerca de los parmetros
poblacionales durante el proceso de reduccin de los datos.
En consideracin a la pregunta anterior, debemos buscar estadsticos que resuman toda la
informacin contenida en la muestra acerca del parmetro desconocido de inters. Tales
estadsticos se dice que tienen la propiedad de suficiencia o ms simplemente son llamados
estadsticos suficientes.
Un estadstico T(X" ,...,Xn ) se dice suficiente si utiliza toda la informacin de una muestra
relevante a la estimacin del parmetro poblacional ); esto es, si todo el conocimiento que
podemos obtener acerca de ) especificando los valores observados de X = (X" ,...,Xn ), tambin
_
puede ser obtenido observando el valor del estadstico T(X).
Definicin. Sea X" ,...,Xn una muestra aleatoria de una distribucin de probabilidades con
parmetro desconocido ). T = T(X" ,...,Xn ) es un estadstico suficiente para ), si y slo si (ssi), la
distribucin condicional de (X" ,...,Xn ) dado T=t, para todo valor de t, es independiente de ).
21
i=1
P(T=t
= n t
nt
t p (1p)
pt (1p)nt }
nt
1
Como esta probabilidad condicional no depende de p, podemos concluir que una vez conocido T,
ninguna otra funcin de X" ,...,Xn proporciona informacin adicional sobre el posible valor de p.
En este sentido, T contiene la informacin relativa a p y, por tanto, es un estadstico suficiente para
p.
La definicin anterior, no nos permite en forma directa la obtencin de un estadstico suficiente
para un parmetro ). El siguiente teorema nos proporciona un criterio para obtener facilmente
estadsticos suficientes.
_ un estadstico basado en la muestra
Teorema 1.9. (de Factorizacin de Fisher) Sea T(X),
_
_ es un estadstico suficiente para ) si y solo si, la densidad conjunta de
aleatoria X=(X
" ,...,Xn ). T(X)
_ (la funcin de verosimilitud L(),x)), puede ser factorizada en dos funciones no negativas, de la
X
forma
_ )) h(X),
L(), _x) = g(T(x),
donde g es una funcin slo de T y ), y h no es funcin de ).
Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una poblacin con distribucin exponencial con
media -; esto es, Xi posee funcin de densidad
f(); x3 ) = 1/- exp( x3 /-),
x3 > 0,
i=1,n
22
_
Como
L
es
una
funcin
que
depende
slo
de
y
x, aplicando _el teorema de factorizacin con g(-,
_
_
n
_ = 1, podemos concluir que X es un estimador suficiente para -.
x) = [exp( nx/-)]- y h(x)
!
Notemos tambin que X4 es otro estadstico suficiente para -.
Ejemplo. Sea X" ,...,Xn es una muestra aleatoria de una distribucin uniforme en (0, )) y
determinemos un estadstico suficiente para ).
La funcin de verosimilitud de la muestra aleatoria es
L(), _x) = (1/))n , x3 (0,)) para todo i=1,...,n
lo que es equivalente a escribir
_ = (1/))n , para xn <); donde xn = mx (x" , x# ,...,xn ).
L(), x)
As, tenemos la factorizacin
L(), _x) = (1/))n I!) (xn ) = g(), Xn ),
donde
IA (x) = 0 si xA
1 si xA
_
n (X) )
5
%n
%n
%n
%n
%n
5
= 2F (
%n
) + (1 F ( 5 ))
%n
5
)>0
24
(6.5)
_
P( z"!/# < n (X .)/5 < z"!/# ) = 1 !,
lo que es equivalente a
_
_
P(X z"!/# 5n < . < X+z"!/#
5
n
) = 1 !.
5s) z"!/# %,
donde z"-!/# queda determinado por el grado de confianza 1-!.
Para nuestro ltimo ejemplo tenemos:
de donde el tamao muestral debe ser al menos z#1!/2 5# /%# , cuando la varianza es conocida; esto
es,
n z#1!/2 5# /%# .
Si en particular deseamos el promedio diario . de rendimiento de un proceso de produccin de un
producto qumico y deseamos adems que con una probabilidad .95, el error de estimacin no sea
mayor que 5 toneladas. Entonces, dado que si repetimos las muestras un gran nmero de veces,
aproximadamente el 95% de las medias muestrales estar entre 25X_ de ., lo que estamos pidiendo
es que 25X_ sea igual a 5 tons., lo que significa que 25/n = 5. Despejando n obtenemos
n 4 5# /25.
Esto siginfica que para obtener un valor numrico para n, necesitamos conocer el valor poblacional
del parmetro 5# . Cuando no se dispone del verdadero valor de 5# , debemos utilizar la mejor
aproximacin disponible, como por ejemplo su estimador S# , obtenido de experiencias previas.
6.11. Intervalo de Confianza para la media en poblaciones N(., 5 # ) con 5 # desconocida
_
Sea X" ,...,Xn una muestra aleatoria de una poblacin N(., 5# ). Sabemos que T = n(X .)/S se
distribuye t-student con / =n 1 grados de libertad, entonces podemos determinar t"!/# tal que
P( t"!/# T t"!/# ) = 1 !.
De aqu, reemplazando y despejando . nos queda
_
_
P(X t"!/# Sn . X + t"!/# Sn) = 1 !.
As, los lmites de confianza son
28
_
_ t"!/# Sn
X+
_
_
(x t"!/# s/n ; x + t"!/# s/n)
_
_
es un intervalo del 100(1 !)% para ., si x y s son los valores observados de X y S,
respectivamente.
6.12. Intervalos de Confianza para 5 #
Recordemos aqu que 5# es un nmero que cuantifica la cantidad de variabilidad de la poblacin.
Este valor es generalmente estimado a partir de la expresin
_
n
S# =!3"
(X3 X)# /(n 1)
que es un estimador insesgado de 5# . Adems de necesitar informacin acerca de 5# , para calcular
intervalos de confianza para la media ., podramos estar interesados en obtener intervalos de
confianza para 5# propiamente tal; esto es, por ejemplo, la estimacin de la cantidad de variacin
en un proceso de produccin de ciertas unidades.
Como ya hemos mencionado, debemos empezar por definir un pivote. Supongamos una vez ms,
que disponemos de una muestra aleatoria X" ,...,Xn de una distribucin normal con media . y
varianza 5# , ambas desconocidas. Recordemos tambin que
_
!n3" [(X3 X)# ]5# = [(n 1) S# ]5# ,
tiene distribucin ;# con (n-1) grados de libertad. Podemos ahora, usando el mtodo del pivote,
proceder a encontrar dos cantidades ;#!/# y ;#"-!/# , tales que
#
P[;#!/# (n 1)S# /5# ;"
!/# )] = 1 !.
29
es un intervalo de confianza del 100(1 !)% para la varianza de una poblacin normal con media
desconocida.
Ejemplo. Un investigador desea verificar la variabilidad de un equipo diseado para medir el
volumen de una fuente de ruido. Utilizando este equipo, se obtienen tres mediciones
independientes del mismo sonido, ellas son: 4.1, 5.2 y 10.2. Se pide estimar 5# con un nivel de
confianza de .90.
Asumiendo normalidad, tenemos que s# = 10.57. Considerando !/2 = 0.05 y (n 1)=2 grados de
libertad, se obtienen los valores de tabla ;#!& = 0.103 y ;#*& = 5.991. Por lo tanto, el intervalo de
confianza para la varianza poblacional 5# es (3.53; 205.24).
Ntese que este intervalo es muy amplio, la razn de esta amplitud es el pequeo tamao de n.
_
Xp
pq/n
_
Xp
pq/n
< Z"!/# ) = 1 !
Notemos que para determinar los lmites de confianza para p, necesitamos resolver para p la
ecuacin
_
|X p|
p(1p)/n
Z"!/# ,
lo que es equivalente a:
_
p(1p)
(X p)# Z#"!/#
n
o bien
30
p# (1+
Z#"!/#
n
_
) p(2X +
Z"!/#
n
_#
) + X 0,
que es una parbola, cuyas races definen el intervalo dentro del cual la parbola es negativa.
Resolviendo la ecuacin cuadrtica tenemos
1/2
_ Z#
_
_
Z#"!/#
!/ # ) +
!/ #
_ Z"
(X + "
X(1
X)
+
n
2n
4n
_
2X + Z#"!/# /n
_
_
_
_ Z"!/# X(1 X)/n .
X+
As, un intervalo de confianza aproximado al 100(1-!)% para p est dado por
_
_
_
_
_
_
x Z"!/# x(1 x)/n ; x + Z"!/# x(1 x)/n
_
_
donde x es el valor observado de X.
Ejemplo. Supongamos que en una muestra aleatoria de 500 personas en la ciudad de Concepcin
se encontr que 375 no estn de acuerdo con los mtodos de eliminacin de desechos industriales.
Un intervalo de confianza del 95% para p, la proporcin real de la poblacin penquista que no est
de acuerdo con dichos mtodos, lo obtenemos como sigue
_
De la informacin tenemos que n = 500 y x = 372/500=0.74 y, para ! = 0.05 tenemos de las tablas
normales que Z"!/# = 1.96. As, el intervalo del 95% de confianza para p, est dado por
(0.74-0.04 , 0.74+0.04) = (0.70 , 0.78).
31
Esta frmula podemos utilizarla para determinar el tamao muestral necesario para alcanzar un
grado deseado de precisin. As, obtenemos
n = p(1 p) (
z1!/2 2
);
sin embargo, esta frmula no podemos utilizarla en forma directa ya que, a menos que tengamos
informacin acerca del posible valor de p. Si no se dispone de esta informacin se puede utilizar
un criterio de varianza mxima ya que p(1 p) corresponde a la varianza de la poblacion
Bernoulli considerada. As, considerando el hecho que p(1 p) es a lo sumo 1/4, lo cual ocurre
cuando p=1/2, tenemos que con el tamao de muestra mnimo
z
/2 2
n = 14 ( 1!
% )
_
podemos asegurar con una probabilidad de al menos 1 ! que el error al estimar p por X no
excede a %; una vez obtenidos los datos, podremos asegurar con una confianza de al menos un
100(1 !)% que el error no sobrepasa %.
Ejemplo. Supongamos que deseamos estimar la proporcin real de unidades defectuosas en un
cargamento grande de ladrillos y que se se requiere una confianza del 95% de que el error en la
estimacin sea a lo sumo de 0.04. De qu tamao debe ser la muestra si: a) no se tiene idea acerca
de la proporcin muestral; b) se sabe que la proporcin real no excede a 0.12?.
Si no se tiene idea acerca de cmo podra ser la proporcin muestral entonces usamos la segunda
frmula para el tamao muestral y obtenemos
2
n = 14 ( 1.96
0.04 ) = 600.25
_ _
XY (.1 .2 )
5"# /n" + 5## /n#
N(0,1)
es el pivote que debemos considerar. De aqu, el intervalo de confianza del 100(1-!)% para
." .# est dado por
33
_ _
_ Z"!/# (5"# /n" + 5## /n# )"/# .
(X Y) +
Cuando 5"# y 5## son desconocidas, pero los tamaos de muestra n" y n# son suficientemente
grandes, reemplazamos dichas varianzas por sus correspondientes estimadores S#" y S## . Enseguida
se procede como en el caso en que las varianzas son conocidas.
Ahora bien, cuando 5"# y 5## son desconocidas, pero los tamaos de muestra n" y n# son pequeos,
la obtencin de la distribucin del pivote no es directa, a menos que las varianza de las dos
poblaciones normales sean iguales. En este caso, si 5"# = 5## = 5# , entonces
Z=
_
_
X Y (." .# )
5 1/n" + 1/n#
N(0, 1)
Podemos verificar fcilmente que, un estimador mximo verosmil para la varianza comn 5# de
ambas poblaciones es
5
s =
y que
S#: =
_
n1
n#
!3"
(X3 X)# + !3"
(Yi
Y)2
n" + n#
_
_
# (Y Y)#
!n3" (X3 X)# + !n3"
3
n" + n# 2
(n" 1)S#"
5#
;#n" ") ,
U# =
(n# 1)S##
5#
;#n# ") ,
(n" 1)S#"
5#
(n# 1)S##
5#
;#n" +n# #) .
T=
=
U/(n" +n# 2)
S: 1/n" + 1/n#
Z
tn" n# 2.
34
que el pivote que utilizamos en la construccin del intervalo. Por lo tanto, el intervalo de confianza
del 100(1 !)% viene dado por
_ _
_ t"!/# S: (1/n" +1/n# )"# .
(X Y) +
Ejemplo. Se realiza un estudio para comparar los contenidos de nicotina de dos marcas de
cigarrillo. 10 cigarrillos de la marca A dieron un contenido promedio en nicotina de 3.1 mlgr., con
una desviacin estndar de 0.5 mlgr., mientras que 8 cigarrillos de la marca B dieron un contenido
promedio de nicotina de 2.7 mlgr., con una desviacin estndar de 0.7.
Suponiendo que estos dos conjuntos de datos son muestras aleatorias provenientes de dos
poblaciones normales con varianzas iguales, estamos interesados en construir un intervalo del 95%
para la verdadera diferencia en el contenido medio de nicotina de las dos marcas.
Para ! = 0.05 encontramos en la tabla correspondiente a la distribucin t-student, con n" +n# 2 =
16 gl que t!*& = 2.12. Por otra parte, el valor de S: est dado por
S: = (
= .596,
S#" 5##
S## 5"#
35
de donde
P S## f!# 5## S## f"!# = 1 !
"
"
"
S#
5#
S#
Por lo tanto S## f!/# ; S## f"!/# es un intervalo del 100(1 !)% de
"
"
S#
S#
_ _
XY (p
p )
_" _#
1/2
Y(1
n
+ nY)
_
_
X(1X)
"
N(0,1)
36
_ _
X
_Y (p
p )
_
_" _#
X(1nX) + Y(1nY) 1/2
"
z"!/# ) = 1 !
nos conduce al intervalo aproximado del 100(1-!)% para la p" p# . Este est dado por
_ _
_
_
_
_
_ z"!/# X(1 X)/n" + Y(1 Y)/n# "/# .
(X Y) +
Ejemplo. Supongamos que un fabricante necesita cierta pieza que puede ser proporcionada por
dos abastecedores A y B, a un mismo precio. Las piezas de A son defectuosas con probabilidad p"
y las de B con probabilidad p# . Supongamos adems que de n" =100 piezas del proveedor A se
encontraron 10 piezas defectuosas, mientras que de n# =150 del proveedor B se encontr 11
defectuosas. Interesa determinar un intervalo del 90% de confianza para la diferencia de
proporciones de piezas defectuosas de estos dos abastecedores.
De los datos tenemos
_ 10
_
9
= 0.10, sp# = y = 150
= 0.06
sp" = x = 100
z"-!/# = z!*& = 1.64 de la tabla normal estndar
As,
_ 1.64 ( (0.10)(0.90) + (0.06)(0.94) )"/# ,
0.10 0.06 +
100
150
o bien
( 0.0186; 0.986),
es un intervalo del 90% de confianza para p" p# . Igual que en el penltimo ejemplo, como este
intervalo contiene al cero, no podemos establecer cual es el proveedor con menor proporcin de
piezas defectuosas.
37
EJERCICIOS
1. Sea X" y X# una muestra aleatoria de tamao 2 proveniente de una poblacin X con media . y
varianza 5# .
a) Si disponemos de dos estimadores para .: .
s" =X=(X" +X# )/2 y
.
s# =(X" +2X# )/3. Cul de los dos es mejor?.
b) Para un estimador de la forma .
s= aX" +(1 a)X# , con 0 a 1.
Determine el valor de a que conduce al mejor estimador en esta forma.
2. Considere una muestra aleatoria X" ,...,X8 extraida desde una poblacin X con distribucin
geomtrica de la forma f(x,p)=px (1 p), con 0<p<1 y x=0,1,... Muestre que la media muestral es
un estadstico suficiente para p.
3. Sea X" , X# , X$ una muestra aleatoria de una poblacin X con distribucin normal de media . y
desviacin estndar 5. Cul es la eficiencia relativa del estimador .
s=(X" +X# +X$ )/4 con respecto
a X?.
4. Si X" , X# , X$ es una muestra de una poblacin Bernoulli con parmetro ), muestre que
Y=X" +2X# +X$ es un estimador suficiente para ).
5. La funcin de densidad de probabilidad de una poblacin est dada por:
f(x; )) =
2x/)2
0
0x)
e.o.c.
1 (x5.)
5e
x>., . , 5>0
0
e.o.c.
Determine los estimadores mximos verosmiles para . y 5.
7. Sea X" ,...,Xn una muestra aleatoria de una distribucin Gamma (r,-).Encuentre el Estimador
Mximo Verosmil (EMV) y el estimador por Momentos (EM) de -, suponiendo que r es
conocido. Determine, adems, el EMV para )=(2- 1)# .
8. Suponga que el crecimiento anual de cierta variedad de pino sigue una distribucin normal con
media y varianza desconocida. Para una muestra de 5 pinos, los siguientes valores (en pies) fueron
registrados: 3, 5, 2, 1.5, y 3.5. Determine los estimadores, por el mtodo de los momentos, de . y
5# .
38
9. Sea X una variable aleatoria Binomial con parmetros n y p, con n conocido. Dada una muestra
aleatoria de m observaciones de X, determine el estimador de p mediante el mtodo de los
momentos y por el mtodo de mxima verosimilitud.
10. El tiempo de vida de una componente se supone exponencial con parmetro -. Diez de estas
componentes fueron sometidas a prueba en forma independiente y el nico dato registrado fue el
nmero de componentes que haban fallado antes de 100 horas de operacin. Se encontr que 3
haban fallado antes de las 100 horas. Cul es el estimador mximo verosmil para -?
11. Sea X" ,...Xn una muestra aleatoria de una poblacin X con densidad
f(x; )) = )x)" ; 0 x 1, )>0
Determine el Estimador Mximo verosmil de ).
12. Una mquina puede averiarse por dos razones A y B. Se desea estimar la probabilidad de
avera diaria de cada tipo sabiendo que:
i) La probabilidad de avera tipo A es el doble que la de B.
ii) No existen otros tipos de averas posibles.
iii) Se han observado 30 das con los resultados siguientes:
2 averas tipo A, 3 tipo B; 25 das sin averas.
13. Sea X" , X# una muestra de tamao dos de una distribucin uniforme con densidad
f(x) =
1/)
0
si 0 x )
e.o.c.
Determine la constante c 1 de manera que P(0 < ) < c(X" +X# )) = 1 !, con 0< ! < 1 dado.
14. El consumo de gasolina de cierto tipo de vehculo es aproximadamente normal con desviacin
estndar de 6 millas por galn. Si una muestra de 64 vehculos tiene un consumo promedio de 16
millas por galn:
a) Determine un intervalo de confianza del 95% para el consumo medio de
gasolina de todos los vehculos de este tipo.
b) Con un 95% de confianza, cul es el posible error si se considera que el
consumo medio es de 16 millas por galn?
c) Qu tan grande debe ser la muestra si queremos tener un 95% de
seguridad que la media muestral no difiera en ms de 0.5 millas por
galn de la verdadera media?.
15. Supongamos que la variable aleatoria X tiene una distribucin Poisson con parmetro -.
Consideremos adems una muestra alatoria de tamao n.
a) Determine el estimador mximo verosimil de -.
39
n1 =64
n# =49
_
x =100
_"
x# =90
Se sabe que las varianza de las producciones por hora estn dadas por 5"# =256 y 5## =196,
respectivamente. Hallar los lmites de confianza del 95% para D=." -.# , la diferencia verdadera
entre las producciones medias de los departamentos.
20. Se desea estimar la diferencia entre los salarios semanales de maquinistas y carpinteros. Se
toman dos muestras independientes, cada una de tamao 100, y se obtiene la siguiente
informacin:
40
Maquinistas
Carpinteros
n1 =100
n# =100
_
x1 =345
_
x2 =340
s#" =196
s## =204
Determinar los lmites de confianza del 95% para D=." -.# , si la poblacin se distribuye
normalmente.
21. Un telar se observa a intervalos de tiempo variable para estimar la proporcin de tiempo que se
_ 0.03 con una
encuentra en estado productivo. Se desea estimar esta proporcin dentro de +
confianza del 98%.
a) Qu tamao de muestra mnimo se requiere para asegurar una buena
precisin?.
b) Si p=0.8, cul es el tamao requerido para la muestra?.
c) Si p=0.8, cul es el tamao de muestra mnimo para estimar la
proporcin de la poblacin dentro de +/- 0.02 con un 98% de
confianza?.
22. Suponga que dispone de dos mtodos para medir el contenido de humedad en el proceso
de
_
coccin de la carne. El primer mtodo es aplicado en 41 ocasiones y se obtienen los datos_ x" =88.6
y s#" =109.63. El segundo mtodo es aplicado a una muestra de tamao 31 obtenindose x# =85.1 y
s## =65.99. Determine un intervalo del 99% de confianza para ." -.# , cuando se supone
distribuciones normales con 5"# =5## =5# .
23. Supongamos que la longitud de los clavos producidos por una mquina constituye una variable
aleatoria con distribucin normal. Una muestra de 5 clavos proporciona la siguiente informacin
en cuanto a longitud (en pulgadas): 1.14; 1.14; 1.15; 1.12; 1.10.
a) Construir un intervalo de confianza del 99% para la longitud media de
los clavos producidos por esta mquina.
b) Construir un intervalo de confianza del 90% para la varianza
poblacional.
24. La probabilidad que una plancha de Zinc fabricada por una mquina sea declarada de "segunda
clase", a causa de algn defecto, es p (desconocido).
a) Determine el estimador mximo verosimil de p, basado en los valores
observados de una muestra de 1000 planchas fabricadas por esta
mquina.
b) Si en 1000 planchas seleccionadas al azar en un da de produccin se
encuentra que 30 son de segunda, determine un intervalo de confianza
del 95% para p.
c) Determine el nmero de plancha requerida para asegurar con una
confianza de 0.95 que el error en la estimacin de la proporcin de
planchas de segunda clase, no sobrepase de 0.02.
41
25. En relacin al problema anterior, suponga que en la fbrica se selecciona una muestra de 1000
planchas para inspeccin cada da de trabajo. As, para cada da, se puede determinar un intervalo
de confianza del 95% para p y entonces, en 260 das de un ao de trabajo han sido calculados 260
intervalos de confianza. Cul es el nmero esperado de estos intervalos que cubren al verdadero
valor de p?. Cul es la probabilidad (aproximada) que al menos 240 de estos intervalos incluyan
al verdadero valor de p?.
26. El banco A seleccion una muestra al azar de 250 personas de entre sus 10.000 clientes con
cuenta corriente. Al mismo tiempo y en forma independiente, el banco B seleccion al azar 200
personas de entre sus 5000 clientes con cuenta corriente. El banco A encontr que 89 personas en
esta muestra utilizaban regularmente otros servicios del banco, mientras que el banco B encontr
que 52 personas de la muestra utilizaban otros servicios del banco. Estime la diferencia en la
proporcin de clientes con cuentas corrientes que regularmente usan otros servicios del banco, en
los bancos A y B. Use !=0.02.
42