Vous êtes sur la page 1sur 18

3.

ESTIMACIN PUNTUAL

3 ESTIMACION PUNTUAL
3.1 INTRODUCCION
En un problema estadstico, si los datos fueron generados a partir de una distribucin de probabilidad F(x)
desconocida, los mtodos de la Inferencia Estadstica permiten decir algo respecto de esta distribucin.
El problema de buscar una funcin de distribucin de poblacin se hace en varios tiempo. En presencia de
una muestra, se supone que la distribucin de donde proviene no es totalmente desconocida - por ejemplo
pertenece a una determinada familia de distribuciones tericas -entonces solamente uno o varios
parmetros que definen la familia de distribuciones son desconocidos. En este caso la teora de estimacin
tiene por objetivo dar valores a estos parmetros a partir de los valores muestrales.
Por ejemplo, F(x) pertenece a la familia de las distribuciones normales N ( ,1 ) de varianza igual a 1 y de
esperanza desconocida. Aqu es el nico parmetro desconocido de la distribucin. Pero si se supone
la varianza tambin desconocida, se tendrn dos parmetros desconocidos, la media y la varianza 2 de
la distribucin de poblacin.
La eleccin de la familia de distribuciones se hace a partir de consideraciones tericas o bien de la
distribucin de frecuencias emprica (o de mtodos de Estimacin No paramtrica que no hacen parte de este
curso).
Los parmetros desconocidos son constantes que toman valores en un espacio llamado espacio de
parmetros:
N ( ,1 )
=
2
N ( , )
= ] 0 ,+[
Exp( )
= ] 0 ,+[
Binomial( 10 , p ) = [ 0 ,1 ]
Sean X 1, X 2 ,..., X n valores muestrales obtenidos sobre una muestra aleatoria simple de una v.a. X de
funcin de densidad f ( x | ) , en que es desconocido. Hay varias maneras de decir algo sobre . Lo ms
simple consiste en dar un valor nico para . Es la estimacin puntual: se busca elegir un valor para a
partir de los valores muestrales. Es decir se tiene que definir una funcin : n , que es un
estadstico llamado estimador de . El valor tomado por esta funcin sobre una muestra particular de
tamao n es una estimacin. Otra forma de estimar un parmetro consiste en buscar no un slo valor para
, sino un conjunto de valores, un intervalo en general, en el cual se tiene alta probabilidad de encontrar .
Es la el mtodo de estimacin por intervalo.
Procediendo as, tratamos de estimar el valor de los parmetros, que son considerados como constantes, a
partir de estadsticos que son aleatorios. Ahora bien, frecuentemente se sabe algo ms sobre los parmetros;
este conocimiento obviamente no es preciso, sino no se tendra el problema de estimar estos parmetros;
pero se tienen ideas sobre sus posibles valores, que pueden ser traducidas a una funcin de distribucin a
priori sobre el espacio de parmetro . Los estimadores bayesianos toman en cuenta la distribucin a
priori y los valores muestrales.

25

N. LACOURLY

El problema es que hay una regla nica que permita construir estos estimadores. Por ejemplo, la esperanza y
la mediana de una distribucin de poblacin simtrica son iguales: la media y la mediana empricas cuyos
valores no son iguales en general- son entonces ambas estimaciones posibles para la esperanza.
Para elegir entre varios estimadores de un mismo parmetro hay que definir criterios de comparacin.
Empezaremos para presentar dos mtodos de estimacin (el mtodo de los momentos y el mtodo de
mxima verosimilitud) y a continuacin algunas propiedades razonables para decidir si un estimador es
aceptable. Terminaremos por el mtodo de Estimacin Bayesiana.
3.2 MTODO DE LOS MOMENTOS
c .s .

Vimos en el captulo anterior que la media muestral X n E( X ) = . Ms generalmente si el momento de


orden r: r = E( X r ) existe, entonces por la ley de los grandes nmeros:

mr =

1
n

c .s .

X ir r

( P( lim mr = r ) = 1 ).
n+

Luego una forma de estimar a r consiste en tomar el momento emprico m r .


Ejemplo: Este mtodo produce como estimador de la media , = X n y como estimador de la varianza

2 , 2 = m 2 m1 = S n2 .
3.3 MTODO DE MXIMA VEROSIMILITUD
Sean X 1, X 2 ,..., X n los valores muestrales de una muestra aleatoria simple de una v.a. de densidad o funcin
de probabilidad f ( x | ) en que , el espacio de parmetros.
Definicin 1: Se llama funcin de verosimilitud a la densidad conjunta o funcin de probabilidad del vector
aleatorio formado de los valores muestrales ( X 1, X 2 ,..., X n ), se denota f n ( x1 ,...x n | ) .
Como los valores muestrales son independientes, se tiene: f n ( x1 ,...x n | ) =

f ( xi | )
i

Un estimador del parmetro basado en una muestra de tamao n es una funcin de los valores
muestrales X 1, X 2 ,..., X n a valores en el espacio de parmetro . El valor que toma el estimador sobre
una muestra x1, x 2 ,..., x n se llama estimacin o valor estimado.
El estimador de Mxima Verosimilitud es el estimador que hace la funcin de verosimilitud f ( x1 ,..., x n | )
mxima. Tal estimador puede entonces no ser nico, o bien no existir.
3.4 COMPARACIN DE LOS ESTIMADORES
Obviamente un buen estimador para ser aquel que tiene una diferencia lo ms pequeo posible.
Pero como esta diferencia es aleatoria esperaremos que sea pequea con alta probabilidad.

26

3. ESTIMACIN PUNTUAL

3.4.1 Estimador consistente


Un estimador depende del tamao de la muestra a travs de los valores muestrales; los estimadores n
asociados a muestras de tamao n ( n N ) constituyen sucesiones de v.a.. Un buen estimador debera
converger en algn sentido hacia .
Se dice que un estimador n de un parmetro es consistente cuando converge en
probabilidad hacia : P(| |< ) 1 .
Definicin 2:

Los momentos empricos de una v.a. real son estimadores consistentes de los momentos tericos
correspondientes. Ms an la convergencia es casi-segura y la distribucin asinttica de estos estimadores es
normal.
3.4.2 Estimador insesgado
Definicin 3: Se dice que un estimador de es insegado si E( ) = .
Vimos que la media muestral X n es un estimador insesgado de la media poblacional si la muestra es
1
aleatoria simple, pero la varianza muestral S n2 =
( X i X n ) 2 no es un estimador insesgado para la
n i

n 1 2

n
1
Pero, la diferencia si E( S n2 ) 2 = 2 , que se llama sesgo, tiende a cero.
n
varianza poblacional 2 : E( S n2 ) =

Definicin 4: Se dice que el estimador es asintoticamente insesgado si E( ) cuando n + .


n
S n2 .
n 1
( X i X n ) 2 , es decir que, si bien el estimador ~ 2 es insesgado

Por otro lado se puede construir un estimador insesgado de 2 a partir de S n2 : ~ 2 =


Pero observamos que ~ 2 = S n21 =

1
n 1

para , tiene mayor varianza que

S n2

Por otro lado observamos que si es un estimador sesgado de , se tiene:


E [( ) 2 ] = Var( ) + ( sesgo ) 2

En efecto, E [( ) 2 ] = E [( E( ) + E( ) ) 2 ] = E [( E( )) 2 ] + [ E( ) )] 2

27

N. LACOURLY

Si E [( ) 2 ] 0 cuando crece el tamao de la muestra, entonces converge en media cuadrtica hacia


m .c .

( ).
Definicin 5: Se llama Error Cuadrtico Medio a E [( ) 2 ]

Proposicin 1:

E [( ) 2 ] 0 Var( ) 0 y E( )

Como la convergencia en media cuadrtica implica la convergencia en probabilidad se tiene una condicin
suficiente para que un estimador sea asintoticamente insesgado:
Proposicin 2: Si es un estimador consistente de y E( ) es finito, entonces es asintoticamente
insesgado.
y una condicin suficiente para que sea consistente:
Proposicin 3: Si Var( ) 0 y E( ) , entonces es un estimador consistente de .

Ejemplo: observamos que el error cuadrtico medio de la varianza muestral S n2 =


sesgada para 2 y es menor que el de ~ 2 =

1
n 1

( X i X n )2

1
n

( X i X n )2

estimador insesgado de 2 , pero de

mayor varianza (Ver figura 1).

3.4.3 Estimador eficiente


Entre dos estimadores insesgados elegiremos obviamente aquel que tiene menos varianza.
Vamos establecer una desigualdad (CRAMER-RAO), que permite dar una cota inferior a la varianza de un
estimador insesgado. Esta cota se basa en la cantidad de informacin de Fisher.

3.4.3.1 Cantidad de informacin de Fisher


Sea una v.a. X de funcin de densidad o funcin de probabilidad f ( x | ) en donde es una parmetro
desconocido del conjunto .
Definicin 6: Se llama cantidad de informacin de Fisher dada por X sobre el parmetro a la cantidad

ln( f ) 2
I ( ) = E

28

3. ESTIMACIN PUNTUAL

E r r o r c u a d r a t ic o m e d io d e la v a r ia n z a ( N o r m a l d e v a r ia n z a = 1 )
2
1 .8

1 .6
1 .4
1 .2
E
C
M

1
0 .8
0 .6
0 .4
0 .2
0

10

20

30

40

50

60

70

80

Figura 1: Comparacin de los E.C.M. de ~ 2 (

) y S n2 (

).

Se puede dar dos otras formas a la cantidad de Informacin de Fisher:

Teorema 1:

ln( f )
I ( ) = Var

Demostracin:
Sea S el dominio X, entonces como

f ( x | )dx = 1 , se tiene f ' ( x | )dx = 0


S

Adems

ln f
f'
ln f
ln( f )
= , luego E
= 0 y I ( ) = Var

El teorema siguiente nos da otra expresin para I ( ) , que a menudo es ms fcil de determinar.
Teorema 2: Si el dominio S de X no depende de , entonces:

2 ln( f )
si esta cantidad existe.
I ( ) = E
2

Demostracin:
Si

2 ln f
2 ln( f )

E
existe
entonces
2
2

= 0 .

29

N. LACOURLY

Adems

2 ln( f ) ff ' '( f ' ) 2


f ' ' ln f
2 ln( f )
=
=

= f ' ' ( x | )dx I ( ) , se deduce


.
Como

f
2
f2
2
S
2 ln( f )

que I ( ) = E

Sea una m.a.s. {x1, x 2 ,..., x n } , xi de funcin de densidad o funcin de probabilidad f ( x | ) en donde es
una parmetro desconocido del conjunto . Sea f n la funcin de verosimilitud de la muestra.

Definicin 7:
Se llama cantidad de informacin de Fisher de una muestra aleatoria de tamao n
sobre el parmetro a la cantidad
ln( f ) 2
n
I n ( ) = E


Se tienen las dos otras formas de expresar I n ( ) como en el caso de una v.a.. X:
ln( f n )
I n ( ) = Var

2 ln( f
n
I n ( ) = E
2

Es fcil deducir de lo anterior que:


Teorema 3: Si I ( ) es la cantidad de Fisher dada por cada xi sobre el parmetro , entonces

I n ( ) = nI ( )

3.4.3.2.La desigualdad
Sea una m.a.s. {x1, x 2 ,..., x n } , xi de funcin de densidad o funcin de probabilidad f ( x | ) . Se tiene la
desigualdad de CRAMER-RAO:
Teorema 4: Si el dominio S de X no depende de , para todo estimador T insesgado de se tiene:

Var (T )

1
I n ( )

Adems si T es un estimador insesgado de h( ) , entonces Var (T )

30

(h' ( )) 2
.
I n ( )

3. ESTIMACIN PUNTUAL

Demostracin:
ln f n
f
ln f n
ln f n
ln f n
Ldx = t n dx
Como E
= 0 , Cov T ,
= ET
= t

ln f n
Cov T ,
tf n dx =
E( T ) = h' ( ) .
=

Por otro lado, de la desigualdad de Schwarz se obtiene:

ln f n
Cov T ,

ln f n
Var( T )Var

Es decir que

(h' ( )) 2 Var (T ) I n ( ) .
La pregunta, que se plantea entonces, es si se puede alcanzar la cota mnima de la varianza. Un tal estimador
se llama eficiente. Se estudian las condiciones para obtener un estimador eficiente en Inferencia Estadstica.
3.4.4 Estimador suficiente
Si se busca deducir de las observaciones de una muestra aleatoria de n piezas en un proceso de fabricacin
una informacin sobre la proporcin de piezas defectuosas en el lote total, es ms simple considerar el
nmero de piezas defectuosas encontradas en la muestra en vez de la sucesin de resultados X 1, X 2 ,..., X n .
El conocimiento de los valores individuales no procura ninguna informacin suplementaria para la
X i . Se redujo los n datos a un slo valor, que es funcin de estos datos, sin perder
proporcin que

informacin para determinar a .


La media muestral X n permite simplificar la informacin dada por los n valores muestrales. Pero nos
preguntamos si se pierde informacin usando la media muestral para estimar la media de la poblacin.
Esto depender de los supuestos que se hacen sobre la distribucin de poblacin.
En el ejemplo 2, se supone un distribucin de poblacin normal, adems observamos que si suponemos la
varianza conocida y igual a 1, la funcin de densidad conjunta, (la funcin de verosimilitud) puede escribirse
como funcin nicamente de la media muestral y del tamao n de la muestra:
n

1
n
exp( ( X n ) 2 )
f n ( x1 , x 2 ,..., x n | ) =
2
2
Es decir que la nica informacin relevante para estimar a esta dada por la media muestral. En este caso
se dice que la media muestral es un estadstico suficiente. Un estadstico suficiente que se toma como
estimador del parmetro , debera contener toda la informacin que llevan los valores muestrales sobre .

31

N. LACOURLY

Definicin 8: Un estadstico T ( x1, x 2 ,..., x n ) , funcin de los valores muestrales y con valor en un conjunto
se dice suficiente para si la distribucin conjunta de los valores muestrales condicionalmente a
T ( x1, x 2 ,..., x n ) no depende de .

Definicin 9: Se dice que un estadstico T es suficiente minimal si no se puede encontrar otro estadstico
suficiente que hace una mejor reduccin de los datos que T.
No es siempre fcil detectar si un estadstico es suficiente. Los dos siguientes teoremas permiten enunciar
condiciones para que un estadstico sea suficiente.
Teorema 2 (Principio de factorizacin): Si T ( x1, x 2 ,..., x n ) es suficiente para y g( T ( x1, x 2 ,..., x n ) | )
es la densidad de T ( x1, x 2 ,..., x n ) , entonces
f n ( x1 ,..., x n | ) = g ( T ( x1 ,..., x n ) | )h( x1 ,..., x n | T ( x1 ,..., x n )

El principio de factorizacin nos permite de reconocer si un estadstico es suficiente, pero no permite


construir uno o saber si existe uno. El siguiente teorema permite buscar estadsticos suficientes para una
clase de distribuciones (llamadas exponenciales).
Se define el concepto de estadstico suficiente minimal como un estadstico suficiente que no puede ser
reducido sin destruir la propiedad de suficiencia.

Teorema 3 (Theorema de Darmois-Koopman):


Si X es una variable real cuyo dominio de variacin no depende del parmetro . Una condicin
necesaria y suficiente para que existe un estadstico suficiente es que la funcin de densidad de X sea de
la forma:
f ( x | ) = b( x )c( ) exp{ a( x )q( )}
Adems $ Tn ( X 1 ,...X n ) =

a( X i ) es un estadstico suficiente minimal.


i

Si X ~ N ( ,1 ) y si X 1, X 2 ,..., X n es una muestra aleatoria de X


n

1
1
exp{
f n ( x1 ,..., x n | ) =
2
2
El trmino exp{

1
2

xi2 } exp{

xi2 } no depende de y el trmino exp{

32

n 2
+ n X n }
2

n 2
+ n X n } depende de y X n .
2

3. ESTIMACIN PUNTUAL

nX n es un estadstico suficiente; tambin toda funcin biyectiva de X n lo es, en particular X n .


El siguiente teorema permite de construir "mejores" estimadores en el sentido del Error Cuadrtico Medio a
partir de un estadstico suficiente:
Teorema 4: (Theorema de Rao-Blackwell)
Si T es un estadstico suficiente para y si b( X 1 , X 2 ,..., X n ) es un estimador insesgado de , entonces

( T ) = E( b( X 1 , X 2 ,..., X n ) | T )
es un estimador insesgado de basado sobre T mejor que el estimador b( X 1 , X 2 ,..., X n ) , es decir que
E [( ( T ) ) 2 ] E [( b( X 1 , X 2 ,..., X n ) ) 2 ]

3.4.5 Propiedades del Estimador de Mxima Verosimilitud


No es fcil encontrar buenos estimadores -insesgado, de varianza minimal; de hecho estas dos propiedades
pueden ser antagnicas en el sentido que a buscar eliminar el sesgo se aumenta la varianza. Por otro lado la
bsqueda de estimadores insesgados de mnima varianza es relacionada con la existencia de estadsticos
suficientes.
Cuando existe, el estimador de Mxima Verosimilitud tiene algunas propiedades interesantes:

Generalmente es consistente;
Es asintoticamente normal;
No es siempre insesgado, pero lo es asintoticamente;
Es funcin de un estadstico suficiente, cuando existe uno;
Entre todos los estimadores asintoticamente insesgados, tiene la varianza asintoticamente ms pequea
(es eficiente).
Si el E.M.V. es un estadstico suficiente, entonce ses un estadstico suficiente minimal .
Tiene la propiedad de invarianza.

Proposicin 4 (Propiedad de Invarianza):


Si es el Estimador de Mxima Verosimilitud del parmetro y si g : es biyectiva, entonces
g( ) es el Estimador de Mxima Verosimilitud de g( ) .

Demostracin: en efecto si = g( ) , como g es biyectiva, = g 1 ( ) ; si


f n ( x1 ,...x n | ) = f n ( x1 ,...x n | g 1 ( )) es mxima para tal que g 1 ( ) = . es necesariamente el
E.M.V. y como g es biyectiva, = g( ) .

33

N. LACOURLY

Veremos en el ejemplo 2, que el Estimador de Mxima Verosimilitud de se puede obtener directamente


o como la raz del Estimador de Mxima Verosimilitud de 2 . Eso se debe de la propiedad de invarianza
del Estimador de Mxima Verosimilitud por transformacin funcional biyectiva:
3.5 EJEMPLOS
Ejemplo 1: Una mquina produce diariamente un lote de piezas. Un criterio basado sobre normas de
calidad vigente permite clasificar cada pieza fabricada como defectuosa o no defectuosa. El cliente aceptara
el lote si la proporcin de piezas defectuosas contenidas en el lote no sobrepasa el valor o . El fabricante
tiene que controlar entonces la proporcin de piezas defectuosas contenidas en cada lote que fabrica. Pero
si la cantidad de piezas N de cada lote es muy grande, no podr examinar cada una para determinar el valor
de . El fabricante efecta entonces el control de calidad de una muestra aleatoria pequea con n piezas. Se
define la v.a. X que toma el valor 1 si la pieza es defectuosa y 0 en el caso contrario. Sean X 1, X 2 ,..., X n los
valores obtenidos sobre la muestra. Calculamos el Estimador de Mxima Verosimilitud (E.M.V.):
Como X i ~ Bernouli( ) (0 1 ) , entonces la funcin de Verosimilitud es:
f n ( x1 ,..., x n | ) =

x ( 1 )1 x
i

i =1

Max f n ( x1 ,..., x n | ) Max Log ( f n ( x1 ,..., x n | ))


Log ( f n ( x1 ,..., x n | )) =

[ xi Log( ) + ( 1 xi )Log( 1 )]
i

Log ( f n )
=

xi n x i

Luego el E.M.V. de es la proporcin de piezas defectuosas observada

xi .
n

Ejemplo 2: El ministerio de la salud quiere conocer la talla promedia de las mujeres chilenas adultas. Si
X 1, X 2 ,..., X N son las tallas de todas las chilenas adultas, =

X i / N . Dado el tamao grande N de esta


i =1

poblacin, se obtiene la talla de una muestra aleatoria de tamao pequeo n. Sean


Y1,Y2 ,...,Yn { X 1, X 2 ,..., X N } los valores de las tallas muestrales. Si suponemos que los valores muestrales
normales: Yi ~ N ( , 2 ) con los parmetros y 2 desconocidos:
n

1
1
exp{
f n ( y1 ,..., y n | ) =
2 2
2

( xi )2 }
i

Luego Log ( f n ) es mximo cuando = X n la media muestral y 2 = S n2 la varianza muestral. El


estimador X n de la media poblacional es insesgado y consistente. El estimador S n2 de la varianza de la
poblacin es sesgado, pero asintoticamente insesgado y consistente. Adems el par ( X n , S n2 ) es suficiente
para ( , 2 ) .

34

3. ESTIMACIN PUNTUAL

Notas:

Si se supone la varianza poblacional 2 conocida, el E.M.V. de sigue igual a la media muestral X n .


Se puede buscar el estimador de la varianza o bien de su raz . El resultado no cambia.

Ejemplo 3: Sea valores muestrales obtenidos de la distribucin Uniforme[0, ], >0 desconocido :


f n ( x1 ,..., x n | ) =

si 0 xi ( i )

Cuando xi ( i ) , f n ( x1 ,..., x n | ) es no nulo y es decreciente en ; luego f n ( x1 ,..., x n | ) es mxima


para el valor ms pequeo de que hace f n ( x1 ,..., x n | ) no nulo: el E.M.V. de es entonces
= Max{ x , x ,..., x } .
1

El mtodo de los momentos produce un estimador bien diferente. En efecto, como E( X ) = / 2 , el


~
estimador de los momentos es entonces = 2 X n .
En este ejemplo, una dificultad se presenta cuando se toma el intervalo ]0, [ abierto, dado que no se puede
tomar como estimador el mximo; en este caso no existe E.M.V. Puede ocurrir que no es nico tambin: si
se define el intervalo [ , +1], la funcin de verosimilitud es:
f n ( x1 ,..., x n | ) = 1 si xi + 1 ( i )

es decir: f n ( x1 ,..., x n | ) = 1 si Max{ x1 ,..., x n } 1 Min{ x1 ,..., x n }


Por lo cual todo elemento del intervalo [ Max{ x1 ,..., x n } 1, Min{ x1 ,..., x n }] es E.M.V. No tenemos
unicidad. Aqu el estimador de los momentos, que es igual a X n 1 / 2 , es bien diferente tambin.
3.6 ESTIMADORES DE BAYES
3.6.1 Distribuciones a priori
En el problema de estimacin de un parmetro de una distribucin de funcin de densidad f ( x | ) , es
frecuente tener algunas ideas sobre los valores que puede tomar ; en este caso conviene tomar en cuenta
este conocimiento o creencia que se puede traducir en una distribucin de probabilidad sobre el espacio de
parmetros , sea ( ) . Es decir que ahora ya no es un parmetro constante, sino una variable
aleatoria. Esta distribucin no depende de los valores muestrales. Est definida previo al muestreo.
Por ejemplo, en un proceso de fabricacin se tiene la proporcin desconocida de piezas efectuosas. Si no
se sabe nada respecto a , se puede suponer que todos los valores son equiprobables: ~ Uniforme( 0 ,1 ) .
Pero uno puede sospechar que los valores alrededor de 0.10 son ms probables; en este caso se podr tomar
una distribucin beta ms concentrada en 0.10.

35

N. LACOURLY

Definicin 10: Se llama distribucin a priori a la distribucin atribuida a un parmetro poblacional, antes de
tomar alguna muestra.
La distribucin a priori es siempre totalmente especificada.
3.6.2 Distribuciones a posteriori
Ahora hay que relacionar los valores muestrales con la distribucin a priori ( ) . La funcin de v
verosimilitud f n ( x1, ..., x n | ) es ahora una densidad condicional y h( x1 ,..., x n , ) = f n ( x1 ,..., x n | ) ( )
es la densidad conjunta de ( x1 ,..., x n , ) . De la cual se puede deducir la distribucin condicional de dado
los valores muestrales ( x1 ,..., x n ) :
Definicin 11: La distribucin condicional de dada la muestra X 1, X 2 ,..., X n se llama distribucin a
f ( x ,..., x n | ) ( )
posteriori y su densidad es igual a ( | x1 ,..., x n ) = n 1
, en que
g n ( x1 ,..., x n )

g n ( x1 ,..., x n ) = h( x1 ,..., x n , )d es la densidad marginal de los valores muestrales ( x1 ,..., x n ) .

La distribucin a posteriori representa la actualizacin de la informacin a priori ( ) en vista de la


informacin contenida en los valores muestrales, f n ( x1 ,..., x n | ) . Podemos entonces estudiar esta
distribucin a posteriori de dando la moda, la media, la mediana, la varianza, etc. Un estimador natural en
este caso es tomar la moda de ( | x1 ,..., x n ) , que aparece como el mximo de la distribucin corregida de
.
Ejemplo 4: Sean X ~ Bernoulli( p ) y la distribucin a priori p ~ Beta( , ) , con y dados.
f n ( x1 ,..., x n | p ) = p nX n ( 1 p ) n nX n

( p ) = p 1 ( 1 p ) 1 / B( , ) ( 0 p 1 )
( ) ( )
en que B( , ) =
( + )
La densidad a posteriori de p es entonces:

( p | x1 ,..., x n ) = p + nX n 1 ( 1 p ) + n nX n 1 / B( + nX n , + nX n )
que es la distribucin Beta( + nX n , + n nX n ) . El mximo est en la moda de esta distribucin,
cuando est definida; en este caso es igual a ( + nX n 1 ) /( + + n ) .
Ejemplo 5: Sea X ~ N ( ,1 ) y la distribucin a priori ~ N ( 0 ,10 ) .
( | x1 ,..., x n ) f n ( x1 ,..., x n | ) ( ) ( designa la proporcionalidad con respecto a ).

36

3. ESTIMACIN PUNTUAL

( xi ) 2

2
2

i
( | x1 ,..., x n ) exp nX n 11
( | x1 ,..., x n ) exp

2
20
20

10
11

( | x1 ,..., x n ) exp
( ( nX n )) 2
11
20

10
10
La distribucin a posteriori de es entonces N ( nX n , ) . La moda de la distribucin es igual a la
11
11
10
nX n .
media
11
3.6.3 Funciones de prdida
Los mtodos de estimacin propuestos hasta ahora no toman en cuenta un aspecto importante del problema,
que son las consecuencias de tales estimaciones.
Dado que los estimadores son la base de una decisin final, es importante poder comparar los
procedimientos que conducen a estas decisiones mediante algn criterio de evaluacin, que mide las
consecuencias de cada estimacin en funcin de los valores del parmetro .
Definicin 12: Se llama funcin de prdida o funcin de costo a la funcin L : [ 0 ,+[ , en que
L( , ) es creciente con el error entre el parmetro y un estimador .
No es siempre fcil definir esta funcin de prdida, que es especfica de cada problema y puede tener algn
aspecto subjetivo (nocin de utilidad). Sin embargo, se puede elegir entre diversas funciones de prdida
clsicas, cuando no se puede construir una propia:

Funcin de prdida cuadrtica: Es la funcin de prdida ms utilizada y ms criticada:


L( , ) = ( ) 2
que penaliza demasiado los errores grandes.

Funcin de prdida absoluta: Una solucin alternativa a la funcin cuadrdica es usar el valor absoluto:
L( , ) = | |

o bien una funcin afn por parte:

Funcin de perdida "0-1":


Sea I ( ) el intervalo de centro y largo 2

k ( ) si >
L( , ) = 1
k 2 ( ) si

0 si I ( )
L( , ) =
1 si I ( )

37

N. LACOURLY

3.6.4 Estimadores de Bayes


La funcin de prdida L( , ) es una funcin de considerada como aleatoria con la distribucin a
posteriori ( | x1 ,..., x n ) . Luego es natural de buscar un estimador ( x1 ,..., x n ) de tal que la prdida
promedio sea mnima.
Definicin 13:

El estimador de Bayes es solucin de Min{ E [ L( , ) | x1 ,..., x n ]}

La solucin depende de la funcin de perdida elegida.

Funcin de prdida cuadrtica: L( , ) = ( ) 2 , el estimador de Bayes es simple de encontrar:


E{( ) 2 | x1 ,..., x n } es mnimo para ( x1 ,..., x n ) = E( | x1 ,..., x n ) . es decir es la media de la
distribucin a posteriori .

Funcin de prdida absoluta: L( , ) = | | ; el estimador de Bayes es la mediana de la distribucin


a posteriori . Mostramos un resultado ms general:

Proposicin 5: El estimador de Bayes asociado a la distribucin a posteriori y a la funcin de perdida


k ( ) si >
L( , ) = 1
k 2 ( ) si
es el fractil

k1
de la distribucin a posteriori .
k1 + k 2

Demostracin: Se tiene

E [ L( , ) | x1 ,..., x n ] = k 2 ( ) ( |x1 ,..., x n )d + k 2 ( ) ( |x1 ,..., x n )d


Derivando con respecto a , se obtiene:

k 2 P( < | x1 ,..., x n ) k 1 P( > | x1 ,..., x n ) = 0

Es decir:

o sea es el frctil de orden


posteriori de .

P( < | x1 ,..., x n ) =

k1
k1 + k 2

k1
. En particular si k 1 = k 2 , se obtiene la mediana de la distribucin a
k1 + k 2

Funcin de prdida "0-1": E [ L( , ) | x1 ,..., x n ] es mnimo cuando

( | x1 ,..., xn )d

es mximo.

I ( )

Si 0 , entonces E [ L( , ) | x1 ,..., x n ] es mnimo cuando ( | x1 ,..., x n ) es mximo. El estimador


de Bayes es la moda de la distribucin a posteriori .

38

3. ESTIMACIN PUNTUAL

Nota: Como un E.M.V., si un estimador de Bayes es un estadstico suficiente, entonces es un estadstico


suficiente minimal.
3.6.5 Estimadores de Bayes para muestras grandes
Se muestra aqu, a travs de un ejemplo, los efectos de la distribucin a priori y de la funcin de prdida
sobre el estimador de Bayes, para muestras grandes. Sea la proporcin de defectuosos. Tomamos dos
distribuciones a priori y dos funciones de prdida:
1 ( ) = 1 para [ 0 ,1 ] y 2 ( ) = 2( 1 ) para [ 0 ,1 ] .
L1 ( , ) = ( ) 2 y L2 ( , ) = | | . Para la funcin de perdida quadrtica, las distribuciones a
posteriori son respectivamente

1 ( | x1 ,..., x n ) nX n ( 1 ) n nX n
que es una distribucin Beta( 1 + nX n , n + 1 nX n )
2 ( | x1 ,..., x n ) nX n ( 1 ) n nX n +1
que es una distribucin Beta( 1 + nX n , n + 2 nX n ) .
Los estimadores de Bayes para la prdida cuadrtica son las respectivas esperanzas de las distribuciones 1
y 2 :

1 =

1 + nX n
n+2

2 =

1 + nX n
n+3

Los estimadores de Bayes para la prdida absoluta son las respectivas medianas de las distribuciones 1 y
2 , que se obtienen resolviendo la ecuacin:

K 1 ( 1 ) 1 d = 0.5
0

en que = 1 + nX n y = n + 1 nX n para 1 y = 1 + nX n y = n + 2 nX n para 2 .


Si n=100 y nX n = 10 entonces 1 = 11 / 102 = 0.108 y 2 = 11 / 103 = 0.107 para la prdida cuadrtica. Se
observara cmo la muestra corrige la distribucin a priori, con las medias a priori E( ) = 0.5 con 1 y
E( ) = 1 / 3 con 2 .
Encontramos ambos estimadores de Bayes a posteriori muy cercanos con n=100 y cercanos de la media
muestral X n = 10/100=0.100.
En este ejemplo observamos que el estimador de Bayes cuadrtico es consistente. No se puede siempre
asegurar que el estimador de Bayes es consistente, pero bajo condiciones bastante generales es cierto.
3.7 EJERCICIOS
1. Sea X i , (i=1,...,n) una muestra aleatoria simple de una v.a. X de funcin de distribucin Gamma( , ) .

39

N. LACOURLY

Estime E(X) por Mxima Verosimilitud. Muestre que el estimador resultante es insesgado, convergente en
media cuadrtica y es consistente.
2. Sea una m.a.s. { X 1 , X 2 ,...X n } de una v.a. X de funcin de densidad f ( x | ) = x 1 x [0,1] .
Encuentre el estimador de Mxima Verosimilitud de y pruebe que es consistente y asintticamente
insesgado.
3. Sea Y una v.a. de Bernoulli de parmetro . Considere una m.a.s. { Y1 ,...,Yn } y una distribucin a priori
Beta(a,b) para . Obtenga el estimador de Bayes, para , usando una funcin de prdida cuadrtica.
Muestre que es sesgado, asintticamente insesgado, convergente en media cuadrtica y consistente.
4.. Sean dos preguntas complementarias: Q="vota por Pedro" y Q*="no vota por Pedro". Se obtiene una
m.a.s. de n personas que contestan a la pregunta Q o Q*; lo nico que se sabe es que cada persona ha
contestado a Q con probabilidad conocida y Q* con probabilidad 1 . Se definen:
p: la probabilidad que una persona contesta "SI" a la pregunta (Q o Q*);
: la proporcin desconocida de votos para Pedro en la poblacin.
a) D la proporcin en funcin de p y .
b) D el estimador de Mxima Verosimilitud de p y deduzca un estimador para . Calcule la esperanza y
la varianza de .
c) Estudie las propiedades de ; estudie en particular la varianza cuando = 0.5 .
5. Suponga que X tiene una funcin de densidad f ( x | ) y que T ( X 1 ,...X n ) es un estimador de Bayes
insesgado para con la funcin de prdida cuadrtica y una distribucin a priori ( ) .
a) Demuestre que E [( T ( X 1 ,...X n )) 2 ] =0
b) Asuma que f ( x | ) es una N ( ,1 ) . Pruebe que E [( X n ) 2 ] = 1 / n . Concluya si X n puede ser un
estimador de Bayes para prdida cuadrtica.
6. Sea { X 1, X 2 ,..., X n } m.a.s. de una distribucin tal que P( X i [ a , b ]) = .
1 si X i [ a , b ]
Se define Yi =
sin o
0
a) D la distribucin de Yi .
b) D el estimador de mxima verosimilitud de .
c) D la esperanza y la varianza de .
d) Sean las distribuciones a priori de :
( + ) 1
1( ) =

( 1 ) 1 , [ 0 ,1 ] (distribucin Beta( , )) ;
( ) ( )
2 ( ) = 2( 1 ) , [ 0 ,1 ] .
D los estimadores de Bayes y sus varianzas cuando se usa una funcin de prdida cuadrtica.
e) Aplicacin numrica: d las soluciones a las preguntas anteriores con los valores: n=10, = 2 , = 2 ;
X i : 1.2, 3.5, 2.4, 1.5, 6.3, 2.8, 4.2, 4.5, 3.8, 5.1 y [a,b]=[2,4].

40

3. ESTIMACIN PUNTUAL

7. Sea [ 0 ,1 ] una m.a.s. de una v.a. X con funcin de densidad f ( x | ) . Sea Y = ( X 1 ,..., X n ) un
estimador de . Se define Yi al estimador calculado sobre la muestra salvo la observacin i (i=1,2,...,n),
1
Yi .
e Yi = nY ( n 1 )Yi y Y =
n i

a) Calcule la varianza S 2 de Y cuando Y = X n la media muestral y E( X ) = .


b) Deducir la distribucin de Y cuando Y = X y X ~ N ( , 2 ) .
n

8. Sea X una v.a. real con densidad f ( x | ) , = { 1 , 2 ,..., N } ( finito).


Sean una distribucin de probabilidad a priori sobre y la funcin de prdida:
0 si =
L( , ) =
c si
con c>0.
a) Pruebe que la prdida esperada se escribe como E( L( , )) = c( 1 ( | x )) , en donde es la
distribucin a posteriori sobre .
b) Deduzca la condicin que debe satisfacer para ser el estimador de Bayes de asociado a . Pruebe
que el estimador no depende de c.
c) Si es la distribucin uniforme sobre , pruebe que el estimador de Bayes de y el estimador de
mxima verosimilitud coinciden.
9. Se considera la distribucin discreta:
x
, con x=0,1,2,..., y en donde h es diferenciable y a x puede ser nulo para algunos x.
P( X = x ) = a x
h( )
Sea X 1, X 2 ,..., X n una m.a.s. de esta distribucin.
a) D las expresiones de h( ) y h' ( ) .
b) D el estimador de mxima verosimilitud de en funcin de h y h'.
c) Muestre que el estimador de mxima verosimilitud es el mismo que el del mtodo de los momentos.
d) Aplique lo anterior para los casos siguientes:
i. X ~ Binomial( N , p ) (N conocido);
ii. X ~ Poisson( ) .
10. Sean Ti , i=1,..., I estimadores del parmetro tales que : E( Ti ) = + bi , bi . Se define un nuevo
estimador T de como T =

iTi .
i =1

a) D una condicin sobre los i para que T sea insesgado.


b) Suponga que bi = 0 ( i ) (estimadores insesgados). Plantee el problema de encontrar los coeficientes i
para que la varianza de T sea mnima.
c) Suponiendo que los Ti son no correlacionados , resuelva el problema planteado antes.
d) Sean X ij , i=1,2,,M, j=1,2,,ni , M m.a.s. independientes entre si, de variables aleatorias X i con
distribuciones normales de varianza comn 2 .

41

N. LACOURLY

Sea S i2 =
Sea S =

1
ni 1
1

ni

( X ij X i )2 , el estimador insesgado de la varianza calculado en la muestra i.


j =1

( ni 1 )S i2

ni M i=1
i =1

Demuestre que S 2 es el estimador lineal insesgado de varianza mnima para 2 .

42