Vous êtes sur la page 1sur 207

Universidad de Carabobo

Facultad Experimental de Ciencias y Tecnología


Departamento de Matemáticas

INTRODUCCIÓN A LA
INFERENCIA BAYESIANA

Profesor: Saba Infante


Profesora: Aracelis Hernández
Alumna: Andreina Urquiola
2

FACYT-MATEMÁTICAS
Índice general
1. Simulación 7
1.1. Generador Congruencial Lineal . . . . . . . . . . . . . . . . . . . . . 7

1.2. Método de Inversión para Variables Continuas . . . . . . . . . . . . . 8

1.3. Método de Inversión para Variables Discretas . . . . . . . . . . . . . 9

1.4. Funciones del Software R para el Manejo de Distribuciones de


Probabilidad Continuas. . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5. Funciones del Software R para el Manejo de Distribuciones de


Probabilidad Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.6. Generación de Bernoulli(p) . . . . . . . . . . . . . . . . . . . . . . . . 17

1.7. Distribución Binomial Negativa y Geométrica . . . . . . . . . . . . . 17

1.8. Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.9. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


2
1.10. Distribución Ji-Cuadrado (χ ) con n Grados de Libertad . . . . . . . 18

1.11. Distribución F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.12. t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.13. Inversa Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.14. Técnicas Bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.15. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.16. Generación de Vectores y Matrices Aleatorias . . . . . . . . . . . . . 22

1.16.1. Transformación Lineal . . . . . . . . . . . . . . . . . . . . . . 22

1.16.2. Generación de Variables Aleatorias Normales Multivariadas. . 22

1.16.3. Distribuciones Marginales (Caso d=2) . . . . . . . . . . . . . 23

1.17. Método Más Directo (Método Polar) . . . . . . . . . . . . . . . . . . 23

1.18. Método de Composición . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.19. Método de Aceptación y Rechazo . . . . . . . . . . . . . . . . . . . . 25

1.20. Cociente de Uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.21. Integración Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.22. Práctica de Ejercicios del Capítulo 1 . . . . . . . . . . . . . . . . . . 29

3
ÍNDICE GENERAL 4

2. Fundamentos de la Inferencia Bayesiana 35


2.1. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1. Identicación con el Ejemplo 2.1 . . . . . . . . . . . . . . . . . 37
2.2. El Problema de Inferencia . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.1. Inferencia Clásica . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.3. El Principio de Verosimilitud . . . . . . . . . . . . . . . . . . 39
2.2.4. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4. Regla de la Multiplicación . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6. Práctica de Ejercicios del Capítulo 2 . . . . . . . . . . . . . . . . . . 59

3. Modelos Paramétricos Simples y Múltiples 67


3.1. Distribuciones a Priori Conjugadas, Familias Exponenciales y Estadís-
ticos Sucientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2. Datos Normales con Distribuciones a Priori Conjugadas . . . . . . . . 71
3.3. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4. Modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.5. Modelo Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.6. Ventajas de las Distribuciones Conjugadas . . . . . . . . . . . . . . . 80
3.7. El Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.8. El Modelo Normal Multivariado . . . . . . . . . . . . . . . . . . . . . 83
3.9. Distribución a Priori para µ con Σ Conocida . . . . . . . . . . . . . . 84
3.10. La Distribución Normal Multivariada con Media y Varianza Desconocida 85
3.11. Práctica de Ejercicios del Capítulo 3 . . . . . . . . . . . . . . . . . . 86

4. Elementos de Inferencia 91
4.1. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2. Naturaleza Secuencial del Teorema de Bayes . . . . . . . . . . . . . . 94
4.3. Intercambiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.4. Eliminación de Parámetros. . . . . . . . . . . . . . . . . . . . . . . . 97
4.5. Familias de Escala y Localización . . . . . . . . . . . . . . . . . . . . 100
4.6. Distribuciones a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.6.1. Prioris no Informativas . . . . . . . . . . . . . . . . . . . . . . 101
4.6.2. Prioris Impropias. . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6.3. Prioris Informativas . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6.4. Jereys (Principio de Invarianza) . . . . . . . . . . . . . . . . 109
4.6.5. Priori de Jereys . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.6.6. Principio de Razón Insuciente . . . . . . . . . . . . . . . . . 112
4.7. Práctica de Ejercicios del Capítulo 4 . . . . . . . . . . . . . . . . . . 113

FACYT-MATEMÁTICAS
5 ÍNDICE GENERAL

5. Estimación 117
5.1. Métodos Clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.2. Método Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.3. Comparación de Dos Medias. . . . . . . . . . . . . . . . . . . . . . . 118
5.3.1. Solución Usando una Priori Vaga . . . . . . . . . . . . . . . . 118
5.4. Datos no Apareados . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.4.1. Varianzas Conocidas. . . . . . . . . . . . . . . . . . . . . . . . 119
5.4.2. Varianzas Desconocidas pero Iguales . . . . . . . . . . . . . . 120
5.4.3. Varianzas Desconocidas . . . . . . . . . . . . . . . . . . . . . 122
5.5. Datos Apareados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.6. Estimación por Intervalo Usando el Método Bayesiano . . . . . . . . 124
5.7. Razones de Dos Varianzas . . . . . . . . . . . . . . . . . . . . . . . . 127
5.8. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.9. Práctica de Ejercicios del Capítulo 5 . . . . . . . . . . . . . . . . . . 131

6. Inferencia Sobre Muestras Grandes 137


6.1. Aproximación de la Distribución a
Posteriori Conjunta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6.2. Práctica de Ejercicios del Capítulo 6 . . . . . . . . . . . . . . . . . . 143

7. Métodos de Aproximación y Simulación. 147


7.1. Algoritmo Newton-Raphson (N-R). . . . . . . . . . . . . . . . . . . . 147
7.1.1. Solución Usando la Verosimilitud . . . . . . . . . . . . . . . . 148
7.2. El Algoritmo EM (Dempster, Laird y Rubin, 1977) . . . . . . . . . . 152
7.3. Aproximación Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.4. Métodos de Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.4.1. Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . 159
7.4.2. Monte Carlo con Muestreo de Importancia. . . . . . . . . . . . 161
7.5. Métodos de Remuestreo. . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.5.1. Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.5.2. Bootstrap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.5.3. Bootstrap Repesado. . . . . . . . . . . . . . . . . . . . . . . . 168
7.6. Métodos de Monte Carlo por Cadenas de Markov . . . . . . . . . . . 169
7.6.1. Muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . . 169
7.7. Muestreo de Densidades Bivariadas. . . . . . . . . . . . . . . . . . . . 171
7.8. Muestreador de Gibbs. . . . . . . . . . . . . . . . . . . . . . . . . . . 172
7.8.1. Muestreador de Gibbs Reversible. . . . . . . . . . . . . . . . . 173
7.9. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . 190
7.10. Práctica de Ejercicios del Capítulo 7 . . . . . . . . . . . . . . . . . . 204

UNIVERSIDAD DE CARABOBO
ÍNDICE GENERAL 6

FACYT-MATEMÁTICAS
Capítulo 1

Simulación

1.1. Generador Congruencial Lineal


Sea:

xn+1 = (axn + c) mod m (1.1.1)

donde:

a es un coeciente constante, 0≤a<m


m es el módulo, m≥0
c es el incremento, 0≤c<m
x0 es la semilla inicial, 0 ≤ x0 < m
Nota 1.1. Por ejemplo se toma: m = 231 − 1, es un número primo grande adecuado
al tamaño de la palabra de la computadora (32 bits). Para una máquina con palabras
de 36 bits, parece que funciona tomar a = 55 y m = 235 − 31.
Ahora, por denición se sabe que:

a−b
a≡b mod m⇔m divide a a−b ó ⇔ =k
m
⇒ a − b = km ó a−b es un múltiplo de m.
Nota 1.2. El residuo se considera como el valor de xn+1 , así que cada xn+1 es
0, 1, . . . , m−1 y la cantidad xn+1 /m es llamada número pseudoaleatorio y se considera
como una aproximación del valor de una variable aleatoria uniforme en (0, 1).
Ejemplo 1.1. Sea:
xn+1 = (3xn + 3) mod 5
Si x0 = 3, entonces se pueden generar los valores x1 , x2 ,. . . , x5 de la siguiente
manera:

7
SECCIÓN 1.2: Método de Inversión para Variables Continuas 8

.
x1 = 12 mod 5 ⇔ x1 − 12 = 5 ⇔ (x1 − 12) /5 = k ⇒ x1 − 12 = 5k ⇒ x1 = 2
.
x2 = 9 mod 5 ⇔ x2 − 9 = 5 ⇔ (x2 − 9) /5 = k ⇒ x2 − 9 = 5k ⇒ x2 = 4
.
x3 = 15 mod 5 ⇔ x3 − 15 = 5 ⇔ (x3 − 15) /5 = k ⇒ x3 − 15 = 5k ⇒ x3 = 0
.
x4 = 3 mod 5 ⇔ x4 − 3 = 5 ⇔ (x4 − 3) /5 = k ⇒ x4 − 3 = 5k ⇒ x4 = 3
.
x5 = 12 mod 5 ⇔ x5 − 12 = 5 ⇔ (x5 − 12) /5 = k ⇒ x5 − 12 = 5k ⇒ x5 = 2

1.2. Método de Inversión para Variables Continuas


Teorema 1.1. Sea X una variable aleatoria con función de distribución FX . Si
u ∼ U (0, 1), entonces la variable Y = F−1
X (u) tiene la misma distribución que X.

Demostración. Se puede denir:

F−1
X (y) = inf {x ∈ R / FX (x) ≥ y}, 0≤y≤1

Entonces:

FY (x) = P (Y ≤ x)
= P F−1

X (u) ≤ x
= P {u ≤ FX (x)}
= FU [FX (x)] ; (FU (u) = u)
= FX (x)

donde: u ∼ U (0, 1), es decir:


1 si 0<u<1
f (u) =
0 en otro caso

Por lo tanto, X e Y tienen la misma distribución. 2

FACYT-MATEMÁTICAS
9 CAPÍTULO 1: Simulación

Figura 1.1: Representación del método de inversión para variables continuas.

Algoritmo 1.1. (Inversión)

Paso [1] Desde i := 1 hasta n:


Generar un número aleatorio u.

xi = F−1
X (u)

Paso [2] Devolver x1 , . . . , xn como la muestra generada.

1.3. Método de Inversión para Variables Discretas


Sea X una variable aleatoria que toma valores nitos x1 , . . . , x n .

Figura 1.2: Representación del método de inversión para variables discretas.

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.3: Método de Inversión para Variables Discretas 10

Veamos como se genera una muestra de tamaño n según este método. Supóngase que
se quiere generar el valor de una variable aleatoria discreta X con función de masa
de probabilidad:

n
X
P {X = xj } = Pj , donde j = 0, 1, . . . , y Pj = 1
j=1

Para llevar a cabo este procedimiento se genera un número aleatorio u distribuido


uniformemente en (0, 1) y sea:


 x0 si u < P0
P0 ≤ u < P0 + P1



 x1 si

 ... . .

. .

. .

x= j−1
X j
X
xj Pi ≤ u < Pi



 si


 i=1 i=1
 ..
 .
.
.
.
. . .

Debido a que P {a ≤ u ≤ b} = b − a, para 0 < a < b < 1, se tiene que:

( j−1 j
)
X X
P {X = xj } = P Pi ≤ u < Pi = P j
i=1 i=1

y entonces X tiene la distribución deseada.

Algoritmo 1.2.
Paso [1] Desde i := 1 hasta n:
Generar u ∼ U (0, 1)

Hacer j := 1

acumulado:= 0

encontrado:= falso.

Mientras no encontrado:

• acumulado:=acumulado+P (X = xj ) .
• Si u≤ acumulado, hacer:

1. xi := xj
2. encontrado:= verdadero

FACYT-MATEMÁTICAS
11 CAPÍTULO 1: Simulación

• Hacer j := j + 1.

Paso [2] Devolver x1 , . . . , xn como la muestra generada.


Ejemplo 1.2. Sea X ∼ U (a, b), entonces:
1/(b − a) si a < X < b

f (X) =
0 en otro caso
Luego, sea:
x−a
x = F −1 (u) ⇒ F (x) = P (X ≤ x) = u ⇒ = u ⇒ x = a + u(b − a)
b−a
Algoritmo 1.3. Para generar variables aleatorias uniformes.

Paso [1] Generar u ∼ U (0, 1)


Paso [2] Hacer x = a + u(b − a)
Ejemplo 1.3. Suponga que se quiere generar una variable aleatoria X con función
de distribución F (x) = xn , 0 < x < 1. Entonces se hace:
1
x = F −1 (u) ⇒ F (x) = u ⇒ xn = u ⇒ x = u n

Algoritmo 1.4.
Paso [1] Se genera u ∼ U (0, 1)
Paso [2] Se hace x = u1/n
Ejemplo 1.4. Si X ∼ Exponencial(λ), entonces su función de distribución está
dada por:
F (x) = 1 − exp {−λx}

Si se hace x = F −1 (u), entonces:


x = F −1 (u)
⇒ u = F (x)
⇒ u = 1 − exp {−λx}
⇒ exp {−λx} = 1 − u
⇒ −λx = ln(1 − u)
1
⇒ x = − ln(1 − u)
λ

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.3: Método de Inversión para Variables Discretas 12

Algoritmo 1.5. Para generar variables aleatorias exponenciales.

Paso [1] Se genera u ∼ U (0, 1)


Paso [2] Se hace x = − λ1 ln(1 − u)
Ejemplo 1.5. Si X ∼ Binomial(n, p) y se quiere generar binomiales, entonces se
hace lo siguiente:

n
P (X = i) = pi (1 − p)n−i , donde i = 0, 1, . . . , n
i
n!
= pi (1 − p)n−i
(n − i)!i!

Por otro parte:


 
n
P (X = i + 1) = pi+1 (1 − p)n−(i+1)
i+1
n! p
= pi (1 − p)n−i
(n − i − 1)!(i + 1)! (1 − p)
p n!(n − i)! (n − i)!
= pi (1 − p)n−i , multiplico por
(1 − p) (n − i − 1)!(i + 1)i!(n − i)! (n − i)!
p (n − i)!
= P (X = i)
(1 − p) (n − i − 1)!(i + 1)
p (n − i)!(n − i − 1)!
= P (X = i)
(1 − p) (n − i − 1)!(i + 1)
p (n − i)
= P (X = i)
(1 − p) (i + 1)

Algoritmo 1.6. Para generar variables aleatorias binomiales.

Paso [1] Generar un número aleatorio u ∼ U (0, 1).


Paso [2] Sea:
C = p/(1 − p)

i=0

P r = P (x = i) = (1 − p)n

F = F (i) = P (x = i)

Paso [3] Si u < F , hacer x = i y terminar.


Paso [4] Hacer:

FACYT-MATEMÁTICAS
13 CAPÍTULO 1: Simulación

P r = P (x = i + 1) = C (n−i)
i+1
P (x = i)

F = F (i + 1) = F (i) + P (x = i + 1) = F + P r, i = i + 1

Paso [5] Ir al paso [3].


Ejemplo 1.6. Se desea generar la variable aleatoria X ∼ P oisson(λ). Sean:
λi exp {−λ}
Pi = P (X = i) = , i = 0, 1, . . . ; i ≥ 0
i!
y
λi+1 exp {−λ} λλi exp {−λ} λ
Pi+1 = P (X = i + 1) = = = Pi
(i + 1)! (i + 1)i! i+1

Algoritmo 1.7. Para generar variables aleatorias con distribución Poisson.


Paso [1] Se genera un número aleatorio u ∼ U (0, 1).
Paso [2] Se hace:
i=0

P = Pi = exp {−λ}

F = F (i) = Pi

Paso [3] Si u < F (1), hacer X = i y terminar.


Paso [4] Hacer:
λPi λP
P = Pi+1 = i+1
= i+1

F = F (i + 1) = F (i) + Pi+1 = F + P , i = i + 1

Paso [5] Ir al paso [3].

1.4. Funciones del Software R para el Manejo de


Distribuciones de Probabilidad Continuas.
En el Cuadro 1.1 se presentan los sujos para cada distribución de probabilidad
continua y los argumentos necesarios para expresar los parámetros de las mismas.
A continuación se muestra como se realizan en R los cálculos de una serie de
probabilidades relacionadas con una distribución normal:

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.4: Funciones del Software R para el Manejo de Distribuciones de
Probabilidad Continuas. 14

Nombre Representación Sujo Argumentos


Uniforme U (a, b) unif min=a max=b
Exponencial exp(λ) exp rate=λ
Normal N (µ, σ 2 ) norm mean=µ sd=σ
Gamma γ(a, b) gamma shape=a scale=b rate=1/b
Beta β(a, b) beta shape1=a shape2=b
Weibull W (a, b) weibull shape=a scale=b
t (de Student) tn t df=n ncp=d
χ2 (de Pearson) χ2n chisq df=n ncp=d
F (de Fisher) Fn,m f df1=n df2=m ncp=d
Cuadro 1.1: Funciones utilizadas en R para manejar distribuciones de probabilidad
continuas.

> # Ejemplos con la distribución normal de parámetros 3, 0.5^2


> mu <- 3
> sigma <- 0.5
> # f(5) Función de densidad
> dnorm(5,mu,sigma)
[1] 0.0002676605
> # F(5)=P(X<=5) Función de distribución
> pnorm(5,mu,sigma)
[1] 0.9999683
> # P(X>5)
> 1-pnorm(5,mu,sigma)
[1] 3.167124e-05
> pnorm(5,mu,sigma,lower.tail=FALSE)
[1] 3.167124e-05
> # P(2.8<X<=4)
> pnorm(4,mu,sigma)-pnorm(2.8,mu,sigma)
[1] 0.6326716
> pnorm(2.8,mu,sigma,lower.tail=FALSE)-pnorm(4,mu,sigma,lower.tail=FALSE)
[1] 0.6326716
> # Cálculo de P(2.8<X<=4) a partir de una normal estándar
> pnorm((4-mu)/sigma)-pnorm((2.8-mu)/sigma)
[1] 0.6326716
> # Cálculo de cuantiles (cuartiles)
> x <-qnorm(c(0.25,0.5,0.75),mu,sigma)
> x

FACYT-MATEMÁTICAS
15 CAPÍTULO 1: Simulación

[1] 2.662755 3.000000 3.337245


> # Rango intercuartílico
> x[3]-x[1]
[1] 0.6744898
> # Generar números (pseudo)aleatorios según esta distribución
> x<- rnorm(10,mu,sigma)
> x
[1] 2.963971 3.230353 3.322029 3.027337 3.511458 4.095780 2.382540 2.838378
[9] 2.786816 2.557973

Las siguientes órdenes son sucientes para observar como varía la forma de la función
2
de densidad de la distribución χ cuando varían los grados de libertad:

> library(distrib)
> df <- c(5,10,20) # Fijo los grados de libertad
> x11()
> gchisq(df) # Funciones de densidad

1.5. Funciones del Software R para el Manejo de


Distribuciones de Probabilidad Discretas
El paquete R dispone de una serie de funciones que permiten un manejo sencillo de
las distribuciones de probabilidad discretas. Para indicar la distribución deseada, el
nombre de la función se completa con uno de los sujos que aparecen en el Cuadro 1.2.
Además cada distribución necesita una serie de argumentos especícos para expresar
sus parámetros.

Nombre Representación Sujo Argumentos


Binomial B(n, p) binom size= n prob= p
Geométrica G(p) geom prob= p
Binomial Negativa BN (r, p) nbinom size= r prob= p mu= r(1−p)
p
Poisson P(λ) pois lambda= λ
Cuadro 1.2: Funciones R para manejar distribuciones de probabilidad discretas.

El siguiente ejemplo muestra como se utilizan estas funciones para realizar una serie
de cálculos relacionados con una distribución binomial:

> # Distribución binomial de parámetros 10 y 0.8

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.5: Funciones del Software R para el Manejo de Distribuciones de
Probabilidad Discretas 16

> n <- 10
> p <- 0.8
> # P(X=5)
> dbinom(5,n,p)
[1] 0.02642412
> # P(X<=5)
> pbinom(5,n,p)
[1] 0.0327935
> sum(dbinom(0:5,n,p))
[1] 0.0327935
> # P(X>5)
> pbinom(5,n,p,lower.tail=FALSE)
[1] 0.9672065
> # P(3<X<=8)
> sum(dbinom(4:8,n,p))
[1] 0.623326
> pbinom(8,n,p)-pbinom(3,n,p)
[1] 0.623326
>pbinom(3,n,p,lower.tail=FALSE)-pbinom(8,n,p,lower.tail=FALSE)
[1] 0.623326
> # Cálculo de cuantiles (cuartiles)
> y <- qbinom(c(0.25,0.5,0.75),n,p)
> y
[1] 7 8 9
> # Probabilidad acumulada "real" para los cuartiles
> pbinom(y,n,p)
[1] 0.3222005 0.6241904 0.8926258
> pbinom(y-1,n,p)
[1] 0.1208739 0.3222005 0.6241904
> # Rango intercuartílico
> y[3]-y[1]
[1] 2
> # Generar números (pseudo)aleatorios según esta distribución
> x <- rbinom(10,n,p)
> x
[1] 8 9 8 9 8 9 8 8 9 8
Las siguientes órdenes son sucientes para representar las probabilidades puntuales
de una distribución binomial en un diagrama de barras:

> library(distrib)
> # Distribución binomial de parámetros 12 y 0.3

FACYT-MATEMÁTICAS
17 CAPÍTULO 1: Simulación

> n <- 12
> p <- 0.3
> x11()
> gbinom(n,p) # Diagrama de barras de las probabilidades

1.6. Generación de Bernoulli(p)


Algoritmo 1.8. Para generar variables aleatorias Bernoulli.

Paso [1] Generar u ∼ U (0, 1).


Paso [2] Si u ≤ p, hacer X = 1, sino X = 0.
Recuérdese que si X ∼ Bernoulli(p), entonces: P (x = 0) = 1 − p y P (x = 1) = p,
donde 0 ≤ p ≤ 1.
Otro método para obtener binomiales es el siguiente: si x1 , . . . , xn ∼ Bernoulli(p),
son variables aleatorias, independientes e idénticamente distribuidas, entonces:

n
X
X = x1 + · · · + xn = xi ∼ Binomial(n, p)
i=1

Por lo que un valor X tomado de una binomial es obtenido tomando muestras


u1 , . . . , un ∼ U (0, 1) y contando el número de X de estos n valores generados que
son menores o iguales a p. Los valores resultantes son binomiales con índice r y
probabilidad de éxito p.
n
X
xi ∼ Binomial(r, p)
i=1

1.7. Distribución Binomial Negativa y Geométrica


Si x ∼ BN (r, p), entonces se tiene que la función de densidad de probabilidad viene
dada por:
 
n−1
fBN (n) = P (x = n) = pr (1 − p)n−r , n = r, r + 1, r + 2, . . .
r−1
Si r = 1, la distribución es llamada geométrica y se denota por Geométrica(p). De
nuevo se invoca a la distribución Bernoulli, es fácil ver que una BN (r, p) es obtenida
repitiendo el proceso de Bernoulli hasta que r éxitos sean obtenidos y se cuenta el
número de observaciones generadas. Por lo que BN (r, p) es obtenida a través de la
generación de una secuencia u1 , . . . , un ∼ U (0, 1) hasta que r de ellos sean menores
o iguales a p, y se cuenta el número de x generados que satisfacen la desigualdad
(xi < ui ).

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.8: Distribución Weibull 18

1.8. Distribución Weibull


La distribución Weibull puede ser obtenida como una generalización de la distribución
1/α
exponencial. Si x ∼ Exponencial(λ), entonces y = x ∼ W eibull(α, λ).
Algoritmo 1.9. Para generar variables aleatorias con distribución Weibull.
Paso [1] Se genera u ∼ U (0, 1).
Paso [2] Se hace:
x = − λ1 log(1 − u) ∼ Exponencial(λ)
Paso [3] Se hace:
1/α
y = − λ1 log(1 − u)

∼ W eibull(α, λ)

1.9. Distribución Gamma


Sea X ∼ Gamma(α, β), entonces la función de densidad de probabilidad viene dada
por:

βα
Xα−1

Γ(α)
exp {−βX} si X>0
fG (X; α, β) =
0 en otro caso

Si x1 , . . . , x n es una secuencia de variables aleatorias, independientes e idénticamente


distribuidas, con una distribución Exponencial(λ), entonces:

X = x1 + · · · + xn ∼ Gamma(n, λ), [7]

Demostrarlo como ejercicio. Por lo que una cantidad que tiene una distribución
Gamma con α = n, donde n es un entero, puede ser generada tomando muestras
de tamaño n de una distribución exponencial y sumando hasta el valor de la muestra.

1.10. Distribución Ji-Cuadrado χ2 con n Grados




de Libertad
La distribución χ2n es dada por Gamma (n/2, 1/2). La distribución Ji-Cuadrado está
relacionada con la distribución normal como sigue:
Si x1 , . . . , xn ∼ N (0, 1) entonces:

X = x21 + · · · + x2n ∼ χ2n

Así que se generan normales estándares, luego se elevan al cuadrado y se suman.

FACYT-MATEMÁTICAS
19 CAPÍTULO 1: Simulación

1.11. Distribución F
Se generan dos variables aleatorias x ∼ χ2n y y ∼ χ2m , entonces se forma el cociente:
χ2n /n
F = 2 ∼ Fn,m
χm /m

1.12. t-Student
Se generan: X ∼ N (0, 1), Y ∼ χ2v y se calcula el cociente:

X
t= p ∼ tv
Y/v

1.13. Inversa Gamma


Si X ∼ Gamma(α, β), entonces X−1 ∼ IG(α, β).
Algoritmo 1.10.
Paso [1] Se genera X ∼ Gamma(α, β).
Paso [2] Se hace Y = 1/X ∼ IG(α, β).

1.14. Técnicas Bivariadas


Supóngase que (x1 , x2 ) tiene una densidad conjunta dada por: fX (x1 , x2 ), y sea
g(x1 , x2 ) = (y1 , y2 ) una transformación diferenciable uno a uno con una inversa
g −1 (y1 , y2 ) = (x1 , x2 ), entonces la densidad de (y1 , y2 ) es:
fY (y1 , y2 ) = fX g −1 (y1 , y2 ) J
 

donde:

∂x1 ∂x2

∂y1 ∂y1
J =

∂x1 ∂x2
∂y2 ∂y2

1.15. Distribución Normal


Sea X ∼ N (µ, σ 2 ), entonces la función de densidad de probabilidad está dada por:

√ 1 exp − 2σ1 2 (X − µ)2



− ∞ < µ < 0, σ 2 > 0

2
 si
fN X; µ, σ = 2πσ 2
0 en otro caso

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.15: Distribución Normal 20

Si µ=0 y σ2 = 1 X ∼ N (0, 1). En el


entonces contexto bayesiano es más ventajoso
2
trabajar con la reparametrización φ = 1/σ . El parámetro φ es la inversa de la
varianza, y usualmente se llama precisión. Usando esta parametrización, la densidad
se puede reescribir como:

φ1/2
 
−1
 φ 2
fN X; µ, φ = √ exp − (X − µ)
2π 2
Box y Muller [3] probaron que si u1 , u2 ∼ U (0, 1), las cuales son variables aleatorias
p
independientes, entonces las cantidades dadas por:
p x1 = −2 log(u1 ) cos(2πu2 ) y

x2 = −2 log(u1 ) sen(2πu2 ), tienen una distribución Normal con media µ = 0 y


2
varianza σ = 1. De este modo:
p p 
g(u1 , u2 ) = (x1 , x2 ) = −2 log(u1 ) cos(2πu2 ), −2 log(u1 ) sen(2πu2 )

es claramente una transformación uno a uno que tiene como dominio el cuadrado
2 2
unitario [0, 1] en R . Entonces elevando al cuadrado las expresiones x1 y x2
respectivamente, se obtiene que:

x21 = −2 log(u1 ) cos2 (2πu2 )


x22 = −2 log(u1 ) sen2 (2πu2 )

De modo que:

x21 + x22 = −2 log(u1 )


1
⇒ log(u1 ) = − x21 + x22

2 
1 2 2

⇒ u1 = exp − x1 + x2
2
Por otra parte:

x1 sen(2πu2 )
= = tan(2πu2 )
x2 cos(2πu2 )
 
x1
⇒ 2πu2 = arctan
x2
 
1 x1
⇒ u2 = arctan
2π x2
Debido a que:

1 si u1 , u2 ∈ [0, 1]2
fu (u1 , u2 ) =
0 en otro caso

FACYT-MATEMÁTICAS
21 CAPÍTULO 1: Simulación

entonces fu [g −1 (x1 , x2 )] = 1, con x1 , x2 ∈ R2 , de modo que fX (x1 , x2 ) = J. Por otro


lado, se tiene que:
∂u1 ∂u2


∂x1 ∂x1
J =

∂u1 ∂u2
∂x2 ∂x2
h  i
x1 exp − 12 (x21 + x22 ) 1 1
− xx22

2π 1+(x1 /x2 )2

1
= h  i

x2 exp − 12 (x21 + x22 ) 1 1 1

2π 1+(x2 /x1 )2 x1
x1 exp − 12 (x21 + x22 ) − 2π xx22+x2

( 1 2)


=


x1
 1 2
x2 exp − 2 (x1 + x22 )

2π (x21 +x22 )

x21 x22
       
1 1 2 2
 1 1 2 2

= exp − x1 + x2 + exp − x1 + x2
2π x21 + x22 2 2π x21 + x22 2
 
1 1
exp − x21 + x22

=
2π 2
   
1 1 2 1 1 2
= √ exp − x1 √ exp − x2
2π 2 2π 2
Por lo que fX (x1 , x2 ) = f (x1 )f (x2 ), donde:
 2
1 x
f (xi ) = √ exp − i , i = 1, 2
2π 2
La forma más natural de generar normales está basado en el teorema de límite central.
Considere una muestra u1 , . . . , un ∼ U (0, 1). Entonces para n lo sucientemente
grande, se tiene que:

√ ū − 1/2
x= n 1 ∼ N (0, 1)

12
n
X
1
donde ū = n
ui
i=1
Algoritmo 1.11. Box y Muller para generar variables aleatorias normales.
Paso [1] Se genera u1 y u2 ∼ U (0, 1)
Paso [2] Se hace:
p
x= −2 log(u1 ) cos(2πu2 )
p
y = −2 log(u1 ) sen(2πu2 )
donde x, y ∼ N (0, 1).

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.16: Generación de Vectores y Matrices Aleatorias 22

1.16. Generación de Vectores y Matrices Aleatorias


Sea X = (x1 , . . . , xd )T con función de densidad conjunta fX (x1 , . . . , xd ) y sea
g(x1 , . . . , xd ) = (y1 , . . . , yd ) una transformación uno a uno diferenciable con
−1
inversa dada por: g (y1 , . . . , yd ) = (x1 , . . . , xd )T , entonces la densidad conjunta de
(y1 , . . . , yd ) está dada por:

fY (y1 , . . . , yd ) = fX g −1 (y1 , . . . , yd ) J
 

donde:

∂x1 ∂xd


∂y1
··· ∂y1


. .. .
J= . .

. . .
∂x1 ∂xd


∂yn
··· ∂yn

Sea X = (x1 , . . . , xd ) ∼ N (µ, Σ), entonces la función de densidad de probabilidad


viene dada por:

 
1 1 T −1
f (X; µ, Σ) = exp − (X − µ) Σ (X − µ)
(2π)d/2 |Σ|1/2 2

1.16.1. Transformación Lineal


Si Y = AX + b es una transformación afín de X ∼ Nd (µ, Σ), donde A es una matriz
r × d de constantes y b es un vector r × 1 de constantes, entonces:

Y ∼ Nr Aµ + b, AΣAT

(1.16.1)

1.16.2. Generación de Variables Aleatorias Normales Multi-


variadas.
Para simular una variable Nk (µ, Σ) basta considerar las dos siguientes observaciones:

Si se quiere simular una variable Nk (0, Ik ), basta simular k valores N (0, 1) (por
la independencia de las componentes).

Si Z ≡ Nk (0, Ik ), C ∈ Mk , v ∈ Rk , entonces CZ + v ≡ Nk (v, CCt ).

En consecuencia, tomando v=µ y C tal que CCt = Σ, se obtiene un método para


simular una variable normal multivariante cualquiera.

FACYT-MATEMÁTICAS
23 CAPÍTULO 1: Simulación

1.16.3. Distribuciones Marginales (Caso d=2)


Sean µ y Σ un vector de medias y una matriz de varianza covarianza respectivamente,
dadas por:
 
µ1
µ=
µ2
y
 
Σ11 Σ12
Σ=
Σ21 Σ22

Sean xi ∼ Ndi (µi , Σii ), con i = 1, 2, donde x1 contiene d1 componentes y x2 contiene


los componentes restantes d2 = d − d1 . Entonces:

x1 |x2 ∼ Ndi (µ1.2 , Σ11.2 )

donde:

µ1.2 = µ1 + Σ12 Σ−1


22 (x2 − µ2 )

Σ11.2 = Σ11 − Σ11 Σ−1


22 Σ21

Análogamente se obtienen x2 |x1 .

1.17. Método Más Directo (Método Polar)


Si u ∼ U (0, 1), entonces 2u ∼ U (0, 2) y 2u − 1 ∼ U (−1, 1). Así que si se generan
números aleatorios u1 y u2 , y se hace:

v1 = 2u1 − 1
v2 = 2u2 − 1

entonces (v1 , v2 ) está uniformemente distribuido en el cuadrado de área 4 con centro


en (0,0), como se puede observar en la gura 1.3. Ahora, se genera un número aleatorio
u y se hace:

v1
X = (−2 log(u))1/2 1/2
(v12 + v22 )
v2
Y = (−2 log(u))1/2 1/2
(v12 + v22 )

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.17: Método Más Directo (Método Polar) 24

Figura 1.3: Los valores uniformemente distribuidos, v1 y v2 son usados para producir
S = R2 , el cual también se encuentra distribuido en forma uniforme entre cero
el valor
y uno. Las deniciones del seno y del coseno se aplican luego sobre la forma básica de
la transformada de Box-Muller, para así evitar el uso de funciones trigonométricas.

Como R2 = v12 + v22 ∼ U (0, 1) y es independiente del ángulo aleatorio θ, se puede


2
tomar el número aleatorio u. Si se hace S = R , se obtiene que:

 1/2
1/2 v1 2 log(S)
X = (−2 log(S)) = v1 −
S 1/2 S
 1/2
1/2 v2 2 log(S)
Y = (−2 log(S)) = v2 −
S 1/2 S

son normales unitarios independientes cuando (v1 , v2 ) es un punto elegido al azar en


un círculo de radio 1 con centro en el origen y S = v12 + v22 .
Algoritmo 1.12.
Paso [1] Generar números aletorios u1 y u2 .
Paso [2] Hacer:
v1 = 2u1 − 1

v2 = 2u2 − 1

S = v12 + v22
Paso [3] Si S > 1 regresar al paso [1].
Paso [4] Regresar los normales unitarios independientes:

FACYT-MATEMÁTICAS
25 CAPÍTULO 1: Simulación

q
X = − 2 log(S)
S
v1
q
Y= − 2 log(S)
S
v2

1.18. Método de Composición


Teorema 1.2. Sea fX|Y (x|y) la función de densidad de una variable X condicionada
a otra variable Y con distribución FY (y) y densidad fY (y). Si se simula un valor y
de Y y luego se simula un valor de X usando la densidad obtenida a partir de fX|Y
para Y = y, entonces la distribución de los valores de X así obtenidos, tiene como
densidad:
Z ∞
fX (x) = fX|Y (x|y)fY (y)dy (1.18.1)
−∞

Si Y es discreta con función de probabilidad PY (y), entonces:


X
fX (x) = fX|Y (x|y)PY (y) (1.18.2)
y

Demostración. y para la variable Y a partir de fY (y) y luego un


Si se simula un valor
valor x para la variable X fX|Y (x|y), entonces se está simulando valores
a partir de
de la variable aleatoria bidimensional (X, Y) con densidad fX|Y (x|y)fY (y) que es
equivalente a la densidad conjunta fXY (x, y). La distribución de los valores de X así
obtenidos se pueden obtener marginalizando:
Z ∞ Z ∞
fX (x) = fXY (x, y)dy = fX|Y (x|y)fY (y)dy
−∞ −∞

De forma similar se puede hacer en el caso que Y sea discreta. 2

1.19. Método de Aceptación y Rechazo


La idea consiste en cubrir la densidad de la variable a simular con una curva de
expresión analítica sencilla. Se genera un punto al azar bajo la nueva curva. Si el
punto cae por debajo de la densidad original, se considerará válido y el valor simulado
de la variable será la abscisa del punto.

Teorema 1.3. Sea X una variable aleatoria con función de densidad fX (x), x ∈ I ⊆
R, tal que puede factorizarse como:

fX (x) = Cg(x)h(x)

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.19: Método de Aceptación y Rechazo 26

con C ∈ R, C ≥ 1, 0 ≤ g(x) ≤ 1 y h(x) es una función de densidad de probabilidad


en I . Sea u una variable aleatoria que se distribuye U (0, 1) y sea y una variable
aleatoria con función de densidad de probablidad h(y) en I . Entonces:
fY [x|u ≤ g(y)] = fX (x) (1.19.1)

Demostración.
P [x, u ≤ g(y)]
fY [x|u ≤ g(y)] =
P [u ≤ g(y)]
Ahora bien, P [u ≤ g(y)|Y = x] = P [u ≤ g(x)] = g(x), donde u ∼ U (0, 1). Por otro
lado:
Z
P [u ≤ g(y)] = P [u ≤ g(y)|Y = x] h(x)dx
ZI
= g(x)h(x)dx
I
Z
fX (x)
= dx
I Z C
1 1
= fX (x)dx =
C I C
Por consiguiente:

g(x)h(x)
fY [x|u ≤ g(y)] = = Cg(x)h(x) = fX (x)
1/C
2
Debe ser fácil generar los valores a partir de h(x).
La eciencia debe ser la más alta posible; es decir, C debe estar lo más próximo
a uno (1) como se pueda.

Algoritmo 1.13.
Paso [1] Se hace i := 1 hasta n:
1. válido:= FALSO

2. Mientras no válido:

Generar un número aleatorio u.


Se genera un valor para la variable y con densidad h(y).
Si u ≤ g(y):
válido:= VERDADERO

3. xi := y
Paso [2] Devolver x1 , . . . , xn como la muestra generada.

FACYT-MATEMÁTICAS
27 CAPÍTULO 1: Simulación

Figura 1.4: Valores generados por el algoritmo de aceptación y rechazo.

Figura 1.5: Valores aceptados por dicho algoritmo.

1.20. Cociente de Uniformes


R
Supóngase que h es una función no negativa tal que: h < ∞, y sea:

n p o
Ch = (u, v) : 0 ≤ u ≤ h(v/u)

Si (u, v) se distribuyen uniforme sobre Ch , entonces x = v/u, tiene como función de


densidad de probabilidad:

h
f (x) = R
h

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.20: Cociente de Uniformes 28

Justicación
Sea ∆h el área de Ch . Se hace un cambio de variable (u, v) −→ (u, x), donde x = v/u.
Así que:
Z Z
∆h = dudv
Ch
Z Z √h(x)
= ududx
0

Z 2 h(x)
u
= dx
2 0
Z
1
= h(x)dx
2
Debido a que (u, v) son uniformes sobre Ch , (u, v) tienen una función de densidad de
probabilidad 1/∆h , por lo que la transformación (u, x) tiene una función de densidad
de probabilidad u/∆h e integrando sobre u se tiene la marginal de X:

Z √h(x)
udu
0 h(x) h(x)
Z Z = =Z
2∆h
dudv h(x)dx
Ch

Por lo tanto v/u tiene una función de densidad de probabilidad proporcional a h.


e

Algoritmo 1.14.
Paso [1] Se simula u ∼ U (0, a) y v ∼ U (−b, b).
Paso [2] Si (u, v) ∈ Ch , se acepta x = v/u. En otro caso se repite.
Paso [3] Continúe.
Un algoritmo equivalente es el siguiente:

Algoritmo 1.15.
Paso [1] Se simula u ∼ U (0, 1) y v ∼ U (−1, 1).
Paso [2] Si u2 + v2 ≤ 1, se acepta x = u/v. En otro caso se repite.
Paso [3] Continúe.
Como ejemplo, considérese la distribución de Cauchy con densidad dada por:

1
, Ch = (u, v) : 0 ≤ u, u2 + v 2 ≤ 1

h(x) ∝ 2
1+x
Considere el cuadrado [0, a] × [b− , b+ ] = [0, 1] × [−1, 1] e implemente el algoritmo.

FACYT-MATEMÁTICAS
29 CAPÍTULO 1: Simulación

1.21. Integración Monte Carlo


Si x1 , x2 , . . . , xn , tiene función de densidad f (x), la simulación puede ser formulada
como un integral:
Z
E(X) = xf (x)dx (1.21.1)

La media teórica dada en 1.21.1 puede ser aproximada por la media muestral dada
por:

n
1X
E(X) = xi (1.21.2)
n i=1

Este argumento puede ser generalizado como se describe a continuación. Supóngase


que se desea calcular lo siguiente:
Z
θ = E [φ(x)] = φ(x)f (x)dx

Donde la esperanza es con respecto a la distribución f. Si x1 , x2 , . . . , xn , es una


muestra aleatoria obtenida de alguna función de los datos, entonces el estimador
empírico está dado por:

n
1X
θ̂ = φ(xi )
n i=1

el cual es un estimador insesgado de θ.

1.22. Práctica de Ejercicios del Capítulo 1


1. Si x0 = 5 y:

xn = 3xn−1 mod 150

determine x1 , . . . , x10 .

2. Si x0 = 3 y:

xn = 5xn−1 + 7 mod 200

determine x1 , . . . , x10 .

3. Escriba un programa para generar n valores a partir de la función de masa de


probabilidad p1 = 1/3, p2 = 2/3.

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 30

(a) Sea n = 100, ejecute el programa y determine la proporción de valores que


sean iguales a 1.

(b) Repita (a) con n = 1000.


(c) Repita (a) con n = 10000.

4. Dé un algoritmo eciente para simular el valor de una variable aleatoria X tal


que:

P {X = 1} = 0.3, P {X = 2} = 0.2, P {X = 3} = 0.35, P {X = 4} = 0.15

5. Se baraja un conjunto de 100 cartas (numeradas del 1 al 100) y luego se voltean,


una a la vez. Se dice que ocurre un éxito si la carta i es la i-ésima carta
volteada, i = 1, . . . , 100. Escriba un programa de simulación para estimar
la esperanza y la varianza del número total de éxitos. Ejecute el programa.
Determine las respuestas exactas y compárelas con sus estimaciones.

6. Suponga que cada miembro en una lista de n elementos tiene un valor asociado,
y sea v(i) el valor asociado al i-ésimo elemento de la lista. Suponga que n es
muy grande y también que cada elemento puede aparecer en lugares distintos
de la lista. Explique la forma de utilizar números aleatorios para estimar la
suma de los valores de los elementos distintos en la lista (en la que el valor de
cada elemento se cuenta una sola vez, sin importar el número de veces que el
elemento aparezca anotado).

7. La función de masa de probabilidad binomial negativa con parámetros (r, p),


donde r es un entero positivo y 0 < p < 1, está dada por:

(j − 1)!
pj = pr (1 − p)j−r , donde j = r, r + 1, . . .
(j − r)!(r − 1)!

(a) Verique la relación:

j(1 − p)
pj+1 = pj
j+1−r

(b) Utilice la relación de la parte (b) para dar otro algoritmo que genere
variables aleatorias binomiales negativas.

(c) Utilice la interpretación de la distribución binomial negativa como el


número de ensayos necesarios para acumular un total de r éxitos, cuando
cada ensayo tiene éxito de manera independiente con probabilidad p, para
obtener otro método para generar tal variable aleatoria.

FACYT-MATEMÁTICAS
31 CAPÍTULO 1: Simulación

8. Si Z es una variable aleatoria normal estándar, muestre que:

 1/2
2
E[|Z|] = ≈ 0.798
π

9. Dé dos métodos para generar una variable aleatoria X tal que:

e−λ λi /i!
P {X = i} = k
, donde i = 0, . . . , k
X
e−λ λj /j!
j=0

10. Sea X una variable aleatoria binomial con parámetros n y p. Suponga que se
desea generar una variable aleatoria Y cuya función de masa de probabilidad
es igual a la función de masa condicional de X dado que X≥k para alguna
k ≤ n. Sea α = P {X ≥ k} y suponga que se ha calculado el valor de α.

(a) Dé el método de transformada inversa para generar Y.


(b) Dé otro método para generar Y.
(c) ¾Para qué valores de α, pequeños o grandes, sería ineciente el algoritmo
en (b)?

11. Se lanza de manera continua un par de dados legales, hasta que todos los
posibles resultados 2, 3, . . . , 12 hayan parecido al menos una vez. Desarrolle
un estudio de simulación para estimar el número esperado de lanzamientos
necesarios.

12. Suponga que la variable aleatoria X puede tomar cualquiera de los valores
1, . . . , 10 con probabilidades respectivas 0.06, 0.06, 0.06, 0.06, 0.06, 0.15, 0.13,
0.14, 0.15, 0.13. Utilice el método de composición para dar un algoritmo que
genere el valor de X.

13. Suponga que 0 ≤ λn ≤ λ, para toda n ≥ 1. Considere el siguiente algoritmo


para generar una variable aleatoria con tasas discretas de riesgo {λn }:
Paso [1] S = 0.  
log(U )
Paso [2] Generar U y hacer Y = Ent log(1−λ) + 1.
Paso [3] S = S + Y .
Paso [4] Generar U .
Paso [5] Si U ≤ λS /λ, hacer X = S y terminar. En caso contrario, ir al paso
[2].

(a) ¾Cuál es la distribución de Y en el paso 2?

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 32

(b) Explique lo que hace el algoritmo.

14. Dé un método para generar una variable aleatoria con función de densidad:

x−2

2
si 2≤x≤3
f (x) = 2−x/3
2
si 3≤x≤6

15. Dé un método para generar una variable aleatoria con función de distribución:

F (x) = 1 − exp −αxβ , 0 < x < ∞




Una variable aleatoria con tal distribución es una variable aleatoria Weibull.

16. El método de composición: Suponga que es relativamente fácil generar variables


aleatorias a partir de las distribuciones Fi , donde i = 1, . . . , n. ¾Cómo se podría
generar una variable aleatoria con la función de distribución:

n
X
F (x) = pi Fi (x)
i=1

donde pi , i = 1, . . . , n, son números no negativos cuya suma es 1?

17. Sea G una función de distribución con densidad g y suponga para a y b


constantes, tal que a < b, que se desea generar una variable aleatoria a partir
de la función de distribución:

G(x) − G(a)
F (x) = , a≤x≤b
G(b) − G(a)

(a) Si X tiene distribución G, entonces F es la distribución condicional de X


dada ¾cuál información?

(b) Muestre que el método de rechazo se reduce en este caso a generar una
variable aleatoria X con distribución G y luego aceptarla si está entre a y
b.

18. Sea (X, Y) uniformemente distribuida en un círculo de radio 1. Muestre que si


2
R es la distancia del centro del círculo a (X, Y), entonces R es uniforme en
(0, 1).

19. Los autobuses llegan a un encuentro deportivo de acuerdo con un proceso


Poisson a razón de cinco por hora. Con la misma probabilidad, cada autobús
puede transportar 20, 21, . . . , 40 acionados y el número de autobuses distintos
es independiente. Escriba un algoritmo para simular la llegada de acionados
al encuentro en el instante t = 1.

FACYT-MATEMÁTICAS
33 CAPÍTULO 1: Simulación

20. Dé un algoritmo para generar una variable aleatoria con densidad:

f (x) = 30 x2 − 2x3 + x4 , 0 ≤ x ≤ 1


Analice la eciencia de este método.

21. Escriba un programa que genere las primeras T unidades de tiempo de un


proceso Poisson con razón λ.

UNIVERSIDAD DE CARABOBO
SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 34

FACYT-MATEMÁTICAS
Capítulo 2

Fundamentos de la Inferencia
Bayesiana

La caraterística esencial de los métodos bayesianos es el uso de la probabilidad para


cuanticar la incertidumbre en las inferencias basadas en el análisis estadítico de los
datos. El proceso del análisis de datos bayesianos puede ser idealizado en tres pasos:

1. Colocar un modelo de probabilidad completo: una distribución de


probabilidad conjunta para todas las cantidades observadas y no observadas
en el problema.

2. Condicionar sobre los datos observados: calcular e interpretar la


distribución a posteriori, la distribución de probabilidad condicional de los
cantidades no observadas y que son de interés, dado los datos observados.

3. Evaluar el ajuste del modelo y las implicaciones de los resultados de


la distribución a posteriori: el modelo ajusta los datos, son las conclusiones
razonables.

Ejemplo 2.1. Supóngase que se quiere ver el efecto de una campaña publicitaria
(mercadeo) sobre las ventas de un producto. Sea:
1. Y: el porcentaje de personas que se recuerdan de haber visto el anuncio.

2. X: gasto por el anuncio.

La relación entre el gasto y el alcance del anuncio viene dado por:


Y = α + βX + ε, donde: ε ∼ N 0, σ 2


Cantidades observadas: W = (X, Y)


Cantidades no observadas: θ = (α, β, σ2 )

35
SECCIÓN 2.1: Inferencia Bayesiana 36

Fuentes de información sobre las cantidades desconocidas:


Experiencia del publicista, P (θ).
Resultados de la investigación previa realizada: cuánto es el porcentaje de
personas que se recuerdan del anuncio para que el producto sea conocido,
P (W|θ).

Objetivos 2.1.
1. Obtener información sobre cantidades desconocidas, combinando las dos fuentes
de información.

2. Calcular con base a la información obtenida, medias, medianas, modas,


intervalos de probabilidad para las cantidades desconocidas.

3. Usar los parámetros estimados para futuras investigaciones.

Ejemplo 2.2. Evaluación de un producto industrial.


Sean:
1. Y: índice de la producción industrial.

2. X: número de días trabajados.

La relación entre el producto y el número de días trabajados es la siguiente:


Y = α + βX + ε, donde: ε ∼ N 0, σ 2


Cantidades observadas: W = (X, Y)


Cantidades no observadas: θ = (α, β, σ2 )
Interesa estimar P (θ|W) la distribución a posteriori, sobre la base de la verosimilitud
de los datos L(θ|W) y la distribución a priori P (θ).

2.1. Inferencia Bayesiana


Sean:

y: las observaciones de un problema dado, con densidad P (y|θ).

θ: cantidades desconocidas usadas para especicar una distribución de y.

P (θ): densidad a priori para θ.

FACYT-MATEMÁTICAS
37 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Una densidad a posteriori de θ dado y se obtiene a través del teorema de Bayes,


usando la distribución de probabilidad conjunta; es decir:

P (θ, y) = P (θ)P (y|θ)

Entonces la probabilidad a posteriori viene dada como:

P (θ, y) P (θ)P (y|θ)


P (θ|y) = = (2.1.1)
P (y) P (y)

P(y) es la constante normalizadora, tal que:

X
P (y) = P (θ)P (y|θ)
θ

La suma es sobre todos los valores de θ en el caso discreto. En el caso que θ sea
continuo:
Z
P (y) = P (θ)P (y|θ)dθ
Θ

Una forma equivalente de 2.1.1 es:

P (θ|y) ∝ P (θ)P (y|θ) (2.1.2)

donde P (y|θ) es la verosimilitud de los datos dado θ, también denominado L(θ).

2.1.1. Identicación con el Ejemplo 2.1


Priori: Experiencia de mercadeo (publicidad).
Verosimilitud: Resultados de la investigación o porcentaje de personas que
recuerdan el anuncio.

Posteriori: Distribución de probabilidad de los parámetros desconocidos, a los


de la experiencia de mercadeo.

2.2. El Problema de Inferencia


Sea X|θ ∼ f (X|θ). Dada una muestra de datos X = (x1 , . . . , xn )T , se quiere hacer
inferencia sobre θ . Hay dos tipos de enfoques:

1. Inferencia Clásica

2. Inferencia Bayesiana

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.2: El Problema de Inferencia 38

2.2.1. Inferencia Clásica


El concepto de probabilidad está limitado a aquellos sucesos en los que se pueden
denir frecuencias relativas.

θ es un valor jo (pero desconocido).

La estimación se realiza usando máxima verosimilitud, mínimos cuadrados y


todos los derivados o usando estimadores insesgados.

Intervalos de conanza.

Técnicas importantes de muestreo.

Problemas con los parámetros de molestia.

2.2.2. Inferencia Bayesiana


Todos tenemos nuestras propias probabilidades para cualquier suceso: P(lloverá
mañana), P(nací en 1964), P(accidentarme hoy). Nuestras probabilidades
pueden ser diferentes, son nuestras propias medidas de verosimilitud para
sucesos. La única restricción es que nuestras probabilidades sean coherentes
(cumplan con las reglas de probabilidad).

θ es una variable aleatoria, es decir θ tiene una distribución de probabilidad.


Dado los datos se modican las creencias sobre θ mediante el teorema de Bayes:

f (X|θ)f (θ)
f (θ|X) = ∝ f (X|θ)f (θ) = L(θ|X)f (θ)
f (X)

donde:

◦ L(θ|X) es la función de verosimilitud.

◦ f (θ) es la distribución a priori (inicial).

◦ P (θ|X) es la distribución a posteriori (nal).

La estimación es un problema de decisión. En situaciones diferentes se eligirán


estimadores diferentes. Se usa la teoría de utilidad para elegir.

Un intervalo de credibilidad de 95 % para θ es un intervalo en que se tiene una


probabilidad de 95 % de que esté θ.

El método de muestreo no importa, sólo los datos son importantes.

FACYT-MATEMÁTICAS
39 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

No hay problema con los parámetros de molestia. Si θ = (θ1 , θ2 ) donde θ2 son


parámetros de molestia, se puede expresar f (θ) = f (θ1 |θ2 )f (θ2 ) y luego se puede
obtener:
Z
f (θ1 |X) = f (θ1 |θ2 )f (θ2 )dθ2

Críticas a la Teoría Bayesiana


◦ θ no tiene que ser variable, θ puede ser jo pero la distribución f (θ) muestra
los conocimientos de θ .

◦ Falta de objetividad. ¾Cómo se puede elegir la previa P (θ)?

2.2.3. El Principio de Verosimilitud


Dice que para hacer inferencia sobre θ, después de haber visto X, toda la
información pertinente proporcionada por los datos está contenida en la función
de verosimilitud L(θ|X). Además dos funciones de verimilitud tienen la misma
información sobre θ si son proporcionales. Los métodos bayesianos cumplen con
el principio de verosimilitud. Si L(θ|X) ∝ L(θ|y) entonces dada una distribución
inicial f (θ):

f (θ|X) ∝ f (θ)L(θ|X) ∝ f (θ)L(θ|y) ∝ f (θ|y)

y entonces P (θ|X) = P (θ|y).

Observación 2.1.

1. El uso de estimadores de máxima verosimilitud cumple con este principio.

2. La estimación por intervalos de conanza no cumplen con este principio.

2.2.4. Predicción
Dado los datos X = (x1 , . . . , xn )T , suponga que se quiere predecir el valor de
xn+1 , entonces se calcula la distribución predictiva dada por:

Z
f (xn+1 |X) = f (xn+1 |θ)P (θ|X)dθ (2.2.1)

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.2: El Problema de Inferencia 40

La Media y Varianza Predictiva


Se puede evaluar la media de Xf ut |X sin tener que evaluar la distribución
predictiva. Sólo se tiene que recordar que:

E(z) = E [E(z|y)]
para variables z e y. Para evaluar la varianza predictiva, se usa la fórmula:

V ar(z) = E [V ar(z|y)] + V ar [E(z|y)]


Problema 2.1. La distribución a posteriori P (θ|y) puede sea compleja y no
se pueda obtener información tales como las medias, medianas e intervalos de
probabilidad. En la mayoría de los modelos y aplicaciones, P (y) no tiene una
forma analítica cerrada, y por lo tanto P (θ|y) no tiene forma cerrada. Esta
dicultad conduce a la siguiente pregunta: ¾Cómo muestreo de la distribución
multivariada P (θ|y) cuando no se dispone de forma cerrada?
1. Métodos de aproximación.

• Algoritmo de mínimos cuadrados ponderados iterativos.


• Aproximación de Laplace.
• Aproximación vía cuadratura Gaussiana.
• Métodos basados en simulación estocástica.
2. Métodos de Monte Carlo por Cadenas de Markov (MCMC).

• Muestreador Gibss.
• Metrópolis-Hastings.
• Algoritmo E-M.
• Algoritmo de aceptación y rechazo.
3. Métodos Monte Carlo secuencial.

• Filtro de Kalman.
• Filtro de Kalman extendido.
• Filtro de partículas.
Después que los datos y han sido observados, se puede predecir una variable no
observada desconocida ỹ del mismo proceso, mediante:
Z
P (ỹ|y) = P (ỹ, θ|y)dθ
Z
= P (ỹ|θ, y)P (θ|y)dθ
Z
= P (ỹ|θ)P (θ|y)dθ (2.2.2)

donde P (ỹ|y) es la distribución predictiva a posteriori.

FACYT-MATEMÁTICAS
41 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

2.3. Probabilidad Condicional


Dados dos eventos A y B , entonces la probabilidad condicional viene dada por:

P (A ∩ B)
P (A|B) =
P (B)

2.4. Regla de la Multiplicación


Si se conoce que P (A ∩ B) = P (A)P (B|A) entonces:

P (A ∩ B) P (B|A)P (A)
P (A|B) = =
P (B) P (B)

• P (A): es la probabilidad a priori.

• P (A|B): es la probabilidad a posteriori.

• P (B|A): se puede pensar como la verosimilitud de los datos.

Teorema 2.1. Ley de la probabilidad total.


Para un evento A y una partición B1 , . . . , Bk del espacio muestral S , se tiene
que:
A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ · · · ∪ (A ∩ Bk )
⇒ P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + · · · + P (A ∩ Bk )
= P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) + · · · + P (A|Bk )P (Bk )
k
X
= P (A|Bi )P (Bi ) (2.4.1)
i=1

En la gura 2.1 se puede apreciar un ejemplo sobre el evento A y la partición


B1 , B2 , . . . Bk para obtener la probabilidad total de A.

2.5. Teorema de Bayes


Para i = 1, . . . , k , se tiene que:

P (Bi ∩ A) P (A|Bi )P (Bi )


P (Bi |A) = = Pk (2.5.1)
P (A) i=1 P (A|Bi )P (Bi )

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 42

Figura 2.1: Evento A y una partición B1 , B2 , . . . , Bk del espacio muestral S.

Ejemplo 2.3. En una fábrica se embalan (en cajas) galletas en 4 cadenas de


montaje: A1 , A2 , A3 y A4 . El 35 % de la producción total se embala en cadena
A1 y el 20 %, 24 % y 21 % en A2 , A3 y A4 respectivamente. Los datos indican
que no se embalan correctamente un porcentaje pequeño de las cajas; el 1 % de
A1 , el 3 % de A2 , el 2.5 % de A3 y el 2 % de A4 . ¾Cuál es la probabilidad de que
una caja elegida al azar de la producción total sea defectuosa?

Solución: Sea D el evento que representa la variable aleatoria de ser


defectuoso, entonces:

◦ P (D|A1 ) = 0.01

◦ P (D|A2 ) = 0.03

◦ P (D|A3 ) = 0.025

◦ P (D|A4 ) = 0.02

◦ P (A1 ) = 0.35

◦ P (A2 ) = 0.20

◦ P (A3 ) = 0.24

◦ P (A4 ) = 0.21

Así que la probabilidad de que una caja elegida al azar sea defectuosa puede ser

FACYT-MATEMÁTICAS
43 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

expresada como sigue:


P (D) = P [(D ∩ A1 ) ∪ (D ∩ A2 ) ∪ (D ∩ A3 ) ∪ (D ∩ A4 )]
= P (D ∩ A1 ) + P (D ∩ A2 ) + P (D ∩ A3 ) + P (D ∩ A4 )
= P (D|A1 )P (A1 ) + P (D|A2 )P (A2 ) + P (D|A3 )P (A3 )
+ P (D|A4 )P (A4 )
= 0.01 × 0.35 + 0.03 × 0.20 + 0.025 × 0.24 + 0.02 × 0.21
= 0.0197

Nota 2.1. El teorema es válido para variables discretas:


X
f (x) = f (x|Y = y)P (Y = y)
y

y para variables continuas:


Z
f (x) = f (x|y)P (y)dy

Ejemplo 2.4. Supóngase que y ∼ Exponencial(β), de modo que:


β exp{−βy} si y > 0

P (y) =
0 en otro caso

Además, suponga que X|y ∼ P oisson(y), por lo tanto:


y X e−y
P (X|y) =
X!
Obtenga la distribución marginal de X.

Solución:
Z
P (X) = P (X|y)P (y)dy

y X e−y −βy
Z
= βe dy
0 X!
Z ∞
β
= y X e−βy−y dy
X! 0
Z ∞
β
= y X e−y(β+1) dy (2.5.2)
X! 0

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 44

Haciendo el cambio de variable siguiente:


dw
w = (β + 1)y ⇒ dw = (β + 1)dy ⇒ = dy
β+1
y sustituyendo el cambio en la ecuación 2.5.2, se obtiene que:
Z ∞  X
β w dw
P (X) = e−w
X! 0 β+1 β+1
Z ∞
β
= wX+1−1 e−w dw
X!(β + 1)X+1 0
βΓ(X + 1)
=
X!(β + 1)X+1
βX!
=
X!(β + 1)X+1
β
=
(β + 1)X+1
β 1
=
β + 1 (β + 1)X

Sea p = β/(β + 1), donde 0 < p < 1, entonces:


β 1
1−p=1− =
β+1 β+1
Por lo tanto:
P (X) = p(1 − p)X , X = 0, 1, 2, . . .
En consecuencia X ∼ Geométrica(p) y se sabe como generar muestras de una
distribución geométrica.
Ejemplo 2.5. Suponga que X|θ ∼ Exponencial(θ) y θ ∼ Gamma(α, β).
Obtenga la marginal de X.

Solución:
Z ∞
P (X) = f (X|θ)P (θ)dθ
Z0 ∞
β α α−1 −θβ
= θe−θX θ e dθ
0 Γ(α)
Z ∞
βα
= θα+1−1 e−θX−θβ dθ
Γ(α) 0
Z ∞
βα
= θα+1−1 e−θ(X+θ) dθ (2.5.3)
Γ(α) 0

FACYT-MATEMÁTICAS
45 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Se hace el cambio:
dw
w = θ(X + β) ⇒ dw = (X + β)dθ ⇒ dθ =
X+β
y sustituyendo en 2.5.3, se obtiene que:
Z ∞ α+1−1
βα w dw
P (X) = e−w
Γ(α) 0 X+β X+β
α Z ∞
β 1
= wα+1−1 e−w dw
Γ(α) (X + β)α+1 0
βα 1
= Γ(α + 1)
Γ(α) (X + β)α+1
βα 1
= αΓ(α)
Γ(α) (X + β)α+1
αβ α
=
(X + β)α+1

Esta distribución no es estándar, es desconocida. No se puede muestrear


directamente de ella, pero si se hace el cambio z = X + β , entonces: X = z − β
y,
αβ α
P (X) = P (z − β) = = αβ α z −α−1
z α+1
Por lo tanto, X tiene una distribución de Pareto, la cual se denota como:
X ∼ P A(β, α), para z > β
Ejemplo 2.6. Tres prisioneros, Andrés, Bartolo y Carlos han solicitado la
libertad condicional. Se sabe que el juez va a poner en libertad a uno de los
tres, pero no puede decir quién es hasta el nal del mes. El juez dice a Andrés
que puede informarle el nombre de un solicitante sin éxito dadas las siguientes
condiciones:
1. Si se pone en libertad Andrés, el juez dirá Bartolo o Carlos con la misma
probabilidad ( 21 ).
2. Si se pone en libertad Bartolo, dirá Carlos.
3. Si se pone en libertad Carlos, dirá Bartolo.
El juez cree que esta información es inútil a Andrés y le dice que Bartolo no
estará libre. Obtenga:
P (Andrés salga en libertad | el juez dice que Bartolo no estará libre).

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 46

Solución: Sean A, B y C los eventos de que Andrés, Bartolo y Carlos queden


en libertad respectivamente, y sea D el evento que el juez diga Bartolo no estará
libre. Entonces:

P (A) = P (B) = P (C) = 1/3

Pero sólo uno de los tres va a ganar la libertad.


1
P (D|A) =
2
P (D|B) = 0
P (D|C) = 1

Entonces:
P (A ∩ D)
P (A|D) =
P (D)
P (D|A)P (A)
=
P (D)
11
1
= 23 =
1/2 3
P (D) = P (D ∩ A) + P (D ∩ B) + P (D ∩ C)
= P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C)
11 1 1 1
= +0 +1 =
23 3 3 2

Ejemplo 2.7. Suponga que se descubrió en el ejemplo 2.3 que una caja está
defectuosa. Calcular la probabilidad de que venga de A1 , A2 , A3 y A4 .

Solución: Se sabe que:


P (A1 ∩ D)
P (A1 |D) =
P (D)
P (D|A1 )P (A1 )
=
P (D)
⇒ P (D) = P (D ∩ A1 ) + P (D ∩ A2 ) + P (D ∩ A3 ) + P (D ∩ A4 )
= P (D|A1 )P (A1 ) + P (D|A2 )P (A2 ) + P (D|A3 )P (A3 )
+ P (D|A4 )P (A4 )
= 0.0197

FACYT-MATEMÁTICAS
47 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Así que:
0.01 × 0.35
P (A1 |D) = ≈ 0.1776
0.0197
0.03 × 0.20
P (A2 |D) = ≈ 0.3045
0.0197
0.025 × 0.24
P (A3 |D) = ≈ 0.3045
0.0197
0.02 × 0.21
P (A4 |D) = ≈ 0.2131
0.0197
Ejemplo 2.8. Suponga que y ∼ Exponencial(β) y x|y ∼ P oisson(y). Obtenga
la distribución condicional de y|x.

Solución:
f (y, x)
f (y|x) =
P (x)
P (x|y)f (y) P (x|y)f (y)
= =X
P (x) P (x|y)f (y)
x
x
y exp{−y}β exp{−βy}/x! (β + 1)x+1 βy x e−y−βy
= =
β/ [(β + 1)x+1 ] βx!
x+1 x −(y+βy) x+1 x+1−1 −y(β+1)
(β + 1) y e (β + 1) y e
= =
x! x!
x+1 (x+1)−1 −y(β+1)
(β + 1) y e
=
Γ(x + 1)
⇒ y|x ∼ Gamma(x + 1, β + 1)
Ejemplo 2.9. Si x|θ ∼ Exponencial(θ) y θ ∼ Gamma(α, β), obtener la
distribución de θ dada una observación x.

Solución:
P (θ ∩ x) P (x|θ)P (θ)
P (θ|x) = =
P (x) P (x)
β α α−1 −βθ
∝ P (x|θ)P (θ) = θe−θx θ e
Γ(α)
β α α+1−1 −βθ−θx
= θ e
Γ(α)
β α α+1−1 −θ(β−x)
= θ e
Γ(α)
⇒ θ|x ∼ Gamma(α + 1, β + x)

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 48

Ejemplo 2.10. Supóngase que si θ = 1, entonces y tiene una distribución


normal con media 1 y desviación estándar σ, y si θ = 2, entonces y tiene una
distribución normal con media 2 y desviación σ. Supóngase que P (θ = 1) =
P (θ = 2) = 1/2.
a. Para σ = 2, escriba la fórmula para la densidad de probabilidad marginal
de y.
b. ¾Cuál es la probabilidad P (θ = 1|y = 1)?. Suponga que σ = 2.
c. Describa cómo la densidad a posteriori de θ cambia en la forma cuando σ
se incrementa o disminuye.
Solución:

a. Por hipótesis se sabe lo siguiente:


• Si θ = 1, entonces y|θ = 1 ∼ N (1, σ 2 )
• Si θ = 2, entonces y|θ = 2 ∼ N (2, σ 2 )
Ahora:
X X
P (y) = P (y, θ) = P (y|θ)P (θ)
θ θ
= P (y|θ = 1)P (θ1 ) + P (y|θ = 2)P (θ2 )
1 1
= N y; 1, σ 2 + N y; 2, σ 2
2 2
1 1
= N (y; 1, 4) + N (y; 2, 4)
2 2
b. Primero veamos que:
{y = 1} = {y = 1 ∩ θ = 1} ∪ {y = 1 ∩ θ = 2}
Entonces:
P (y = 1) = P (y = 1 ∩ θ = 1) + P (y = 1 ∩ θ = 2)
= P (y = 1|θ = 1)P (θ = 1) + P (y = 1|θ = 2)P (θ = 2)

Ahora:
P (θ = 1 ∩ y = 1)
P (θ = 1|y = 1) =
P (y = 1)
P (y = 1|θ = 1)P (θ = 1)
=
P (y = 1|θ = 1)P (θ = 1) + P (y = 2|θ = 2)P (θ = 2)
N (y = 1; 1, 4) 21
= = 0.53
N (y = 1; 1, 4) 21 + N (y = 1; 2, 4) 12

FACYT-MATEMÁTICAS
49 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

c.

P (θ|y) ∝ P (y|θ)P (θ)


= P (y|θ = 1)P (θ = 1) + P (y|θ = 2)P (θ = 2)
1 1
= N y; 1, σ 2 + N y; 2, σ 2
2 2
  
1 1 1 2 1 1 1 2
= √ exp − 2 (y − 1) + √ exp − 2 (y − 2)
2 2πσ 2σ 2 2πσ 2σ
    
1 1 2 1 2
= √ exp − 2 (y − 1) + exp − 2 (y − 2)
2 2πσ 2σ 2σ
 
1 1 1
∝ 1 2
+ 1 2
σ e 2σ2 (y−1) e 2σ2 (y−2)
Es fácil ver que:
1 1
lı́m 1
(y−1)2
+ 1
(y−2)2
=0
σ→∞
σe σ2 σe σ2

Ahora se calcula lo siguiente:


1 1
lı́m 1
(y−1)2
+ 1
(y−2)2
σ→0
σe σ2 σe σ2

Por una parte:


1 1/σ (y − 1)2 /σ 2 σ
lı́m 1 = lı́m 1 = lı́m 1
σ→0
σe σ2
(y−1)2 σ→0
e σ2
(y−1)2 σ→0
e σ2
(y−1)2 (y − 1)2
Sea z = 1/σ . Si σ → 0, entonces z → ∞. De modo que:
2

(y − 1)2 /σ 2 σ (y − 1)2 /σ 2 σ
lı́m 1 2
= lı́m 1 lı́m
2
(y − 1) 2
σ→0 (y − 1)2
σ→0
e σ2 (y−1) σ→0
e σ2 (y−1)

(y − 1)2 /σ 2
= lı́m 1 2
0
σ→0
e σ2 (y−1)
(y − 1)2 z ∞
= lı́m z(y−1)2 0 = 0
z→∞ e ∞
Aplicando la regla de L'Hôpital se obtiene lo siguiente:
(y − 1)2 z 1
lı́m z(y−1)2 = lı́m z(y−1)2 = 0
z→∞ e z→∞ e

Por lo tanto:
(y − 1)2 /σ 2 σ
lı́m 1 =0
σ→0
e σ2
(y−1)2 (y − 1)2

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 50

En conclusión:
1 1
lı́m 1
(y−1)2
+ 1
(y−2)2
=0
σ→0
σe σ2 σe σ2

Es decir cuando σ es muy grande, la densidad a posteriori de θ tiende


a cero. De igual forma si el valor de σ es muy pequeño (casi cero), la
densidad a posteriori tambien tenderá a cero.
Ejemplo 2.11. Aproximadamente 1/125 de todos los nacimientos son mellizos
no idénticos y 1/300 de los nacimientos son mellizos idénticos. Elvis Presley
tiene un hemano mellizo (quien muere al nacer). ¾Cuál es la probabilidad de
que Elvis fuera un mellizo idéntico?

Solución: Defínase los siguientes eventos:


• Sea M I el evento que denota que el mellizo es idéntico.
• Sea HM el evento que denota que los hermanos son mellizos.
• Sea M N I el evento que denota que los mellizos no son idénticos.
Ahora:
1 1
P (M I ∩ HM ) = P (HM |M I)P (M I) =
2 300
1 1
P (M N I ∩ HM ) = P (HM |M N I)P (M N I) =
2 125
P (M I ∩ HM )
P (M I|HM ) =
P (HM )
P (HM |M I)P (M I)
=
P (HM |M I)P (M I) + P (HM |M N I)P (M N I)
1 1 1
5
= 1 1 2 3001 1 = 1 300 1 = ≈ 0.2941
2 300
+ 2 125 300
+ 125 17
Ejemplo 2.12. Se podría usar el conjunto de datos de fútbol para estimar
probabilidades condicionales acerca de los juegos del futbol profesional. Estos
fueron 12 juegos con extensiones de 8 puntos, las salidas de estos juegos fueron:
−7, −5, −3, −3, 1, 6, 7, 13, 15, 16, 20, 21

Con valores positivos indicando ganados por el favorito y valores negativos


indicando ganados por los no favoritos. Considere las siguientes probabilidades
condicionales:
a. P (favorito gane| extensión de puntos= 8)

FACYT-MATEMÁTICAS
51 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

b. P (favorito gane por al menos 8| extensión de puntos=8 y el favorito gane)


c. P (favorito gane por al menos 8| extensión de puntos= 8)

Solucion:

a. Defínase los siguientes eventos:


• Sea FG el evento que denota que el favorito gane.
• Sea oFG el evento que denota que el favorito gane por al menos 8
puntos.
• Sea EP el evento que denota la extensión de puntos.
Luego, se procede a calcular lo siguiente:
P (F G ∩ EP = 8) 8
P (F G|EP = 8) = = = 0.67
P (EP = 8) 12

b.

P (oF G ∩ EP = 8) 5
P (oF G|EP = 8) = = = 0.42
P (EP = 8) 12
c.

P (oF G ∩ (EP = 8 ∩ F G)) 5


P (oF G|EP = 8 ∩ F G) = = = 0.63
P (EP = 8 ∩ F G) 8
Ejemplo 2.13. Supóngase que la distribución a priori es Beta(4, 4) sobre la
probabilidad de θ, que es una moneda la cual podría producir una cara cuando se
lanza de una manera especíca. La moneda es independiente del lanzamiento.
Supóngase que se lanza y que la cara aparece menos de 3 veces. Si a usted no
le dicen cuantas caras fueron obtenidas, solamente que el número es menor que
3, calcule la distribución a posteriori para θ y haga un bosquejo.

Solución: Supóngase que E denota el experimento y X es el evento. Por


consiguiente, sean:
• E : Lanzar una moneda 10 veces.
• X: Observar al menos 2 caras,

es decir, los valores posibles que toma la variable aleatoria X son: 0, 1, 2. Debido
a que θ ∼ Beta(4, 4), entonces la distribución a priori viene dada por:
P (θ) ∝ θ3 (1 − θ)3

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 52

y la verosimilitud de los datos es:


 
n
L(θ|X) = P x (1 − P )n−x
x

así que la distribución a posteriori es:


P (θ|X) ∝ L(θ|X)P (θ)
 
n
= θx (1 − θ)n−x θ3 (1 − θ)3
x
= θ3 (1 − θ)3 + 10θ4 (1 − θ)12 + 45θ5 (1 − θ)4

Ejemplo 2.14. Si y es el número de 6 en 1000 lanzamientos independientes


de un dado correcto:
a. Aproxime la distribución de y , basado en la aproximación normal.
b. Use la tabla normal para aproximar 5 %, 25 %, 50 %, 75 % y 95 % de los
puntos para la distribución de y.
Solución: Se sabe que y ∼ Binomial(n, p), entonces:
e

1
E(y) = np = 1000 = 166.7
6
15 5000
V ar(y) = npq = np(1 − p) = 1000 =
r 66 36
p 5000
⇒ V ar(y) = = 11.8
36

Luego usando el teorema del límite central, se tiene que:


y − E(y)
Z=p ∼ N (0, 1)
V ar(y)

De modo que:
• 5 % de los puntos es: E(y) − Z5 %
p
V ar(y) = 166.7 − (1.65)11.8 ≈ 147
de los puntos es: E(y) − Z25 % V ar(y) = 166.7 − (0.67)11.8 ≈ 159
p
• 25 %
de los puntos es: E(y) − Z50 % V ar(y) = 166.7 − (0)11.8 = 166.7
p
• 50 %
de los puntos es: E(y) − Z75 % V ar(y) = 166.7 + (−0.67)11.8 ≈ 175
p
• 75 %
de los puntos es: E(y) − Z95 % V ar(y) = 166.7 + (−1.64)11.8 ≈ 186
p
• 95 %

FACYT-MATEMÁTICAS
53 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Ejemplo 2.15. Sea y el número de 6 en 1000 lanzamientos independientes de


un dado particular, el cual puede no ser correcto. Sea θ la probabilidad de que
el dado caiga en 6. Supóngase que la distribución a priori de θ es como sigue:
 
1 1
P θ= = 0.25; P (y|θ) =
12 12
 
1 1
P θ= = 0.5; P (y|θ) =
6 6
 
1 1
P θ= = 0.25; P (y|θ) =
4 4

Use la aproximación normal para obtener la distribución condicional P (θ|y).

Solución:

P (θ|y) ∝ P (y|θ)P (θ) = P (y|θ1 )P (θ1 ) + P (y|θ2 )P (θ2 ) + P (y|θ3 )P (θ3 )


1 1 1
= P (y|θ1 ) + P (y|θ2 ) + P (y|θ3 )
4 2 4
Usando la aproximanción normal para obtener la distribución condicional, se
tiene que:
1
P (y|θ) =
12
1
⇒ E(y) = nθ = 1000 = 83.33
12
1 11
V ar(y) = nθ(1 − θ) = 1000 = 76.38
p 12 12
⇒ V ar(y) = 8.74

De la misma forma:
1 p
P (y|θ) = ⇒ E(y) = 166.7, V ar(y) = 11.8
6
1 p
P (y|θ) = ⇒ E(y) = 250, V ar(y) = 13.7
4
Finalmente la distribución de y|θ es una mezcla de tres distribuciones
condicionales:
1 1  1
P (y|θ) ∝ N (83.33, 76.38) + N 166.7, (11.8)2 + N 250, (13.7)2

3 3 3
Ahora, usando el software R se procede a gracar la distribución de y|θ de la
siguiente manera:

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 54

y=1/3*rnorm(1000,83.33,8.74)+1/3*rnorm(1000,166.7,11.8)+
1/3*rnorm(1000,250,13.7);
plot(density(y))

En la gura 2.2 se puede observar la distribución de y|θ obtenida por R.

Figura 2.2: Gráca de la distribución de y|θ.

Ejemplo 2.16. Si la distribución a priori de θ ∼ U (0, 1):


a. Obtenga la distribución predictiva a priori de y:
Z 1
P (y = k) = P (y = k|θ)dθ, k = 0, 1, . . . , n
0

donde y es el número de caras en n lanzamientos de una moneda, cuya


probabilidad de salir cara es θ.

FACYT-MATEMÁTICAS
55 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

b. Supóngase que θ ∼ Beta(α, β), y uno observa y caras en n salidas. Pruebe


que la media a posteriori de θ siempre cae entre la media a priori α/(α+β)
y la frecuencia relativa de las caras y/n.
c. Pruebe que si θ ∼ U (0, 1), la varianza a posteriori de θ siempre es menor
que la varianza a priori.
Solución:

a.
Z 1
P (y = k) = P (y = k|θ)dθ
0
Z 1 
n
= θk (1 − θ)n−k dθ
0 k
 Z 1
n
= θk+1 (1 − θ)n−k+1−1 dθ
k
  0
n Γ(k + 1)Γ(n − k + 1)
=
k Γ(n + 2)
n! k!(n − k)! 1
= =
(n − k)!k! (n + 1)k! n+1

Nota 2.2. Integral Beta


Z 1 Z 1
Γ(α + β) α−1 Γ(α)Γ(β)
θ (1 − θ)β−1 dθ = 1 ⇒ θα−1 (1 − θ)β−1 dθ =
0 Γ(α)Γ(β) 0 Γ(α + β)
b. Primero se calcula la media a posteriori E(θ|y).
P (θ|y) ∝ L(θ|y)P (θ)
 
n
= θy (1 − θ)n−y θα−1 (1 − θ)β−1
y
∝ θα+y−1 (1 − θ)n+β−y−1
⇒ θ|y ∼ Beta(α + y, n + β − y)
α+y
⇒ E(θ|y) =
α+β+n
donde y ∼ Beta(α, β), de modo que:
α
E(y) =
α+β
αβ
V ar(y) =
(α + β)2 (α + β + 1)

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 56

Ahora, se debe probar lo siguiente:


α α+y y
≤ ≤
α+β α+β+n n
Nótese que:
α+y α y
=λ + (1 − λ)
α+β+n α+β n
α y y
=λ + −λ
α+β n n
 
y α y
= +λ −
n α+β n
   
αn − αy − yβ α y
⇒λ =λ −
(α + β)n α+β n
α+y y nα + ny − αy − βy − ny
= − =
α+β+n n n(α + β + n)
(α + β)n(nα − αy − βy)
⇒λ=
(nα − αy − βy) [n(α + β + n)]
α+β
= ∈ (0, 1)
α+β+n
Por lo tanto:
α α+β α α
λ = =
α+β α + β + n (α + β) α+β+n
α+β α+β+n−α−β n
1−λ=1− = =
α+β+n α+β+n α+β+n
y n y y
(1 − λ) = =
n (α + β + n) n α+β+n
Si λ = 0, entonces se tiene que:
α+y y
=
α+β+n n
Si λ = 1, entonces se tiene que:
α+y α
=
α+β+n α+β

c. Se sabe que:
αβ 1
V ar(θ) = =
(α + β)2 (α + β + 1) 12

FACYT-MATEMÁTICAS
57 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Como θ ∼ U (0, 1) entonces P (θ) = 1. Luego:


1
1
θ2
Z
1
E(θ) = θdθ = =
0 2 0 2
Z 1 1
2 2 θ3 1
E(θ ) = θ dθ = =
0 3 0 3

Entonces:
1 1 4−3 1
V ar(θ) = E θ2 − [E(θ)]2 = − =

=
3 4 12 12
Se calcula la distribución a posteriori de la siguiente manera:
P (θ|y) ∝ θy (1 − θ)n−y 1 = θy+1−1 (1 − θ)n−y+1−1
⇒ θ|y ∼ Beta(1 + y, 1 + n − y)
(1 + y)(n − y + 1)
V (θ|y) =
(2 + n)2 (3 + n)
   
1+y 1+n−y 1
=
2+n 2+n 3+n

Se hace el siguiente cambio de variables:


1+y
T1 =
2+n
1+n−y
T2 =
2+n
Asi que:
1+y 1+n−y 1+y+n−y+1 2+n
T1 + T2 = + = = =1
2+n 2+n 2+n 2+n

Se sabe que la media aritmética es (T1 +T2 )/2 y la media geométrica T1 T2 .
Además:
p T1 + T2 1 1
T1 T2 ≤ ≤ ⇒ T1 T2 ≤
2 2 4
En consecuencia:
11 1
V ar(θ|y) < =
34 12
Ejemplo 2.17. Supóngase que X ∼ Binomial(n, θ) y θ ∼ Beta(a, b).

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 58

a. ¾Cuál es el valor de X que minimiza la varianza de la distribución a


posteriori de θ?
b. ¾Cuál es el valor de X que maximiza la varianza?
Solución:

P (θ|X) ∝ L(X; θ)P (θ)


∝ θX (1 − θ)n−X θa−1 (1 − θ)b−1
= θa+X−1 (1 − θ)b+n−X−1
⇒ θ|X ∼ Beta(a + X, b + n − X)

Así que:
a+X
E(θ|X) =
a+b+n
Además:
(a + X)(n + b − X)
V ar(θ|X) =
(a + b + n + 1)(a + b + n)2
∂V ar(θ|X) (n + b − X) (a + X)
⇒ = 2
− =0
∂X (a + b + n + 1)(a + b + n) (a + b + n + 1)(a + b + n)2

De modo que:
n+b−X=a+X
⇒ n + b − a = 2X

Por lo tanto, X = (n + b − a)/2. Luego:


∂ 2 V ar(θ|X) 2
2
=− <0
∂X (a + b + n + 1)(a + b + n)2

De modo que en X = (n + b − a)/2 se alcanza un máximo y en X = 0 se


alcanza un mínimo. Además se puede observar que la V ar(θ|X) es una función
creciente.
Ejemplo 2.18. Supóngase que X ∼ U (θ − 1, θ + 1), es observada y supóngase
una a priori:
1
P (θ) ∝ , θ > 0
θ

FACYT-MATEMÁTICAS
59 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

h i
a. Probar que P (θ|X) = c/θ, donde θ ∈ (X − 1, X + 1), c = ln y −1 (X+1)
(X−1)
X > 1.
b. Calcule la media, la moda y la mediana de la distribución a posteriori.
Solución:

a. Primero, se tiene que:


 
1 1 11 1
P (θ|X) ∝ L(X; θ)P (θ) = = ∝
θ + 1 − (θ − 1) θ 2θ θ

Ahora:
Z X+1 Z X+1
c X+1
1= dθ = c ln θ
P (θ|X)dθ =

X−1 X−1 θ X−1
 
(X + 1)
= c {ln(X + 1) − ln(X − 1)} = c ln
(X − 1)
   
1 (X + 1) −1 (X + 1)
⇒ = ln ⇒ c = ln
c (X − 1) (X − 1)

b.
Z X+1 Z X+1
c X+1
E(θ|X) = θ dθ = c dθ = cθ = c(X + 1 − X + 1) = 2c

X−1 θ X−1 X−1

Para evaluar la moda es suciente ver que P (θ|X) es decreciente en θ, por


lo que su máximo ocurre en X = 1. La mediana se obtiene como sigue:
Z m Z m
1 c 1
P (θ|X)dθ = ⇒ dθ =
X−1 2 X−1 θ 2
Z m
1 1 m 1
⇒c dθ = ⇒ c ln(θ) =

X−1 θ 2 X−1 2
 
1 m 1
⇒ c[ln(m) − ln(X − 1)] = ⇒ ln =
2 X−1 2c
   
m 1 1
⇒ = exp ⇒ m = (X − 1) exp
X−1 2c 2c

2.6. Práctica de Ejercicios del Capítulo 2


1. En una ciudad determinada, el 30 % de las personas son conservadores, el
50 % son liberales y el 20 % son independientes. Los registros muestran que

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 60

en unas elecciones concretas, votaron el 65 % de los conservadores, el 82 %


de los liberales y el 50 % de los independientes. Si se selecciona al azar una
persona de la ciudad y se sabe que no votó en las elecciones pasadas, ¾cuál
es la probabilidad de que sea un liberal?

2. Una caja contiene tres monedas con una cara en cada lado, cuatro monedas
con una cruz en cada lado y dos monedas legales. Si se selecciona al azar
una de estas nueve monedas y se lanza una vez, ¾cuál es la probabilidad de
obtener una cara?. Si se obtiene una cara, ¾cuál es la probabilidad de que
la moneda sea legal?. Si se tira la moneda n veces y se obtienen n caras,
¾cuál es la probabilidad de que la moneda sea legal?

3. Se sabe que el 0.25 % de las mujeres y el 5 % de los hombres son daltónicos.


Se escoge una persona al azar que sufre de daltonismo. ¾Cuál es la
probabilidad de que sea hombre?. (Se asume que hay un mismo número
de hombres y mujeres).

4. En un concurso de televisión, hay tres puertas cerradas (A, B y


C) y tras una de ellas se ha escondido el premio de 5 millones de
pesetas. Tras las otras, no hay nada. Tienes que elegir una puerta y
se supone que eliges la puerta A. Ahora el presentador (quien sabe
donde está el premio) abre la puerta B que no contiene el premio y
te ofrece la posibilidad de cambiar tu puerta para la puerta C. ¾Qué
harías?. Explicar detalladamente tu respuesta. Para una descripción
más completa y una simulación del problema, ver la página web
http://www.intergalact.com/threedoor/threedoor.html.

5. Suponer que X ∼ P oisson(λ), e Y|X ∼ Binomial(X, p) con p conocido.

(a) Demostrar que la media marginal de Y es E(Y) = λp.


(b) Calcular la varianza marginal V ar(Y).

(c) Calcular la distribución marginal de Y .

(d) ¾Cuál es la distribución de X|Y?. Tener cuidado a denir


correctamente el soporte de esta distribución. Demostrar que Z =
X−Y se distribuye como una Poisson dado Y.
6. Sea X|N ∼ Binomial(N, 1/2), donde N es tal que N − 1 ∼
Geométrica(1/4), esto es:
 n−1
1 3
P (N = n) = n = 1, 2, . . .
4 4

(a) Calcular la media y varianza marginal de X.


(b) Dada una observación X = 5, hallar la distribución N|X.

FACYT-MATEMÁTICAS
61 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

(c) Escribir un programa para estimar la constante de la distribución y la


media de N|X. Incluir una copia del código y los resultados.

7. El BOD es un índice de los niveles de contaminación emitidos por una


factoría. La distribución a priori del director de la empresa para el nivel
2
medio de contaminación emitido al día(µ) es µ ∼ N (3000, 800 ). La
2
distribución a priori del inspector de factorías es N (3300, 800 ). Durante
60 días la media de emisiones fue 3246. Se supone que la varianza de las
2
emisiones diarias es igual a 800 .

(a) Calcular las distribuciones a posteriori del director y del inspector


para µ.
(b) Calcular las probabilidades a posteriori de que µ > 3200 (el nivel
máximo permitido por la ley).

8. Se han anotado las edades de 21 niños cuando hablaron por primera vez:

15, 26, 10, 9, 15, 20, 18, 11, 8, 20, 7, 9, 10, 11, 11, 10, 12, 42, 17, 11, 10
Suponiendo que los datos son normales y una distribución a priori:
 
1
µ|φ ∼ N 12,
φ
(a) Calcular la distribución a posteriori de µ|φ, X.
(b) Sea la distribución a priori de φ una Gamma, es decir, φ ∼
Gamma (1/2, 1/2).
i. Calcular la distribución a posteriori de φ|X.
ii. ¾Cuál es la distribución a posteriori de la varianza σ 2 = 1/φ?
iii. Obtener la distribución a posteriori de µ|X y escribir un intervalo
de credibilidad del 95 % para µ|X.
9. Suponga que X1 , X2 y X3 son independientes y todas poseen la misma
distribución continua con densidad f (X) y función de distribución F (X).
Encuentre la función de distribución de:

Xmed = mediana {X1 , X2 , X3 }


en términos de F (X), y una expresión para la función de densidad de
Xmed .
10. Suponga que i y j poseen una distribución binomial independiente con el
mismo parámetro π, y con parámetros m y n, respectivamente, es decir:

i ∼ Binomial(m, π)
j ∼ Binomial(n, π)
Sea k = i + j:

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 62

(a) Desmuestre que k tiene una distribución binomial, con parámetros π


y m + n.
(b) Encuentre la distribución de i condicional sobre el valor de k.
11. Sea X = (X1 , X2 , X3 ) un vector aleatorio continuo, cuya función de
densidad conjunta es la siguiente:

6 exp{−X1 − X2 − X3 } si 0 < X1 < X2 < X3
P (X1 , X2 , X3 ) =
0 en otro caso

Encuentre:

(a) La función de densidad marginal de X2


(b) La densidad condicional de (X1 , X3 ) dado X2
(c) La densidad conjunta marginal de (X1 , X2 )

(d) La densidad condicional de X3 dado (X1 , X2 )

(e) La densidad condicional de X1 |X2

12. Una variable aleatoria X se dice que tiene una distribución Weibull si
existen parámetros c > 0 y α > 0, tal que:

cα−1 (X/α)c−1 exp {− (X/α)c }



si X>0
P (X) =
0 en otro caso

Encuentre una función Y de X, tal que Y tiene una distribución


exponencial, y encuentre la media y la varianza de X.
13. Sea Y|Λ ∼ P oisson(Λ) y Λ ∼ Gamma(α, β). Encuentre la distribución
marginal, la media y la varianza de Y. Pruebe que la distribución marginal
de Y es binomial negativa si α es un entero.

14. Sea Y|N ∼ Binomial(N, p), N|Λ ∼ P oisson(Λ) y Λ ∼ Gamma(α, β).


Pruebe que esto conduce a la misma distribución incondicional marginal
de Y, dada en la pregunta anterior.

15. Sea Y|p ∼ Binomial(n, p) y p ∼ Beta(α, β). Pruebe que la marginal de


Y es:
 
n Γ(α + β) Γ(y + α)Γ(n − y + β)
P (Y = y) =
y Γ(α)Γ(β) Γ(α + β + n)

16. Suponer que el número de accidentes X en una fábrica se distribuye como


Poisson, X|θ ∼ P oisson(θ). Suponer la distribución a priori:

34 θ4−1 exp{−3θ}
f (θ) = , θ≥0
Γ(4)

FACYT-MATEMÁTICAS
63 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

(a) Dados 18 accidentes en los primeros 6 meses, obtener la distribución


a posteriori de θ y calcular su media y varianza.

(b) Calcular la media y varianza predictiva del número de accidentes en


la segunda mitad del año (6 meses).

17. Supóngase que X ∼ Binomial(n, θ) y la a priori conjugada θ ∼ Beta(a, b)


es usada.

(a) ¾Cuál es el valor de X que minimiza la varianza de la distribución a


posteriori de θ?
(b) ¾ Cuál es el valor de X que maximiza esto?. Interprete los resultados.

(c) Repetir (a) y (b) en el caso de una distribución Binomial Negativa


para X.
18. Considere dos monedas, C1 y C2 , con las siguientes características:
P (cara|C1 ) = 0.6 y P (cara|C2 ) = 0.4. Escoja una de las monedas
aleatoriamente e imagine que se lanzan repetidamente. Dado que las dos
primeras veces que se lanza la moneda escogida resulta cruz, ¾cuál es
el número esperado de lanzamientos adicionales hasta que aparesca una
cara?.

19. Distribución normal con media desconocida: una muestra aleatoria de n


estudiantes se extraen de una gran población, y sus pesos son medidos.
El promedio de pesos de los n estudiantes muestreados es ȳ = 150 libras.
Asuma que los pesos en la población son normalmente distribuidos con
una media desconocida θ y una desviación estándar conocida de 20 libras.
Supónga que la distribución a priori para θ es normal con una media de
180 y una desviación estándar de 40.

(a) Obtener la distribución a posteriori de θ.


(b) Un nuevo estudiante es muestreado aleatoriamente desde la misma
población, el cual tiene un peso de ỹ libras. Obtener la distribución
predictiva a posteriori de ỹ . La respuesta será una función de n.
(c) Para n = 10, dar un intervalo a posteriori del 95 % para θ y un
intervalo predictivo para ỹ .
(d) Hacer lo mismo con n = 100.
20. Modelo exponencial con distribución a priori conjugada:

(a) Demostrar que si y|θ está distribuido exponencialmente con parámetro


θ, entonces la distribución a priori Gamma es conjugada para infer-
encias acerca de θ, dada una muestra independiente e idénticamente
distribuida de y valores.

(b) Demuestre que la especicación a priori equivalente para la media,


φ = 1/θ, es Inversa-Gamma (es decir, derive esta función de densidad).

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 64

(c) La esperanza de vida de una bombillo manufacturado por un


cierto proceso tiene una distribución exponencial con parámetro θ
desconocido. Suponga que la distribución a priori para θ tiene una
distribución Gamma con coeciente de variación 0.5 (el coeciente
de variación está denido como la desviación estándar dividida por
la media). Una muestra aleatoria de bombillos se han probado y se
obtuvo el tiempo de vida para cada uno. Si el coeciente de variación
de la distribución de θ se redujo a 0.1, ¾cuántos bombillos se necesitan
probar?

(d) En la parte (c), si el coeciente de variación se reere a φ en vez de θ,


¾cuánto podría cambiar la respuesta?

21. Datos censurados y no censurados en el modelo exponencial:

(a) Suponga que Y|θ está distribuida exponencialmente con parámetro


θ, y la distribución marginal (a priori) de θ es una Gamma(α, β).
Suponga que se observa que Y ≥ 100, pero no se observa cual es
el valor exacto. ¾Cuál es la distribución a posteriori, P (θ|Y ≥ 100),
como una función de α y β ?. Escribir además la media y varianza a
posteriori de θ.
(b) En el problema de arriba, suponga que Y = 100. Ahora, ¾cuál es la
media y varianza a posteriori de θ?
(c) Explique, ¾por qué la varianza a posteriori de θ es más alta en la parte
(b) aun cuando más información ha sido observada?
   
1 1
22. Sea Y|µ ∼ N µ + c, dφ con la distribución a priori µ ∼ N m,

. Dada

una muestra de datos Y1 , . . . , Yn , calcular la distribución a posteriori de


µ.
23. Se muestrean unos datos: x1 = 98, x2 = 103, x3 = 99 y x4 = 94 de una
distribución N (θ, 5).

(a) Dada una distribución a priori uniforme, ¾cuál es la distribución a


posteriori para θ?. Dar un intervalo a posteriori del 90 % para θ.
(b) Repetir la parte (a) suponiendo que la distribución a priori es
θ ∼ N (100, 4).
(c) Se descubre que θ es menor que 100. ¾Cuál es la distribución a
posteriori de θ ahora (suponiendo la distribución a priori en (b))?.
Calcular la probabilidad a posteriori de que θ > 95 dada θ < 100.
24. Suponga que se tiene las observaciones X1 , X2 , . . . , Xn con una densidad:
P (X|θ) = (c + 1)θ−(c+1) Xc , 0 < X < θ
Explique, ¾cómo se podría hacer inferencia acerca del parámetro θ usando
una a priori conjugada?

FACYT-MATEMÁTICAS
65 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

25. Suponga que se tiene una distribución a priori para la probabilidad de éxito
de π en un cierto tipo de juego, el cual tiene media 0.4, y se considera que
la información a priori es equivalente a 12 ensayos. Suponga que se juega
25 veces y se gana 12 veces. ¾Cuál es la distribución a posteriori de π?
26. Suponga X tiene una distribución Poisson de media 1/λ2 , asi que la
verosimilitud toma la forma siguiente:

 
−2X 1
L(λ|X) = λ exp
λ2

Encuentre una familia de a priori conjugadas para λ.


27. Una estación experimental ha tenido experiencia con el crecimiento del
trigo, lo cual le lleva a pensar que producir por parcela es mas o menos
normalmente distribuida con media 200 y desviación estándar 15. La
estación entonces deseó investigar el efecto de las hormonas de crecimiento
sobre la producción por parcela. En la ausencia de otra información, la
distribución a priori para la varianza sobre las parcelas podría haber
tomado como media 200 y como desviación estándar 90. La media se espera
que esté alrededor de 230, y esta información se piensa que tiene unas 20
observaciones. Doce parcelas fueron tratadas con la hormona, y se dieron
las siguientes producciones:

222, 234, 156, 287, 190, 255, 307, 101, 133, 251, 177, 225

Encuentre las distribuciones a posteriori de la media y la varianza.

28. Demuestre que si una muestra aleatoria de tamaño n = φ2 se toma de


una distribución N (θ, φ), donde θ tiene una distribución a priori, la cual
también tiene una varianza φ, entonces la distribución a posteriori de θ no
puede tener como varianza φ.
29. Suponga que se dan las siguientes 11 observaciones de una distribución
normal:

148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236,

con desviación estándar φ = 25. ¾Cuál es la distribución predictiva para
una posible futura observación X?

30. Hoy me he pesado varias veces usando balanzas distintas con los resultados
(kilos):

92, 82, 83, 86, 86, 90, 83, 84, 89, 85

UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 66

Las diferencias entre las balanzas pueden haber causado los resultados
2
distintos. Suponiendo que los datos son normales con varianza σ = 9 y
que mi distribución a priori para mi verdadero peso µ es:

µ ∼ N (80, 100)

Calcular intervalos de credibilidad del 95 % para µ a priori y a posteriori.


Comparar los intervalos con el intervalo clásico del 95 % de conanza. ¾Se
puede decir que soy optimista?

FACYT-MATEMÁTICAS
Capítulo 3

Modelos Paramétricos Simples


y Múltiples

Entre los modelos paramétricos simples y múltiples están los siguientes:

1. Modelo Bernoulli.

2. Modelo Binomial.

3. Modelo Geométrico.

4. Modelo de Poisson.

5. Modelo Beta.

6. Modelo Gamma.

7. Modelo Exponencial.

8. Modelo Normal Univariado.

9. Modelo Dirichlet.

10. Modelo Multinomial.

11. Modelo Normal Multivariado.

12. Modelo Wishart.

Denición 3.1. Si F es una clase de distribuciones muestrales para f (X|θ) y


P es una clase de distribuciones a priori P (θ) para θ, entonces P es conjugada
con F si:
P (θ|X) ∈ P, para todo f (X|θ) ∈ F y P (θ) ∈ P

Ejemplo 3.1. El modelo exponencial (una sola observación).


Sea X|θ ∼ exp(θ) y θ ∼ Gamma(α, β). Obtener P (θ|X).

67
68

Solución:

P (θ|X) ∝ L(θ|X)P (θ)


θα−1 e−θ/β
= θ exp{−θX}
Γ(α)β α
  
α+1−1 1
=θ exp −θ X +
β
 
1
⇒ θ|X ∼ Gamma α + 1, X +
β

Ejemplo 3.2. Modelo normal (una sola observación).


Considérese una observación simple que proviene de una distribución normal
parametrizada por una media θ y varianza σ2 conocida. La distribución muestral
es:
y|θ ∼ N θ, σ 2


θ ∼ N µ0 , τ02


Entonces:
P (θ|y) ∝ L(θ|y)P (θ)
   
1 2 1 2
= exp − 2 (y − θ) exp − 2 (θ − µ0 )
2σ 2τ0
 
1 2 1 2
= exp − 2 (y − θ) − 2 (θ − µ0 )
2σ 2τ0
 
1 2 2
 1 2 2

= exp − 2 y − 2yθ + θ − 2 θ − 2θµ0 + µ0
2σ 2τ
 2   0 
θ 1 1 2θ y µ0
= exp − + + +
2 σ 2 τ02 2 σ 2 τ02
y/θ2 + µ0 /τ02
    
1 1 1 2
= exp − + θ − 2θ
2 σ 2 τ02 1/σ 2 + 1/τ02

Sea:
1 1 1 1
2
= 2 + 2 ⇒ τ12 =
τ1 σ τ0 1/σ + 1/τ02
2

y
 
y µ0
µ1 = 2
+ 2 τ12
σ τ0

FACYT-MATEMÁTICAS
69 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Nota 3.1. Si E(ỹ|θ) = θ y V ar(ỹ|θ) = σ2 , entonces se puede calcular E(ỹ|y)


y V ar(ỹ|y) de la siguiente manera:
 
E(ỹ|y) = E E(ỹ|θ, y) y
= E(θ|y)
= µ1
   
V ar(ỹ|y) = E V ar(ỹ|θ, y) y + V ar E(ỹ|θ, y) y
= E σ 2 |y + V ar (θ|y)


= σ 2 + τ12

donde σ2 es la varianza predictiva y τ12 es la varianza predictiva debido a la


incertidumbre a posteriori en θ.

3.1. Distribuciones a Priori Conjugadas, Famil-


ias Exponenciales y Estadísticos Sucientes
Denición 3.2. La clase F es una familia exponencial si todos los miembros
tienen la forma:
T (θ)µ(y
P (yi |θ) = b(yi )g(θ)eφ i)
(3.1.1)

Los vectores φ(θ) y µ(yi ) por lo general tienen la misma dimensión que θ.
Además, φ(θ) se le llama parámetro natural de la familia F .
La verosimilitud correspondiente a una secuencia y = (y1 , . . . , yn ) de
observaciones independientes e idénticamente distribuidas es:
" n
# ( n
)
Y X
P (y|θ) = b(yi ) g n (θ) exp φT (θ) µ(yi ) , ∀ n, y (3.1.2)
i=1 i=1

Tiene forma ja cuando es función de θ, es decir:

P (y|θ) ∝ g n (θ) exp φT (θ)T (y)




Pn
donde T (y) = i=1 µ(yi ) y se dene como el estadístico suciente de θ .
Los estadísticos sucientes son útiles para manipulaciones algebraicas de las
verosimilitudes y las distribuciones a posteriori. La distribución a priori es
especicada por:

P (θ) ∝ g n (θ) exp φT (θ)v




UNIVERSIDAD DE CARABOBO
SECCIÓN 3.1: Distribuciones a Priori Conjugadas, Familias Exponenciales y
Estadísticos Sucientes 70

Entonces la distribución a posteriori está dada por:

P (θ|y) ∝ L(θ|y)P (θ)


= g n1 (θ) exp φT (θ)T (y) g n2 (θ) exp φT (θ)v
 

= g n1 +n2 (θ) exp φT (θ) [v + T (y)]




lo cual demuestra que la elección de la a priori es conjugada.

Ejemplo 3.3. Distribución exponencial.


Sea y ∼ Exponencial(θ). La función de densidad de probabilidad viene dada
por:
θe−yθ si x > 0, θ > 0

f (y|θ) =
0 en otro caso
f (y|θ) pertenece a la familia exponencial para g(θ) = θ, b (yi ) = 1, φT (θ) = −θ
y µ(yi ) = y.
Ejemplo 3.4. Sea y ∼ Bernoulli(θ), entonces:
f (y|θ) = θy (1 − θ)1−y , y = 0, 1; 0 < θ < 1

De modo que:
  
θ
f (y|θ) = (1 − θ) exp y log
1−θ

donde g(θ) = (1 − θ), b(y) = 1, φT (θ) = log 1−θ


θ
y µ(y) = y. Así que f (y|θ)


pertenece a la familia exponencial.


Ejemplo 3.5. Si X ∼ N (µ, σ2 ), entonces:
 
2
 1 1 2
f y|µ, σ = exp − 2 (y − µ)
(2πσ 2 )1/2 2σ
 2
  1/2  
1 µ 1 1 2 µy
= exp − 2 exp − 2 y + 2
σ 2σ 2π 2σ σ

g(θ) = σ12 exp {−µ2 /2σ 2 }, θ = (µ, σ 2 ), b(y) = (1/2π)1/2 , φT (θ) =


(−1/2σ 2 , µ/σ 2 ) y µ(y) = (y 2 , y). Por lo tanto f (y|θ) pertenece a la familia
exponencial.

El uso de una densidad a priori que conjuga con la verosimilitud permite obtener
expresiones analíticas para la densidad a posteriori:

FACYT-MATEMÁTICAS
71 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Priori conjugada para una función de veromilitud de las familias


estándar.
Familia Priori Conjugada
1 Binomial(n, θ) θ ∼ Beta(a, b)
2 P oisson(θ) θ ∼ Gamma(α0 , λ0 )
3 N (µ, σ 2 ), σ 2 conocido µ ∼ N (µ0 , σ02 )
4 N (µ, σ 2 ), µ conocido 1/σ 2 ∼ Gamma(α0 , λ0 )
5 Gamma(α, λ), α conocido λ ∼ Gamma(α0 , λ0 )
6 Beta(a, b), b conocido λ ∼ Gamma(α0 , λ0 )

Ejemplo 3.6. Sea y = (y1 , y2 , . . . , yn ) ∼ P oisson(θ), independiente e


idénticamente distribuida y θ ∼ Gamma(a, b), entonces:
n
Y θ yi Pn
f (y|θ) = e−θ ∝ θ i=1 yi −nθ
e
y!
i=1 i
Pn
P (θ|y) = θ i=1 yi −nθ a−1 −bθ
e θ e
= θt(y)+a−1 e−θ(n+b)
⇒ θ|y ∼ Gamma (a + t(y), n + b)
n
donde t(y) =
X
yi
i=1

3.2. Datos Normales con Distribuciones a Priori


Conjugadas
Ejemplo 3.7. Supóngase que x1 , . . . , xn ∼ N (µ, σ2 ).
a. Suponga que σ2 es conocido y µ ∼ N (µ0 , σ02 ). La densidad a posteriori de
µ está dada por:
n
Y
L µ, σ 2 |xi Π(µ)

P (µ|x) ∝
i=1
n    
Y 1 1 2 1 2
= √ exp − 2 (x − µ) exp − 2 (µ − µ0 )
i=1 2πσ 2 2σ 2σ0
( n
)
1 X 1
∝ exp − 2 (xi − µ)2 − 2 (µ − µ0 )2
2σ i=1 2σ0

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 72

 Pn 2 Pn 2
µ2 − 2µµ0 + µ20
 
1 i=1 xi − 2µ i=1 xi + nµ
= exp − +
2 σ2 σ2
    Pn 0
1 n 1 i=1 xi µ0
∝ exp − 2
+ 2 µ2 − 2µ 2
+ 2
2 σ σ0 σ σ0
 2 Pn
σ0 i=1 xi + µ0 σ 2
  2 2
 
1 nσ0 + σ 2
∝ exp − µ −2 µ
2 σ 2 σ02 σ02 σ 2
 2 Pn
1 nσ02 + σ 2 σ0 i=1 xi + σ 2 µ0
   
2
∝ exp − µ − 2µ
2 σ 2 σ02 nσ02 + σ 2
1 nσ0 + σ 2 σ02 ni=1 xi + σ 2 µ0
  2    P 
2
∝ exp − µ − 2µ
2 σ 2 σ02 nσ02 + σ 2
 2 Pn 2
#)
σ0 i=1 xi + σ 2 µ0

+
nσ02 + σ 2
( Pn 2 )
2 2
 2 2

1 nσ0 + σ σ xi + σ µ 0
∝ exp − 2 2
µ − 0 i=12 (Kernel normal)
2 σ σ0 nσ0 + σ 2
 2 Pn
σ0 i=1 xi + σ 2 µ0 σ 2 σ02

∴ µ|x ∼ N , 2
nσ02 + σ 2 nσ0 + σ 2
donde:
Pn
σ02 i=1 xi + σ
2
µ0
µaposteriori =
nσ02 + σ 2
y
2 σ 2 σ02
σaposteriori =
nσ02 + σ 2

b. Supóngase que µ es conocida y σ2 deconocido. Sea τ = 1/σ2 , donde τ es el


parámetro de precisión. Además, supóngase que τ ∼ Gamma (δ0 /2, γ0 /2).
Así que la función de densidad de probabilidad es:
n γ o
δ0 /2−1 0
f (τ ) ∝ τ exp −τ
2
Se desea obtener la distribución a posteriori de τ |x, entonces:
P (τ |x) ∝ L(µ, τ )f (τ )
n
Y τ 1/2 n τ o n τγ o
= √ exp − (xi − µ)2 τ δ0 /2−1 exp − 0
i=1
2π 2 2
( n
)
τX n τγ o
0
∝ τ 1/2 exp − (xi − µ)2 τ δ0 /2−1 exp −
2 i=1 2

FACYT-MATEMÁTICAS
73 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

  Pn 2

i=1 (xi − µ) + γ0
∝τ (n+δ0 )/2−1
exp −τ (Kernel Gamma)
2

De modo que:
Pn
− µ)2
 
n + δ0 γ0 + i=1 (xi
τ |x ∼ Gamma ,
2 2

c. Supóngase que µ y σ2 son ambos desconocidos. Además, suponga que la


distribución a priori conjunta es:

Π(µ, τ ) = Π(µ|τ )Π(τ )

donde µ|τ ∼ N (µ0 , σ02 /τ ) y τ ∼ Gamma (δ0 /2, γ0 /2). Hallar la conjunta
P (µ, τ |x):

P (µ, τ |x) = L(µ, τ |x)Π(µ, τ ) = L(µ, τ |x)Π(µ|τ )Π(τ )


n
τ 1/2 n τ  
Y
2
o
1/2 τ 2
= √ exp − (xi − µ) τ exp − 2 (µ − µ0 )
i=1
2π 2 2σ0
n τγ o
0
× τ δ0 /2−1 exp −
( 2 " #)
2 n
τ (µ − µ 0 ) X
∝ τ (n+δ0 +1)/2−1 exp − γ0 + 2
+ (xi − µ)2
2 σ0 i=1

La densidad a posteriori no tiene una forma conocida. Por lo tanto, para


generar una muestra de esta distribución a posteriori se debe obtener las
marginales:

P (µ, τ |x) = P (µ|τ, x)P (τ |x)


Z ∞
⇒ P (µ|x, τ ) = P (µ, τ |x)dτ
0
" ( n
#)
∞ 2

Z
τ (µ µ 0 ) X
= τ (n+δ0 +1)/2−1 exp − γ0 + 2
+ (xi − µ)2 dτ
0 2 σ 0 i=1
Z ∞ ( n
2
τ µ 2µµ0 µ2 X 2
= τ (n+δ0 +1)/2−1 exp − γ0 + 2 − 2 + 02 + xi
0 2 σ0 σ0 σ0 i=1
n
!)
X
−2µ xi + nµ2 dτ
i=1

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 74

( n
!)
Z ∞ 2
τ µ X
= τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i
0 2 σ0 i=1
( "   n
!#)
τ 1 X µ 0
× exp − µ2 n + 2 − 2µ xi + 2 dτ
2 σ0 i=1
σ 0
Z ∞ ( n
!)
2
τ µ X
= τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i
0 2 σ 0
Pn i=1
2µ ( i=1 xi + µ0 /σ02 )
   
τ 1 2
× exp − n+ 2 µ − dτ
2 σ0 (n + 1/σ02 )
Z ∞ ( n
!)
(n+δ0 +1)/2−1 −τ µ20 X 2
= τ exp γ0 + 2 + xi
0 2 σ0 i=1
2µ ( ni=1 xi + µ0 /σ02 )
   P
τ 1 2
× exp − n+ 2 µ −
2 σ0 n + 1/σ02
 Pn 2 2
  Pn  #)
2 2
i=1 x i + µ 0 /σ 0 i=1 x i + µ 0 /σ0
+ − dτ
n + 1/σ02 n + 1/σ02
Z ∞ ( n
!)
2
τ µ X
= τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i
0 2 σ 0 i=1
( Pn 2 )
( i=1 xi + µ0 /σ02 )
 
τ 1
× exp − n+ 2 µ−
2 σ0 n + 1/σ02
( P 2
)
τ ( ni=1 xi + µ0 /σ02 )
× exp dτ
2 n + 1/σ02

Nota 3.2. Sea C = β α /Γ(α) y P (x) = Cxα−1 e−βx , entonces:


Z Z
Γ(α)
P (x)dx = 1 ⇒ xα−1 e−βx =
βα
Ahora, sea:
Pn
i=1xi + µ0 /σ02
a=
n + 1/σ02
así que:
( " n

µ20 X 2
 
−τ
Z
1
P (µ|x, τ ) = τ (n+δ0 +1)/2−1 exp γ0 + 2 + xi + n + 2 (µ − a)2
0 2 σ0 i=1
σ0
  
1 2
− n+ 2 a dτ
σ0

FACYT-MATEMÁTICAS
75 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Γ n+δ20 +1 2(n+δ0 +1)/2−1



="  #(n+δ0 +1)/2
n   
µ20
X 1 2 1
γ0 + σ02
+ xi + n + 2 (µ − a) − n + 2 a2
2

i=1
σ0 σ0

n
Si c = n + y b = γ0 + xi , se tiene que:
X
1/σ02 µ20 /σ02 +
i=1

1
P (µ|x, τ ) ∝
[b + c(µ − a)2
− ca2 ](n+δ0 +1)/2
1
=
[b − ca + c(µ − a)2 ](n+δ0 +1)/2
2
−(n+δ0 +1)/2
c(µ − a)2

∝ 1+
b − ca2
 −1 !
(n + δ0 )c
⇒ µ|x, τ ∼ t n + δ0 , a,
b − ca2

Denición 3.3. Sea Y = (Y1 , . . . , Yp )T un vector aleatorio p × 1. Entonces,


Y tiene una distribución t multivariada p-dimensional con d grados de libertad,
parámetro de localización m y matriz de dispersión Σp×p , si Y tiene la siguiente
densidad:
d+p −[(d+p)/2]
(πd)−p/2 |Σ|−1/2
 
Γ 2 1 T −1
P (Y) = 1 + (y − m) Σ (y − m)
Γ (d/2) d

es decir, Y ∼ tp (d, m, Σ). En la parte c del ejemplo 3.7, se observó que µ|x, τ
tiene una distribución t con los siguientes parámetros:
• p = 1.
• Grados de libertad: d = n + S0 .
• Parámetro de localización: m = a .
• Parámetro de dispersión: Σ = [(n + δ0 )c/ (b − ca2 )] .
−1

Por otra parte, la distribución marginal de τ está dada por:


( n
!)

µ2 X 2
   
−τ
Z
τ 1
P (τ |x, µ) = τ (n+δ0 +1)/2−1 exp γ0 + 02 + xi exp n + 2 a2
−∞ σ0 2i=1
2 σ0
   
τ 1
× exp − n + 2 (µ − a)2 dµ
2 σ0

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 76

(" n  #)
2

τ µ X 1
∝ τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i − n + 2 a2
2 σ0 i=1
σ0
Z ∞    
τ 1
× exp − n + 2 (µ − a)2 dµ
−∞ 2 σ0
Obviando las constantes adecuadas, el kernel de una normal es:
Z ∞    
τ 1 2
exp − n + 2 (µ − a) dµ = 1
−∞ 2 σ0
Por lo tanto:
"( n  #)
2

τ µ X 1
P (τ |x, µ) = τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i − n + 2 a2
2 σ0 i=1
σ0

de modo que:
" n  #!
µ20 X 2

n + δ0 + 1 1 1
τ |x, µ ∼ Gamma , γ0 + 2 + x i − n + 2 a2
2 2 σ0 i=1
σ0

El algoritmo de muestreo es el siguiente:

Algoritmo 3.1.
Paso [1] Se genera:
 h i−1 
(n+δ0 )c
• µ|x, τ ∼ t n + δ0 , a, b−ca2

Paso [2] Se genera:


" n   #!
µ20
X 1
• τ |x, µ ∼ Gamma n+δ0 +1 1
2
,2 γ0 + σ02
+ x2i − n + 2 a2
i=1
σ0

Ejercicio 3.1. Si x|τ ∼ Np (m, τ −1 Σ) y τ ∼ Gamma (δ0 /2, γ0 /2), entonces probar
que:
Z ∞  
γ0
P (x) = f (x|τ )Π(τ )dτ ⇒ x ∼ tp δ0 , m, Σ
0 δ0
donde:
1 p/2 −1/2
n τ
T −1
o
f (x|τ ) = τ |Σ| exp − (x − m) Σ (x − m)
(2π)p/2 2

FACYT-MATEMÁTICAS
77 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

3.3. Modelo Binomial


Supóngase que x|θ ∼ Binomial(N, θ), entonces:

 
N
f (x|θ) = θx (1 − θ)N −x
x

Se puede tomar L(θ|x) = θx (1 − θ)N −x , donde el parámetro θ es desconocido. Por


lo tanto, la incertidumbre sobre θ puede expresarse especicando una distribución a
priori, P (θ). Nuevamente, la a posteriori se puede calcular y obtener varios resúmenes
a posteriori, tales como la media, mediana, la moda, la varianza y cuantiles. Por
ejemplo, la media de θ está dada por:

Z
E(θ|x) = θP (θ|x)dθ
Θ

La moda a posteriori de θ es el valor θ que maximiza a P (θ|x).


Sea X|θ ∼ Binomial(16, θ), entonces la verosimilitud es la siguiente:

 
16
f (X|θ) = θX (1 − θ)16−X
X

Supóngase que θ ∼ Beta(α, β), así que:

Γ(α + β) α−1
P (θ) = θ (1 − θ)β−1
Γ(α)Γ(β)

La distribución a posteriori se obtiene como sigue:

P (θ|X) ∝ f (X|θ)P (θ)


 
16 Γ(α + β) α−1
= θX (1 − θ)16−X θ (1 − θ)β−1
X Γ(α)Γ(β)
∝ θα+X−1 (1 − θ)β+16−X−1
⇒ θ|X ∼ Beta(α + X, β + 16 − X)

Ejemplo 3.8. Supóngase que x1 , . . . , xn |θ ∼ Binomial(1, θ), son variables aleatorias


independientes y θ ∼ Beta(α, β). Los parámetros de la distribución a priori se
llaman hiperparámetros. Obtener la distribución a posteriori de θ y la marginal de
X. Además, obtenga E(θ|X) y V ar(θ|X).

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.4: Modelo de Poisson 78

Solución: Sea X = (x1 , . . . , xn ), entonces la verosimilitud viene dada por:


n
Y
L(θ|X) = f (xi |θ)
i=1
Yn
∝ θxi (1 − θ)1−xi
i=1
Pn Pn
xi
=θ i=1 (1 − θ)n− i=1 xi

La distribución a priori es de la siguiente forma:


Γ(α + β) α−1
P (θ) = θ (1 − α)β−1
Γ(α)Γ(β)
∝ θα−1 (1 − θ)β−1
En consecuencia la densidad a posteriori viene dada como sigue:
P (θ|X) ∝ L(θ|X)P (θ)
Pn Pn
xi
=θ i=1 (1 − θ)n− i=1 xi α−1
θ (1 − θ)β−1
Pn Pn
=θ (1 − θ)n+β− i=1 xi −1
i=1 xi +α−1

n n
!
X X
⇒ θ|X ∼ Beta α + xi , n + β − xi
i=1 i=1

De modo que:
α
E(X) =
α+β
αβ
V ar(X) =
(α + β + 1)(α + β)2

3.4. Modelo de Poisson


Sea X|θ ∼ P oisson(θ) y θ ∼ Gamma(α, β), entonces:

P (θ|X) = L(θ|X)P (θ)


n
!
Y θxi e−θ β α−1 α−1 −βθ
= θ e
i=1
x i ! Γ(α)
Pn
xi −nθ
θ e
i=1 β α−1 α−1 −βθ
= Qn θ e
i=1 xi ! Γ(α)
β α−1 −βθ−nθ
∝ θnX+α−1 e
Γ(α)
∝ θnX+α−1 e−(n+β)θ (Kernel Gamma)

FACYT-MATEMÁTICAS
79 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

De esta forma:

θ|X ∼ Gamma(α + nX, n + β)


La distribución Gamma es conjugada con la distribución de Poisson. Supóngase que
X es el número de mujeres preñadas que arriban a un hospital particular a tratarse
durante un mes dado. La naturaleza de conteo discreto más la tasa de arribo sugiere
una verosimilitud Poisson, como sigue:

exp {−θ} θX /X! si X = 0, 1, 2, . . . ; θ > 0
f (X|θ) =
0 en otro caso

Supóngase que la distribución a priori es:

θα−1 e−θ/β
θ ∼ Gamma(α, β) ⇒ π(θ) =
Γ(α)β α
donde θ > 0, α > 0 y β > 0. Entonces:

e−θ θX θα−1 e−θ/β


π(θ|X) ∝ f (X|θ)π(θ) =
X! Γ(α)β α
 
α+X−1 θ
∝θ exp −θ −
α
  
α+X−1 1
=θ exp −θ 1 +
α
Así que:
 
1
θ|X ∼ Gamma α + X, 1 +
β

3.5. Modelo Exponencial


Sean X|θ ∼ Exponencial(θ) y θ ∼ Gamma(α, β). Para obtener la a posteriori se
hace lo siguiente:

P (θ|X) ∝ L(θ|X)P (θ)


n
Y β α α−1 −βθ
= θe−θxi θ e
i=1
Γ(α)
Pn β α α−1 −βθ
= θn e−θ i=1 xi
θ e
Γ(α)
∝ θα+n−1 e−nXθ−βθ
= θα+n−1 e−θ(nX+β )

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.6: Ventajas de las Distribuciones Conjugadas 80

Por lo tanto:

θ|X ∼ Gamma α + n, nX + β
En consecuencia la distribución Exponencial es conjugada con la distribución Gamma.

3.6. Ventajas de las Distribuciones Conjugadas


El proceso de aprendizaje es sencillamente el proceso de cambiar los valores de
los parámetros de la distribución a priori.

Se pueden interpretar los valores de los parámetros de la distribución a priori.

Teorema 3.1. Priori normal y una observación.


Si θ ∼ N (µ, τ 2 ) y X|θ ∼ N (θ, σ2 ), con σ2 conocido, entonces la distribución a
posteriori θ|X ∼ N (µ1 , τ12 ), donde:
τ −2 µ + σ −2 X µ/τ 2 + X/σ 2
µ1 = =
τ −2 + σ −2 1/τ 2 + 1/σ 2
y
1 1 1
2
= 2+ 2
τ1 τ σ
Demostración.
P (θ|X) ∝ L(θ|X)P (θ)
   
1 1 2 1 1 2
=√ exp − 2 (X − θ) √ exp − 2 (θ − µ)
2πσ 2 2σ 2πτ 2 2τ
 
1 1
∝ exp − 2 (X − θ)2 − 2 (θ − µ)2
2σ 2τ
 
1 2 2
 1 2 2

∝ exp − 2 X − 2Xθ + θ − 2 θ − 2θµ + µ
2σ 2τ
 
1 2 2θX 1 2 2θµ
∝ exp − 2 θ + − 2θ + 2
2σ 2σ 2 2τ 2τ
 2   
θ 1 1 X µ
= exp − + +θ +
2 σ2 τ 2 σ2 τ 2
Sean:

1 1 1 1
= 2 + 2 ⇒ τ12 = 1
τ12
σ τ σ2
+ τ12
 
X µ µ1 X µ
µ1 = 2
+ 2 τ12 ⇒ 2 = 2 + 2
σ τ τ1 σ τ

FACYT-MATEMÁTICAS
81 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Entonces:

θ2
 
µ1
P (θ|X) ∝ exp − 2 + θ 2
2τ1 τ1
 
1 2

= exp − 2 θ − 2θµ1
2τ1
 
1 2 2 2

= exp − 2 θ − 2θµ1 + µ1 − µ1
2τ1
 
1 2
= exp − 2 (θ − µ1 )
2τ1
 2  
µ1 1 2
exp ∝ exp − 2 (θ − µ1 )
2τ12 2τ1
 
1 1 2
∝p exp − 2 (θ − µ1 )
2πτ12 2τ1

De este modo:

P (θ|X) ∼ N µ1 , τ12


En consecuencia la normal es conjugada con ella misma. 2


Denición 3.4. La familia de mezclas de distribuciones conjugadas es también
conjugada. Si se dene la distribución a priori:
k
X
P (θ) = wi Pi (θ)
i=1

donde Pi (θ) ∈ P , son conjugadas con una distribución muestral f (X|θ) en el sentido
de la denición 3.1. Luego:
k
X
P (θ|X) = wi∗ Pi∗ (θ)
i=1

donde Pi∗ (θ) ∈ P .


Ejemplo 3.9. Se quiere predecir la probabilidad θ de que en un lanzamiento de una
moneda sale un sello. Supóngase que se utiliza una mezcla para la distribución a
priori:
 
1 3
θ ∼ Beta(2, 3) + Beta(4, 4)
4 4
S|θ ∼ Binomial(10, 6)

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.7: El Modelo Multinomial 82

Si se observan 6 sellos en 10 lanzamientos, ¾cuál es la distribución a posteriori de θ?


Solución:

P (θ|X) ∝ L(θ|X)P (θ)


 
1 1 2−1 3−1 3 1 4−1 4−1
∝ θ (1 − θ) + θ (1 − θ) θ6 (1 − θ)4
4 Beta(2, 3) 4 Beta(4, 4)
 
1 1 2 3 1
= θ(1 − θ) + θ (1 − θ) θ6 (1 − θ)4
3 3
4 Beta(2, 3) 4 Beta(4, 4)
 
1 8−1 7−1 3 1 10−1 8−1
= θ (1 − θ) + θ (1 − θ)
4 4 Beta(4, 4)
 
1 Beta(8, 7) 8−1 7−1
= θ (1 − θ)
4 Beta(2, 3)Beta(8, 7)
 
1 3Beta(10, 8) 10−1 8−1
+ θ (1 − θ)
4 Beta(4, 4)Beta(10, 8)
∝ W Beta(8, 7) + (1 − W )Beta(10, 8)
donde:
Beta(8,7)
Beta(2,3)
W = Beta(8,7)
Beta(2,3)
+ 3Beta(10,8)
Beta(4,4)
y
Beta(8,7)
Beta(2,3)
1−W =1− Beta(8,7)
Beta(2,3)
+ 3Beta(10,8)
Beta(4,4)

3.7. El Modelo Multinomial


La distribución de muestreo multinomial es usada para describir datos en los cuales
cada observación tiene una de los k posibles resultados. Si y es un vector de conteo
del número de observaciones por salidas, entonces:

k
y
Y
P (y|θ) ∝ θj j
j=1
Pk Pk
donde: j=1 θj = 1 y j=1 yj = n. La distribución a priori conjugada es una
generalización multivariada de la distribución Beta conocida como la distribución
de Dirichlet, dada por:

k
α −1
Y
P (θ|α) = θj j
j=1

FACYT-MATEMÁTICAS
83 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Pk
donde la distribución es restringida a θj 's
j=1 θj = 1. La
no negativos con
distribución a posteriori para los θj 's es nuevamente un proceso de Dirichlet con
parámetros αj + yi , es decir:

k k
α −1
Y Y
P (θ|y) = θjyi θj j
j=1 j=1

= θ1 θ2 · · · θkyk θ1α1 −1 θ2α2 −1 · · · θkαk −1


y1 y2

= θ1y1 +α1 −1 θ2y2 +α2 −1 · · · θkyk +αk −1

Entonces la distribución a posteriori es:

θ|y ∼ Dirichlet(αj + yi )

3.8. El Modelo Normal Multivariado


Sea:

y|µ, Σ ∼ N (µ, Σ)

donde µ es un vector columna de longitud d, Σ es una matriz de varianza d × d,


simétrica y denida positiva. La función de verosimilitud para una observación simple
es:

 
−1/2 1 T −1
P (y|µ, Σ) ∝ |Σ| exp − (y − µ) Σ (y − µ)
2

y la función de verosimilitud para n observaciones independientes e idénticamente


distribuidas y1 , y2 , . . . , yn , es la siguiente:

n
( )
1 X
P (y1 , y2 , . . . , yn |µ, Σ) ∝ |Σ|−n/2 exp − (yi − µ)T Σ−1 (yi − µ)
2 i=1
 
−n/2 1 −1

= |Σ| exp − tr Σ S0
2
Pn
donde S0 = i=1 (yi − µ)(yi − µ)T . Recuerde que:

n
X T
(y − µ)T Σ−1 (y − µ) = y (i) − µ(i) Σ−1 y (i) − µ(i)

ii
i=1

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.9: Distribución a Priori para µ con Σ Conocida 84

3.9. Distribución a Priori para µ con Σ Conocida


Supóngase que µ ∼ N (µ0 , Λ0 ), entonces:

P (µ|y, Σ) ∝ P (y|µ, Σ)P (µ)


   
−n/2 1 −1
 1 T −1
∝ |Σ| exp − tr Σ S0 exp − (µ − µ0 ) Λ0 (µ − µ0 )
2 2
 
−n/2 1  −1
 T −1

= |Σ| exp − tr Σ S0 + (µ + µ0 ) Λ0 (µ − µ0 )
2
( " n #)
1 X
= |Σ|−n/2 exp − (yi − µ)T Σ−1 (yi − µ) + (µ + µ0 )T Λ−1
0 (µ − µ0 )
2 i=1
( " n #)
1 X
= |Σ|−n/2 exp − yiT − µT Σ−1 (yi − µ) + (µ + µ0 )T Λ−1
 
0 (µ − µ0 )
2 i=1
Veamos que:
n
X n
X
−1
yiT T
yiT Σ−1 yi − yiT Σ−1 µ − µT Σ−1 yi + µT Σ−1 µ
 
−µ Σ (yi − µ) =
i=1 i=1
n
X
yiT Σ−1 yi − 2µT Σ−1 yi + µT Σ−1 µ

=
i=1
n
X
= nµT Σ−1 µ − 2µT Σ−1 nȳ + yiT Σ−1 yi
i=1
n
!
1 X T −1
= n µT Σ−1 µ − 2µT Σ−1 ȳ + y Σ yi
n i=1 i
Por otro lado:

(µ + µ0 )T Λ−1 T T
 −1
0 (µ − µ0 ) = µ + µ0 Λ0 (µ − µ0 )
= µT Λ−1 T −1 T −1 T −1
0 µ − µ Λ0 µ0 − µ0 Λ0 µ + µ0 Λ0 µ0
= µT Λ−1 T −1 T −1
0 µ − 2µ Λ0 µ0 + µ0 Λ0 µ0

Así que:
( n
!
n 1 X
P (µ|y, Σ) ∝ exp − µT Σ−1 µ − 2µT Σ−1 ȳ + y T Σ−1 yi
2 n i=1 i

1 T −1 T −1 T −1

− µ Λ0 µ − 2µ Λ0 µ0 + µ0 Λ0 µ0
2
  
n T −1 T −1 1 T −1 2 T −1
∝ exp − µ Σ µ − 2µ Σ ȳ + µ Λ0 µ − µ Λ0 µ0
2 n n

FACYT-MATEMÁTICAS
85 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Λ−1 Λ−1
     
n T −1 0 T −1 0 µ0
= exp − µ Σ + µ − 2µ Σ ȳ +
2 n n
 
1
= exp − (µ − µn )T Σ−1
n (µ − µn )
2

donde:

−1
µn = Λ−1 −1
Λ−1 −1

0 + nΣ 0 µ0 + nΣ ȳ

Σ−1 −1
n = Λ0 + nΣ
−1

Las marginales a posteriori son:


µ(1) |µ(2) , y ∼ N µ(1) 1/2
 (2) (2)
 1/2 
n + β µ − µ n ,Λ

donde:

−1
β 1/2 = Λ12 (22)
n Λn
−1
Λ1/2 = Λ(11)
n − Λ(12)
n Λ(22)
n Λ(12)
n

3.10. La Distribución Normal Multivariada con


Media y Varianza Desconocida
La distribución conjugada para la normal univariada con media y varianza
2
desconocida es la χ − Inversa. Se puede usar la distribución Inversa Wishart, una
2
generalización de la χ − Inversa.

Σ ∼ Inv − W ishartv0 Λ−1



0
 
Σ
µ|Σ ∼ N µ0 ,
k0

La distribución a priori es la siguiente:

 
−[(v0 +d)/2+1] 1 −1
 k0 T −1
P (µ, Σ) ∝ |Σ| exp − tr Λ0 Σ − (µ − µ0 ) Σ (µ − µ0 )
2 2
entonces:
 
Λ0
µ, Σ ∼ N ormal − Inversa − W ishart µ0 , , v0 , Λ0
k0

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 86

La a posteriori es:

P (µ, Σ|Datos) ∝ L(µ, Σ|Datos)P (µ, Σ)


 
−n/2 1 −1

∝ |Σ| exp − tr Σ S0
2
 
1 −1
 k0 T −1
× exp − tr Λ0 Σ − (µ − µ0 ) Σ (µ − µ0 )
2 2

1
∝ |Σ|−n/2 exp − tr Σ−1 S0 + tr Λ0 Σ−1
 
2
T −1
o
−k0 (µ − µ0 ) Σ (µ − µ0 )

Esta a posteriori es de la misma familia Normal-Inversa-Wishart.

k0 n
µn = µ0 + ȳ,
k0 + n k0 + n
kn = k0 + n,
vn = v0 + n,
k0 n
Λn = Λ0 + S + (ȳ − µ0 )(ȳ − µ0 )T ,
k0 + n
donde:

n
X
S= (yi − ȳ)(yi − ȳ)T
i=1

3.11. Práctica de Ejercicios del Capítulo 3


1. Sea X|θ ∼ ε(θ)
(a) Demostrar que la distribución de X es una familia exponencial.

(b) Calcular la forma de una distribución a priori conjugada para θ. ¾A qué


familia de distribuciones pertenece esta distribución?

(c) Dada la distribución a priori conjugada y una muestra X = (X1 , . . . , Xn ),


hallar la distribución a posteriori de θ.
2. La distribución de Maxwell es la siguiente:
r  
2 3/2 2 1 2
f (X|α) = α X exp − αX , para X>0 y α>0
π 2
(a) Demostrar que la distribución de Maxwell pertenece a una familia
exponencial.

FACYT-MATEMÁTICAS
87 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

(b) Dada una muestra de datos X = (X1 , . . . , Xn ) calcular un estadístico


suciente para α.
(c) ¾Cuál es la forma de una distribución a priori conjugada para α?
(d) ¾A qué familia de distribuciones pertenece la distribución natural a priori?

(e) Dada la distribución a priori calculada anteriormente, calcule la distribución


a posteriori de α.
(f ) Vericar que la media a posteriori de α es una media ponderada de la media
a priori y el estimador de máxima verosimilitud. ¾Cuáles son los pesos?

3. Si X|θ es una familia exponencial, demostrar que dada una muestra X, siempre
existe un estadístico suciente para θ. Utilizar un ejemplo para demostrar que
la existencia de un estadístico suciente no siempre implica que X pertenece a
una familia exponencial.

4. El número de minutos de espera al autobús cada mañana (X) tiene una


distribución uniforme:

X|θ ∼ U (0, θ)

Suponer una distribución a priori:

1
f (θ) ∝ , θ > 12
θ4
(a) Calcular la constante de integración de la distribución a priori.

(b) ¾A qué familia de distribuciones (conocida y conjugada) pertenece esta


distribución?

(c) Dadas las observaciones durante una semana: X = (2, 1, 8, 3, 10, 5, 7),
obtener la distribución a posteriori de θ.
(d) Calcular la media a posteriori de θ.
(e) Obtener la media predictiva del número de minutos de espera mañana por
la mañana.

5. Suponga que x tiene una distribución Poisson de media 1/λ2 , asi que la
verosimilitud toma la forma:

L(λ|x) = λ−2x exp −1/λ2




Encuentre una familia de prioris conjugadas para λ.


6. Suponga que las observaciones x1 , x2 , . . . , xn están displonibles con una densidad:

P (x|θ) ∝ exp {−θ/x} , 0 < x < θ

Explique, ¾cómo podría hacer inferencia acerca del parámetro θ usando una
priori conjugada?

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 88

7. Suponga que las observaciones x1 , x2 , . . . , xn están disponibles con una densidad:

P (x|θ) = (c + 1)θ−(c+1) xc , 0 < x < θ

Explique, ¾cómo podría hacer inferencia acerca del parámetro θ usando una
priori conjugada?

8. Demostrar que la familia Beta es conjugada con respecto a las muestras de


distribuciones binomial, geométrica y binomial negativa.

9. Sea X1 , . . . , X n una muestra aleatoria de distribución N (θ, φ−1 ) y considere la


distribución a priori conjugada para θ y φ.
2 Pn
(a) En una muestra de tamaño i=1 Xi − X
n = 10, X = 1 = 8 fue
y
observada. Determine la distribución a posteriori de θ y haga un gráco de
las funciones a priori, a posteriori y verosimilitud con φ jo.

(b) Obtenga P (|Y| > 1|X), donde Y es una nueva observación tomada de la
misma población.

10. Sea X1 ,. . . ,Xn una muestra aleatoria de distribución P oisson(θ).


(a) Determinar los parámetros de la a priori conjugada para θ asumiendo que
E(θ) = 4 y CV ar(θ) = 0.5, y determine n tal que V ar(θ|X) < 0.01.
(b) Demostrar que la media a posteriori es de la forma:

γn x̄n + (1 − γn ) µ0

donde µ0 = E(θ) y que γn → 1 cuando n → ∞.


(c) Repita el item anterior para una muestra de distribución Bernoulli, con
probabilidad de éxito θ y θ ∼ Beta(a, b).
11. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de distribución U (0, θ).
(a) Demuestre que la familia de distribuciones Pareto, con parámetros a y b, y
a 1+a
densidad P (θ) = ab /θ , θ > b, a > 0 y b > 0, es una familia conjugada
de la uniforme.

(b) Obtenga la moda, la media y la mediana de la distribución a posteriori de


θ.
12. Verique si las siguientes distribuciones pertenecen a la familia exponencial. Si
es asi, determine las funciones b, g , µ y φ.
(a) Binomial(n, θ), n conocido.
(b) Exponencial(θ)
(c) Gamma(α, β)
(d) Beta(α, β)
(e) N (µ, Σ), Σ conocido.

FACYT-MATEMÁTICAS
89 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

13. ¾Cuál de las siguientes familias de distribuciones son miembros de la familia


exponencial?

(a) P (x|θ) = 1/9, x ∈ {0.1 + θ, . . . , 0.9 + θ}


donde
2
(b) La familia de distribuciones N (θ, θ )

(c) La familia de distribuciones N (θ, θ), con θ > 0

(d) P (x|θ) = 2(x + θ)/(1 + 2θ), donde x ∈ (0, 1) y θ > 0


(e) La familia de distribución de X|X 6= 0, donde X ∼ Binomial(n, θ)

(f ) f (x|θ) = θ/(1 + x)1+θ , x ∈ R+


(g) f (x|θ) = θx log θ/(θ − 1), x ∈ (0, 1)
(h) f (x|θ) = (1/2) exp {−|x − θ|}, x ∈ R
14. Sea (X1 , X2 , X3 ) un vector con función de probabilidad:

3
n! Y
Q3 pxi i , xi ≥ 0, x1 + x2 + x3 = n
i=1 xi ! i=1

donde p1 = θ2 , p2 = 2θ(1 − θ), p3 = (1 − θ)2 y 0 ≤ θ ≤ 1. Verique si esta


distribución pertenece a la familia exponencial con k parámetros. Si esto es
cierto, ¾cuál es el valor de k?
15. Considere una muestra X = (X1 , . . . , Xn ) de una tv (µ, σ 2 ) y θ = (v, µ, σ 2 ).
Demuestre que esta distribución no pertenece a la familia exponencial.

16. Implementar colocando una a priori:

(a) θ ∼ Beta(0.5, 0.5)


(b) θ ∼ Beta(1, 1)
(c) θ ∼ Beta(2, 2)
donde:

0 si nace hembra
X=
1 si nace varón

Estimar E(θ|X) y V ar(θ|X), para tamaños de muestra n = 1000, n = 2000 y


n = 5000.

UNIVERSIDAD DE CARABOBO
SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 90

FACYT-MATEMÁTICAS
Capítulo 4

Elementos de Inferencia

4.1. Información de Fisher


Denición 4.1. Sea X un vector aleatorio con función de densidad de probabilidad
P (X|θ). La medida de información de Fisher esperada de θ a través de X se dene
por:
∂ 2 log P (X|θ)
 
I(θ) = EX|θ − (4.1.1)
∂θ2
Si θ = (θ1 , . . . , θp ) es un vector de parámetros entonces la matriz de información
esperada de Fisher de θ a través de X puede ser denida por:
∂ 2 log P (X|θ)
 
I(θ) = EX|θ − (4.1.2)
∂θ∂θT
con elementos Iij (θ) dados por:
 2 
∂ log P (X|θ)
Iij (θ) = EX|θ −
∂θi ∂θj
donde i, j = 1, . . . , p. La medida de información de Fisher está relacionada con
el valor esperado de la curvatura de la verosimilitud. Si la curvatura es grande, la
información contenida en la función de verosimilitud es grande.
Lema 4.1. Sea X = (X1 , . . . , Xn ) una colección de variables aleatorias
independientes con función de distribución Pi (X|θ), donde i = 1, . . . , n. Sean:
∂ 2 log P (X|θ)
JX (θ) = −
∂θ∂θT
y
∂ 2 log P (Xi |θ)
JXi (θ) = − , i = 1, . . . , n
∂θ2

91
SECCIÓN 4.1: Información de Fisher 92

la media de observación de Fisher observada de X y Xi , respectivamente. Sean I y


Ii las medidas de información esperada de X y Xi , respectivamente, entonces:
n
X
JX (θ) = JXi (θ)
i=1
y
n
X
I(θ) = Ii (θ)
i=1

El Lema prueba que la información total obtenida de observaciones independientes es


la suma de la información de las observaciones individuales.

Demostración.
n
Y
P (X|θ) = Pi (Xi |θ)
i=1
Xn
⇒ log [P (X|θ)] = log Pi (Xi |θ)
i=1
n
∂ 2 log P (X|θ) X ∂ 2 log Pi (Xi |θ)
− = −
∂θ∂θT i=1
∂θ∂θT
n
X
⇒ JX (θ) = JXi (θ)
i=1

Ahora, se calcula la esperanza:

n
" #
X ∂ 2 log Pi (Xi |θ)
EX|θ [I(θ)] = EX|θ − θ
i=1
∂θ∂θT
n  
X ∂ 2 log Pi (Xi |θ)
= EX|θ − θ
i=1 ∂θ∂θT
n
X
= Ii (θ)
i=1
2
Denición 4.2. La función Score de X, se denota por U (X; θ) y se dene de la
siguiente manera:
∂ log P (X|θ)
U (X; θ) = (4.1.3)
∂θ

FACYT-MATEMÁTICAS
93 CAPÍTULO 4: Elementos de Inferencia

En el caso de un vector paramétrico θ = (θ1 , . . . , θp )T , la función Score es un vector


U (X; θ) con componentes:
∂ log P (X|θ)
Ui (X; θ) = , i = 1, . . . , p
∂θi
Lema 4.2. Bajo ciertas condiciones de regularidad, tales como: diferenciabilidad de la
verosimilitud, la integración y diferenciabilidad pueden ser intercambiables, entonces:
I(θ) = EX|θ U 2 (X; θ)
 

y en el caso de un vector paramétrico:


I(θ) = EX|θ U (X; θ)U T (X; θ)
 

Demostración.
Z
P (X|θ)dX = 1

Diferenciando ambos lados con respecto a θ se tiene que:


Z
∂P (X|θ)
0= dX
∂θ
Z
P (X|θ) ∂P (X|θ)
= dX
P (X|θ) ∂θ
Z
∂ log P (X|θ)
= P (X|θ)dX
∂θ
Z
= U (X; θ)P (X|θ)dX

= EX|θ [U (X; θ)]

Nuevamente diferenciando con respecto a θ e intercambiando la integración y la


diferenciación, se obtiene lo siguiente:

Z  T Z 2
∂ log P (X|θ) ∂P (X|θ) ∂ log P (X|θ)
0= dX + P (X|θ)dX
∂θ ∂θ ∂θ∂θT
Z  T
∂ log P (X|θ) ∂ log P (X|θ)
= P (X|θ)dX
∂θ ∂θ
∂ 2 log P (X|θ)
Z
+ P (X|θ)dX
∂θ∂θT
Z  T
∂ log P (X|θ) ∂ log P (X|θ)
= P (X|θ)dX − I(θ)
∂θ ∂θ

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.2: Naturaleza Secuencial del Teorema de Bayes 94

Z  T
∂ log P (X|θ) ∂ log P (X|θ)
⇒ I(θ) = P (X|θ)dX
∂θ ∂θ
Z
= U (X; θ)U T (X; θ)P (X|θ)dX

= EX|θ U 2 (X; θ)
 

4.2. Naturaleza Secuencial del Teorema de Bayes


Experimento 1: Supóngase que X1 ∼ P (X1 |θ), entonces la distribución a posteriori
viene dada por:

P (θ|X1 ) ∝ L1 (θ|X1 )P (θ)

Experimento 2: Supóngase que X2 ∼ P (X2 |θ), entonces la distribución a posteriori


viene dada por:

P (θ|X2 , X1 ) ∝L2 (θ|X2 )P (θ|X1 )


.
.
.

Experimento n: Supóngase que Xn ∼ P (Xn |θ), entonces la distribución a posteriori


viene dada por:

P (θ|Xn , Xn−1 , . . . , X2 , X1 ) ∝ Ln (θ|Xn )P (θ|Xn−1 , Xn−2 , . . . , X2 , X1 )

o alternativamente:
" n
#
Y
P (θ|Xn , Xn−1 , . . . , X2 , X1 ) ∝ Li (θ; Xi ) P (θ)
i=1

4.3. Intercambiabilidad
Denición 4.3. Sea k = {k1 , . . . , kn } una permutación de {1, . . . , n}. Las variables
aleatorias X1 , . . . , Xn son intercambiables si las n! permutaciones (Xk1 , . . . , Xkn )
tienen la misma distribución de probabilidad n-dimensional.
Una consecuencia inmediata de la intercambiabilidad, es que todas las distribuciones
marginales pueden ser las mismas.

FACYT-MATEMÁTICAS
95 CAPÍTULO 4: Elementos de Inferencia

Ejemplo 4.1. Considérese una urna con m bolas, enumeradas r de ellas desde 1
hasta m − r con el número cero. Las bolas son tomadas de la urna, una a la vez
sin reemplazo. Si Xk denota el número asociado con la k-ésima bola seleccionada.
Entonces X1 , . . . , Xn , con n ≤ m, es una secuencia intercambiable, pero las X no
son independientes.
Teorema 4.1. Para todas las secuencia innitas de cantidades intercambiables
{Xn , n = 1, 2, . . .}. Asumiendo valores en [0, 1], le corresponde una distribución F
en (0, 1), tal que ∀n y k ≤ n, se tiene que:
Z 1
P (k, n − k) = θk (1 − θ)n−k dF (θ) (4.3.1)
0

donde (k, n − k) denota el evento que k de los X0i s son unos y los otros n − k son
cero (Teorema de Finetti, 1937).
Si se introduce la hipótesis de simetría de las distribuciones y la propiedad de
invarianza bajo transformaciones lineales, no es difícil probar que la densidad
conjunta de alguna subsecuencia está dada por:
Z ∞ Z ∞ n
Y
PN Xi ; θ, σ 2 dF θ, σ 2
 
P (X1 , . . . , Xn ) =
0 −∞ i=1
Z ∞Z ∞ Yn  
1 1
= √ 2
exp − 2 (Xi − θ) dθdσ 2
0 −∞ i=1 2πσ 2 2σ
Z ∞Z ∞ ( n
)
1 1 X
= 2 n/2
exp − 2 (Xi − θ)2 dθdσ 2
0 −∞ (2πσ ) 2σ i=1

Denición 4.4. Sea {Xi , i = 1, . . . , n} alguna secuencia de cantidades aleatorias


y sea k alguna permutación de {1, 2, . . . , n}. Se dice que X es intercambiable
parcialmente si las cantidades {Zi , i = 1, . . . , n} tal que la distribución de (X|Z)
es la misma que (Xk |Zk ) para alguna permutación k.
Denición 4.5. (Punto de vista de la estadística clásica).
Sea X una cantidad aleatoria con función de densidad de probabilidad P (X|θ).
Entonces el estimador T = T (X) es suciente para el parámetro θ si:
P (X|T, θ) = P (X|T ) (4.3.2)

La denición indica que dado T , X no brinda información adicional acerca de θ.


Teorema 4.2. Si T = T (X) es un estadístico suciente para θ, entonces:
P (θ|X) = P (θ|T ), ∀ P (θ), a priori. (4.3.3)

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.3: Intercambiabilidad 96

Demostración.
P (X|θ) = P (X, T |θ); si T = T (X) y 0 si T 6= T (X)
= P (X|T, θ)P (T, θ)
= P (X|T, θ)P (T |θ)P (θ)
∝ P (X|T )P (T |θ)

Por el teorema de Bayes se tiene que:

P (θ|X) ∝ P (X|θ)P (θ)


= P (X|T )P (T |θ)P (θ)
∝ P (T |θ)P (θ); P (X|T ) no depende de θ.
= P (θ|T )

Entonces:

P (θ|X) = kP (θ|T ), para k>0

Debido a que P (θ|X) es una función de densidad de probabilidad, se tiene que:


Z Z
1= P (θ|X)dθ = k P (θ|T )dθ = k
Θ Θ

De esta forma, se concluye que:

P (θ|X) = P (θ|T )

2
Denición 4.6. (Punto de vista de la estadística Bayesiana).
El estadístico T (X) es suciente para θ si existe una función f tal que:
P (θ|X) ∝ f (θ; T ) (4.3.4)

Nota 4.1. Si T = T (X), es un estadístico p-dimensional, y At se dene por:


At = {X : T (X) = t},

entonces la colección de conjuntos At : t ∈ RP = {At } es una partición si:




0
At ∩ At0 = ∅, ∀t, t ∈ RP

y
[
At = S.
t

FACYT-MATEMÁTICAS
97 CAPÍTULO 4: Elementos de Inferencia

Teorema 4.3. Criterio de factorizacion de Neyman's.


El estadístico T es suciente para θ si y sólo si:
P (X|θ) = f (T, θ)g(X) (4.3.5)

donde f y g son funciones no negativas.


Demostración. (⇒)
P (X|θ) = P (X|T )P (T |θ) = g(X)f (T, θ)

(⇐)

P (X|θ) = f (T, θ)g(X)

Sea AT = {X : T (X) = T }. La función de densidad de probabilidad de T |θ está dada


por:

Z Z
P (T |θ) = P (X|θ)dθ = f (T ; θ)g(X)dX
AT AT
Z
= f (T ; θ) g(X)dX = f (T ; θ)G(X)
AT

para alguna función G. Por otra parte:

P (T |θ) P (X|θ) P (T |θ)


f (T, θ) = ⇒ =
G(X) g(X) G(X)

de modo que:

G(X) P (T |θ) P (X|θ) g(X)


= ⇒ =
g(X) P (X|θ) P (T |θ) G(X)

Además, se sabe que:

P (X|θ) g(X)
P (X|T, θ) = ⇒ P (X|T, θ) = = P (X|T )
P (T |θ) G(X)

es decir, P (X|T, θ) no depende de θ, por consiguiente T es suciente para θ. 2

4.4. Eliminación de Parámetros.


Supóngase que se observa X=x y se quiere obtener P (θ, φ|X).

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.4: Eliminación de Parámetros. 98

1. Distribuciones marginales:

Z
P (θ|X) = P (θ, φ|X)dφ
Φ

Z
P (φ|X) = P (θ, φ|X)dθ
Θ

2. Distribuciones a posteriori condicionales:

P (θ|φ, X) ∝ P (θ, φ|X).


P (φ|θ, X) ∝ P (θ, φ|X).
P (θ, φ, X) = P (θ, φ|X)P (X) ∝ P (θ, φ|X)
P (θ, φ, X) ∝ P (θ|φ, X)P (φ|X)
P (θ, φ|X)
⇒ P (θ|φ, X) = ∝ P (θ, φ|X)
P (φ|X)

3. Función de verosimilitud marginal: Sea L(θ, φ; X) = P (X|θ, φ). La verosimilitud


marginal se obtiene de la siguiente manera:

L(θ; X) = P (X|θ)
Z
= P (X, φ|θ)dφ

= P (X|θ, φ)P (φ|θ)dφ

L(φ; X) = P (X|φ, θ)P (θ|φ)dθ
θ

Ejemplo 4.2. Sea X1 , X2 , . . . , Xn ∼ N (θ, σ2 ) y sea φ = 1/σ2 , entonces el vector


de parámetros desconocidos es (θ, φ) y supóngase que interesa estimar la media de
la población. La precisión φ es un parámetro de ruido que podría ser eliminado del
análisis. Supóngase que φ ∼ Gamma (n0 /2, σ02 /2) y φ es independiente de θ a priori.
Entonces:
n0 σ02
 
n0 /2−1
P (φ|θ) = P (φ) ∝ φ exp − φ
2
( n
)
φ X
P (X|θ, φ) ∝ φn/2 exp − (Xi − θ)2
2 i=1

FACYT-MATEMÁTICAS
99 CAPÍTULO 4: Elementos de Inferencia

Por otra parte, se tiene que:


n n
X X 2
(Xi − θ)2 = Xi − X + X − θ
i=1 i=1
n
X 2 2
= Xi − X +n X−θ
i=1
h 2 i
= n S2 + X − θ

donde:
n n
1X
2
2 X 2
S = Xi − X ⇒ nS 2 = Xi − X
n i=1 i=1

Por lo tanto, la verosimilitud marginal de θ es:


Z
L(θ; X) = P (X|φ, θ)P (φ|θ)dφ
φ
Z ∞    
n0 /2−1 φ 2 n/2 φh 2 2 i
= φ exp − n0 σ0 φ exp − nS + n X − θ dφ
0 2 2
Z ∞  i
n/2+n0 /2−1 φh 2 2 2
= φ exp − nS + n X − θ + n0 σ0 dφ
0 2
Z ∞ " #(n0 +n)/2−1
2W
= 2 exp {−W}
0 nS 2 + n X − θ + n0 σ02
2dW
×h 2 i dφ
nS 2 + n X − θ + n0 σ02

donde:
h 2 iφ
W = nS 2 + n X − θ + n0 σ02
2
2W
⇒φ= 2
nS 2 + n X − θ + n0 σ02
2dW
⇒ dφ = 2
nS 2 + n X − θ + n0 σ02
De modo que:
" #(n0 +n)/2 Z

1
L(θ; X) ∝ 2 W(n0 +n)/2−1 e−W dW
nS 2 +n X−θ + n0 σ02 0

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.5: Familias de Escala y Localización 100

Γ( n02+n )
=h 2 i(n0 +n)/2
2 2
nS + n X − θ + n0 σ0
1
∝h 2 i(n0 +n)/2
nS 2 + n X − θ + n0 σ02
1
=  2
(n0 +n)/2
2 n(X−θ)
2
(nS + n0 σ0 ) 1 + nS 2 +n0 σ2
0
 −n/2
1
∝ k 2
 ; n0 → 0
(X−θ)
1 + S2
−[(n−1)+1]/2
T 2 (X, θ)

=k 1+
n−1

donde:
X−θ
T (X, θ) = q
S2
n−1

T ∼ tn−1

4.5. Familias de Escala y Localización


Teorema 4.4. Sea f (X) una función de densidad de probabilidad y sean µ y σ2 > 0
constantes, entonces la función:
 
1 X−µ
g(X|µ, σ) = f (4.5.1)
σ σ

es una función de densidad de probabilidad.

Demostración. Se debe probar que:

1 X−µ

1. σ
f σ
≥0
∞  
X−µ
Z
1
2. f dX = 1
−∞ σ σ

FACYT-MATEMÁTICAS
101 CAPÍTULO 4: Elementos de Inferencia

Debido a que f (X) es una función de densidad de probabilidad, f (X) ≥ 0, ∀ X,


entonces:
 
1 X−µ
f ≥ 0, ∀ X, µ, σ.
σ σ
Además, nótese que si:

X−µ
y= ⇒ σdy = dX
σ
De modo que nos queda lo siguiente:

∞   ∞
X−µ
Z Z
1
f dX = f (y)dy = 1
−∞ σ σ −∞

1 X−µ

En consecuencia, g(X|µ, σ) = σ
f σ
es una función de densidad de
probabilidad. 2
Denición 4.7. Sea f (X) una función de densidad de probabilidad, entonces la
familia de función de densidad de probabilidad f (X − µ) indexada por µ, donde
−∞ < µ < ∞, es llamada la familia de localización con función de densidad de
probabilidad estándar f (X) y µ es llamado el parámetro de localización de familia de
localización.
Denición 4.8. Sea f (X) una función de densidad de probabilidad, entonces para
algún σ > 0, la familia σ1 f Xσ indexada por el parámetro σ, es llamada la familia
escala con función de densidad de probabilidad estándar f (X) y σ es llamado
parámetro de escala de la familia.
Denición 4.9. Sea f (X) una función de densidad de probabilidad, entonces para
algún µ, donde −∞ < µ < ∞, y algún σ > 0, la familia de función de densidad
de probabilidad σ1 f X−µ
σ
indexada por el parámetro (µ, σ), es llamada la familia de
escala y localización con función de densidad de probabilidad estándar f (X), µ es el
parámetro de localización y σ es el parámetro de escala.

4.6. Distribuciones a Priori


Hay varios tipos de distribuciones a priori:

4.6.1. Prioris no Informativas


Una distribución a priori es no informativa si la priori es relativamente plana a la
función de verosimilitud. Una priori π(θ) es no informativa si ésta tiene mínimo

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 102

impacto sobre la distribución a posteriori de θ. Otros nombres para la priori no


informativa son los siguientes: priori de referencia, priori vaga o priori plana. Cuando
se tiene una priori no informativa, la distribución a posteriori es la siguiente:

π(θ|X) ∝ CL(θ|X) ∝ L(θ|X)

donde C es una constante.

Ejemplos de Prioris no Informativas


1. Si 0 < θ < 1, entonces θ ∼ U (0, 1), π(θ) = 1.
2. Sea −∞ < µ0 < ∞, entonces si θ ∼ N (µ0 , σ02 ) y σ02 → ∞, se obtiene una a
priori no informativa.

Una priori inversa π (σ 2 ) = 1/σ 2 , puede ser aproximada por una densidad Gamma.

Ejemplo 4.3. Sea X = (x1 , . . . , xn ) ∼ P oisson(θ) una muestra de variables


aleatorias, donde la verosimilitud de las observaciones viene dada por:
Pn
e−nθ θ i=1 xi
L(θ|X) = Qn
i=1 xi !

Ahora, tomando logaritmo:


n
X n
Y
log L(θ|X) = −nθ + xi log θ − log xi !
i=1 i=1
P n
∂ log L(θ|X) xi i=1
= −n +
∂θ Pn θ
∂ 2 log L(θ|X) x i
= − i=1
∂ 2θ θ2

Luego, la información de Fisher es la siguiente:


 Pn  n
i=1 xi 1 X 1 n
I(θ) = EX|θ = 2 E(xi ) = 2 nθ =
θ2 θ i=1 θ θ

La a priori no informativa es:


 1/2
1
P (θ) = [I(θ)] 1/2
∝ = θ−1/2
θ

FACYT-MATEMÁTICAS
103 CAPÍTULO 4: Elementos de Inferencia

La densidad a posteriori viene dada por:


P (θ|X) ∝ L(θ|X)P (θ)
Pn
∝ e−nθ θ i=1 xi −1/2
θ
Pn
=θ i=1 xi −1/2 −nθ
e
Pn
xi +1/2−1 −nθ
=θ i=1 e
n
!
X 1
⇒ θ|X ∼ Gamma xi + , n
i=1
2

Ejemplo 4.4. Si X ∼ Binomial(n, θ), entonces la verosimilitud viene dada de la


siguiente manera:
 
n
f (X|θ) = θX (1 − θ)n−X
X
 
n
⇒ log f (X|θ) = log + X log(θ) + (n − X) log(1 − θ)
X
∂ log f (X|θ) X (n − X)
= −
∂θ θ 1−θ
2
∂ log f (X|θ) X (n − X)
2
=− 2 −
∂ θ θ (1 − θ)2
 2 
∂ log f (X|θ) 1 1
⇒ EX|θ 2
= − 2 E(X) − E(n − X)
∂ θ θ (1 − θ)2
 
nθ n − nθ
=− 2 +
θ (1 − θ)2
 
n n − nθ
=− +
θ (1 − θ)2
n(1 − θ)2 + (n − nθ)θ
=
θ(1 − θ)2
n − 2nθ + nθ2 + nθ − nθ2
=
θ(1 − θ)2
n − nθ n(1 − θ) n
= 2
= 2
=
θ(1 − θ) θ(1 − θ) θ(1 − θ)
1
∝ = IB (θ)
θ(1 − θ)

Así que la a priori no informativa se dene como:


p(θ) ∝ [IB (θ)]1/2 = θ−1/2 (1 − θ)−1/2 = θ1/2−1 (1 − θ)1/2−1

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 104

 
1 1
⇒ θ ∼ Beta ,
2 2

Ejemplo 4.5. Supóngase que Y ∼ BN (s, θ), con función de densidad de


probabilidad:
 
n−1
f (Y|θ) = θs (1 − θ)Y−s
s−1

Hallar la priori no informativa PBN (θ).

Solución:
 
n−1
log f (Y|θ) = log + s log(θ) + (Y − s) log(1 − θ)
s−1
 
∂ log f (Y|θ) s Y−s
⇒ = −
∂θ θ 1−θ
2
∂ log f (Y|θ) s (Y − s)
2
=− 2 −
∂θ θ (1 − θ)2

La información esperada es:


 2 
∂ log f (Y|θ)
IBN (θ) = E −
∂θ2
1 1
= 2 E(s) + E(Y − s)
θ (1 − θ)2
s 1 s  s
= 2+ − s ; E(Y|θ) =
θ (1 − θ)2 θ θ
 
s 1 s − sθ
= 2+ 2
θ (1 − θ) θ
s (1 − θ)s s s
= 2+ 2
= 2+
θ (1 − θ) θ θ (1 − θ)θ
2
s(1 − θ)θ + sθ sθ − sθ2 + sθ2
= =
(1 − θ)θ2 (1 − θ)θ2
sθ s 1
= 2
= ∝
(1 − θ)θ (1 − θ)θ θ(1 − θ)

De este modo la a priori no informativa es la siguiente:


1/2
PBN (θ) ∝ [IBN (θ)]1/2 = θ−1 (1 − θ)−1


FACYT-MATEMÁTICAS
105 CAPÍTULO 4: Elementos de Inferencia

Problemas con las Distribuciones no Informativas


Posibilidades de distribuciones a posteriori impropias.

No cumple con el principio de verosimilitud.

Ejemplo 4.6. (datos normales con distribuciones a priori no informativas).


Sea P (µ, σ2 ) ∝ 1/σ2 y suponga que X1 , . . . , Xn ∼ N (µ, σ2 ). La distribución conjunta
se puede factorizar de la siguiente manera:
 n/2 n
( )
1 1 X 1
P µ, σ 2 |X ∝ (Xi − µ)2

exp − 2
σ2 2σ i=1 σ2
 n/2+1 ( " n #)
1 1 X 2 2
∝ exp − 2 Xi − X + n X − µ
σ2 σ i=1
 n/2+1  
1 1 h 2
2 i
∝ exp − 2 (n − 1)S + n X − µ
σ2 2σ

donde: S 2 = n−1 es la varianza muestral. Los estadísticos Y


1
P n 2
i=1 Xi − X
y S son estadísticos sucientes. Si µ es conocida y σ2 es desconocida, para
2

X = (X1 , . . . , Xn ) variables aleatorias, independientes e idénticamente distribuidas,


entonces la verosimilitud es:
n  
2
 Y 11 2
L σ |Y ∝ √ exp − 2 (Xi − µ)
i=1 2πσ 2 2σ
 n/2 ( n
)
1 1 X
∝ exp − 2 (Xi − µ)2
σ2 2σ i=1
( n
)
−n/2 1 X
= σ2 (Xi − µ)2

exp − 2
σ i=1
−n/2 n n o
= σ2 exp − 2 v

El estadístico suciente es el siguiente:
n
1X
v= (Xi − µ)2
n i=1

La densidad a priori conjugada correspondiente es la Inversa Gamma, es decir,


σ 2 ∼ IG(α, β), entonces:
−(α+1) −β/σ2
P σ2 ∝ σ2

e

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 106

Una parametrización conveniente es la distribución χ2 − Inversa escalada con σ02 y


v0 grados de libertad, es decir:

σ 2 ∼ Inv − χ2 v0 , σ02


P σ 2 |Y ∝ L σ 2 |Y P σ 2
  

Debido a que σ2 ∼ Inv − χ2 (v0 , σ02 ), entonces:

2 (v0 /2)v0 /2 v0 2 −(v0 /2+1)


exp −v0 σ02 /2σ 2 , σ 2 > 0
 
P σ = σ0 σ
Γ (v0 /2)
−(v0 /2+1)
∝ σ2 exp −v0 σ02 /2σ 2


Así que:

v0 σ02
n nv o  
2 2 −n/2 2 −(v0 /2+1)
  
P σ |Y ∝ σ exp − 2 σ exp − 2
2σ 2σ
 
−[(n+v0 )/2+1] 1
∝ σ2 exp − 2 nv + v0 σ02


2
 
2 2 v0 σ0 + nv
⇒ σ |Y ∼ Inv − χ v0 + n,
v0 + n

Por otra parte, si se sabe que: µ|σ2 , X ∼ N X, σ2 /n




 n/2+1  
2
 1 1 h 2
 2 i
⇒ P µ, σ |X ∝ exp − 2 n − S + n X − µ
σ2 2σ

Se puede determinar P (σ2 |X), de la siguiente manera:


Z ∞  n/2+1  
2
 1
1 h 2
2 i
P σ |Y ∝ exp − 2 (n − 1)S + n X − µ dµ
−∞ σ2

 n/2+1  Z ∞  
1 1  2
 1 2
= exp − 2 (n − 1)S exp − 2 n X − µ dµ
σ2 2σ −∞ 2σ
 n/2+1  p
1 1  2
 2πσ 2 /n
= exp − (n − 1)S p
σ2 2σ 2 2πσ 2 /n
Z ∞  
1 2
× exp − 2 n X − µ dµ
−∞ 2σ

FACYT-MATEMÁTICAS
107 CAPÍTULO 4: Elementos de Inferencia

Además, debido a que:


 Z ∞ 
1 1 2
p exp − 2 n X − µ dµ = 1
2πσ 2 /n −∞ 2σ
 n/2+1  r
1 1 2πσ 2
⇒ P σ 2 |Y = 2
  
exp − (n − 1)S
σ2 2σ 2 n
 n/2+1  
1 1  2

∝ exp − (n − 1)S
σ2 2σ 2
⇒ σ 2 |Y ∼ Inv − χ2 n − 1, S 2 (Inversa χ2 -escalada)


La distribución marginal P (µ|Y), viene dada por:


Z ∞
P µ, σ 2 |Y dσ 2

P (µ|Y) =
0
Z ∞  n/2+1  
1 1 h 2
2 i
= exp − 2 (n − 1)S + n X − µ dσ 2 = I
0 σ2 2σ

Sea z = A/2σ2 , tal que:


2
A = (n − 1)S 2 + n X − µ
2z 1
⇒ = 2
A σ
A Az −1
⇒ σ2 = =
2z 2
A
⇒ dσ 2 = − dz
2z
Luego:
Z ∞  n/2+1
2z A −z
I=− e dz
0 A 2z 2
Z ∞
−n/2
∝A z n/2+1−2 e−z dz
Z0 ∞
= A−n/2 z n/2−1 e−z dz (Kernel Gamma)
0
h 2 i−n/2
= (n − 1)S 2 + n X − µ
" 2 #−n/2
n X−µ
∝ 1+
(n − 1)S 2

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 108

En consecuencia:
S2
 
µ|Y ∼ tn−1 X,
n
Ejemplo 4.7. Supóngase que X ∼ N (θ, σ2 ), donde σ2 es conocido y θ ∈ (a, b), con
a < b.
a. Obtenga la a priori no informativa para θ .

b. Obtener la expresión completa de la a posteriori resultante.

c. Obtenga la media y la moda a posteriori.

Solución:

a. Sea θ ∼ U (a, b), entonces:


1/(b − a) si a < θ < b.

P (θ) =
0 en otro caso.
b.
 
1 2
L(X; θ) ∝ exp − 2 (X − θ)

P (θ|X) ∝ L(X; θ)P (θ)
  
1 2 1
= exp − 2 (X − θ)
2σ b−a
 
1
∝ exp − 2 (X − θ)2

2

⇒ θ|X ∼ N θ, σ
c. De acuerdo a b. se tiene que:
E(θ|X) = θ
Para estimar la moda se hace lo siguiente:
∂ log L(X; θ)
=0
∂θ
De modo que:
1
log L(X; θ) = − (X − θ)2
2σ 2
∂ log L(X; θ) 2(X − θ)
⇒ =
∂θ  2σ 2
2 X − θ̂
⇒ =0
2σ 2
⇒ θ̂ = X

FACYT-MATEMÁTICAS
109 CAPÍTULO 4: Elementos de Inferencia

4.6.2. Prioris Impropias.


Una a priori π(θ) es impropia si:
Z
π(θ)dθ = ∞
Θ

Ejemplos
1. Supóngase que para −∞ < θ < ∞, entonces la priori π(θ) ∝ 1, así que:
Z ∞ Z ∞
π(θ)dθ = dθ = ∞
−∞ −∞

2. De una a priori impropia puede resultar una a posteriori impropia. No se puede


hacer inferencia con distribuciones a posteriori impropias.

3. Una a priori impropia puede conducir a una distribución a posteriori.

4.6.3. Prioris Informativas


1. Una distribución a priori informativa no es dominada por la verosimilitud, y
tiene impacto sobre la distribución a posteriori.

2. Es útil, si se tiene información real de un estudio similar previo.

4.6.4. Jereys (Principio de Invarianza)


Un método usado para denir priori no informativa fue introducido por Jereys,
basado sobre una transformación uno a uno del parámetro φ = h(θ). Por la
transformación de variables, la densidad a priori P (θ) es equivalente en términos
de expresar la misma creencia en la siguiente densidad a priori sobre φ:

dθ −1
P (φ) = P (θ) = P (θ) |h0 (θ)|

Denición 4.10. La distribución a priori de Jereys es:
P (θ) ∝ [I(θ)]1/2
donde I(θ) es la información de Fisher para θ:
" 2 #  2 
d log P (y|θ) d log P (y|θ)
I(θ) = E θ = −E θ

dθ dθ2

Si se elige P (θ) ∝ I(θ), entonces P (φ) ∝ I(φ). La inferencia no depende de la


p p

escala elegida para el parámetro.

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 110

Lema 4.3. La priori de Jereys, P (θ) ∝ [I(θ)]1/2 , es invariante bajo transforma-


ciones uno a uno, es decir, si φ = g(θ) es una transformación uno a uno de θ,
entonces la priori de Jereys para φ es P (φ) ∝ [I(φ)]1/2 .
Demostración. Sea φ = g(θ) una transformación uno a uno de θ. Se evalúa I(φ) en
θ = g −1 (φ):
d2 log P (y|φ)
 
I(φ) = −E
dφ2
" 2 #
d2 log P (y|θ = g −1 (φ)) dθ
= −E
dθ2 dφ
 2
d log (y|θ = g −1 (φ))
 2

= −E E
dθ2 dφ
2

= I(θ)


1/2 1/2 dθ

∴ [I(φ)] = [I(θ)]

como se requiere. 2

4.6.5. Priori de Jereys


La regla de Jereys permite encontrar distribuciones a priori que son invariantes
bajo transformaciones:

1 1
π σ 2 ∝ 2 ⇒ π(σ) ∝

σ σ
En la mayoría de los casos, la a priori de Jereys, es una a priori impropia, sin
embargo la distribución a posteriori es propia.

Ejemplo 4.8. Suponga n ensayos de Bernoulli, entonces la verosimilitud para θ es


la siguiente:
P (X|θ) ∝ θX (1 − θ)n−X
Sea:
L = log P (X|θ) ∝ X log(θ) + (n − X) log(1 − θ)
de modo que:
∂L X n−X
= −
∂θ θ 1−θ
∂ 2L X n−X
2
=− 2 −
∂θ θ (1 − θ)2

FACYT-MATEMÁTICAS
111 CAPÍTULO 4: Elementos de Inferencia

Luego, se tiene que:

∂ 2L
 
nθ n − nθ
E − =−
∂θ2θ (1 − θ)2
   
nθ n(1 − θ) 1 1
=− + = −n +
θ (1 − θ)2 θ (1 − θ)
 2   
∂ L 1 1 n
⇒ −E 2
=n + = I(θ) =
∂θ θ 1−θ θ(1 − θ)
r
p n
π(θ) ∝ I(θ) = ∝ θ−1/2 (1 − θ)−1/2
θ(1 − θ)
 
1 1
⇒ θ ∼ Beta ,
2 2

Ejemplo 4.9. Sean X1 , . . . , Xn ∼ P oisson (θ), independientes e idénticamente


distribuidas, de modo que:

n Pn
Y θXi e−θ θ i=1 Xi −nθ
e
P (X|θ) = = n
i=1
Xi ! Y
Xi !
i=1
n
X n
X
⇒ L = log P (X|θ) = Xi log(θ) − nθ − Xi !
i=1 i=1

Por lo tanto:
Pn
∂L Xi
= i=1 −n
∂θ θ
n
∂ 2L
P
i=1 Xi
2
= −
∂θ θ2

Ahora, se obtiene lo siguiente:


Pn
i=1 E(Xi ) n p 1
I(θ) = = ⇒ I(θ) ∝ 1/2
θ θ θ
Z ∞ Z ∞
π(θ)dθ = θ−1/2 dθ = ∞
0 0

De lo anterior se concluye que la distribución a priori es impropia. La distribución a

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 112

posteriori viene dada por:


Pn
Xi −nθ
θ i=1 e
π(θ|X) = Qn θ−1/2
i=1 X i !
Pn
Xi −1/2 −nθ
∝θ i=1 e
Pn 1
=θ i=1 Xi + 2 −1 nθ
e
n
!
X 1
⇒ θ|X ∼ Gamma Xi + , n
i=1
2

En consecuencia la distribución a posteriori es propia.


En algunas situaciones no se requiere colocar información en la distribución a priori,
debido a que:

No se sabe nada sobre el problema.

Se quiere ser objetivo.

En estas situaciones se tienen que elegir distribuciones iniciales no informativas, pero


hay muchas posibilidades, así que se desea saber cuál es la más útil.

4.6.6. Principio de Razón Insuciente


Este principio dice que si no hay información para diferenciar entre valores diferentes
de θ, se debe dar la misma probabilidad a todos los valores. Entonces el principio
implica una distribución a priori uniforme para θ.
1. Si Θ = {θ1 , . . . , θn }, entonces f (θi ) = 1/N
2. Si Θ = (a, b), entonces f (θ) = 1/(b − a)
3. Si Θ = {1, 2, . . .}, entonces f (θ) ∝ 1
4. Si Θ = (−∞, ∞), se tiene f (θ) ∝ 1
Los casos 3 y 4 nos llevan a distribuciones a priori impropias. Por ejemplo, en el caso
P∞
3 para cualquier distribución constante P (θ) = C , θ=1 P (θ) = ∞. La distribución
a priori impropia no importa tanto, lo importante es que exista la distribución a
posteriori y que sea propia.
Recordar que P (x) es una densidad propia si:

P (x) ≥ 0, ∀x
Z
I = P (x)dx = 1

Si I es innito, se dice que P (x) es impropia.

FACYT-MATEMÁTICAS
113 CAPÍTULO 4: Elementos de Inferencia

Observación 4.1. La distribución uniforme no es invariante en caso de


transformación. Por ejemplo, si φ = log θ y la distribución a priori para θ es
uniforme, entonces se tiene que:
P (θ) ∝ eφ
el cual no es uniforme.

4.7. Práctica de Ejercicios del Capítulo 4


1. Sea X|θ ∼ f (X|θ). Dada una muestra X, se dice que un estadístico t = t(X) es
suciente para θ si:

f (X|θ) = f (t|θ)f (X|t)


(a) Demostrar que si t es suciente, dada una distribución a priori f (θ), la
distribución a posteriori es f (θ|X) = f (θ|t).
2. Sea:

θ2
f (X|θ) = (X + 1) exp{−θX}, θ ≥ 0
θ+1
una función de densidad.

(a) Hallar el núcleo de la distribución de Jereys para θ.


(b) ¾Es propia o impropia la distribución a priori de Jereys?

3. La distribución de Maxwell es:


r  
2 3/2 2 1 2
f (X|α) = α X exp − αX , para X>0
π 2
donde α > 0.
(a) Calcular la distribución a priori de Jereys para α.
(b) Demostrar que dada la distribución a priori de Jereys y una muestra de
datos (X1 , . . . , Xn ), la media a posteriori de α es igual al estimador de
máxima verosimilitud.

4. Suponer que X = (X1 , X2 , X3 )T se distribuye como trinomial dado θ = (θ1 , θ2 )T ;


 
n
P (X = x|θ) = θ1x1 θ2x2 (1 − θ1 − θ2 )x3
x1 x2 x3
donde x1 + x2 + x3 = n . Demostrar que la distribución a priori de Jereys para
θ es:
1
f (θ) ∝ p
θ1 θ2 (1 − θ1 − θ2 )
Además, se tiene que E[X1 |θ] = nθ1 , E[X2 |θ] = nθ2 y E[X3 |θ] = n(1 − θ1 − θ2 ).

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.7: Práctica de Ejercicios del Capítulo 4 114

5. Las observaciones X1 , X2 , . . . , X n son una muestra aleatoria de una distribución


Pareto con densidad:

θ3θ /Xθ+1 si X>3
f (X|θ) =
0 si no

donde θ > 0. Demostrar que la distribución inicial de Jereys para θ es


f (θ) ∝ 1/θ. Dados los datos y la distribución inicial de Jereys:
(a) Obtener la distribución a posteriori de θ.
(b) Demostrar que la distribución a posteriori de θ es una gamma. Para a>0
b
y b, a = exp(b log a).

(c) Demostrar que la media a posteriori es igual al estimador de máxima


verosimilitud.

6. Se observan 12 datos de una distribución normal N (µ, 1):


X = (15.644, 16.437, 17.287, 14.448, 15.308, 15.169,
18.123, 17.635, 17.259, 16.311, 15.390, 17.252) .
(a) Dada la distribución a priori de Jereys, hallar la distribución a posteriori
de µ.
(b) Sea Y|µ ∼ N (2µ, 4), donde µ es el mismo parámetro. ¾Cuál es la
distribución predictiva para Y?
7. Una empresa dedicada a la producción de pasta dentífrica desea introducir un
nuevo producto en el mercado y necesita saber si la campaña publicitaria inicial
la dirige a la población fumadora o no fumadora. Para ella, posee datos relativos
al gasto por persona y año en productos de higiene dental de la población:

Fumadores: 39.8 34.2 34.7 35.2 33.5 34.2 36.3 33.6 33.8 38.8
No fumadores: 35.9 34.7 33.6 33.2 36.3 34.3 31.8 32.8 36.3 32.9
Suponiendo que los gastos en cada grupo se distribuyen como normales con
varianza 1, dadas las distribuciones a priori de Jereys para la media de cada
grupo:

(a) Hallar la distribución a posteriori del gasto medio de la población de


fumadores.

(b) Calcular la distribución de la diferencia en el gasto medio para las dos


poblaciones. ¾Cuál es la probabilidad de que, en media, los no fumadores
gasten más en productos de higiene dental que los fumadores?

(c) Hallar un intervalo predictivo de 95 % de probabilidad a posteriori para los


gastos anuales de un fumador en productos de higiene dental.

(d) Repetir las partes (a) y (c) suponiendo que ahora las dos poblaciones son
normales con la misma precisión φ desconocida, y dada la distribución a
priori de Jereys.

FACYT-MATEMÁTICAS
115 CAPÍTULO 4: Elementos de Inferencia

8. Sea X1 , . . . , X n una muestra de distribución con densidad:

( x
θ1 − θ2
θ2
e para x>0
f (x|θ1 , θ2 ) = (1−θ1 ) x/θ2
θ2
e para x<0

donde: 0 < θ1 < 1 y θ2 > 0.


(a) Demuestre que (S, K) es suciente para (θ1 , θ2 ), donde K es el número de
0
Pn Pn
positivos Xi s, K = i=1 I(Xi > 0) y S = i=1 |Xi |
 
(b) Encuentre el estimador de máxima verosimilitud, θ̂1 , θ̂2 de (θ1 , θ2 ).
(c) Encuentre la matriz de información de Fisher, I(θ1 , θ2 ).
9. Las observaciones Xi = Zi + i , i = 1, 2, . . . , n, donde Zi son variables aleatorias
con distribución exponencial, independientes e idénticamente distribuidas, no
θ > 0 (fZ (z) = (1/θ) exp{−z/θ}I{z > 0}), y los términos
observables, con media
del errori son independientes e idénticamente distribuidos, Bernoulli con
parámetro p, independiente de los Zi (p = P (i = 1) = 1 − P (i = 0)).

(a) Encuentrar los estimadores del método de los momentos de θ y p. ¾Para qué
valores de (θ, p) son estas estimaciones consistentes?

(b) Demostrar que hay un estadístico suciente bidimensional para (θ, p).
(c) Encuentre la información de Fisher.

10. Para cada una de las siguientes distribuciones verique si el modelo es de


localización, escala o localización-escala:

(a) tα (µ, σ 2 ), con α conocido.


(b) P areto(x0 , α), con α jo, densidad P (x|x0 ) = αxα0 /x1+α , x > x0 y a, x 0 > 0
(c) Distribución uniforme en (θ − 1, θ + 1)

(d) Distribución uniforme en (−θ, θ)

11. Sea X1 , . . . , Xn cantidades aleatorias, independientes e idénticamente dis-


tribuidas, de distribución Weibull, denotada por W eibull(α, β), con α, β > 0,
donde:

P (x|α, β) = βαxα−1 exp {−βxα } , α > 0, β > 0

(a) Obtenga la función de verosimilitud, la función Score y la matriz de


información de Fisher observada y esperada para el par de parámetros (α, β).
(b) La distribución Weibull está algunas veces parametrizada en términos de α
α
y θ = 1/β . Repetir (a) para el par de parámetros (α, θ).

12. Sea X|θ, µ ∼ N (θ, σ 2 ), σ 2 conocido y θ|µ ∼ N (µ, τ 2 ), τ 2 conocido y


µ ∼ N (0, 1). Obtenga las siguientes distribuciones:

UNIVERSIDAD DE CARABOBO
SECCIÓN 4.7: Práctica de Ejercicios del Capítulo 4 116

(a) (θ|x, µ)
(b) (µ|x)
(c) (θ|x)
13. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución U (θ1 , θ2 ),
donde:

1
P (x|θ1 , θ2 ) = , θ1 ≤ x ≤ θ2
θ2 − θ1

Sea T (X) = X(1) , X(n) , obtenga su distribución conjunta y demuestre que este
es un estadístico suciente para θ = (θ1 , θ2 ).
14. Sea(X1 , X2 , X3 ) un vector aleatorio de distribución trinomial con parámetro
θ = (θ1 , θ2 , θ3 ), donde θ3 = 1 − θ1 − θ2 y asuma que la a priori para θ es
constante.

(a) Dena λ = θ1 /(θ1 + θ2 ) y ψ = θ1 + θ2 , y obtenga sus prioris.

(b) Obtenga la verosimilitud marginal de ψ .

(c) Demuestre que X 1 + X2 es un estadístico suciente para ψ.


15. Sea X1 ,. . . , Xn una muestra aleatoria de P (X|θ1 , θ2 ). Demuestre que si T1 es
suciente para θ1 cuando θ2 es conocido y T2 es suciente para θ2 cuando θ1 es
conocido, entonces T = (T1 , T2 ) es suciente para θ = (θ1 , θ2 ).

16. Sea −∞ < µ0 < ∞, entonces si θ ∼ N (µ0 , σ02 ) y σ02 → ∞, se obtiene una a
priori no informativa. Gracar en WinBUGS usando los siguientes datos:
(a) µ0 = 0; σ02 = 10
(b) µ0 = 0; σ02 = 100
(c) µ0 = 0; σ02 = 1000
17. Sea yi = µ + αi + εi , i = 1, 2, . . . , n, εi ∼ N (0, 1), independientes e idénticamente
distribuidos. Sea Θ = (α1 , α2 , . . . , αn , θ) y supóngase una a priori plana π(θ) ∝ 1.
Demostrar que π(θ|y1 , . . . , yn ) es impropia.

FACYT-MATEMÁTICAS
Capítulo 5

Estimación

Supóngase que se está interesado en una variable aleatoria X, la cual tiene un


modelo de probabilidad dado por: f (X|θ).
Supóngase que se observa n variables aleatorias, independientes e idénticamente
distribuidas: X 1 , . . . , Xn .
Supóngase que se quiere hacer inferencia sobre θ.

5.1. Métodos Clásicos


Para el análisis clásico, la función de verosimilitud juega un rol importante en la
inferencia estadística:

1. Por el principio de máxima verosimilitud, se usa el estimador de máxima


verosimilitud denotado por θ = g (X1 , . . . , Xn ), el cual es el valor de θ que
maximiza la función de verosimilitud L(θ|X) para estimar θ .

2. La variabilidad de θ depende de la varianza de θ a través de la función de


distribución de probabilidad de f (X|θ).
3. Un intervalo de conanza (1 − α) % dice que si se repiten las n realizaciones
obtenidas de f (X|θ) un número grande de veces, se obtiene la correspondiente
conanza (1 − α) % de que el intervalo incluye el parámetro θ.

5.2. Método Bayesiano


Para el análisis bayesiano, la distribución a posteriori juega un rol importante en la
inferencia estadística.

Se considera un parámetro desconocido que tiene una densidad a priori π(θ)


antes de ver los datos.

117
SECCIÓN 5.3: Comparación de Dos Medias. 118

Se actualiza la a priori mediante el teorema de Bayes y se obtiene la distribución


a posteriori como sigue:

π(θ|X) ∝ L(θ|X)P (θ)

Se estima θ por la media a posteriori E(θ|X).


La varianza a posteriori V ar(θ|X) es una medida de como varía θ.
Se pueden obtener los intervalos de conanza bayesianos, mediante la estimación
de la densidad a posteriori más alta (HPD).

5.3. Comparación de Dos Medias.


Considere dos distribuciones normales:

2 2

X1 , . . . , Xn |µX , σX ∼ N µX , σX
2 2

Y1 , . . . , Ym |µY , σY ∼ N µY , σY

Suponga que las dos muestras son independientes. Se está interesado en la distribución
a posteriori para la diferencia de medias δ = µX − µY .

5.3.1. Solución Usando una Priori Vaga


2 2
Suponga que las dos varianzas σX y σY son desconocidas pero iguales, con
2 2 2
varianza común σX = σY = σ .

Supóngase que la distribución a priori conjunta está dada por:

1
Π µX , µY , σ 2 ∝ 2

σ

Es fácil demostrar para una muestra simple de distribución normal que:


δ− X−Y
q ∼ tv
1 1
Sp n + m

donde: v = n + m − 2, son los grados de libertad de una t de Student y


2 +(m−1)S 2
(n−1)SX
Sp2 = n+m−2
Y
, es un pool de varianza de las dos muestras.

FACYT-MATEMÁTICAS
119 CAPÍTULO 5: Estimación

5.4. Datos no Apareados


Sea X = (x1 , . . . , xn ) y Y = (y1 , . . . , yn ), donde x1 , . . . , xn ∼ N (µ1 , 1/φ1 ) y
y1 , . . . , yn ∼ N (µ2 , 1/φ2 ), son variables aleatorias independientes e idénticamente
distribuidas. Supóngase que todos los parámetros son desconocidos, y sea:

L(µ1 , µ2 , φ1 , φ2 |X, Y) ∝ L(µ1 , φ1 |X)L(µ2 , φ2 |Y)


  n
n1
φ1 h 2
2 i 2
∝ φ1 exp −
2
(n1 − 1)S1 + n1 µ1 − X φ22
2
 
φ2 h
2
2 i
∗ exp − (n2 − 1)S2 + n2 µ2 − Y (5.4.1)
2
donde: X, Y son las medias y S12 , S22 son las varianzas de las dos muestras,
respectivamente.

5.4.1. Varianzas Conocidas.


Suponga que las distribuciones a priori de µ1 y µ2 son independientes, donde
µ1 ∼ N (m1 , 1/α1 φ1 ) y µ2 ∼ N (m2 , 1/α2 φ2 ). Es fácil demostrar que:
 
∗ 1
µ1 |X ∼ N m1 , ∗
α1 φ1
y
 
1
µ2 |Y ∼ N m∗2 , ∗
α2 φ2
α1∗ = α1 + n1 , α2∗ = α2 + n2 , m∗1 = α1 m1 + n1 X / (α1 + n1 ) y m∗2 =

donde:

α2 m2 + n2 Y / (α2 + n2 ). Entonces se obtiene una distribución a posteriori de δ .

Teorema 5.1. Sea δ|X, Y ∼ N m∗1 − m∗2 , α∗11φ1 + α∗21φ2 . Suponiendo la siguiente a
 

priori: P (µ1 ) = P (µ2 ) ∝ 1, entonces las distribuciones marginales vienen dadas por:
 
µ1 |X ∼ N X, n11φ1
 
µ2 |Y ∼ N Y, n21φ2
 
1 1
δ|X, Y ∼ N X − Y, n1 φ1 + n2 φ2
El intervalo de credibilidad HPD para δ es el siguiente:
r
1 1
X − Y ± Z1− α2 +
n1 φ1 n2 φ2
el cual es igual al intervalo clásico.

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.4: Datos no Apareados 120

5.4.2. Varianzas Desconocidas pero Iguales


Supónga ahora que φ1 = φ2 = φ, entonces la verosimilitud es:

n1 +n2 φh
L(µ1 , µ2 , φ|X, Y) ∝ φ 2 exp − (n1 − 1)S12 + (n2 − 1)S22
2
2 2 io
+n1 µ1 − X + n2 µ2 − Y

Suponiendo las distribuciones a priori habituales:


 
µ1 |φ ∼ N m1 , α11 φ
 
1
µ2 |φ ∼ N m2 , α2 φ

φ ∼ Gamma a2 , 2b


La distribución a priori es la siguiente:

P (µ1 , µ2 , φ) = P (µ1 )P (µ2 )P (φ)


 
a+2
−1 φ 2 2
∝φ 2 exp − b + α1 (µ1 − m1 ) + α2 (µ2 − m2 )
2

Asimismo, la distribución a posteriori es:

P (µ1 , µ2 , φ|X, Y) ∝ L (µ1 , µ2 , φ|X, Y) P (µ1 , µ2 , φ)



n1 +n2 φh 2
=φ 2 exp − (n1 − 1)S12 + (n2 − 1)S22 + n1 µ1 − X
2

2 i o a+2 −1 φ
+n2 µ2 − Y φ 2 exp − b + α1 (µ1 − m1 )2
2
o
+α2 (µ2 − m2 )2


n1 +n2 +a
−1 φh 2
=φ 2 exp − b + (n1 − 1)S12 + (n2 − 1) S22 + n1 µ1 − X
2
2 io
2 2
+n2 µ2 − Y + α1 (µ1 − m1 ) + α2 (µ2 − m2 )
 
a∗ +2
−1 φ ∗ ∗ ∗ 2 ∗ ∗ 2
∝φ 2 exp − b + α1 (µ1 − m1 ) + α2 (µ2 − m2 )
2

donde:

α1∗ = α1 + n1
α2∗ = α2 + n2
α1 m1 +n1 X
m∗1 = α1 +n1

FACYT-MATEMÁTICAS
121 CAPÍTULO 5: Estimación

α2 m2 +n2 Y
m∗2 = α2 +n2
a∗ = a + n 1 + n 2
α1 n1
2 α2 n2
2
b∗ = b + (n1 − 1)S12 + (n2 − 1)S22 + α1 +n1
X − m1 + α2 +n2
Y − m2

Teorema 5.2. Sea:h i


1. δ|X, Y, φ ∼ N m∗1 − m∗2 , (1/α1∗ + 1/α2∗ ) φ1
2. φ|X, Y ∼ Gamma (a∗ /2, b∗ /2)
3. δ, φ|X, Y ∼ N − Gamma m∗1 − m∗2 , (1/α1∗ + 1/α2∗ )−1 , a∗ /2, b∗ /2
 

El intervalo de credibilidad para δ es:


s
b∗ 1− α2

1 1
m∗1 − m∗2 ± + ∗ t∗

α1 α2 a∗ a

Observación 5.1. Suponiendo una distribución a priori no informativa:


1
P (µ1 , µ2 , φ) ∝
φ

se puede demostrar que la distribución a posteriori es:


1
P (µ1 , µ2 , φ|X, Y) ∝ L (µ1 , µ2 , φ|X, Y)
φ

la cual es de la misma forma que la anterior, pero con valores distintos para los
parámetros. Ahora, se tiene que: α1∗ = n1 , α2∗ = n2 , m∗1 = X, m∗2 = Y, a∗ = n1 +n2 −2
y b∗ = (n1 − 1)S12 + (n2 − 1)S22 , entonces:
" −1 #
n1 + n2 − 2 (n1 − 1)S12 + (n2 − 1)S22

1 1
δ, φ|X, Y ∼ N − Gamma X − Y, + , ,
n1 n2 2 2

y un intervalo de credibilidad para δ será:


r
1− α 1 1
X−Y± tn1 +n
2
S
2 −2 p
+
n1 n2
donde:
(n1 − 1)S12 + (n2 − 1)S22
Sp2 =
n1 + n2 − 2
es el estimador clásico de la varianza.

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.4: Datos no Apareados 122

5.4.3. Varianzas Desconocidas


El problema de Behrens y Fisher
Supóngase que las distribuciones a priori son no informativas:

1
P (µ1 , φ1 ) ∝
φ1
1
P (µ2 , φ2 ) ∝
φ2
Se sabe que las distribuciones marginales a posteriori de µ1 y µ2 , son distribuciones
t de Student no centradas, es decir:

S12
 
µ1 |X ∼ t n1 − 1, X,
n1
S22
 
µ2 |Y ∼ t n2 − 1, Y,
n2
Entonces la distribución a posteriori de δ es la distribución de la diferencia entre dos
variables t de Student.
Z
P (δ|X, Y) = Pµ1 (δ + µ2 |X) P (µ2 |Y)dµ2

donde δ = µ1 − µ2 , así que µ1 = δ + µ2 . Sin embargo, se necesitan métodos numéricos


para resolver la integral. Es más fácil considerar la función normalizada:

0 δ− X−Y
δ = q 2
S1 S2
n1
+ n22

Si se dene:

s 1 / n1
tan W = √
s 2 / n2
se puede demostrar que:

0
δ = T1 cos W − T2 senW
donde:

µ1 − X
T1 = √
s1 / n1
µ2 − Y
T2 = √
s2 / n2
tienen distribuciones t de Student centradas.

FACYT-MATEMÁTICAS
123 CAPÍTULO 5: Estimación

Demostración. Sean T1 ∼ tn1 −1 y T2 ∼ tn2 −1 . Se tiene que:

√s1 √s2
0 n1 n2
δ = T1 q − T2 q
s21 s22 s21 s22
n1
+ n2 n1
+ n2
√s1 √s2
µ1 − X n1 µ2 − Y n2
= −
√s1 √s2
q q
s21 s22 s21 s22
n1
n1
+ n2
n2
n1
+ n2

µ1 − X µ2 − Y
=q 2 −q 2
s1 s22 s1 s2
n1
+ n2 n1
+ n22
0
⇒ δ ∼ BF (v1 , v2 , W )
es decir:
  √ 
0 s 1 / n1
δ ∼ BF n1 − 1, n2 − 1, arctan √
s 2 / n2
2
Nota 5.1. Es complicado calcular intervalos de credibilidad, sin embargo se puede
utilizar una aproximación. Si X ∼ BF (v1 , v2 , W ), se tiene que: X ≈ tb , donde a y
b se pueden estimar. Otro método es muestrear de las distribuciones marginales a
posteriori µ1 |X y µ2 |Y, es decir:
P (δ|X, Y) ∝ P (µ1 |X)P (µ2 |Y)

5.5. Datos Apareados


Sea (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) una muestra apareada, es habitual trabajar con
las diferencias di = Xi − Yi , donde i = 1, . . . , n, y:
 
1
di ∼ N δ,
φd
Si se hace inferencia sobre δ , suponiendo una distribución a priori Gamma para (δ, φd ),
esto es:

1
P (δ, φd ) ∝
φd
entonces la distribución a posteriori viene dada por:
 
(α∗ +1)/2−1 φd  ∗ ∗ ∗ 2

P (δ, φd |X, Y) ∝ φd exp − b + α (δ − m )
2
donde:a∗ = a + n, b∗ = b + (n − 1)Sd2 + αn
α+n
(m − δ)2 , α∗ = α + n y m∗ =
(αm + nδ)/(α + n).

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.6: Estimación por Intervalo Usando el Método Bayesiano 124

5.6. Estimación por Intervalo Usando el Método


Bayesiano
Denición 5.1. Sea θ una cantidad desconocida denida en Θ. Una región C ∈ Θ
es una región de conanza bayesiana o de credibilidad 100(1 − α) % para θ, si:
P (θ ∈ C|X) ≥ 1 − α

En este caso 1 − α es llamado la credibilidad o nivel de conanza. En el caso escalar,


la región C es dada en el intervalo [c1 , c2 ].
Ejemplo 5.1. Si X1 , . . . , Xn ∼ N (θ, σ2 ), σ2 es conocido y P (θ) ∝ 1, entonces:
σ2
 
P (θ|X) ∼ N X,
n
o equivalentemente:
√ (θ−X)
n σ2 X ∼ N (0, 1)

Sea φ(x) = FX (x) = P (X ≤ x). Un intervalo de conanza para θ es:


 √ 
n(θ−X)
1−α=P −z α2 < < z α2 X
σ
 
=P −z α2 √σn < θ − X < z α2 √σn X
 
=P X − z α2 √σn < θ < X + z α2 √σn X

Denición 5.2. La densidad a posteriori más alta (HPD) de un intervalo de


100(1 − α) % para θ, es el intervalo bayesiano C dado por:

C = {θ ∈ Θ : P (θ|X) > k(α)} (5.6.1)

donde k(α) es el contraste más grande, tal que: P (θ ∈ C|X) ≥ 1 − α


1. Sea X1 , . . . , Xn ∼ N (θ, σ 2 ), y φ = 1/σ 2 . Si φ es conocida y θ ∼ N (µ0 , τ02 ),
entonces:

θ|X ∼ N µ1 , τ12


donde:

n µ0
σ
X + τ02
µ1 =
n/σ 2 + 1/τ02

FACYT-MATEMÁTICAS
125 CAPÍTULO 5: Estimación

1
τ12 =
n/σ 2 + 1/τ 2
Un HPD se obtiene como sigue:

θ−µ1
τ1
X ∼ N (0, 1)
así que:
 
θ−µ1
1−α=P −z α2 < τ1
< z α2 X

=P µ1 − z α2 τ1 < θ < µ1 + z α2 τ1 X
En consecuencia, un HPD para θ es el siguiente:

µ1 − z α2 τ1 , µ1 + z α2 τ1

2. Si θ es conocido y σ 2 = 1/φ está dado por: n0 σ02 φ ∼ χ2n0 , la distribución a


posteriori viene dada de la siguiente manera: (n0 σ02 + nS02 ) φ|X ∼ χ2n+n0 , donde
S02 = n1 ni=1 (Xi − θ)2 .
P

  n + n0
E (n0 σ02 + nS02 ) φ X = n + n0 ⇒ E(φ|X) =
n0 σ02 + nS02
2(n + n0 )
⇐ 2(n + n0 ) = V ar n0 σ02 + nS02 φ|X
  
V ar [φ|X] = 2
(n0 σ02 + nS02 )
Los HPD para φ y σ2, vienen dados por:
 
1 − α = P χ21− α2 ,n1 < (n0 σ02 + nS02 ) φ < χ2α2 ,n1 X ; n1 = n0 + n
 χ2 χ2α ,n

1− α 2 ,n1
=P 2 1
< φ < n0 σ2 +nS 2 X
n0 σ 2 +nS 2 0 0 0 0

2
Si σ = 1/φ, entonces el HPD del 100(1 − α) % para σ2 es:
!
n0 σ02 + nS02 n0 σ02 + nS02
1−α=P < σ2 <
χ2α ,n1 χ21− α ,n1
2 2

3. Si θ y σ2 son cantidades desconocidas, θ|φ ∼ N (µ0 , 1/c0 φ) y n0 σ02 φ ∼ χ2n0 ,


entonces:

σ12
 
θ|X ∼ tn1 µ1 ,
c1
y

n0 σ02 φ|X ∼ χ2n1

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.6: Estimación por Intervalo Usando el Método Bayesiano 126

donde:

c0 n µ 0 − X
n1 σ12 = n0 σ02 + (n − 1)S 2 +
n + c0
y

Pn 2
i=1 Xi − X
S2 =
n−1
El HPD para θ es el siguiente:
 
√ (θ − µ1 )
1 − α = P −t α2 ,n1 < c1 < t α2 ,n1
σ1
 
σ1 σ1
= P µ1 − t 2 ,n1 √ < θ < µ1 + t 2 ,n1 √
α α
c1 c1
y el HPD para φ es:
 
1−α=P χ21− α ,n1 < n1 σ12 φ < χ2α ,n1 X
2 2
 χ2 χ 2 
α
1− 2 ,n1 α
=P 2 ,n1
n1 σ 2
< φ < n1 σ 2
X
1 1

Si P (θ, φ) ∝ φ−1 , entonces las distribuciones marginales vienen dadas por:

S2
 
θ|X ∼ tn−1 X,
n
y

(n − 1)φS 2 |X ∼ χ2n−1
√
Debido a que: θ−X n/S ∼ N (0, 1), y (n − 1)S 2 /σ 2 ∼ χ2n−1 , entonces:
√ √
θ − X n/S θ−X n
T =p = ∼ tn−1
(n − 1)S 2 /σ 2 (n − 1) S

El HPD para θ es el siguiente:


 
S S
X − t α2 ,n−1 √ , X + t αn ,n−1 √
n n
y el HPD para σ2 es:
!
(n − 1)S 2 (n − 1)S 2
, 2
χ2α ,n−1 χ1− α ,n−1
2 2

FACYT-MATEMÁTICAS
127 CAPÍTULO 5: Estimación

5.7. Razones de Dos Varianzas


Supóngase que φ1 |X ∼ Gamma (a1 /2, b1 /2) y φ2 |X ∼ Gamma (a2 /2, b2 /2), donde:

1 1
σ12 = ⇒ φ1 = 2
φ1 σ1
1 1
σ22 = ⇒ φ2 = 2
φ2 σ2
Suponga que b1 φ1 ∼ χ2a1 y b2 φ2 ∼ χ2a2 , entonces:

b1 φ1 /a1 a2 b1 φ1
= ∼ Faa21
b2 φ2 /a2 a1 b2 φ2
1/σ12
Sea θ = φ1 /φ2 = 1/σ22
= σ22 /σ12 , de modo que:

P (li < θ < ls) = 1 − α


Por lo tanto:

σ2 σ12
     
1 1 1 1 1 b 1 a2 1 b1 a2 1−α
P < < =P < 12 < =P < < F
ls θ li ls σ2 li 1−α
a1 b2 Fa1 ,a2 σ22
a1 b2 a2 ,a1
Nota 5.2. Veamos lo siguiente:
 
φ1
1 − α = P (θ < ls) = P < ls
φ2
 
a2 b1 φ1 a2 b 1
=P ≤ ls
a1 b2 φ2 a1 b 2
 
1−α a2 b 1
= P Fa1 ,a2 ≤ ls
a1 b 2
Así que:
a2 b 1 a1 b2 1−α
ls = Fa1−α
,a ⇒ ls = F
a1 b 2 1 2
a2 b1 a1 ,a2
Por otro lado:
 
φ1
1 − α = P (θ > li) = P > li
φ2
 
a2 b 1 a2 b 1
=P > li
a1 b 2 a1 b 2
 
1−α a2 b1
= P Fa2 ,a1 > li
a1 b 2
Entonces:
a2 b 1 a1 b2 1−α
li = Fa1−α
2 ,a1
⇒ li = F
a1 b 2 a2 b1 a2 ,a1

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.8: Estimación Puntual 128

5.8. Estimación Puntual


Para los bayesianos el problema de estimación es un problema de decisión. Asociado
con cada estimador T hay una pérdida L(T, θ) que reeja la diferencia entre θ y T.
Por ejemplo:

L(T, θ) = (T − θ)2 , la pérdida cuadrática.

L(T, θ) = |T − θ|, la pérdida lineal absoluta.



0 si T = 0
L(T, θ) = , la pérdida de todo o nada.
1 si T 6= 0
(T −θ)2
L(T, θ) = |θ|+1

Denición 5.3. El estimador de Bayes T B es la solución de:

T B = mı́n E {L(T, θ)} (5.8.1)


T

Ejemplo 5.2. Hallar el estimador T B cuando L(T, θ) = (T − θ)2 .

Solución:

Z
E{L(T, θ)} = (T − θ)2 f (θ)dθ
Z
= [T − E(θ) + E(θ) − θ]2 f (θ)dθ
Z
[T − E(θ)]2 + [E(θ) − θ]2

=

+ 2 [T − E(θ)][E(θ) − θ]} f (θ)dθ


Z Z
2
= [E(θ) − θ] f (θ)dθ + 2[T − E(θ)] [E(θ) − θ]f (θ)dθ
Z
+ [T − E(θ)]2 f (θ)dθ
 Z Z 
= V ar(θ) + 2[T − E(θ)] E(θ) f (θ)dθ − θf (θ)dθ
Z
2
+ [T − E(θ)] f (θ)dθ

= [T − E(θ)]2 + V ar(θ) + 2[T − E(θ)] [E(θ) − E(θ)]


= [T − E(θ)]2 + V ar(θ)

FACYT-MATEMÁTICAS
129 CAPÍTULO 5: Estimación

Se sabe que: V ar(θ) = E (θ2 ) − [E(θ)]2 . Además:


Z Z Z Z
2
[E(θ) − θ] f (θ)dθ = [E(θ)] f (θ)dθ − 2 θE(θ)f (θ)dθ + θ2 f (θ)dθ
2

Z Z
2
f (θ)dθ − 2E(θ) θf (θ)dθ + E θ2

= [E(θ)]

= [E(θ)]2 − 2[E(θ)]2 + E θ2


= E θ2 − [E(θ)]2


∂E [L (T, θ)]
= 2 T B − E(θ) = 0
 

∂T
B
⇒ T − E(θ) = 0
Por lo tanto T B = E(θ|X) es el estimador de Bayes.
Ejemplo 5.3. Hallar T B si L(T, θ) = |T − θ|.
Solución:

−(T − θ) si T − θ < 0

|T − θ| =
T −θ si T − θ > 0
θ − T si T < θ

=
T − θ si T > θ
Por consiguiente:
Z Z T Z ∞
E{L(T, θ)} = |T − θ|f (θ)dθ = (T − θ)f (θ)dθ + (θ − T )f (θ)dθ
−∞ T

Asi que:
Z T Z ∞
∂E{L(T, θ)}
= (T − T )f (T ) + f (θ)dθ − (T − T )f (T ) + f (θ)dθ
∂θ −∞ T
= F (T ) − [1 − F (T )]
= 2F (T ) − 1 (5.8.2)

Igualando a cero 5.8.2, se obtiene la mediana de la distribución de θ:


1
F (T ) =
2
Ejemplo 5.4. Sea X1 , . . . , Xn ∼ Bernoulli(θ), independientes e idénticamente
distribuidas, θ desconocido y θ ∼ U (0, 1). Se desea estimar θ usando la función de
pérdida:
(θ − d)2
L(d, θ) =
θ(1 − θ)

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.8: Estimación Puntual 130

a. Calcule el estimador de Bayes.


b. Determine la distribución predictiva para Xn+1 . Además, determine la media y
la varianza.
Solución:

a.

P (θ|X) ∝ L(X; θ)P (θ)


= θX1 (1 − θ)1−X1 · · · θXn (1 − θ)1−Xn 1
Pn Pn
Xi
=θ i=1 (1 − θ)n− i=1 Xi

= θt(Xi ) (1 − θ)n−t(Xi )
= θt(Xi )+1−1 (1 − θ)n−t(Xi )+1−1
⇒ θ|X ∼ Beta(t + 1, n − t + 1)

n
donde: t = t(Xi ) = Xi , i = 1, . . . , n. Entonces:
X

i=1

Z 1
E [L(d, θ)] = L(d, θ)P (θ|X)dθ
0
1
(θ − d)2 t
Z
= θ (1 − θ)n−t dθ
0 θ(1 − θ)
Z 1
= (θ − d)2 θt−1 (1 − θ)n−t−1 dθ
0
= EBeta(t,n−t) (θ − d)2

De modo que:
∂E [L(d, θ)]
= −2EBeta(t,n−t) (θ − d) (5.8.3)
∂d

Igualando a cero 5.8.3, se obtiene lo siguiente:

EBeta(t,n−t) (θ) = dˆ

Así que:
Pn
t t Xi
dˆ = = = i=1
=X
t+n−t n n

FACYT-MATEMÁTICAS
131 CAPÍTULO 5: Estimación

b.
Z 1
P (Xn+1 |X1 , . . . , Xn ) = P (Xn+1 |θ)P (θ|X1 , . . . , Xn )dθ
0
Z 1
= P (Xn+1 |θ)θt (1 − θ)n−t dθ
Z0 1
= θXn+1 (1 − θ)1−Xn+1 θt (1 − θ)n−t dθ
Z0 1
= θt+Xn+1 (1 − θ)n−t−Xn+1 +1 dθ
Z0 1
= θt+Xn+1 +1−1 (1 − θ)n−t−Xn+1 +2−1 dθ
0
Γ(t + Xn+1 + 1)Γ(n − t − Xn+1 + 2)
=
Γ(n + 3)
= Beta(t + Xn+1 + 1, n − t − Xn+1 + 2)
En consecuencia:
t + Xn+1 + 1
E(Xn+1 |X1 , . . . , Xn ) =
n+3
y
t + Xn+1 + 1
V ar(Xn+1 |X1 , . . . , Xn ) =
(n + 4)2 (n + 3)
Nota 5.3. La Integral Beta.

Z 1
Γ(α + β) α−1
Si θ (1 − θ)β−1 dθ = 1, entonces se tiene que:
0 Γ(α)Γ(β)
Z 1
Γ(α)Γ(β)
θα−1 (1 − θ)β−1 dθ =
0 Γ(α + β)

5.9. Práctica de Ejercicios del Capítulo 5


1. Suponga que la proporción de manzanas malas en un gran lote es desconocida
y tiene la siguiente densidad a priori:

60θ2 (1 − θ)3 si 0<θ<1
π(θ) =
0 en otro caso

Se seleccionan aleatoriamente del lote 10 manzanas, obteniéndose tres malas.


Encuentre el estimador de Bayes de θ:

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 132

(a) de máxima densidad a posteriori.

(b) en relación a la pérdida cuadrática.

2. Suponga que X ∼ U (0, θ) y que θ ∼ Exponencial(1). Determine el estimador


de Bayes:

(a) en relación a la pérdida cuadrática.

(b) en relación a la pérdida de valor absoluto.

3. Suponga que se dispone de una muestra aleatoria de cuatro observaciones de la


distribución U (0, θ) y que la densidad a priori para θ es:

1/θ2 si θ≥1
π(θ) =
0 en otro caso

Determine el estimador de Bayes:

(a) en relación a la pérdida cuadrática.

(b) en relación a la pérdida de valor absoluto.

4. Suponga que X es una observación Geométrica(p), es decir, P (X = x|p) =


q k−1 p, donde x = 1, 2, . . .; 0 < p < 1. Además, considere la distribución uniforme
como distribución a priori para p.
(a) Encuentre los estimadores de Bayes bajo pérdida cuadrática y bajo pérdida
en valor absoluto.

(b) Encuentre el estimador de máxima verosimilitud y compare los resultados


con los otros estimadores encontrados.

5. Considere la función de pérdida dada por:



K0 (θ − a) si θ−a≥0
L(θ, a) =
K1 (a − θ) si θ−a<0
donde K0 , K1 > 0.
K0
(a) Demuestre que el estimador de Bayes de θ es el
K0 +K1
−percentil de la
densidad a posteriori.

(b) Denotemos por X el puntaje de un test de inteligencia aplicado a alumnos


de un curso de octavo básico. Suponga que X ∼ N (θ, 100), donde θ es el
verdadero coeciente intelectual del alumno. Además θ ∼ N (100, 225). Si
K0 = 2 y K1 = 1, determine el estimador de Bayes de θ.
(c) Determine una región de credibilidad de HPD para θ de nivel 0.95.

6. Un sistema está formado por varias componentes, cinco de las cuales son
revisadas. El número de componentes defectuosas X, tiene una distribución
Binomial(5, θ) y del pasado se sabe que θ ∼ Beta(1, 9). Suponga que se observa
x = 0.

FACYT-MATEMÁTICAS
133 CAPÍTULO 5: Estimación

(a) Determine el estimador de Bayes de θ, si:


2
i. L(θ, a) = (θ − a)
ii. L(θ, a) = |θ − a|
(b) Determine la región de credibilidad de nivel 0.95 de HPD para θ.
7. Sea X = (X1 , . . . , Xn ) una muestra aleatoria proveniente de la distribución
normal de media 0 y varianza φ, N (0, φ), donde φ > 0.
es decir

(a) Calcule el estimador máximo verosímil de φ.

(b) Suponga que a priori φ ∼ Gamma − Inversa(r, λ), donde r es un entero


positivo. Calcule el estimador de Bayes de φ bajo pérdida cuadrática.
Discuta la solución cuando r , λ → 0.

(c) Determine ahora el estimador de Bayes de φ bajo pérdida cuadrática,


considerando una priori de Jereys. Relacione su resultado con el item (b).

(d) Suponga que se observó x = (−3.2, −1.0, 0.6, 1.8, 1.2) y se considera la priori
del item (c). Determine una región de credibilidad de nivel 0.90 para φ, de
alta probabilidad en torno de la moda a posteriori.

(e) Escriba las ecuaciones para desarrollar el item (d) considerando la priori del
item (b).

8. El número de incendios semanal en una cierta extensión geográca tiene


distribución de Poisson de parámetro λ. λ, asi que
Nada se conoce acerca de
λ, π(λ) = λ−1 , donde
se considera la distribución a priori no-informativa para
λ > 0. El número de incendios en cinco períodos semanales fue x = (0, 1, 0, 1, 0).
(a) Calcule la distribución a posteriori.

(b) Determine una región de credibilidad para λ


0.95. de nivel

(c) Si 0 < λ < 0.2, el área es considerada de bajo riesgo, si 0.2 ≤ λ < 0.5, el
área es considerada de riesgo medio, y si λ ≥ 0.5, el área es considerada de
alto riesgo. La función de pérdida L(λ, a) viene dada en la siguiente tabla:
Con la información que se cuenta, ¾cuál es la acción que usted tomaría?

a1 (bajo) a2 (medio) a3 (alto)

0≤ λ < 0.2 0 2 2
0.2≤ λ < 0.5 1 0 1
λ ≥ 0.5 2 2 0

9. Demuestre que si L1 y L2 son dos funciones de pérdida proporcionales, esto es,


L1 (δ, θ) = kL2 (δ, θ), entonces el estimador de Bayes asociado con estas pérdidas
coinciden.

10. Suponga que el tiempo de espera en la cola de un banco tiene distribución


Exponencial(θ) con θ > 0. Una muestra de n clientes es observada durante un
período de T minutos.

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 134

(a) Suponga que los tiempos de espera individual fueron descartados y


solamente el número X de clientes fue registrado. Determine el estimador
de máxima verosimilitud de θ basado en X.
(b) Determine los estimadores de Bayes y máxima verosimilitud de θ, asumiendo
que en una muestra de n = 20 clientes el tiempo de servicio promedio fue
3.8 minutos y todos los 20 clientes fueron atendidos.

(c) Suponga que además de las observaciones reportadas en (b), una observación
adicional fue hecha pero todo lo que se sabe es que duró más de 5 minutos.
Obtenga los estimadores de Bayes y máxima verosimilitud de θ en este caso.
11. Suponga que se desea probar tres tipos de bombillas: vida normal, vida larga
y vida extra larga. Los tiempos de vida de las bombillas tienen distribución
exponencial con medias θ, 2θ y 3θ, respectivamente. Asuma que la prueba
consiste en observar una bombilla selecionada aleatoriamente de cada tipo.

(a) Determine el estimador de máxima verosimilitud de θ.


(b) Determine el estimador del método de los momentos de θ.
(c) Sea ψ = 1/θ y asuma la a priori ψ ∼ Gamma(α, β). Determine la
distribución a posteriori de θ.
(d) Determine el estimador de Bayes de θ usando la función de pérdida
cuadrática.

12. Sea X1 , . . . , Xn una muestra aleatoria de distribución uniforme en el intervalo


[a − b, a + b], donde a ∈ R y b > 0.
(a) Verique si a y b son parámetros de localización y/o escala.

(b) Obtenga el estimador de máxima verosimilitud de a y b.


(c) Asuma ahora que b=1 y dena:
Pn
Xi
T1 = X = i=1
 n 
1
T2 = máx Xi + mı́n Xi
2 1≤i≤n 1≤i≤n

(d) Demuestre que T1 y T2 son estimadores consistentes e insesgados de a.


(e) Compare T1 y T2 especicando una elección entre ellos y justicando esto.
13. Sea X ∼ Binomial(n, θ) y asuma la a priori θ ∼ U (0, 1). Suponga que el valor
observado fue X = n.
(a) Demuestre que el intervalo HPD de 100(1 − α) % de θ tiene forma [a, 1],
donde a < 1.
(b) Sea ψ = θ/(1 − θ). Demuestre tomando en cuenta (a) que P (a/(1 − a) ≤
ψ|x) = 1 − α y por tanto [ a/(1 − a), ∞) es un intervalo de credibilidad de
100(1 − α) % para ψ .

FACYT-MATEMÁTICAS
135 CAPÍTULO 5: Estimación

(c) Obtenga la distribución a posteriori de ψ y discuta la forma de un intervalo


HPD de 100(1 − α) % para ψ.
(d) En particular, ¾es el intervalo obtenido en (b) de HPD?

14. Sea Xi = θti + i , i = 1, . . . , n y los i ∼ N (0, σ 2 ), independientes e


donde
2
idénticamente distribuidos, con σ conocido. Además, se asume la a priori no
informativa para θ .

(a) Obtenga la distribución a posteriori de θ.


(b) Obtenga la región HPD de 100(1 − α) % para θ.
(c) Basado en la distribución de muestreo del estimador de máxima
verosimilitud de θ, construya un intervalo de conanza de 100(1 − α) %
para θ.
15. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de distribución N (θ1 , σ 2 ) y
Y = (Y1 , . . . , Yn ) una muestra aleatoria de distribución N (θ2 , kσ 2 ), con k
conocida.

(a) Asumiendo una a priori no


informativa para (θ1 , θ2 , σ 2 ), obtenga la
2
distribución a posteriori de θ1 − θ2 y σ .

(b) Construya un intervalo HPD de 100(1 − α) % para θ1 − θ2 .

UNIVERSIDAD DE CARABOBO
SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 136

FACYT-MATEMÁTICAS
Capítulo 6

Inferencia Sobre Muestras


Grandes

6.1. Aproximación de la Distribución a


Posteriori Conjunta.
Si la distribución a posteriori P (θ|Y) es unimodal y simétrica, es conveniente
aproximarla por una distribución normal centrada en la moda, es decir, el logaritmo
de la función de densidad a posteriori es aproximada por una función cuadrática,
mediante:
h  i 1  T  ∂ 2   
log [P (θ|Y)] ≈ log P θ̂|Y + θ − θ̂ log P (θ|Y) θ − θ̂ + · · ··
2 ∂θ2 θ=θ̂
(6.1.1)

El término lineal en la expansión es cero debido a que la densidad del log −a posteriori
tiene derivada cero en la moda. El resto de los términos de mayor orden desaparecen
cuando θ está cerca de θ̂ y n es grande. Entonces es fácil probar que:
 h  i 
−1
P (θ|Y) ≈ N θ̂, I θ̂

donde: I(θ) es la información observada, denida por:

∂2
I(θ) = − log[P (θ|Y)]
∂θ2
Teorema 6.1. Suponga que xi |θ ∼ f (xi |θ) y que P (θ) es la distribución a priori.
Dado los datos X, cuando n → ∞:
1. θ|X ≈ N [E(θ|X), V ar(θ|X)], suponiendo que la media y la varianza existen.
h  i
2. θ|X ≈ N θ̂, I1 θ̂ , donde: θ̂ es la moda de la distribución nal y I1 (θ) es la
−1

información observada.

137
SECCIÓN 6.1: Aproximación de la Distribución a
Posteriori Conjunta. 138

h  i
3. θ|X ≈ N θ̂, I2−1 θ̂ , donde: θ̂ es el estimador de máxima verosimilitud de θ,
suponiendo que I2 (θ) = − ∂θ∂ 2 log [f (X|θ)]
2

h  i n 2 o
4. θ|X ≈ N θ̂, I3−1 θ̂ , donde: I3 (θ) = −nEX ∂θ2 log [f (X|θ)] , es la

información esperada.
Ejemplo 6.1. Sea y1 , y2 , . . . , yn ∼ N (µ, σ2 ), independientes e idénticamente
distribuidas. Suponga que P (µ, log σ) ∝ 1. A continuación se construirá la
aproximación:
1  2 2
log P (µ, log σ|y) = C − n log σ − (n − 1)S + n (ȳ − µ)
2σ 2
donde C es una constante.

Solución:

∂ log P n(ȳ − µ)
=
∂µ σ2
∂ log P (n − 1)S 2 + n(ȳ − µ)2
= −n +
∂ log σ σ2

La moda a posteriori es la siguiente:


  
n−1 2
(µ̂, log σ̂) = ȳ, log S
n

Las segundas derivadas son:


∂ 2 log P (µ, log σ|y) n
2
=− 2
∂µ σ
2
∂ P (µ, log σ|y)
=0
∂µ∂ log σ
∂ 2 log P (µ, log σ|y) 1 
= − 2 (n − 1)S 2 + n(ȳ − µ)2

∂(log σ) 2 2σ

Evaluando en cada una de las segundas derivadas, se obtiene que:


∂ 2 log P

n
2
=− 2
∂µ 2 2 σ̂
2
µ=µ̂,σ̂ =σ
∂ log P 1 2 1
= 2 (n − 1)S =
∂(log σ)2 µ̂=µ,σ2 =σ̂2

2 (n−1)S 2n
n

FACYT-MATEMÁTICAS
139 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

En consecuencia:
 
−n/σ̂ 2 0
I(θ) =
0 1/2n
 2 
−1 σ̂ /n 0
⇒ I (θ) =
0 2n

Por lo tanto:
" !  #
h ŷ 2
σ̂ /n 0
P (µ, log σ|y) ≈ N ,
i
log (n−1)
n
S 2
0 2n

Ejemplo 6.2. Aproximación a una distribución Beta.


Supóngase que x|θ ∼ Binomial(n, θ) y θ ∼ Beta(α, β). Obtener la aproximación de
P (θ|x).

Solución:

P (θ|x) ∝ L(θ|x)P (θ)


 
n Γ(α)Γ(β) α−1
= θx (1 − θ)n−x θ (1 − θ)β−1
x Γ(α + β)
∝ θx+α−1 (1 − θ)n+β−x−1
⇒ θ|x ∼ Beta(α + x, β + n − x)

Si se utiliza la primera aproximación , se obtiene que:


α+x
E(θ|x) =
β+n−x
(α + x)(β + n − x)
V ar(θ|x) =
(α + β + n)2 (α + β + n + 1)2
De esta forma:
 
α+x (α + x)(β + n − x)
θ|x ≈ N ,
β + n − x (α + β + n)2 (α + β + n + 1)2

Si se utiliza la segunda aproximación , se tiene que:


P (θ|x) ∝ θα+x−1 (1 − θ)β+n−x−1

Se calcula la moda de la siguiente manera:


log P (θ|x) = C + (α + x − 1) log θ + (β + n − x − 1) log(1 − θ)

UNIVERSIDAD DE CARABOBO
SECCIÓN 6.1: Aproximación de la Distribución a
Posteriori Conjunta. 140

donde C es una constante. Luego:


∂ log P (θ|x) (α + x − 1) β + n − x − 1
= + (−1) (6.1.2)
∂θ θ 1−θ
Igualando a cero 6.1.2, entonces:
α+x−1 β+n−x−1
=
θ̂ 1 − θ̂
α + x − 1 − (α + x − 1)θ̂ = (β + n − x − 1)θ̂
α + x − 1 = (α + x − 1 + β + n − x − 1)θ̂
α+x−1
⇒ θ̂ =
α+β+n−2
donde θ̂ es la moda. Se calcula la información observada como sigue:
∂ 2 log P (θ|x) (α + x − 1) (β + n − x − 1)
2
=− −
∂θ θ2 (1 − θ)2
  ∂2
⇒ I1 θ̂ = − 2 log [P (θ|x)]
∂θ
α+x−1 β+n−x−1
= +  2
θ̂2 1 − θ̂
α+x−1 β+n−x−1
= 2 +  2
α+x−1 α+x−1
α+β+n−2
1 − α+β+n−2

(α + β + n − 2)2 β+n−x−1
= + 2
α+x−1 α+β+n−2−α−x+1
α+β+n−2
2
(α + β + n − 2) (α + β + n − 2)2 (β + n − x − 1)
= +
α+x−1 (β + n − x − 1)2
2
(α + β + n − 2) (α + β + n − 2)2
= +
α+x−1 (β + n − x − 1)
 
2 1 1
= (α + β + n − 2) +
α+x−1 β+n−x−1
 
2 β +n−x−1+α+x−1
= (α + β + n − 2)
(α + x − 1)(β + n − x − 1)
2
(α + β + n − 2) (β + α + n − 2)
=
(α + x − 1)(β + n − x − 1)
(α + β + n − 2)3
=
(α + x − 1)(β + n − x − 1)

FACYT-MATEMÁTICAS
141 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

  (α + x − 1)(β + n − x − 1)
∴ I1−1 θ̂ =
(α + β + n − 2)3
En consecuencia:  
α+x−1 (α + x − 1)(β + n − x − 1)
θ|x ≈ N ,
α+β+n−2 (α + β + n − 2)3
Si se utiliza la tercera aproximación , se obtiene que:
 
n
L(θ|x) = θx (1 − θ)n−x
x
 
n
log L(θ|x) = log + x log θ + (n − x) log(1 − θ)
x
∂ log L(θ|x) x (n − x)
= − (6.1.3)
∂θ θ 1−θ
Igualando a cero 6.1.3, se tiene lo siguiente:
x n−x
=
 θ̂ 1 − θ̂
⇒ x 1 − θ̂ = (n − x)θ̂
⇒ x − xθ̂ = (n − x)θ̂
⇒ x = (n − x + x)θ̂
x
⇒ θ̂ =
n
Así que:
∂ 2 log[L(θ|x)]
I2 (θ) = −
∂θ2
2
∂ log[L(θ|x)] x (n − x)
= − −
∂θ2 θ2 (1 − θ)2
x (n − x)
⇒ I2 (θ) = 2 +
θ (1 − θ)2
  x n−x
I2 θ̂ = 2 +
x x 2

n
1 − n
n2 x (n − x)n2
 
2 1 1
= 2 + =n +
x (n − x)2 x n−x
n3
 
2 n−x+x
=n =
x(n − x) x(n − x)
  (n − x)x
⇒ I2−1 θ̂ =
n3

UNIVERSIDAD DE CARABOBO
SECCIÓN 6.1: Aproximación de la Distribución a
Posteriori Conjunta. 142

De esta forma:
 
x (n − x)x
θ|x ≈ N ,
n n3
Si se utiliza la cuarta aproximación , se tiene que:
∂ 2 log L(θ|x)
 
I3 (θ) = −nEx
∂θ2
Debido a que:
∂ 2 log L(θ|x) x (n − x)
2
=− 2 −
∂θ θ (1 − θ)2
∂ 2 log L(θ|x)
   
x (n − x) Ex (x) n − E(x)
⇒ Ex = −Ex 2 + =− +
∂θ2 θ (1 − θ)2 θ2 (1 − θ)2
   
nθ n − nθ n n(1 − θ)
=− 2 + =− +
θ (1 − θ)2 θ (1 − θ)2
   
n n 1−θ+θ
=− + = −n
θ 1−θ θ(1 − θ)
n
=−
θ(1 − θ)
En consecuencia:
∂ 2 log L(θ|x) n2
I3 (θ) = −nEx =
∂θ2 θ(1 − θ)
De este modo:
  n2 n4
I3 θ̂ = x
=
1 − nx

n
x(n − x)
  x(n − x)
⇒ I3−1 θ̂ =
n4
Por consiguiente:
 
x x(n − x)
θ|x ≈ N ,
n n4
Por ejemplo, si α = β = 1, n = 100 y x = 20, entonces las aproximaciones son las
siguientes:
Primera aproximación: θ|x ≈ N (0.2592, 0.00001541)
Segunda aproximación: θ|x ≈ N (0.2, 0.0016)

FACYT-MATEMÁTICAS
143 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

Tercera aproximación: θ|x ≈ N (0.2, 0.0016)


Cuarta aproximación: θ|x ≈ N (0.2, 0.000016)
Observación 6.1. Normalmente la primera aproximación será mejor que la segunda.
Se utiliza la segunda aproximación cuando es difícil o imposible calcular la media y
varianza a posteriori. La tercera aproximación es equivalente a la segunda suponiendo
una distribución a priori uniforme para θ. La cuarta aproximación es la peor. Sólo
se utiliza si no se puede calcular la información de Fisher observada.
Ejemplo 6.3. Suponga que x|λ ∼ Exponencial(λ) y λ ∼ Gamma(1, 1). Dados los
datos n = 99 y x̄ = 1, obtener P (λ|x) y aproximar un intervalo de credibilidad de
95 % para λ.

Solución:
 
100 100
λ|x ∼ Gamma(1 + 99, 1 + 99 × 1) = Gamma(100, 100) ≈ N , = N (1, 0.01)
100 1002
Entonces el intervalo de credibilidad para λ es:

1 ± 1.96 0.01 = (0.804, 1.196)

Nota 6.1. Hay algunas situaciones donde no vale el teorema. Por ejemplo:
Si la probabilidad inicial de θ es cero.
Si la a posteriori es impropia.
Si el modelo no es identicable.
Por ejemplo, cuando el modelo L(θ1 , θ2 , . . . , θk ) = w1 g(θ1 |x) + · · · + wk g(θk |x) es
una mezcla de densidades de la misma familia. Dado los datos, la verosimilitud será
multimodal porque el modelo no es indenticable. Se necesita restringir el espacio
Θ para que el modelo sea indenticable. Se puede suponer que: θ1 < · · · < θk , y el
teorema es válido todavía.

6.2. Práctica de Ejercicios del Capítulo 6


1) Suponga que la distribución a priori P (µ, c) para los parámetros µ y c de una
distribución con densidad:
n X o
P (x|µ, c) = M c−1 exp − |x − µ|3 /c3 , con M constante

es uniforme en µ y c, y que las cuatro observaciones:

x1 = 1, x2 = 1, x3 = 2, x4 = 3,

UNIVERSIDAD DE CARABOBO
SECCIÓN 6.2: Práctica de Ejercicios del Capítulo 6 144

están disponibles con esta distribución. Calculado el valor de la densidad a


posteriori P (µ, c) (ignorando la constante) con un decimal de µ = 1, 1.5, 2, 2.5, 3
y c = 1.2, 1.4, 1.6, 1.8, 2.0. Use la regla de Simpson:
Z b
(b − a)
f (t)dt = {f (t0 ) + 4f (t1 ) + 2f (t2 ) + 4f (t3 ) + · · · · +f (tn )}
a 3n
para aproximar la densidad a posteriori de µ. Encuentre una aproximación a la
propabilidad a posteriori tal que:

1.75 < µ < 2.25

2) Suponga que x ∼ P oisson(10), es decir, x es Poisson con media 10, y y ∼


P oisson(20). ¾Cuál es la distribución aproximada de 2x + y ?
3) Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de distribución N (0, θ2 ).
(a) Obtenga la distribución a posteriori asintótica de θ cuando n → ∞.
de θ . Ayuda:
2
(b) Obtenga la media y la varianza a posteriori asintótica
X ∼ N (0, 1) ⇒ X2 ∼ χ21 .
4) Sea X ∼ Binomial(20, θ) y asuma que X = 7 fue observado. Obtenga un
intervalo de conanza de 90 % para θ usando una a priori uniforme y:

(a) el hecho de que si z ∼ Beta(a, b) entonces:

b z
∼ F (2a, 2b);
a1−z
(b) una aproximación asintótica para ψ = θ/(1 − θ)
√ 
−1
(c) una aproximación asintótica para φ = sen θ
(d) Compare los resultados.

5) Sea Xn = (X1 , . . . , Xn ) un vector de variables aleatorias independientes donde


Xi ∼ P oisson(θti ), i = 1, . . . , n y t1 , . . . , tn son los tiempos conocidos.
(a) Pruebe que el estimador de máxima verosimilitud de θ es θ̂ = X/t̄, donde
X = ni=1 Xi /n y t̄ = ni=1 ti /n.
P P

(b) Obtenga la distribución asintótica a posteriori de θ|xn | y construya un


intervalo de conanza asintótico de 100(1 − α) % para θ asumiendo que
n es grande.

(c) Obtenga la distribución asintótica a posteriori de θ1/2 |xn | y basándose en


esto, construya un intervalo de conanza asintótico de 100(1 − α) % para θ
asumiendo que n es grande.

(d) Compare los intervalos de conanza obtenidos en (b) y (c), considerando


especialmente sus longitudes.

FACYT-MATEMÁTICAS
145 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

6) Sea X1 , . . . , X n una muestra aleatoria de una distribución con densidad:

f (x|θ) = θxθ−1 Ix ([0, 1])


(a) Obtenga el intervalo de conanza asintótico de 100(1 − α) % para θ
basándose en las aproximaciones para la distribución a posteriori de θ.
(b) Repita el item (a) basando los cálculos ahora en la distribución asintótica
de la función Score U (X; θ).
(c) Repita el item (a) basando los cálculos ahora en el teorema del límite central
aplicado a la muestra Xn = (X1 , . . . , Xn ).
7) Sea X1 , . . . , Xn una muestra aleatoria de distribución P oisson(θ) y dena
λ = θ1/a , a 6= 0.
(a) Obtenga la función de verosimilitud L(λ; X).
(b) Obtenga la a priori de Jereys no informativa para λ.
(c) Obtenga la expansión de Taylor de l(λ) = log L(λ) alrededor del estimador
de máxima verosimilitud de λ y determine el valor o los valores de a para
el cual el término de tercer orden desaparece.

8) Suponga que x ∼ P oisson(8.5) y y ∼ P oisson(11.0). ¾Cuál es la distribución


aproximada de x − y ?

9) Un reporte publicado en 1966 acerca del efecto de radiación en pacientes con


cáncer de pulmón comparó los efectos del tratamiento de radiación con los
placebos. El número de sobrevivientes después de un año fue:

Radiación Placebos
Número de casos 308 246
Número de sobrevivientes 56 34

¾Cuáles son las posibilidades a posteriori aproximadas de que el rango de


supervivencia en un año de pacientes irradiados sea al menos 0.01 mayor que los
que no fueron irradiados?

10) La siguiente tabla da los resultados de los exámenes de 100 varones y 100
hembras de escuela de edades similares sobre el soplo cardíaco:

Soplo Sin soplo Total

Varones 58 42 100
Hembras 46 54 100
Total 100 96 200

¾Cuáles son las posibilidades a posteriori aproximadas de que la proporción de


varones con soplo cardíaco sea al menos 10 % mayor que el de las hembras?

UNIVERSIDAD DE CARABOBO
SECCIÓN 6.2: Práctica de Ejercicios del Capítulo 6 146

FACYT-MATEMÁTICAS
Capítulo 7

Métodos de Aproximación y
Simulación.

7.1. Algoritmo Newton-Raphson (N-R).


Es un algoritmo para encontrar ceros de una función diferenciable dos veces, dada
p
por: g : R → R, con p ≥ 1. Es fácil obtener la expansión de Taylor de g alrededor
(0)
de un punto arbitrario x ∈ Rp :
 
 (0)
 (0) 0
 ∂g x(0)
g(x) = g x + x−x + · · ··
∂x
Sin tomar en cuenta los términos de orden mayor en x − x(0) para valores cercanos
(0)
adecuados de x y x , se obtiene que:
 (0) 
 (0)  0 ∂g x
+ x − x(0)

g(x) ' g x
∂x
Si x∗ es un cero de g entonces se resuelve la ecuación anterior para x∗ , donde se
escoge:
 (0)  #−1
"
∂g x
x∗ ' x(1) = x(0) − g x(0)
 
∂x

Esto permite que se comience con un valor inicial x(0) y que se use la relación
mostrada anteriormente. El algoritmo suministra un nuevo valor x(1) cercano a la
raíz de la ecuación de arriba. Este nuevo punto es la intersección de la línea tangente,
(0) (1)
la aproximación lineal de g en x , con el eje x. El procedimiento se repite con x
(0) ∗
reemplazando x . Esto conduce a una mejor aproximación para x denotado por
x(2) . Se repite el proceso sucesivamente y se obtiene la relación recursiva:
 (j−1)  #−1
"
∂g x
x(j) = x(j−1) − g x(j−1)
 
(7.1.1)
∂x

147
SECCIÓN 7.1: Algoritmo Newton-Raphson (N-R). 148

El criterio de parada es el siguiente:


(j)
x − x(j−1) < δ

y
 (j) 
g x < ε

donde δ y ε son valores arbitrarios.

Figura 7.1: Representación gráca del método iterativo para encontrar las raíces de
una ecuación en el caso escalar.

7.1.1. Solución Usando la Verosimilitud


Sea:

∂ log P (X|θ)
U (X; θ) =
∂θ
la función Score. El estimador de máxima verosimilitud es la solución de la ecuación
U (X; θ) = 0.

FACYT-MATEMÁTICAS
149 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Por otro lado, sea J(θ) = − ∂U ∂θ


(X;θ)
la matriz de información observada, entonces
usando el algoritmo Newton-Raphson se tiene que:

 −1  (j−1) 
θ(j) = θ(j−1) + J θ(j−1)
 
U θ

Ejemplo 7.1. Sean x1 , x2 , . . . , xn ∼ W eibull(α, β), variables aleatorias, independi-


entes e idénticamente distribuidas, cada una con función de densidad de probabilidad
dada por:
αβxα−1 exp {−βxα } si α > 0, β > 0

f (x|α, β) =
0 en otro caso
La verosimilitud viene dada de la siguiente manera:
l = L(x1 , . . . , xn ; α, β)
= f (x1 ; α, β) . . . f (xn ; α, β)
= αβx1α−1 exp {−βxα1 } . . . αβxα−1 n exp {−βxαn }
( n ) n
X Y
n n
= α β exp − βxi α
xα−1
i
i=1 i=1

Así que:
n
X n
X
ln(l) = n ln(α) + n ln(β) − βxαi + (α − 1) ln(xi ) (7.1.2)
i=1 i=1

Por lo tanto:
n
∂ ln(l) n X α
= − xi (7.1.3)
∂β β i=1

Igualando a cero 7.1.3, entonces:


n
n X n
= xαi ⇒ β̂ = Pn
β̂ i=1 i=1 xαi

Sustituyendo β̂ en 7.1.2, se obtiene lo siguiente:


  n n
n X n X
ln(l) = n ln(α) + n ln Pn − Pn xα + (α − 1)
α i
ln(xi )
i=1 xαi i=1 i=1 xi i=1
n
! n
X X
= n ln(α) + n ln(n) − n ln xαi + (α − 1) ln(xi ) − n
i=1 i=1

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.1: Algoritmo Newton-Raphson (N-R). 150

Diferenciando con respecto a α, se tiene que:


n
n nα ni=1 xαi ln(xi )
P
∂L X
= log xi + − Pn α = U (x, α)
∂α i=1
α i=1 x i
(
0P
[nα ni=1 xαi ln(xi )] ni=1 xαi
P
∂U (x, α) n
⇒ =− 2 − 2
∂α α ( ni=1 xαi )
P
)
0
nα ni=1 xαi ln(xi ) ( ni=1 xαi )
P P
− 2
( ni=1 xαi )
P
(  Pn
n i=1 xαi ln(xi ) + nα ni=1 xαi ln2 (xi )
P  Pn α
n i=1 xi
=− 2 − Pn α 2
α ( i=1 xi )
Pn α Pn α )
nα i=1 xi ln(xi ) i=1 xi ln(xi )
− 2
( ni=1 xαi )
P
( P
n ni=1 xαi ln(xi ) ni=1 xαi + nα ni=1 x2i ln2 (xi ) ni=1 xαi
P P P
n
=− 2 − 2
α ( ni=1 xαi )
P
)
2
nα [ ni=1 xαi ln(xi )]
P
− 2
( ni=1 xαi )
P
h
Pn 2
α
ln2 (xi ) − ni=1 xαi ln(xi )]
P
n nα i=1 (x i )
=− 2 − 2
α ( ni=1 x2i )
P

n ni=1 xαi ln(xi ) ni=1 xαi


P P
− 2
( ni=1 xαi )
P

Ahora, sea:
∂U (x, α)
J(α) = −
∂α
2
nα ni=1 xαi ln2 (xi ) − ni=1 xαi ln(xi )
P  P Pn α Pn α
n i=1 xi ln xi xi
= 2+ Pn 2 2 +n Pn α 2i=1
α ( i=1 xi ) ( i=1 xi )

Aplicando el algoritmo Newton-Raphson (N-R) con un valor inicial α(0) , se obtiene


que:
α(j) = α(j−1) + J −1 α(j−1) U x; α(j−1)
   
(7.1.4)

Debido a que la convergencia en α es alcanzada, β puede ser estimada por:


n
β̂ = Pn (7.1.5)
i=1 xαi

FACYT-MATEMÁTICAS
151 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Ejemplo 7.2. Genere muestras de tamaño n = 1000, n = 2000, n = 3000 y n = 5000


de una distribución W eibull(α = 1.5, β = 2), y estime α̂ y β̂ .

Solución: El siguiente algoritmo tiene como nalidad realizar la estimación de α̂


y β̂ :
Algoritmo en R 7.1. (Newton-Raphson)

# Algoritmo Newton-Raphson
# a iterado inicial
# b beta inicial
# tol tolerancia

newraph <-function(a,b,tol,n){
A<-rep(0,1000)
B<-rep(0,1000)
c=0;
i=1
A[i]=a
j=1
B[j]=b
while(abs(a-c)>tol){
i=i+1
j=j+1
x<-rweibull(n,b,a);
U<-(n/a)-(n*a*sum((x^a)*log(x)))/sum(x^a)+sum(log(x));
J = n/a^2+(n*sum((x^a)*log(x))*sum(x^a))/(sum(x^a)^2)
+n*a*sum(x^a*(log(x)^2-sum(x^a*log(x)))^2)/(sum(x^a))^2
c<-a;
a<-a+(J^-1)*U;
A[i]=a
b=n/sum(x^a);
B[j]=b
}
C<- rep(0,i)

for (t in 1:i){
if(A[t]!=0){
C[t]=A[t]
}
}
D<- rep(0,j)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 152

for (h in 1:j){
if(B[h]!=0){
D[t]=B[t]
}
}
print("Resumen estadístico de alpha:")
H=summary(C)
print(H)
K=summary(D)
print("Resumen estadístico de beta:")
print(K)
par(mfrow=c(2,1))
ALPHA=C
BETA=D
plot(ALPHA,ylim=c(0,2),pch=15,col="red")
plot(BETA,ylim=c(0,0.02),pch=15,col="purple")
}

Utilizando el algoritmo en R 7.1, para n = 1000, a = 1.5, b = 2 y tol = 0.01, se


obtuvo la gura 7.2, la cual muestra el comportamiento de α̂ y β̂ obtenido a través
de las iteraciones realizadas por el algoritmo. Además se obtuvo el siguiente resumen
estadístico tanto para α̂ como para β̂ :
> newraph(1.5,2,0.01,1000)
[1] "Resumen estadístico de alpha:"
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.3079 0.7799 0.9733 1.0100 1.2300 1.7410
[1] "Resumen estadístico de beta:"
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00000 0.00000 0.00000 0.02551 0.00000 1.12200
Las estimaciones de α̂ y β̂ , con n = 2000, n = 3000 y n = 5000, se dejan planteadas
como ejercicio.

7.2. El Algoritmo EM (Dempster, Laird y Rubin,


1977)
Sean X ∈ Rn un vector n-dimensional de cantidades observadas y Z ∈ Rm un vector
m-dimensional de cantidades no observadas. Los datos completos se denotan por
Y = (X, Z)T ∈ Rn+m y su función de densidad es P (Y|θ) = P (X, Z|θ), donde θ ∈ Θ.
Sea P (Z|X, θ) la densidad condicional de los datos no observados. Para obtener

FACYT-MATEMÁTICAS
153 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.2: Grácos arrojados por el algoritmo en R 7.1., con a= 1.5, b= 2, tol= 0.01
y n= 1000.

el estimador de máxima verosimilitud de θ se usa el logaritmo de la verosimilitud


marginal, de la siguiente manera:
Z 
L(θ, X) = log P (X, Z|θ)dZ

el cual es directamente maximizado. Para evitar calcular integrales en altas


dimensiones, se puede usar la siguiente relación:
 
P (X, Z|θ)
L(θ, X) = log = log P (X, Z|θ) − log P (Z|X, θ)
P (Z|X, θ)
ya que Z es no observada, entonces es necesario eliminarla antes de maximizar L(θ, X).
Una forma de hacer esto es tomando el valor esperado con respecto a la densidad
condicional P (Z|X, θ). Note que:

EZ|X,θ [L(θ, X)] = Q θ; θ(0) − H θ; θ(0)


 

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 154

donde:

Q θ; θ(0) = EZ|X,θ(0) [log P (X, Z|θ)]




H θ; θ(0) = EZ|X,θ(0) [log P (Z|X, θ)]




Nótese que θ(0) es algún valor inicial dado para θ. La esperanza involucrada en la
(j)
denición de Q está basada en la verosimilitud completa de Y . Si θ denota el valor
de θ en la j -ésima iteración, el algoritmo EM está denido en dos pasos:

1. Paso E (Esperanza): evaluación de:


Q θ, θ(j−1) = EZ|X,θ(j−1) log [L(θ, Y)]

(7.2.1)

2. Paso M (Maximización):
 evaluación de θ(j) , el valor de θ que maximiza
(j−1)
Q θ, θ .

La convergencia está establecida por un criterio de parada, como el siguiente:

(j)
θ − θ(j−1) < δ


Q θ(j) , θ(j−1) − Q θ(j−1) , θ(j−1) < 
 

Ejemplo 7.3. Considere el estudio genético [11] que tiene un vector de conteo de
animales X = (x1 , x2 , x3 , x4 ), el cual se distribuye multinomial con parámetros n y
π , donde:
 
1 θ 1 1 θ
π= + , (1 − θ), (1 − θ),
2 4 4 4 4

La función de verosimilitud de los datos X está dada por:


 x1  x2  x4  x
(x1 + x2 + x3 + x4 )! 1 θ 1−θ θ 1−θ 3
P (X|θ) = +
x1 !x2 !x3 !x4 ! 2 4 4 4 4

La maximización de P (X|θ) es complicada debido al término (1/2 + θ/4). Para evitar


esto, se hace el siguiente cambio de variable: x1 = y0 + y1 , x2 = y2 , x3 = y3 y x4 = y4 .

El vector Y = (y0 , y1 , y2 , y3 , y4 ) tiene distribución multinomial con parámetros n


y Π∗ = (1/2, θ/4, (1 − θ)/4, (1 − θ)/4, θ/4). Para completar la notación se dene

FACYT-MATEMÁTICAS
155 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Z = y0 , por lo que Y = (X, Z). En consecuencia, la verosimilitud de los datos


completos es:
 y0  y1 +y4  y +y
n! 1 θ 1−θ 2 3
P (Y|θ) = (7.2.2)
y0 !y1 !y2 !y3 !y4 !y5 ! 2 4 4
Ahora, tomando logaritmo en ambos lados de la ecuación 7.2.2, se tiene que:
   
1 θ
log P (Y|θ) = k1 (Y) + y0 log + (y1 + y4 ) log
2 4
 
1−θ
+ (y2 + y3 ) log
4
= k2 (Y) + (y1 + y4 ) log(θ) + (y2 + y3 ) log(1 − θ) (7.2.3)

donde k1 (Y) y k2 (Y) son constantes que no dependen de θ. Tomando esperanza en


7.2.3, se obtiene lo siguiente:
Q θ, θ(j) = E k2 (Y) + (y1 + y4 ) log(θ) + (y2 + y3 ) log(1 − θ)|X; θ(j)
  

= k X, θ(j) + E y1 + y4 |X, θ(j) log θ


 

+ E y2 + y3 |X, θ(j) log(1 − θ)




= k X, θ(j) + E y1 |X, θ(j) + x4 log θ + (x2 + x3 ) log(1 − θ)


   

donde k2 (Y) y k X, θ(j) son constantes. Debido a que yi = xi , para i = 2, 3, 4,




solamente se requiere evaluar la esperanza de y1 . De la construcción de Y se tiene


que:
(Z|X, θ) ∼ (Z|x1 , θ) ∼ Binomial(x1 , p)
donde p = (1/2)/[(1/2) + (θ/4)] = 2/(2 + θ). Por lo tanto:
E(y0 |X, θ) = x1 p
y
Q θ, θ(j) = k X, θ(j) + x1 p(j) + x4 log(θ) + (x2 + x3 ) log(1 − θ)
  

tal que:
2
p(j) =
2 + θ(j)
El paso M involucra encontrar el valor de θ que maximiza Q(θ, θ(j) ). Luego, derivando
Q con respecto a θ se obtiene lo siguiente:
∂Q(θ, θ(j) ) x1 P (j) + x4 x2 + x3
= − (7.2.4)
∂θ θ 1−θ

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 156

Igualando a cero 7.2.4, se tiene que:


x1 P (j) + x4 x2 + x3
(j+1)
=
θ 1 − θ(j+1)
Resolviendo, se llega al siguiente resultado:
(j+1) x1 P (j) + x4 (x1 + x4 )θ(j) + 2x4
θ = =
x1 P (j) + x4 + x2 + x3 (x1 + x2 + x3 + x4 )θ(j) + 2(x2 + x3 + x4 )

Si X = (125, 18, 20, 34)T , la fórmula de maximización para el algoritmo EM queda de


la siguiente manera:
159θ(j) + 68
θ(j+1) =
197θ(j) + 144
Algoritmo en R 7.2. (Esperanza-Maximización, aplicado al ejemplo
anterior)

# Algoritmo EM (ejemplo anterior)


# a iterado inicial
# tol tolerancia

em<-function(a,tol)
{
c=5
i=1
A<-rep(0,100)
A[i]<-a

while(abs(a-c)>tol){
i=i+1
c<-a
a<-(159*a+68)/(197*a+144)
A[i]=a
}
B<-rep(0,i)

for(j in 1:i){
if (A[j]!=0){
B[j]=A[j]
}
}

FACYT-MATEMÁTICAS
157 CAPÍTULO 7: Métodos de Aproximación y Simulación.

print(B)
THETA=B
plot(THETA,ylim=c(0,1),pch=15,col="blue")
}

Figura 7.3: Gráco arrojado por el algoritmo en R 7.2., con a= 0 y tol= 0.0001

7.3. Aproximación Laplace


Esta clase de métodos de aproximación son muy útiles para evaluar integrales del
tipo:

Z
I= f (θ)dθ

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.3: Aproximación Laplace 158

Reescribiéndola como:
Z
I= g(θ) exp{−nh(θ)}dθ

donde g : Rp −→ R h : Rp −→ R son funciones suavizadas, las cuales son al menos


y
tres veces diferenciables. Sea θ̂ el valor de θ que minimiza h. El método de Laplace
aproxima I mediante:

   2π p/2 1/2 n  o
ˆ
I = g θ̂ Σ exp −nh θ̂
b
(7.3.1)
n
donde:
   −1
∂ 2 h θ̂
Σ
b= 
∂θ∂θT

La aproximación de Laplace está basada en el desarrollo de Taylor para h y g alrededor


b = σ̂ 2 y supóngase que θ̂ y θ están
de θ̂ . Considérese el caso univariado y sea Σ
próximos. Usando una expansión de Taylor hasta de tercer orden, se tiene que:

  n  2 nt(θ)
+ o n−1

nh(θ) = nh θ̂ + 2 θ − θ̂ +
2σ̂ 3!
tal que:

σ̂ 2 = Σ
b

y
 
3
∂ h θ̂  3
t(θ) = θ − θ̂
∂θ3
Tomando exponencial y aplicando una expansión lineal a exp{−nt(θ)}, se obtiene lo
siguiente:
 2 
n  o n 
exp{−nh(θ)} = exp −nh θ̂ exp − 2 θ − θ̂
2σ̂
 
nt(θ)
+ o n−1 1 + o n−1
  
× 1−
6

De manera similar, al desarrollar g(θ) alrededor de θ̂ se tiene que:


  ∂g(θ)  
θ − θ̂ + o n−1

g(θ) = g θ̂ +
∂θ
Reorganizando, se concluye lo siguiente:

FACYT-MATEMÁTICAS
159 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Z  2   2 1/2
n  1/2 σ̂
1. exp − 2 θ − θ̂ dθ = (2π)
2σ̂ n
Z   
2k+1 n  2
2. θ − θ̂ exp − 2 θ − θ̂ dθ = 0, ∀k ∈ Z
2σ̂
Z  2 
  n 
dθ = o n−1

3. nt(θ) θ − θ̂ exp − 2 θ − θ̂
2σ̂
Entonces, cuando n → ∞, el valor de la integral es:

Iˆ = I 1 + o n−1
 

En el contexto Bayesiano, generalmente −nh(θ) = L(θ) + log P (θ) y L(θ) =


log P (x|θ), lo cual representa a la densidad a posteriori por una constante de
proporcionalidad. Si g(θ) es no negativa, la integral puede ser redenida por:
Z
I= exp{−nh∗ (θ)}dθ

donde: nh∗ (θ) = nh(θ) − log g(θ).


∂ 2 h∗ (θ̂)
Sea θ̂∗ el valor que minimiza h∗ (θ) y σ̂ ∗2 = ∂θ2
. La aproximación para I está dada
por:

I˜ = (2π)1/2 σ̂ ∗ exp{−nh∗ (θ∗ )} (7.3.2)

En el caso multivariado, se tiene que:

1/2 n  o
I˜ = (2π)p/2 Σ
b ∗ ∗
exp −nh θ̂∗ (7.3.3)

donde θ̂∗
es el valor de θ que minimiza h y b∗
Σ es la matriz inversa de las segundas
∗ ∗
derivadas de h evaluadas en θ .

7.4. Métodos de Simulación


7.4.1. Método de Monte Carlo
La idea básica del método Monte Carlo es escribir la integral deseada como un valor
esperado con respecto alguna distribución de probabilidad. Supóngase que se desea
calcular la integral de alguna función suavizada en un intervalo conocido (a, b), es
decir:
Z b
I= g(θ)dθ
a

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.4: Métodos de Simulación 160

La integral dada en 7.4.1, puede ser reescrita como:

Z b
1
I= (b − a)g(θ) dθ = EU (a,b) [(b − a)g(θ)]
a (b − a)

donde U (a, b) es una variable aleatoria cuya distribución es uniforme en (a, b). El
método de los momentos es un estimador de esta cantidad, es decir:

n
1X
Iˆ = (b − a)g(θi )
n i=1

donde θ1 , . . . , θn es una muestra aleatoria seleccionada de una distribución uniforme


sobre (a, b).

Algoritmo 7.1.
Paso [1] Se generan θ1 , . . . , θn ∼ U (a, b)
Paso [2] Se calcula g(θ1 ), P. . . , g(θn )
Paso [3] Se estima ḡ = n1 ni=1 g(θi )
Paso [4] Se aproxima Iˆ = (b − a)ḡ
Una generalización puede ser obtenida en forma clara. Sea I = Ep [g(θ)], el valor
esperado de g(θ) con respecto a una función de densidad de probabilidad P (θ). El
algoritmo es similar al anterior, sólo se hacen modicaciones de muestreo en el paso [1];
es decir, se generan θ1 , θ2 , . . . , θn ∼ P (·) en vez de una uniforme y el resto queda igual.
La extensión multivariada se basa sobre una evaluación de la integral multivariada
siguiente:

Z b1 Z bp
I= ···· g(θ)dθ
a1 ap

y el estimador Monte Carlo es:

n
1X
Iˆ = g(θi ) (7.4.1)
n i=1

donde θ1 , . . . , θn es una muestra aleatoria seleccionada de la distribución uniforme


sobre (a1 , b1 ) × · · · × (ap , bp ).

Ejemplo 7.4. Evaluar:


Z 1
I= ex dx
0

FACYT-MATEMÁTICAS
161 CAPÍTULO 7: Métodos de Aproximación y Simulación.

usando el método Monte Carlo.


Solución:
El estimador Monte Carlo de I es el siguiente:
n
1X
I¯ = exp {xi }
n i=1

donde xi ∼ U (0, 1), i = 1, . . . , n. Además, I¯ es la media muestral y su precisión para


estimar I puede ser medida por la varianza, es decir:
 1 1 1
V ar I¯ = V ar (ex ) = E (ex )2 − [E (ex )]2 = E e2x − [E (ex )]2

n n n
Entonces:
n
!
1 X xi
V ar I¯ = V ar

e
n i=1
1 1
= 2
V ar(ex1 + · · · + exn ) = 2 nV ar(exi )
n" n
Z 1 Z 1 2 #
1
= e2x dx − ex dx
n 0 0
" 1  #
1 1 1 2
= exp{2x} − exp{x}

n 2 0 0
 
1 1 2
e − 1 − (e − 1)2

=
n 2

7.4.2. Monte Carlo con Muestreo de Importancia.


El método de Monte Carlo con muestreo de importacia es una técnica desarrollada
para reducir el estimador de la varianza. Considérese explícitamente que la integral
I de interés, es la esperanza de una función g dada con respecto a una densidad p(·),
de esta forma:
Z Z
p(x)
I= g(x)p(x)dx = g(x) h(x)dx
h(x)
R
donde h(x) es una función positiva para toda x, p(x) > 0 y h(x)dx = 1. A
continuación, se muestra un método alternativo al de los momentos. Sea:

n
1X
I¯ = g(xi )W (xi )
n i=1

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.4: Métodos de Simulación 162

donde W (xi ) = p(xi )/h(xi ) y xi ∼ h(x), i = 1, . . . , n. Además, h es llamada la


función de importancia y:

Z
 1
V I¯ = [g(x)W (x) − I]2 h(x)dx
n

V I¯

Por otro lado, se escoge g(x)W (x) aproximadamente constante para que sea
pequeña.

Ejemplo 7.5. Sea la función de importancia:


2
h(x) = (1 + x), x ∈ (0, 1)
3
y
g(x) = ex

De modo que:
1 1  1
x2
Z Z     
2 2 2 1 2 2+1
h(x)dx = (1 + x)dx = x+ = 1+ = =1
0 3 0 3 2 0 3 2 3 2

Sea p(x) = 1, entonces:


p(x) p(x) 3p(x) 3
W (x) = = 2 = =
h(x) 3
(1 + x) 2(1 + x) 2(1 + x)
3
⇒ g(x)W (x) = ex ∝ k, ∀x ∈ (0, 1)
2(1 + x)

De esta manera:
1 1
3ex
Z Z
I= g(x)W (x)h(x)dx = h(x)dx
0 0 2(1 + x)

En consecuencia:
n
1 X 3exi
I¯ =
n i=1 2(1 + xi )

donde xi ∼ h(x), i = 1, 2, . . . , n, y:
Z 1
e2x
 
 1 0.027
¯
V ar I = (3/2) 2 2
dx − I =
n 2
0 (1 + x) n

FACYT-MATEMÁTICAS
163 CAPÍTULO 7: Métodos de Aproximación y Simulación.

La implementación del algoritmo depende del muestreo de la densidad h(·). Si la


distribución de muestreo de importancia está dada por:
  0  si x < 0


si 0 < x < 1
2 2
H(x) = 3
x + x2
si x ≥ 1

1

entonces:
Z x Z x
2
H(x) = h(w)dw = (1 + w)dw
0 0 3
x 
2 x w2
Z 
2
= (1 + w)dw = w+
3 0 3 2 0
x2
 
2
= x+ , 0<x<1
3 2
Usando el método de la transformada inversa para generar una muestra, se tiene lo
siguiente:
x2
 
2
U = H(x) = x+
3 2
2
3U x
⇒ =x+
2 2
⇒ 3U = 2x + x2
⇒ 3U = x2 + 2x + 1 − 1
⇒ 3U = (x + 1)2 − 1
⇒ (x + 1)2 = 3U + 1

⇒ (x + 1) = 3U + 1

⇒ x = 3U + 1 − 1
Luego, se genera U ∼ U (0, 1).
Algoritmo 7.2.
Paso [1] Se genera Ui ∼ √
U (0, 1)
Paso [2] Se genera xi = P 3Ui + 1 − 1
Paso [3] Se calcula I = n ni=1 3exi /2(1 + xi )
¯ 1

Ejemplo 7.6. Sea θ = P (x > 2) y x ∼ Cauchy(π), con función de densidad de


probabilidad dada por:
1
P (x) = , x∈R
π (1 + x2 )

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.4: Métodos de Simulación 164

Sean:
1 si x ∈ [ 2, ∞)

g(x) = Ix [2, ∞] =
0 en otro caso
y
Z ∞
θ = P (x > 2) = g(x)P (x)dx
−∞

Asimismo, sean x1 , . . . , xn una muestra aleatoria de distribución Cauchy. Es fácil


encontrar:
n n
1X 1X #(xi > 2)
θ̂ = g(θi ) = Ixi (2, ∞) = ⇒ nθ̂ = #(xi > 2)
n i=1 n i=1 n

Por lo tanto, nθ̂ ∼ Binomial(n, θ). Note que:


Z x
PX (x) = P (X ≤ x) = P (t)dt
−∞
Z x
1 x
Z
1 1
= 2
= dt
−∞ π (1 + t ) π −∞ 1 + t2
x
1 1
= arctan(t) = [arctan(x) − arctan(−∞)]
π −∞ π
1 h π i 1 1
= arctan(x) + = arctan(x) +
π 2 π 2
De este modo:
θ = P (xi > 2) = 1 − P (xi ≤ 2)
 
1 1
= 1 − Pxi (2) = 1 − arctan(2) +
π 2
≈ 0.1476
Luego, se obtiene que:
     
E nθ̂ = nθ ⇒ nE θ̂ = nθ ⇒ E θ̂ = θ
   
V ar nθ̂ = nθ(1 − θ) ⇒ n2 V ar θ̂ = nθ(1 − θ)
  θ(1 − θ) 0.126
⇒ V ar θ̂ = =
n n
Por otra parte, la función de importancia es la siguiente:
2
h(x) = Ix (2, ∞)
x2

FACYT-MATEMÁTICAS
165 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Así que:
Z x Z
2
H(x) = h(t)dt = I (2, ∞)dt
2 t
2 t
Z x x
−2 t−1
=2 t It (2, ∞)dt = 2 It (2, ∞)
2 −1 2
 x   
1 1 1 2
=2 − =2 − + =1−
t 2 x 2 x

es decir:
1 − 2/x si x ∈ (2, ∞)

H(x) =
0 en otro caso
Además, sea:
Ui = H(xi ) = 1 − 2/xi ⇒ 2/xi = 1 − Ui ⇒ xi = 2/(1 − Ui )

donde xi ∈ [ 2, +∞ ). El algoritmo queda de la siguiente manera:


Algoritmo 7.3.
Paso [1] Se genera:
Ui ∼ U (0, 1)

Paso [2] Se calcula:


xi = 2/ (1 − Ui )

Paso [3] Se aproxima el estimador por:


n
1X P (xi )
θ̂ = g(xi )
n i=1 h(xi )
n
1X 1/π (1 + x2i )
= Ixi (2, ∞) 2
n i=1 I (2, ∞)
x2 xi
i
n
1X x2i
=
n i=1 2π (1 + x2i )

En consecuencia, el algoritmo Monte Carlo puede ser usado para resolver algunos
problemas de inferencia básica. En el caso bayesiano cuando uno desea evaluar
E [g(θ)|X], el algoritmo se resume como se muestra a continuación:

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.5: Métodos de Remuestreo. 166

Algoritmo 7.4.
Paso [1] Se genera θ1 , . . . , θn de la densidad a posteriori P (θ|X) (o de la densidad
de importancia h(θ)).
Paso [2] Se calcula:
gi = g(θi )

g(θi )P (θi |X)


gi = , i = 1, . . . , n
h(θi )

Paso [3] Se obtiene el estimador:


n
1X
E[g(θ)]
b = gi
n i=1

7.5. Métodos de Remuestreo.


7.5.1. Jackknife
El Jackknife es una técnica útil para construir intervalos de conanza y su función es
reducir el sesgo. La idea se debe a Quenouille (1949, 1956). Supóngase que x1 , . . . , xn
es una muestra aleatoria de P (X|θ) y que θ̂(X) es un estimador de θ. Denotemos por
θ̂i el estimador basado en la muestra original sin la i-ésima observación. Sea:

θ̃i = nθ̂ − (n − 1)θ̂i

una secuencia de pseudo valores y defínase el estimador Jackknife de θ como:

n
1X
θ̂J = θ̃i (7.5.1)
n i=1

El nombre de pseudo valor se debe al hecho de que para el caso especial donde
θ̂(X) = X, el pseudo valor coincide con la i-ésima observación, es decir:

n
X n
X
θ̃i = xj − xj = xi
j=1 j6=i

No es complicado probar que θ̂J es un estimador insesgado si θ̂ y θ̃i son insesgados.


El estimador Jackknife tiene la propiedad de eliminar los términos de orden 1/n del
sesgo del estimador.

FACYT-MATEMÁTICAS
167 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Ejemplo 7.7. Sea x1 , . . . , xn ∼ U (0, θ) y T = máx {xi } un estadístico suciente para


θ con E(T ) = (1 − 1/n) θ, para todo θ. El estimador Jackknife está dado por:
n
1X
θ̂J = θ̃i
n i=1

donde θ̃i = nT − (n − 1)θ̂i y θ̂i = máx{x1 , . . . , xi−1 , xi+1 , . . . , xn }, entonces:


  h i  
E θ̂J = E nT − (n − 1)θ̂i = nE(T ) − (n − 1)E θˆi
   
1 1
=n 1− θ − (n − 1) 1 − θ
n n−1
 
n(n − 1) n−1−1
= θ − (n − 1) θ
n n−1
= nθ − θ − nθ + 2θ

Sean θ̃1 , θ̃2 , . . . , θ̃n variables aleatorias aproximadamente independientes e idéntica-
mente distribuidas con media θ. Un estimador Jackknife de la varianza muestral está
dado por:
n
1 X 2
θ̂J2 = θ̃i − θ̂J
n − 1 i=1
y
θ̂j − θ
T∗ = q ∼ tn−1
θ̂J2 /n
Un intervalo de conanza aproximado del 100(1 − α) % para θ, es el siguiente:
 
σ̂J σ̂J
θ̃J − tn−1, α2 √ , θ̃J + tn−1, α2 √
n n

7.5.2. Bootstrap.
El concepto de Bootstrap fue introducido por Efron (1979) y consiste en generar un
número grande de muestras basadas en la distribución empírica obtenida de los datos
originales muestreados.
Sea X1 , X2 , . . . , Xn los datos observados de una muestra aleatoria de distribución
P (X|θ), donde θ ∈ Θ es un parámetro desconocido. Sea θ̂(X) un estimador de θ. La
función de distribución empírica se dene por:

# (Xi < x)
Fbn (x) = ; ∀x ∈ R
n

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.5: Métodos de Remuestreo. 168

El procedimiento de remuestreo consiste en la selección de muestras con reemplazo


de una población nita usando igual probabilidad. Esto corresponde seleccionar
muestras de una distribución empírica F bn (x). Los valores muestreados se denotan por
{x1 , . . . , xn } y el estimador Bootstrap de θ por θ̂∗ (x∗ ). Las inferencias están basadas
∗ ∗
∗ ∗
sobre B réplicas del procedimiento anterior y se obtiene el estimador θ̂ (x ) para cada
∗ ∗ ∗ ∗
réplica. los resultados se denotan por θ̃1 , θ̃2 , . . . , θ̃B . La distribución Bootstrap de θ̂
está dada por la distribución empírica formada por los valores remuestreados. Las
suposiciones principales son las siguientes:

1. Fbn es una buena aproximación de F.


2. θ̂∗ es una buena aproximación de θ.
La media y la varianza de las B réplicas son:

B
∗ 1X ∗
θ̄ = θ̃
n i=1 i

B
  1 X ∗ 2
σ̂ 2 θ̂∗ = θ̂i − θ̄∗
B − 1 i=1

respectivamente. Los intervalos de θ pueden ser construidos de los percentiles de la



distribución Bootstrap. Sea θ (α) el percentil 100(α) % de la distribución Bootstrap de
 
θ̂∗ , es decir, P θ̂∗ ≤ θ∗ (α) = α. El intervalo de conanza Bootstrap del 100(1−α) %
está dado por:
 
∗ ∗
θ α , θ1− α
2 2

7.5.3. Bootstrap Repesado.


Algunas veces no se puede muestrear directamente de la distribución de interés P (·).
Una estrategia útil es muestrear de una distribución aproximada usando el esquema
de aceptación y rechazo.

Algoritmo 7.5.
Paso [1] Se genera x de una densidad auxiliar h(x).
Paso [2] Se genera u ∼ U (0, 1).
Paso [3] Si u ≤ P (x)/Ah(x), donde A = máx{P (x)}/h(x), entonces se acepta x. En
otro caso se retorna al paso [1].

Si la determinación de A es difícil, el algoritmo puede ser modicado como sigue:

FACYT-MATEMÁTICAS
169 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Algoritmo 7.6.
Paso [1] Se toma una muestra x1 , . . . , xn de una densidad h(x).
Paso [2] Se evalúan los pesos de importancia:
P (xi )
w(xi ) = , i = 1, . . . , n
h(xi )
Paso
P[3] Se selecciona una nueva muestra x1 , . . . , xn de {x1 , . . . , xn } con probabilidad
∗ ∗
n
wi / i=1 wi , donde i = 1, . . . , n con reemplazo.

Nótese que:

n
X w
P (x∗ ≤ a) = Pn i Ixi (−∞, a)
i=1 j=1 wj
entonces:
Z a

lı́m P (x ≤ a) → P (x)dx
n→∞ −∞

Si la idea es estimarP (θ|x) = kL(θ, x)P (θ), para θ ∈ Θ, al tomar h(x) = P (θ) y
w(x) = P (θ|x)/P (θ) = kL(θ, x), el algoritmo queda como sigue:
Algoritmo 7.7.
Paso [1] Se toma una muestra θ1 , . . . , θn de una distribución a priori P (θ).
Paso [2] Se evalúan los pesos:
P (θ|x)
wi = = kL(θ, x), i = 1, . . . , n
P (θ)
Paso [3] Se muestrea θ1∗ , θ2∗ , . . . , θm

con reemplazo de {θ1 , . . . , θn }, utilizando las
probabilidades respectivas:

L
Pn i , i = 1, . . . , n
i=1 Li
donde Li = L(θi , x).

7.6. Métodos de Monte Carlo por Cadenas de


Markov
7.6.1. Muestreador de Gibbs
El muestreador de Gibbs es una forma de simular distribuciones multivariadas, el
cual sólo se basa en la capacidad de las distribuciones condicionales. En particular,

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.6: Métodos de Monte Carlo por Cadenas de Markov 170

es apropiado cuando el muestreo de las distribuciones a posteriori conjunta no es


posible. Se introducirá el algoritmo mediante el siguiente ejemplo:

Ejemplo 7.8. Considérese el modelo jerárquico siguiente:


 
1
xi |µ, τ ∼ N µ, , i = 1, . . . , n
τ
son variables independientes e idénticamente distribuidas. Además, sea:
τ ∼ Gamma(a, b)
 
1
µ ∼ N c,
d
Solución:
En primer lugar, se escribe la verosimilitud de los datos:
n
Y
L(x; µ, τ ) = f (xi |µ, τ )
i=1
n r
Y τ n τ o
= exp − (xi − µ)2
i=1
2π 2
( n
)
 τ  n2 τX
= exp − (xi − µ)2
2π 2 i=1
 τ  n2 n τ o
= exp − (n − 1)S 2 + n(x̄ − µ)2
2π n 2
n τ 2 2
o
∝ τ exp − (n − 1)S + n(x̄ − µ)
2
2
donde x̄ = (1/n) i=1 xi y S 2 = [1/ (n − 1)] ni=1 (xi − x̄)2 . La distribución a priori
Pn P
está dada de la siguiente manera:
 
d 2
P (µ, τ ) = P (µ)P (τ ) ∝ exp − (µ − c) τ a−1 exp {−bτ }
2
De esta forma, la distribución a posteriori viene dada por:
P (µ, τ |x) ∝ L(x; µ, τ )P (µ, τ )
n τ o
n/2 2 2
∝ τ exp − (n − 1)S + n(x̄ − µ)
2  
a−1 d 2
×τ exp {−bτ } exp − (µ − c)
2
 
a+ n −1 τ 2 2
 d 2
= τ 2 exp − (n − 1)S + n(x̄ − µ) − (µ − c) − bτ
2 2

FACYT-MATEMÁTICAS
171 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Esta distribución no es de la forma estándar; la distribución a posteriori no


es conjugada. Este problema se suele denominar semiconjugado, ya que las dos
distribuciones condicionales P (µ|τ, x) y P (τ |µ, x) son de la forma estándar. Esto
es:
(n − 1)S 2 + n(x̄ − µ)2
  
a+ n −1
P (τ |µ, x) ∝ τ 2 exp −τ +b
2
 
n 1 2 2

⇒ τ |µ, x ∼ Gamma a + , b + (n − 1)S + n(x̄ − µ)
2 2
 
τ 2 2
 d 2
P (µ|τ, x) = exp − (n − 1)S + n(x̄ − µ) − (µ − c)
2 2
 
τn d
∝ exp − (x̄ − µ)2 − (µ − c)2
2 2
 
cd + nτ x̄ 1
⇒ µ|τ, x ∼ N , (Hacerlo)
nτ + d nτ + d
Por lo tanto, siempre que sea posible simular de cantidades gamma y normales,
se puede simular de las condicionales completas. Por otra parte, ¾cómo se puede
simular de la densidad conjunta P (µ, τ |x)?. Para este ejemplo, es posible simular de
las marginales P (τ |µ, x) y P (µ|τ, x); es decir:
P (µ, τ |x) ∝ P (τ |µ, x)P (µ|τ, x)
Sobre esta idea se basa el muestreador de Gibbs.

7.7. Muestreo de Densidades Bivariadas.


Considérese la densidad bivariada P (X, Y). Se tiene que:

P (X, Y) = P (X|Y)P (Y)


o

P (X, Y) = P (Y|X)P (X)


por lo que se puede simular de P (X, Y). Primero, se simula Y = y de PY (y), y luego
se procede a simular X = x de P (X|Y), esto es:
P (X, Y) = P (X|Y)PY (y)
También se puede simular X=x de PX (x), para luego simular Y=y de P (Y|X),
es decir:

P (X, Y) = P (Y|X)PX (x)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 172

De cualquier manera se tiene que ser capaz de simular de PX (x), PY (y), P (X|Y) o
P (Y|X). El muestreo de las distribuciones condicionales dene una cadena de Markov
bivariada y muestra una explicación intuitiva de por qué P (X, Y) es una distribución
estacionaria. El algoritmo consiste en:

Algoritmo 7.8.
Paso [1] Generar X = x ∼ PX (x)
Paso [2] Generar Y = y ∼ P (Y|X)
Paso [3] Obtener las muestras de P (X, Y) = P (Y|X)PX (x)
Asimismo, el algoritmo puede ser de la siguiente forma:

Algoritmo 7.9.
Paso [1] Generar Y = y ∼ PY (y)
Paso [2] Generar X = x ∼ P (X|Y)
Paso [3] Aproximar P (X, Y) = P (X|Y)PY (y)
El kernel de transición de una cadena de Markov bivariada es el siguiente:

P {[(x, y), (x0 , y 0 )]} = P [(x0 , y 0 ) |(x, y)] = P (x0 |x, y) P (y 0 |x0 , x, y) = P (x0 |y) (y 0 |x0 )

7.8. Muestreador de Gibbs.


Supóngase que la densidad de interés es P (θ), donde θ = (θ1 , . . . , θd )T . Por otra parte,
las distribuciones condicionales completas son:

Π(θi |θ1 , . . . , θi−1 , θi+1 , . . . , θd ) = Π(θi |θ−i ) = Πi (θi ), i = 1, . . . , d


y están disponibles para simular. El muestreador de Gibbs itera de la siguiente
manera:

Algoritmo 7.10.
T
Paso [1] Sea j = 1. Se inicializa el estado de la cadena θ(0) = θ1(0) , . . . , θd(0) .


Paso [2] Se obtiene un nuevo valor θ(j) de θ(j−1) por sucesivos valores generados:
 
(j) (j−1) (j−1)
θ1 ∼Π θ1 |θ2 , . . . , θd
 
(j) (j) (j−1) (j−1)
θ2 ∼ Π θ2 |θ1 , θ3 , . . . , θd
.
.
.
 
(j) (j) (j)
θd ∼ Π θd |θ1 , . . . , θd−1

FACYT-MATEMÁTICAS
173 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Paso [3] Se aumenta el contador de j a j + 1, y luego se retorna al paso [2].


Este proceso dene una cadena de Markov homogénea ya que cada valor simulado
depende solamente del valor simulado anterior y no de otros valores. Sin embargo,
se debe probar que Π(θ) es una distribución estacionaria de la cadena. El kernel de
transición de la cadena es el siguiente:

d
Y
P (θ, φ) = Π(φi |φ1 , . . . , φi−1 , θi+1 , . . . , θd )
i=1

Por lo tanto se necesita chequear que Π(θ) es la distribución estacionaria de esta


cadena, es decir:
Z
Π(φ) = P (θ, φ)Π(θ)dθ
S

Para el caso bivariado se tiene que:


Z Z
Π(φ) = P (θ, φ)Π(θ)dθ = P [(θ1 , θ2 ), (φ1 , φ2 )] Π(θ1 , θ2 )dθ
ZS S

= Π(φ1 |θ2 )Π(φ2 |φ1 )Π(θ1 , θ2 )dθ1 dθ2


S Z Z
= Π(φ2 |φ1 ) Π(φ1 |θ2 )Π(θ1 , θ2 )dθ1 dθ2
S1 S2
Z Z
= Π(φ2 |φ1 ) Π(φ1 |θ2 )dθ2 Π(θ1 , θ2 )dθ1
S2 S1
Z
= Π(φ2 |φ1 ) Π(φ1 |θ2 )Π(θ2 )dθ2
S2
= Π(φ2 |φ1 )Π(φ1 )
= Π(φ1 , φ2 )
= Π(φ)
El caso general es similar, por lo que Π(θ) es una distribución estacionaria de esta
cadena. La discusión de la unicidad y convergencia se escapa del nivel de este curso.

7.8.1. Muestreador de Gibbs Reversible.


Supóngase que se desea actualizar la componente i, es decir, actualizar θ
reemplazando θi con φi tomada de Π(φi |θ−i ). Todas las otras componentes
permanecen igual. El kernel de transición para esta actualización se muestra a
continuación:

P (θ, φ) = Π(φi |θ−i )I(θ−i = φ−i ) (7.8.1)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 174

donde:

1 si E es verdad
I(E) =
0 si E es falso

Nótese lo siguiente:

Π(θ)P (θ, φ) = Π(θ)Π(φi |θ−i )I(θ−i = φ−i )


Debido a que Π(θ) = Π(θi , θ−i ) = Π(θ−i |θ−i )Π(θ−i ), entonces:

Π(θ)P (θ, φ) = Π(θi |θ−i )Π(θ−i )Π(φi |θ−i )I(θ−i = φ−i )


= Π(θi |φ−i )Π(φ−i )Π(φi |θ−i )I(θ−i = φ−i )
= Π(φ)Π(θi |φ−i )I(θ−i = φ−i )
= Π(φ)P (φ, θ)
Por lo tanto existe un balance y de aquí la actualización es reversible con la
distribución estacionaria Π(θ).
Ejemplo 7.9. Considere el siguiente modelo de efectos aleatorios de una vía:
 
1
yij |θi , τ ∼ N θi , , i = 1, . . . , m, j = 1, . . . , ni
τ
son variables aleatorias, independientes e idénticamente distribuidas. Además, sea:
θi |µ, v ∼ N (µ, 1/v)
µ ∼ N (a, 1/b)
τ ∼ Gamma(c, d)
v ∼ Gamma(e, f )
Encontrar las distribuciones condicionales completas (o marginales).

Solución:
La contribución de cada observación yij se muestra a continución:
r
τ n τ o
f (yij |θi , τ ) = exp − (yij − θi )2
2π 2
De este modo, la verosimilitud completa queda como sigue:
ni
m Y
Y
L(θ, τ ; y) = f (yij |θi , τ )
i=1 j=1
( m
)
 τ N/2 τ X
(ni − 1)Si2 + ni (yi· − θi )2

= exp −
2π 2 i=1
donde:

FACYT-MATEMÁTICAS
175 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Pm
N= i=1 ni
yi· = (1/ni ) nj=1
P i
yij
Si2 = [1/ (ni − 1)] nj=1 (yij − yi· )2
P i

La distribución a priori toma la siguiente forma:


Π(µ, τ, v, θ) = Π(µ)Π(τ )Π(v)Π(θ)
 
b
∝ exp − (µ − a) τ c−1 exp {−dτ } v e−1 exp {−f v} Π(θ)
2
2
r
v n v o
Π(θi |µ, v) = exp − (θi − µ)2
2π 2
n v o
∝ v 1/2 exp − (θi − µ)2
2
⇒ Π(θ) = Π(θ1 |µ, v) · · · Π(θm |µ, v)
n v o n v o
∝ v 1/2 exp − (θ1 − µ)2 · · · v 1/2 exp − (θm − µ)2
( 2 m ) 2
vX
∝ v m/2 exp − (θi − µ)
2 i=1

En consecuencia:
( " m
#)
1 X
Π(µ, τ, v, θ) ∝ v m/2+e−1 τ c−1 exp − 2dτ + 2f v + b(µ − a)2 + v (θi − µ)2
2 i=1

Por lo tanto, la distribución a posteriori es:


Π(µ, τ, v, θ|y) ∝ L(θ, τ ; y)Π(µ, τ, v, θ)

c+N/2−1 e+m/2−1 1h
∝τ v exp − 2dτ + 2f v + b(µ − a)2
2
m m m
#)
X X X
+v (θi − µ)2 + τ (ni − 1)Si2 + τ ni (yi· − θi )2
i=1 i=1 i=1

1 h
= τ c+N/2−1 v e+m/2−1 exp − 2dτ + 2f v + b(µ − a)2
2
m
#)
X
v(θi − µ)2 + τ (ni − 1)Si2 + τ ni (yi· − θi )2
 
+
i=1

De lo anterior se puede observar que la distribución a posteriori no tiene una forma


estándar conocida, así que se debe contruir un muestreador de Gibbs. Para ello hay

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 176

que encontrar las condicionales completas. De este modo, la condicional completa


para µ es la siguiente:
( " m
#)
1 X
Π(µ|τ, v, θ, y) ∝ exp − b(µ − a)2 + v(θi − µ)2
2 i=1
( " m m
#)
1 X X
= exp − b µ2 − 2µa + a2 + v θi2 − 2µv θi + mvµ2

2 i=1 i=1
  m
1 2
  1 X
∝ exp − (b + mv)µ − 2ab + 2nv θ̄ µ ; θ̄ = θi
2 m i=1
 
1 2
 
= exp − (b + mv)µ − 2 ab + nv θ̄ µ
2
    
1 2 ab + nv θ̄
= exp − (b + mv) µ − 2 µ
2 b + mv
(   2 )
1 ab + nv θ̄
∝ exp − (b + mv) µ −
2 b + mv

Entonces:
 
ab + nv θ̄ 1
µ|τ, v, θ, y ∼ N ,
b + mv b + mv

La condicional completa para τ es:


( " m
#)
1 X
Π(τ |µ, v, θ, y) ∝ τ c+N/2−1 exp −τ d + (ni − 1)Si2 + ni (yi· − θi )2
 
2 i=1
m
!
N 1 X
(ni − 1)Si2 + ni (yi· − θi )2

⇒ τ |µ, v, θ, y ∼ Gamma c + , d +
2 2 i=1

La condicional completa para v es:


( " m
#)
1 X
Π(v|τ, µ, θ, y) ∝ v e+m/2−1 exp −v f + (θi − µ)2
2 i=1
m
!
m 1X
⇒ v|τ, µ, θ, y ∼ Gamma e + , f + (θi − µ)2
2 2 i=1

FACYT-MATEMÁTICAS
177 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Por último, la condicional completa para θi es:


 
1 2 2

Π(θi |τ, µ, v, y) ∝ exp − v(θi − µ) + τ ni (yi· − θi )
2
 
1 2 2
 2 2

= exp − v θi − 2θi µ + µ + τ ni yi· − 2θi yi· + θi
2
 
1 2

∝ exp − (v + τ ni )θi − 2(vµ + ni τ yi· )θi
2
    
1 2 vµ + ni yi· τ
= exp − (v + ni τ ) θi − 2 θi
2 v + ni τ
(   2 )
1 vµ + ni yi· τ
∝ exp − (v + ni τ ) θi −
2 v + ni τ
 
vµ + ni yi· τ 1
⇒ θi |τ, µ, v, y ∼ N , , i = 1, . . . , m
v + ni τ v + ni τ
Algoritmo 7.11. Resumen del algoritmo Gibbs para el modelo de una vía.

Paso [1] Generar µ ∼ N


 
ab+nv θ̄
, 1
b+mv b+mv
m
!
Paso [2] Generar τ ∼ Gamma c + N2 , d + 21
X
(ni − 1)Si2 + ni (yi· − θi ) 2
 
i=1 !
m
Paso [3] Generar
X
v ∼ Gamma e + 2 , f + 2m 1
(θi − µ)2
i=1
Paso [4] Generar
 
θi ∼ N vµ+n i yi· τ
v+ni τ
, 1
v+ni τ

Algoritmo en R 7.3. Simulación de una normal bivariada con media cero y varianza
uno, pero con una correlación ρ entre las dos componentes:
#·······················································································································
# Muestreador de Gibbs
#·······················································································································

MG1<-function(n,rho){
x<-rnorm(n,0,1)
y<-rnorm(n,rho*x,sqrt(1-rho*rho))
cbind(x,y)
}

# Este código crea un vector de valores de X y luego construye


# un vector de valores de Y condicional sobre X. Estos valores

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 178

# son colocados en una matriz de orden n por 2.

MG11<-MG1(10000,0.1)
par(mfrow=c(3,1))
plot(MG11,col=1:10000)
plot(MG11,type="l")
plot(ts(MG11[,1]))
par(mfrow=c(3,1))
plot(ts(MG11[,2]))
hist(MG11[,1],50)
hist(MG11[,2],50)

Figura 7.4: Grácos arrojados por el algoritmo en R 7.3.

FACYT-MATEMÁTICAS
179 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.5: Gráco obtenido por el algoritmo en R 7.3.

Algoritmo en R 7.4. Otra forma de hacer el algoritmo en R 7.3. mostrado


anteriormente:
#···············································································································
# Otra forma
#···············································································································

MG2<-function(n,rho){
matriz<-matrix(ncol=2,nrow=n)
x<-0
y<-0
matriz[1,]<-c(x,y)
for(i in 2:n){
x<-rnorm(1,rho*y,3)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 180

y<-rnorm(1,rho*x,9)
matriz[i,]<-c(x,y)
}
matriz
}

# El código crea una matriz con los resultados, entonces la cadena


# es inicializada en (0,0). Luego el bucle permite obtener muestras
# sucesivamente de las full condicionales, almacenando los resultados
# en la matriz.

MG22<-MG2(10000,-0.98)
par(mfrow=c(3,1))
plot(MG22,col=1:10000)
plot(MG22,type="l")
plot(ts(MG22[,1]))
par(mfrow=c(3,1))
plot(ts(MG22[,2]))
hist(MG22[,1],50)
hist(MG22[,2],50)

Algoritmo en R 7.5. Modelo normal con media desconocida y varianza conocida:


MG3<-function(n,rho){
theta<-0
mu0<-0
tao0<-3
sigmac<-9
y<-0
matriz<-matrix(ncol=2,nrow=n)
mu1<-((mu0/tao0*tao0)+y/sigmac)/((1/tao0*tao0)+(1/sigmac))
tao1<-1/((1/tao0*tao0)+(1/sigmac))
matriz[1,]<-c(theta,y)

for(i in1:n){
theta<-rnorm(1,mu1*y,tao1)
y<-rnorm(1,theta,sigmac)
matriz[i,]<-c(theta,y)
}
matriz
}

FACYT-MATEMÁTICAS
181 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.6: Grácos arrojados por el algoritmo en R 7.4.

resultado2<-MG3(10000,-0.1)
par(mfrow=c(3,1))
plot(resultado2,col=1:1000)
plot(resultado2,type="l")
plot(ts(resultado2[,1]))
par(mfrow=c(3,1))
plot(ts(resultado2[,2]))
hist(resultado2[,1],500)
hist(resultado2[,2],500)

# Convergencia

par(mfrow=c(2,1))
cum11<-cumsum(resultado2[,1])/c(1:10000)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 182

Figura 7.7: Grácos arrojados por el algoritmo en R 7.4.

plot(cum11,type="l")
cum22<-cumsum(resultado2[,2])/c(1:10000)
plot(cum22,type="l")

Algoritmo en R 7.6. Datos del ejemplo del vínculo genético:


# Para generar datos faltantes

n<-3000
xa<-c(125,18,18,20,34)
MG3<-function(n,xa){
z<-20
theta<-0.5
z.0<-z

FACYT-MATEMÁTICAS
183 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.8: Gráco obtenido por el algoritmo en R 7.5.

theta.0<-theta
for(j in 1:n){
theta<-rbeta(1,z+xa[5]+1,xa[3]+xa[4]+1)
prob<-theta/(theta+2)
z<-rbinom(1,xa[1],prob)
theta.0<-c(theta.0,theta)
z.0<-c(z.0,z)
}
cbind(theta.0,z.0)
}
salida3<-MG3(n,xa)
par(mfrow=c(2,2))
plot(salida3,col=1:197)
plot(salida3,type="l")

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 184

Figura 7.9: Grácos arrojados por el algoritmo en R 7.5.

plot(ts(salida3[,1]))
plot(ts(salida3[,2]))
par(mfrow=c(2,2))
hist(salida3[,1],50)
hist(salida3[,2],50)
plot(density(salida3[,1],50))
plot(density(salida3[,2],50))

# Convergencia

par(mfrow=c(2,1))
acumulado0<-cumsum(salida3[,1])/c(1:3001)
plot(acumulado0,type="l")
acumulado00<-cumsum(salida3[,2])/c(1:3001)
plot(acumulado00,type="l")

FACYT-MATEMÁTICAS
185 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.10: Gráco obtenido por el algoritmo en R 7.5.

Ejemplo 7.10. Sea y1 , . . . , yn una muestra de distribución Poisson. Existe la


suposición de un cambio de punto m a lo largo del proceso de observación, donde
el cambio se da en m = 1, . . . , n. Dado el m, se tiene que:
yi |λ ∼ P oisson(λ), i = 1, . . . , m
yi |φ ∼ P oisson(φ), i = m + 1, . . . , n
λ ∼ Gamma(α, β)
φ ∼ Gamma(γ, δ)
m ∼ U {1, . . . , n}
donde α, β , γ y δ son conocidos.
 
a. Escriba la distribución a posteriori: Π λ, φ, m|y
e
b. Obtenga las full condicionales siguientes:
 
• Π λ|φ, y , m
e

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 186

Figura 7.11: Grácos arrojados por el algoritmo en R 7.6.

 
• Π φ|λ, y , m
e
 
• Π m|λ, φ, y
e
Solución: (Ejercicio).
Algoritmo en R 7.7. El problema de cambio de punto:
y<-c(4,5,4,0,1,4,3,4,0,6,3,3,4,0,2,6,
3,3,5,4,5,3,1,4,4,1,5,5,3,4,2,5,
2,2,3,4,2,1,3,2,2,1,1,1,1,3,0,0,
1,0,1,1,0,0,3,1,0,3,2,2,0,1,1,1,
0,1,0,1,0,0,0,2,1,0,0,0,1,1,0,2,
3,3,1,1,2,1,1,1,1,2,4,2,0,0,1,4,
0,0,0,1,0,0,0,0,0,1,0,0,1,0,1,0)
ano<-c(1851:1962)
n<-3000
gibbs1<-function(n,y,ano){

FACYT-MATEMÁTICAS
187 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.12: Grácos arrojados por el algoritmo en R 7.6.

th<-0.05
la<-0.08
b1<-0.2
b2<-0.6
k<-1
a1<-0.5
a2<-0.5
c1<-0
c2<-0
d1<-1
d2<-1
nn<-length(y)
v<-NULL
th.0<-NULL
la.0<-NULL
k.0<-NULL
b1.0<-NULL

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 188

Figura 7.13: Gráco obtenido por el algoritmo en R 7.6.

b2.0<-NULL
for(i in 1:n){
alfa1<-a1+cumsum(y)[k]
beta1<-k+b1
alfa2<-a2+sum(y)-cumsum(y)[k]
beta2<-nn-k+b2
th<-rgamma(1,alfa1,beta1)
la<-rgamma(1,alfa2,beta2)
b1<-rgamma(1,a1+c1,th+d1)
b2<-rgamma(1,a2+c2,la+d2)
for(j in 1:nn){
v[j]<-exp((la-th)*j)*(th/la)^(cumsum(y)[j])
}

FACYT-MATEMÁTICAS
189 CAPÍTULO 7: Métodos de Aproximación y Simulación.

k<-sample(1:nn,size=1, prob = v)
th.0<-c(th.0,th)
la.0<-c(la.0,la)
k.0<-c(k.0,k)
b1.0<-c(b1.0,b1)
b2.0<-c(b2.0,b2)
}
cbind(th.0,la.0,k.0,b1.0,b2.0)
}
salida1<-gibbs1(n,y)
n<-3000
summary(salida1)
par(mfrow=c(3,1))
plot(ano,y, xlab="Años",ylab="Número de desastres")
hist(salida1[,1],main="Histograma de los datos simuldos de Teta")
hist(salida1[,2], main="Histograma de los datos de lamda")
par(mfrow=c(3,1))
hist(salida1[,3], main="Histograma de los datos de k")
hist(salida1[,4], main="Histograma de los datos de b1")
hist(salida1[,5], main="Histograma de los datos de b2")
par(mfrow=c(3,1))
plot(density(salida1[,1]))
plot(density(salida1[,2]))
plot(density(salida1[,3]))
par(mfrow=c(3,1))
plot(density(salida1[,4]))
plot(density(salida1[,5]))
plot(density(salida1[,3]),type="l",main="Datos simuldos de k")
par(mfrow=c(3,1))
plot(salida1[,1],type="l",main="Traza de los datos simuldos de Teta")
plot(salida1[,2],type="l", main="Traza de los datos de lamda")
plot(salida1[,3],type="l", main="Traza de los datos de k")
par(mfrow=c(2,1))
plot(salida1[,4],type="l", main="Traza de los datos de b1")
plot(salida1[,5],type="l", main="Traza de los datos de b2")
par(mfrow=c(3,1))
acumulado1<-cumsum(salida1[,1])/c(1:3000)
plot(acumulado1,type="l",main="Convergencia de Teta")
acumulado2<-cumsum(salida1[,2])/c(1:3000)
plot(acumulado2,type="l",main="Convergencia de lamda")
acumulado3<-cumsum(salida1[,3])/c(1:3000)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 190

plot(acumulado3,type="l",main="Convergencia de k")
par(mfrow=c(2,1))
acumulado4<-cumsum(salida1[,4])/c(1:3000)
plot(acumulado4,type="l",main="Convergencia de b1")
acumulado5<-cumsum(salida1[,5])/c(1:3000)
plot(acumulado5,type="l",main="Convergencia de b2")

Figura 7.14: Grácos arrojados por el algoritmo en R 7.7.

7.9. Algoritmo Metropolis-Hastings


En un algoritmo MCMC general, supóngase que el valor actual de la cadena es:
(j) (j) (j+1)
θ1 , . . . , θd y que ahora se desea simular θ1 . Para ello se hace lo siguiente:
1. Se propone un valor candidato θ1can , el cual es generado de una distribución

FACYT-MATEMÁTICAS
191 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.15: Grácos arrojados por el algoritmo en R 7.7.

arbitraria con densidad:


 
(j) (j) (j)
q θ1can θ1 , θ2 , . . . , θd

2. Se toma como el próximo valor de θ1 en la cadena a:

θ1can

(j+1) con probabilidad p
θ1 = (j)
θ1 con probabilidad 1−p

donde:
  (j)   
(j) (j) (j) (j)
Π θ1can θ2 , . . . , θd q θ1 |θ1can , θ2 , . . . , θd 
p = mı́n 1,    
 Π θ(j) |θ(j) , . . . , θ(j) q θcan θ(j) , θ(j) , . . . , θ(j) 
1 2 d 1 1 2 d

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 192

Figura 7.16: Gráco obtenido por el algoritmo en R 7.7.

 (j) 
(j)
y Π θ1can θ2 , . . . , θd es la densidad a posteriori condicional de θ1 en
 
(j) (j) (j)
θ1 = θ1can y similarmente para Π θ1 |θ2 , . . . , θd .

Algunos Comentarios sobre el Algoritmo Metropolis-Hastings.


Para implementar el paso 2
del algoritmo Metropolis-Hastings, se toma un valor
(j+1) can (j+1) (j)
u ∼ U (0, 1) y θ1 = θ1 , si u < p y θ1 = θ1 en otro caso.
 
(can) (j) (j) (j)
El generador candidato q θ1 θ1 , θ2 , . . . , θd es arbitrario.

El algoritmo Metropolis-Hastings tiene mayor ventaja que el muestreador de


Gibbs, ya que no se requiere conocer de todas las distribuciones a posteriori
condicionales completas. Solamente se necesita conocer de las condicionales
hasta una constante de proporcionalidad.

FACYT-MATEMÁTICAS
193 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.17: Gráco obtenido por el algoritmo en R 7.7.

El muestreador de Gibbs es un caso especial del algoritmo Metropolis-Hastings,


donde el generador candidato es:

   
(j) (j) (j) (j) (j)
q θ1can θ1 , θ2 , . . . , θd = Π θ1can θ2 , . . . , θd

Casos Particulares del Algoritmo Metropolis-Hastings.


1. Caminata
 aleatoria (algoritmo
 Metropolis con incrementosnormales):

(j) (j) (j) (j)
Sea q θ1can θ1 , θ2 , . . . , θd la densidad de una normal N θ1 , v . La

simetría
 del generador candidato  signica que los términos que involucran
(j) (j) (j)

can
a q θ1 θ1 , θ2 , . . . , θd se cancelan en la fórmula de la probabilidad de

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 194

Figura 7.18: Grácos arrojados por el algoritmo en R 7.7.

aceptación, es decir:

  (j) 
(j)
 Π θ1can
θ2 , . . . , θd 
p = mı́n 1,  
 Π θ(j) |θ(j) , . . . , θ(j) 
1 2 d

La varianza del generador candidato v juega un rol importante en las propiedades


de mezcla del algoritmo. Si v es grande entonces la propuesta de moverse es
demasiado acentuado, así que la probabilidad de aceptación es baja. Si v es
pequeña entonces la probabilidad de aceptación es alta pero se mueve en pocos
pasos. Típicamente v se escoge por ensayo y error, exigiendo una probabilidad
de aceptación alrededor del 30 %.

FACYT-MATEMÁTICAS
195 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.19: Gráco obtenido por el algoritmo en R 7.7.

(j+1)
2. Para obtener θ2 se propone un candidato θ2can de:
 
(j+1) (j) (j)
q θ2can θ1 , θ2 , . . . , θd
(j+1)
y se acepta θ2 con probabilidad:
    
 Π θ2can θ1(j+1) , θ3(j) , . . . , θd(j) q θ2(j) |θ1(j+1) , θ2can , . . . , θd(j) 

p = mı́n 1,    
 Π θ(j) |θ(j+1) , θ(j) , . . . , θ(j) q θcan θ(j+1) , θ(j) , . . . , θ(j) 
2 1 3 d 2 1 2 d

(j+1) (j)
Si θ2can es rechazado entonces se hace θ2 = θ2 .

Ejemplo 7.11. El ejemplo 7.3 del vínculo genético, toma en cuenta 197 animales.
Los animales se distribuyen en 4 categorías dadas por:
y = (y1 , y2 , y3 , y4 ) = (125, 18, 20, 34)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 196

Figura 7.20: Grácos arrojados por el algoritmo en R 7.7.

con probabilidades:
 
2+θ 1 1 θ
, (1 − θ), (1 − θ), , 0≤θ≤1
4 4 4 4

Considérese que θ ∼ U (0, 1), entonces la distribución a posteriori viene dada por
(demostrarla):

Π(θ|y) ∝ f (y|θ)P (θ) ∝ (2 + θ)y1 (1 − θ)y2 +y3 θy4 Iθ (0, 1)

Solución:
Como generador candidato se puede tomar a θcan ∼ U (0, 1) y la probabilidad de

FACYT-MATEMÁTICAS
197 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.21: Gráco obtenido por el algoritmo en R 7.7.

aceptación p es la siguiente:
Π(θcan |y)
 
p = mı́n 1,
Π(θ|y)
(  y  y +y  y )
2 + θcan 1 1 − θcan 2 3 θcan 4
= mı́n 1,
2+θ 1−θ θ

Algoritmo 7.12. (Metropolis-Hastings)


Paso [1] Se comienza la cadena en algún valor θ(0) .
Paso [2] Se propone un valor candidato θcan ∼ U (0, 1). Se toma como el nuevo valor
de la cadena a:

(1) θcan con probabilidad p
θ =
θ(0) con probabilidad 1−p

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 198

donde:
(  y  y +y  y )
2 + θcan 1 1 − θcan 2 3 θcan 4
p = mı́n 1,
2 + θ(0) 1 − θ(0) θ(0)

Este último se lleva a cabo por el muestreo de u ∼ U (0, 1), y tomando θ(1) = θcan si
y sólo si u < p.
Paso [3] Se itera este procedimiento hasta alcanzar la convergencia de los parámetros.
Ejemplo 7.12. Supóngase que yi |µ, w ∼ Cauchy (µ, 1/w) son variables aleatorias,
independientes e idénticamente distribuidas, donde i = 1, . . . , n, con función de
densidad de probablidad dada por:
n n
Y Y w1/2
f (y|µ, w) = f (yi |µ, w) =
i=1 i=1
π[1 + w(yi − µ)2 ]

Supóngase que µ ∼ N (µ0 , 1/k0 ) y w ∼ Gamma(α0 , λ0 ), donde µ y w son


independientes a priori y µ0 , k0 , α0 y λ0 son hiperparámetros conocidos.

Solución:

Π(µ, w|y) ∝ f (y|µ, w)P (µ, w)


( n )  
Y 1 n/2+α0 −1 k0 2
∝ w exp − (µ − µ0 ) − λ0 w I{w>0}
i=1
1 + w(yi − µ)2 2

Las condicionales completas son las siguientes:


n  
Y 1 k0 2
Π(µ|w, y) ∝ exp − (µ − µ0 )
i=1
1 + w(yi − µ)2 2
n
Y 1
Π(w|µ, y) ∝ wn/2+α0 −1 exp{−λ0 w}I{w>0}
i=1
1 + w(yi − µ)2

Ninguna de estas distribuciones tiene una forma conocida, por lo que el muestreador
de Gibbs no se puede implementar, se requiere usar algoritmos MCMC más generales.
De esta forma, se procede a utilizar el algoritmo Metrópolis-Hastings:
Algoritmo 7.13.
Paso [1] Se escogen valores iniciales µ(0) , w(0) .


Paso [2] Dado que la cadena se encuentra actualmente en µ(j) , w(j) :




FACYT-MATEMÁTICAS
199 CAPÍTULO 7: Métodos de Aproximación y Simulación.


Se toma µcan ∼ N µ(j) , Σµ y se hace:


(j+1) µcan con probabilidad p
µ =
µ(j) con probabilidad 1−p

donde:
(  )
Π µcan |w(j) , y q µ(j) |µcan
p = mı́n 1,
Π (µ(j) |w(j) , y) q (µcan |µ(j) )
(j) 2
( n
"  #)
(j)

 h i Y
k0 2 1 + w y i µ
µ(j) − µ0 − (µcan − µ0 )2

= mı́n 1, exp
2 i=1
1 + w(j) (yi − µcan )2

Este paso es llevado a cabo generando u ∼ U (0, 1) y tomando µ(j+1) = µcan si


y sólo si u < p.

Se simula wcan ∼ N w(j) , Σw y se hace:

 can
(j+1) w con probabilidad p
w =
w(j) con probabilidad 1−p

donde:

(j+1) 2
(  n/2+α0 −1 n
"  #)
(j)
wcan Y 1 + w y i − µ
exp λ0 w − wcan
  (j) 
p = mı́n 1, 2
w(j) i=1 1 + w
can (yi − µ(j+1) )

Para llevar a cabo este paso, se simula u ∼ U (0, 1) y se hace w(j+1) = wcan si y
sólo si u < p.

Nota 7.1. Se acepta wcan > 0 si wcan < 0, entonces p = 0 y w(j+1) = w(j) .
Paso [3] Se itera el paso [2] un número grande de veces. Se descarta un número
inicial de muestras y en base al resto de las muestras se hace inferencia.

Algoritmo en R 7.8. Muestreo de una normal estándar usando Metropolis-Hastings:


# Simulación de una normal con media 0 y varianza 1, usando el
# algoritmo Metropolis-Hastings. La cadena es inicializada en 0
# y en cada paso se innova utilizando U(-alpha,alpha) como
# distribución propuesta.

norm<-function(n,alpha){
vec<-vector("numeric",n)
x<-0

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 200

vec[1]<-x
for (i in 2:n){
innov<-runif(1,-alpha,alpha)
can<-x+innov
aprob<-min(1,dnorm(can)/dnorm(x))
u<-runif(1)
if (u<aprob)
x<-can
vec[i]<-x
}
vec
}
normvec<-norm(10000,10)
par(mfrow=c(3,1))
plot(ts(normvec))
hist(normvec,30)
plot(density(normvec))

Algoritmo en R 7.9. Datos del ejemplo del vínculo genético usando Metropolis-
Hastings:
y<-c(143,18,18,20,34)
n<-10000
MetroHast<-function(n,y){
pi.theta<-function(theta,y){
(2+theta)^{y[1]}*(1-theta)^{y[2]+y[3]}*theta^{y[4]}
}
theta<-0.2
theta.0<-theta
for(j in 1:n){
yy<-runif(1,0,1)
alfha<-min(1,pi.theta(yy,y)/pi.theta(theta,y))
u<-runif(1,0,1)
if(u<alfha)
theta<-yy
theta.0<-c(theta.0,theta)
}
theta.0
}
resuMH<-MetroHast(n,y)
summary(resuMH)

FACYT-MATEMÁTICAS
201 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.22: Grácos arrojados por el algoritmo en R 7.8.

par(mfrow=c(3,1))
plot(resuMH,type="l",main="resuMH")
hist(resuMH,main="Datos simulados de Teta")
plot(density(resuMH),type="l",main="Densidad a posteiori de Teta")
acumulado1<-cumsum(salida1[,1])/c(1:10000)
par(mfrow=c(2,1))
plot(acumulado1,type="l",main="Convergencia de Teta")

##########################################################

g<-function(x,omega,n){
for(i in 1:n){
mu=rnorm(n,sum(x*omega)/sum(omega+0.05),sqrt(1/(0.05+2*sum(omega))))
omega<-rexp(n,1+(x-mu)^2)

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 202

mat=cbind(mu,omega)
}
mat
}
result=g(1,2,10)
plot(result[,1])

Figura 7.23: Gráco obtenido por el algoritmo en R 7.9.

Consideraciones acerca del MCMC


1. La evaluación de la convergencia de los algoritmos es importante, pero puede
ser problemático en situaciones de altas dimensiones.

2. Se debe ejecutar la cadena varias veces con diferentes valores y comprobar que
la salida de las distintas cadenas es muy similar.

FACYT-MATEMÁTICAS
203 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.24: Grácos arrojados por el algoritmo en R 7.9.

3. Se deben ejecutar cadenas largas durante grandes periodos de tiempo.

4. Sea extremadamente cuidadoso si usa previas impropias.

5. Si utiliza previas impropias siempre se debe chequear que la distribución


a posteriori conjunta es propia, de lo contrario no se puede conar en los
resultados obtenidos.

6. Este último problema no se presenta si se usan previas propias.

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.10: Práctica de Ejercicios del Capítulo 7 204

7.10. Práctica de Ejercicios del Capítulo 7


1. Considere el algoritmo EM con una secuencia de valores iterados θ(j) , donde
j ≥ 1. Demuestre que la secuencia satisface lo siguiente:

l θ(j) |x = log L θ(j) |x ≤ l θ(j+1) |x = log L θ(j+1) |x


   

y entonces es monótonamente creciente en la verosimilitud L(θ|x).


R∞ 2 /2
2. Use el método simple de Monte Carlo para evaluar e−x dx y compare
√ −∞
esto con la respuesta conocida 2π . Además, evalúe la varianza del estimador.
Ayuda: haga una transformación que tome la recta en el intervalo [0, 1] y
entonces proceda como antes.
R
3. Demuestre que si una integral I = g(x)p(x)dx es estimada por un muestreo
importante, entonces su estimador:

n
1X
I¯ = g(xi )w(xi )
n i=1

donde:

p(xi )
w(xi ) =
h(xi )
y

xi ∼ h(x), i = 1, . . . , n,

es insesgado y tiene varianza dada por:


Z
V ar I¯ = (1/n) (g(x)w(x) − I)2 h(x)dx


4. Sea θ = P (X > 2), donde X tiene una distribución estándar Cauchy con
densidad:

1
P (x) = , x ∈ R
π (1 + x2 )
Sea h una densidad de muestreo importante denida por:

h(x) = 2Ix [(2, ∞)]/x2

Demuestre que el uso de esta densidad de muestreo reduce la varianza del


estimador de θ sobre el estimador simple de Monte Carlo.

FACYT-MATEMÁTICAS
205 CAPÍTULO 7: Métodos de Aproximación y Simulación.

5. Sea X1 , . . . , Xn una muestra aleatoria de distribución Poisson, cuya media


puede ser θ ó φ. La media es θ hasta un punto desconocido m desde donde
se convierte en φ.

(a) Obtenga la verosimilitud del parámetro desconocido θ, φ y m.


(b) Sugiera una familia razonable de distribuciones a priori conjugadas para
θ, φ y m. Ayuda: Para simplicar, asuma a prioris independientes para
θ, φ y m.
(c) Obtenga las distribuciones full condicionales requeridas para la imple-
mentación del muestreador de Gibbs.

(d) Genere datos (X1 , . . . , Xn ) para valores dados de θ, φ y m, y aplique el


muestreador de Gibbs para hacer inferencia acerca de ellos.
R1
6. Encuentre el valor de sen(πx)dx por el método de integración Monte Carlo
0
usando una muestra de tamaño n = 10 valores de una distribución U (0, 1)
tomada de una tabla de números aleatorios. Repita el experimento 10 veces y
calcule la media total y la desviación estándar de los valores que se obtengan.
¾Cuál es el valor teórico de la desviación estándar de la población y cómo el
valor obtenido se compara con éste?

7. Un ejemplo sobre el vínculo genético del cual se tiene observaciones x =


(x1 , x2 , x3 , x4 ) con probabilidades:
 
1 1 1 1 1
+ η, (1 − η), (1 − η) +
4 4 4 4 4
Los valores citados son x1 = 461, x2 = 130, x3 = 161
x4 = 515. Separe x1 en
y
y0 , y y1 y x4 en y4 , y y5 para producir datos aumentados y = (y0 , y1 , y2 , y3 , y4 , y5 )
y use el algoritmo EM para estimar η .

8. Identique las full condicionales de la densidad bivariada:

π(x, y) ∝ x2 exp −xy 2 − y 2 + 2y − 4x , x > 0, y ∈ R




y úselos para construir un muestreador de Gibbs que tenga esta distribución


estacionaria.

9. Sea X una variable aleatoria con la siguiente función de densidad de


probabilidad:

sen(x) si 0 ≤ x ≤ π/2
f (x) =
0 en otro caso

(a) Construya un muestreador Metropolis-Hastings basado en una U (0, π/2).

UNIVERSIDAD DE CARABOBO
SECCIÓN 7.10: Práctica de Ejercicios del Capítulo 7 206

(b) Si la cadena está actualmente en θ, ¾cuál es la probabilidad de que la


cadena se moverá (incondicional sobre el valor propuesto)?

10. Suponga que en una cadena de Markov con sólo dos estados, las probabilidades
de ir del estado i al estado j en una unidad de tiempo están dadas por las
entradas de la siguiente matriz:

 
1/3 2/3
A=
1/2 1/2

en el cual i representa la la y j la columna. Demuestre que la probabilidad


de ir del estado i al estado j en t unidades de tiempo está dada por la t-ésima
potencia de la matriz A y que:
   t  
t 3/7 4/7 1 4/7 −4/7
A = + −
3/7 4/7 6 −3/7 3/7

Deduzca que independientemente del estado de donde comience la cadena,


después de un largo tiempo estará en el primer estado con probabilidad 3/7
y en el segundo estado con probabilidad 4/7.

11. Suponga lo siguiente:

µ0 , c0 , v0 , a0 , b0 , θ0 , τ0 ∼ U (0, 1)

Un ingeniero civil está interesado en determinar si 4 métodos diferentes para


estimar la frecuencia de inundaciones producen estimaciones equivalentes del
gasto máximo cuando se aplica a una misma cuenca.

Datos de gasto máximo


Métodos de estimación Observaciones
1 0.34 0.12 1.23 0.70 1.75 0.12
2 0.91 2.94 2.14 2.36 2.86 4.55
3 6.31 8.37 9.75 6.09 9.82 7.24
4 17.15 11.82 10.95 17.20 14.35 16.82

donde i = 1, 2, 3, 4, j = 1, 2, 3, 4, 5, 6. Estimar la media y la varianza a posteriori


de µ, τ, v y θi .

FACYT-MATEMÁTICAS
Bibliografía
[1] J. M Bernardo and A. F. M. Smith. Bayes Theory. 1999.

[2] G. Box and G. Tiao. Bayesian Inference in Statistical Analysis. 1992.

[3] G. E. P. Box and M. E. Muller. A note on the generation of random normal


deviates. The Annals of Mathematical Statistics, 29:610611, 1958.
[4] B. Carlin and T. Louis. Bayes and Empirical Bayes Methods for Data Analysis.
Chapman and Hall, 1996.

[5] R. Christian and C. George. Markov Chain Monte Carlo Methods. 1999.

[6] P. Congdon. Bayesian Statistical Modelling. John Wiley Sons, New York, 2001.

[7] M. H. DeGroot. Probability and Statistics. Addison-Wesley, 2 edition, 1986.

[8] D. Gamerman. Markov Chain Monte Carlo Stochastic for Bayesian Inference.
Chapman and Hall, 1997.

[9] P. M. Lee. Bayesian Statistics: An Introduction. Arnold, London, 3 edition,


2004.

[10] H. S. Migon and D. Gamerman. Statistical Inference: An Integrated Aproach.


Wiley, New York, 2 edition, 1973.

[11] C. R. Rao. Linear Statistical Inference. Wiley, New York, 2 edition, 1973.

[12] J. Carlin H. Stern, A. Gelman and D. Rubin. Bayesian Data Analysis. Chapman
and Hall, 2 edition, 2003.

[13] M. Tanner. Tools for Statistical Inference. 1993.

207

Vous aimerez peut-être aussi