Académique Documents
Professionnel Documents
Culture Documents
INTRODUCCIÓN A LA
INFERENCIA BAYESIANA
FACYT-MATEMÁTICAS
Índice general
1. Simulación 7
1.1. Generador Congruencial Lineal . . . . . . . . . . . . . . . . . . . . . 7
1.11. Distribución F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.12. t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3
ÍNDICE GENERAL 4
4. Elementos de Inferencia 91
4.1. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2. Naturaleza Secuencial del Teorema de Bayes . . . . . . . . . . . . . . 94
4.3. Intercambiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.4. Eliminación de Parámetros. . . . . . . . . . . . . . . . . . . . . . . . 97
4.5. Familias de Escala y Localización . . . . . . . . . . . . . . . . . . . . 100
4.6. Distribuciones a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.6.1. Prioris no Informativas . . . . . . . . . . . . . . . . . . . . . . 101
4.6.2. Prioris Impropias. . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6.3. Prioris Informativas . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6.4. Jereys (Principio de Invarianza) . . . . . . . . . . . . . . . . 109
4.6.5. Priori de Jereys . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.6.6. Principio de Razón Insuciente . . . . . . . . . . . . . . . . . 112
4.7. Práctica de Ejercicios del Capítulo 4 . . . . . . . . . . . . . . . . . . 113
FACYT-MATEMÁTICAS
5 ÍNDICE GENERAL
5. Estimación 117
5.1. Métodos Clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.2. Método Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.3. Comparación de Dos Medias. . . . . . . . . . . . . . . . . . . . . . . 118
5.3.1. Solución Usando una Priori Vaga . . . . . . . . . . . . . . . . 118
5.4. Datos no Apareados . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.4.1. Varianzas Conocidas. . . . . . . . . . . . . . . . . . . . . . . . 119
5.4.2. Varianzas Desconocidas pero Iguales . . . . . . . . . . . . . . 120
5.4.3. Varianzas Desconocidas . . . . . . . . . . . . . . . . . . . . . 122
5.5. Datos Apareados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.6. Estimación por Intervalo Usando el Método Bayesiano . . . . . . . . 124
5.7. Razones de Dos Varianzas . . . . . . . . . . . . . . . . . . . . . . . . 127
5.8. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.9. Práctica de Ejercicios del Capítulo 5 . . . . . . . . . . . . . . . . . . 131
UNIVERSIDAD DE CARABOBO
ÍNDICE GENERAL 6
FACYT-MATEMÁTICAS
Capítulo 1
Simulación
donde:
a−b
a≡b mod m⇔m divide a a−b ó ⇔ =k
m
⇒ a − b = km ó a−b es un múltiplo de m.
Nota 1.2. El residuo se considera como el valor de xn+1 , así que cada xn+1 es
0, 1, . . . , m−1 y la cantidad xn+1 /m es llamada número pseudoaleatorio y se considera
como una aproximación del valor de una variable aleatoria uniforme en (0, 1).
Ejemplo 1.1. Sea:
xn+1 = (3xn + 3) mod 5
Si x0 = 3, entonces se pueden generar los valores x1 , x2 ,. . . , x5 de la siguiente
manera:
7
SECCIÓN 1.2: Método de Inversión para Variables Continuas 8
.
x1 = 12 mod 5 ⇔ x1 − 12 = 5 ⇔ (x1 − 12) /5 = k ⇒ x1 − 12 = 5k ⇒ x1 = 2
.
x2 = 9 mod 5 ⇔ x2 − 9 = 5 ⇔ (x2 − 9) /5 = k ⇒ x2 − 9 = 5k ⇒ x2 = 4
.
x3 = 15 mod 5 ⇔ x3 − 15 = 5 ⇔ (x3 − 15) /5 = k ⇒ x3 − 15 = 5k ⇒ x3 = 0
.
x4 = 3 mod 5 ⇔ x4 − 3 = 5 ⇔ (x4 − 3) /5 = k ⇒ x4 − 3 = 5k ⇒ x4 = 3
.
x5 = 12 mod 5 ⇔ x5 − 12 = 5 ⇔ (x5 − 12) /5 = k ⇒ x5 − 12 = 5k ⇒ x5 = 2
F−1
X (y) = inf {x ∈ R / FX (x) ≥ y}, 0≤y≤1
Entonces:
FY (x) = P (Y ≤ x)
= P F−1
X (u) ≤ x
= P {u ≤ FX (x)}
= FU [FX (x)] ; (FU (u) = u)
= FX (x)
1 si 0<u<1
f (u) =
0 en otro caso
FACYT-MATEMÁTICAS
9 CAPÍTULO 1: Simulación
xi = F−1
X (u)
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.3: Método de Inversión para Variables Discretas 10
Veamos como se genera una muestra de tamaño n según este método. Supóngase que
se quiere generar el valor de una variable aleatoria discreta X con función de masa
de probabilidad:
n
X
P {X = xj } = Pj , donde j = 0, 1, . . . , y Pj = 1
j=1
x0 si u < P0
P0 ≤ u < P0 + P1
x1 si
... . .
. .
. .
x= j−1
X j
X
xj Pi ≤ u < Pi
si
i=1 i=1
..
.
.
.
.
. . .
( j−1 j
)
X X
P {X = xj } = P Pi ≤ u < Pi = P j
i=1 i=1
Algoritmo 1.2.
Paso [1] Desde i := 1 hasta n:
Generar u ∼ U (0, 1)
Hacer j := 1
acumulado:= 0
encontrado:= falso.
Mientras no encontrado:
• acumulado:=acumulado+P (X = xj ) .
• Si u≤ acumulado, hacer:
1. xi := xj
2. encontrado:= verdadero
FACYT-MATEMÁTICAS
11 CAPÍTULO 1: Simulación
• Hacer j := j + 1.
Algoritmo 1.4.
Paso [1] Se genera u ∼ U (0, 1)
Paso [2] Se hace x = u1/n
Ejemplo 1.4. Si X ∼ Exponencial(λ), entonces su función de distribución está
dada por:
F (x) = 1 − exp {−λx}
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.3: Método de Inversión para Variables Discretas 12
i=0
P r = P (x = i) = (1 − p)n
F = F (i) = P (x = i)
FACYT-MATEMÁTICAS
13 CAPÍTULO 1: Simulación
P r = P (x = i + 1) = C (n−i)
i+1
P (x = i)
F = F (i + 1) = F (i) + P (x = i + 1) = F + P r, i = i + 1
P = Pi = exp {−λ}
F = F (i) = Pi
F = F (i + 1) = F (i) + Pi+1 = F + P , i = i + 1
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.4: Funciones del Software R para el Manejo de Distribuciones de
Probabilidad Continuas. 14
FACYT-MATEMÁTICAS
15 CAPÍTULO 1: Simulación
Las siguientes órdenes son sucientes para observar como varía la forma de la función
2
de densidad de la distribución χ cuando varían los grados de libertad:
> library(distrib)
> df <- c(5,10,20) # Fijo los grados de libertad
> x11()
> gchisq(df) # Funciones de densidad
El siguiente ejemplo muestra como se utilizan estas funciones para realizar una serie
de cálculos relacionados con una distribución binomial:
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.5: Funciones del Software R para el Manejo de Distribuciones de
Probabilidad Discretas 16
> n <- 10
> p <- 0.8
> # P(X=5)
> dbinom(5,n,p)
[1] 0.02642412
> # P(X<=5)
> pbinom(5,n,p)
[1] 0.0327935
> sum(dbinom(0:5,n,p))
[1] 0.0327935
> # P(X>5)
> pbinom(5,n,p,lower.tail=FALSE)
[1] 0.9672065
> # P(3<X<=8)
> sum(dbinom(4:8,n,p))
[1] 0.623326
> pbinom(8,n,p)-pbinom(3,n,p)
[1] 0.623326
>pbinom(3,n,p,lower.tail=FALSE)-pbinom(8,n,p,lower.tail=FALSE)
[1] 0.623326
> # Cálculo de cuantiles (cuartiles)
> y <- qbinom(c(0.25,0.5,0.75),n,p)
> y
[1] 7 8 9
> # Probabilidad acumulada "real" para los cuartiles
> pbinom(y,n,p)
[1] 0.3222005 0.6241904 0.8926258
> pbinom(y-1,n,p)
[1] 0.1208739 0.3222005 0.6241904
> # Rango intercuartílico
> y[3]-y[1]
[1] 2
> # Generar números (pseudo)aleatorios según esta distribución
> x <- rbinom(10,n,p)
> x
[1] 8 9 8 9 8 9 8 8 9 8
Las siguientes órdenes son sucientes para representar las probabilidades puntuales
de una distribución binomial en un diagrama de barras:
> library(distrib)
> # Distribución binomial de parámetros 12 y 0.3
FACYT-MATEMÁTICAS
17 CAPÍTULO 1: Simulación
> n <- 12
> p <- 0.3
> x11()
> gbinom(n,p) # Diagrama de barras de las probabilidades
n
X
X = x1 + · · · + xn = xi ∼ Binomial(n, p)
i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.8: Distribución Weibull 18
βα
Xα−1
Γ(α)
exp {−βX} si X>0
fG (X; α, β) =
0 en otro caso
Demostrarlo como ejercicio. Por lo que una cantidad que tiene una distribución
Gamma con α = n, donde n es un entero, puede ser generada tomando muestras
de tamaño n de una distribución exponencial y sumando hasta el valor de la muestra.
de Libertad
La distribución χ2n es dada por Gamma (n/2, 1/2). La distribución Ji-Cuadrado está
relacionada con la distribución normal como sigue:
Si x1 , . . . , xn ∼ N (0, 1) entonces:
FACYT-MATEMÁTICAS
19 CAPÍTULO 1: Simulación
1.11. Distribución F
Se generan dos variables aleatorias x ∼ χ2n y y ∼ χ2m , entonces se forma el cociente:
χ2n /n
F = 2 ∼ Fn,m
χm /m
1.12. t-Student
Se generan: X ∼ N (0, 1), Y ∼ χ2v y se calcula el cociente:
X
t= p ∼ tv
Y/v
donde:
∂x1 ∂x2
∂y1 ∂y1
J =
∂x1 ∂x2
∂y2 ∂y2
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.15: Distribución Normal 20
φ1/2
−1
φ 2
fN X; µ, φ = √ exp − (X − µ)
2π 2
Box y Muller [3] probaron que si u1 , u2 ∼ U (0, 1), las cuales son variables aleatorias
p
independientes, entonces las cantidades dadas por:
p x1 = −2 log(u1 ) cos(2πu2 ) y
es claramente una transformación uno a uno que tiene como dominio el cuadrado
2 2
unitario [0, 1] en R . Entonces elevando al cuadrado las expresiones x1 y x2
respectivamente, se obtiene que:
De modo que:
x1 sen(2πu2 )
= = tan(2πu2 )
x2 cos(2πu2 )
x1
⇒ 2πu2 = arctan
x2
1 x1
⇒ u2 = arctan
2π x2
Debido a que:
1 si u1 , u2 ∈ [0, 1]2
fu (u1 , u2 ) =
0 en otro caso
FACYT-MATEMÁTICAS
21 CAPÍTULO 1: Simulación
√ ū − 1/2
x= n 1 ∼ N (0, 1)
√
12
n
X
1
donde ū = n
ui
i=1
Algoritmo 1.11. Box y Muller para generar variables aleatorias normales.
Paso [1] Se genera u1 y u2 ∼ U (0, 1)
Paso [2] Se hace:
p
x= −2 log(u1 ) cos(2πu2 )
p
y = −2 log(u1 ) sen(2πu2 )
donde x, y ∼ N (0, 1).
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.16: Generación de Vectores y Matrices Aleatorias 22
fY (y1 , . . . , yd ) = fX g −1 (y1 , . . . , yd ) J
donde:
∂x1 ∂xd
∂y1
··· ∂y1
. .. .
J= . .
. . .
∂x1 ∂xd
∂yn
··· ∂yn
1 1 T −1
f (X; µ, Σ) = exp − (X − µ) Σ (X − µ)
(2π)d/2 |Σ|1/2 2
Y ∼ Nr Aµ + b, AΣAT
(1.16.1)
Si se quiere simular una variable Nk (0, Ik ), basta simular k valores N (0, 1) (por
la independencia de las componentes).
FACYT-MATEMÁTICAS
23 CAPÍTULO 1: Simulación
donde:
v1 = 2u1 − 1
v2 = 2u2 − 1
v1
X = (−2 log(u))1/2 1/2
(v12 + v22 )
v2
Y = (−2 log(u))1/2 1/2
(v12 + v22 )
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.17: Método Más Directo (Método Polar) 24
Figura 1.3: Los valores uniformemente distribuidos, v1 y v2 son usados para producir
S = R2 , el cual también se encuentra distribuido en forma uniforme entre cero
el valor
y uno. Las deniciones del seno y del coseno se aplican luego sobre la forma básica de
la transformada de Box-Muller, para así evitar el uso de funciones trigonométricas.
1/2
1/2 v1 2 log(S)
X = (−2 log(S)) = v1 −
S 1/2 S
1/2
1/2 v2 2 log(S)
Y = (−2 log(S)) = v2 −
S 1/2 S
v2 = 2u2 − 1
S = v12 + v22
Paso [3] Si S > 1 regresar al paso [1].
Paso [4] Regresar los normales unitarios independientes:
FACYT-MATEMÁTICAS
25 CAPÍTULO 1: Simulación
q
X = − 2 log(S)
S
v1
q
Y= − 2 log(S)
S
v2
Teorema 1.3. Sea X una variable aleatoria con función de densidad fX (x), x ∈ I ⊆
R, tal que puede factorizarse como:
fX (x) = Cg(x)h(x)
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.19: Método de Aceptación y Rechazo 26
Demostración.
P [x, u ≤ g(y)]
fY [x|u ≤ g(y)] =
P [u ≤ g(y)]
Ahora bien, P [u ≤ g(y)|Y = x] = P [u ≤ g(x)] = g(x), donde u ∼ U (0, 1). Por otro
lado:
Z
P [u ≤ g(y)] = P [u ≤ g(y)|Y = x] h(x)dx
ZI
= g(x)h(x)dx
I
Z
fX (x)
= dx
I Z C
1 1
= fX (x)dx =
C I C
Por consiguiente:
g(x)h(x)
fY [x|u ≤ g(y)] = = Cg(x)h(x) = fX (x)
1/C
2
Debe ser fácil generar los valores a partir de h(x).
La eciencia debe ser la más alta posible; es decir, C debe estar lo más próximo
a uno (1) como se pueda.
Algoritmo 1.13.
Paso [1] Se hace i := 1 hasta n:
1. válido:= FALSO
2. Mientras no válido:
3. xi := y
Paso [2] Devolver x1 , . . . , xn como la muestra generada.
FACYT-MATEMÁTICAS
27 CAPÍTULO 1: Simulación
n p o
Ch = (u, v) : 0 ≤ u ≤ h(v/u)
h
f (x) = R
h
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.20: Cociente de Uniformes 28
Justicación
Sea ∆h el área de Ch . Se hace un cambio de variable (u, v) −→ (u, x), donde x = v/u.
Así que:
Z Z
∆h = dudv
Ch
Z Z √h(x)
= ududx
0
√
Z 2 h(x)
u
= dx
2 0
Z
1
= h(x)dx
2
Debido a que (u, v) son uniformes sobre Ch , (u, v) tienen una función de densidad de
probabilidad 1/∆h , por lo que la transformación (u, x) tiene una función de densidad
de probabilidad u/∆h e integrando sobre u se tiene la marginal de X:
Z √h(x)
udu
0 h(x) h(x)
Z Z = =Z
2∆h
dudv h(x)dx
Ch
Algoritmo 1.14.
Paso [1] Se simula u ∼ U (0, a) y v ∼ U (−b, b).
Paso [2] Si (u, v) ∈ Ch , se acepta x = v/u. En otro caso se repite.
Paso [3] Continúe.
Un algoritmo equivalente es el siguiente:
Algoritmo 1.15.
Paso [1] Se simula u ∼ U (0, 1) y v ∼ U (−1, 1).
Paso [2] Si u2 + v2 ≤ 1, se acepta x = u/v. En otro caso se repite.
Paso [3] Continúe.
Como ejemplo, considérese la distribución de Cauchy con densidad dada por:
1
, Ch = (u, v) : 0 ≤ u, u2 + v 2 ≤ 1
h(x) ∝ 2
1+x
Considere el cuadrado [0, a] × [b− , b+ ] = [0, 1] × [−1, 1] e implemente el algoritmo.
FACYT-MATEMÁTICAS
29 CAPÍTULO 1: Simulación
La media teórica dada en 1.21.1 puede ser aproximada por la media muestral dada
por:
n
1X
E(X) = xi (1.21.2)
n i=1
n
1X
θ̂ = φ(xi )
n i=1
determine x1 , . . . , x10 .
2. Si x0 = 3 y:
determine x1 , . . . , x10 .
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 30
6. Suponga que cada miembro en una lista de n elementos tiene un valor asociado,
y sea v(i) el valor asociado al i-ésimo elemento de la lista. Suponga que n es
muy grande y también que cada elemento puede aparecer en lugares distintos
de la lista. Explique la forma de utilizar números aleatorios para estimar la
suma de los valores de los elementos distintos en la lista (en la que el valor de
cada elemento se cuenta una sola vez, sin importar el número de veces que el
elemento aparezca anotado).
(j − 1)!
pj = pr (1 − p)j−r , donde j = r, r + 1, . . .
(j − r)!(r − 1)!
j(1 − p)
pj+1 = pj
j+1−r
(b) Utilice la relación de la parte (b) para dar otro algoritmo que genere
variables aleatorias binomiales negativas.
FACYT-MATEMÁTICAS
31 CAPÍTULO 1: Simulación
1/2
2
E[|Z|] = ≈ 0.798
π
e−λ λi /i!
P {X = i} = k
, donde i = 0, . . . , k
X
e−λ λj /j!
j=0
10. Sea X una variable aleatoria binomial con parámetros n y p. Suponga que se
desea generar una variable aleatoria Y cuya función de masa de probabilidad
es igual a la función de masa condicional de X dado que X≥k para alguna
k ≤ n. Sea α = P {X ≥ k} y suponga que se ha calculado el valor de α.
11. Se lanza de manera continua un par de dados legales, hasta que todos los
posibles resultados 2, 3, . . . , 12 hayan parecido al menos una vez. Desarrolle
un estudio de simulación para estimar el número esperado de lanzamientos
necesarios.
12. Suponga que la variable aleatoria X puede tomar cualquiera de los valores
1, . . . , 10 con probabilidades respectivas 0.06, 0.06, 0.06, 0.06, 0.06, 0.15, 0.13,
0.14, 0.15, 0.13. Utilice el método de composición para dar un algoritmo que
genere el valor de X.
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 32
14. Dé un método para generar una variable aleatoria con función de densidad:
x−2
2
si 2≤x≤3
f (x) = 2−x/3
2
si 3≤x≤6
15. Dé un método para generar una variable aleatoria con función de distribución:
Una variable aleatoria con tal distribución es una variable aleatoria Weibull.
n
X
F (x) = pi Fi (x)
i=1
G(x) − G(a)
F (x) = , a≤x≤b
G(b) − G(a)
(b) Muestre que el método de rechazo se reduce en este caso a generar una
variable aleatoria X con distribución G y luego aceptarla si está entre a y
b.
FACYT-MATEMÁTICAS
33 CAPÍTULO 1: Simulación
f (x) = 30 x2 − 2x3 + x4 , 0 ≤ x ≤ 1
UNIVERSIDAD DE CARABOBO
SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 34
FACYT-MATEMÁTICAS
Capítulo 2
Fundamentos de la Inferencia
Bayesiana
Ejemplo 2.1. Supóngase que se quiere ver el efecto de una campaña publicitaria
(mercadeo) sobre las ventas de un producto. Sea:
1. Y: el porcentaje de personas que se recuerdan de haber visto el anuncio.
35
SECCIÓN 2.1: Inferencia Bayesiana 36
Objetivos 2.1.
1. Obtener información sobre cantidades desconocidas, combinando las dos fuentes
de información.
FACYT-MATEMÁTICAS
37 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
X
P (y) = P (θ)P (y|θ)
θ
La suma es sobre todos los valores de θ en el caso discreto. En el caso que θ sea
continuo:
Z
P (y) = P (θ)P (y|θ)dθ
Θ
1. Inferencia Clásica
2. Inferencia Bayesiana
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.2: El Problema de Inferencia 38
Intervalos de conanza.
f (X|θ)f (θ)
f (θ|X) = ∝ f (X|θ)f (θ) = L(θ|X)f (θ)
f (X)
donde:
FACYT-MATEMÁTICAS
39 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
Observación 2.1.
2.2.4. Predicción
Dado los datos X = (x1 , . . . , xn )T , suponga que se quiere predecir el valor de
xn+1 , entonces se calcula la distribución predictiva dada por:
Z
f (xn+1 |X) = f (xn+1 |θ)P (θ|X)dθ (2.2.1)
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.2: El Problema de Inferencia 40
E(z) = E [E(z|y)]
para variables z e y. Para evaluar la varianza predictiva, se usa la fórmula:
• Muestreador Gibss.
• Metrópolis-Hastings.
• Algoritmo E-M.
• Algoritmo de aceptación y rechazo.
3. Métodos Monte Carlo secuencial.
• Filtro de Kalman.
• Filtro de Kalman extendido.
• Filtro de partículas.
Después que los datos y han sido observados, se puede predecir una variable no
observada desconocida ỹ del mismo proceso, mediante:
Z
P (ỹ|y) = P (ỹ, θ|y)dθ
Z
= P (ỹ|θ, y)P (θ|y)dθ
Z
= P (ỹ|θ)P (θ|y)dθ (2.2.2)
FACYT-MATEMÁTICAS
41 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
P (A ∩ B)
P (A|B) =
P (B)
P (A ∩ B) P (B|A)P (A)
P (A|B) = =
P (B) P (B)
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 42
◦ P (D|A1 ) = 0.01
◦ P (D|A2 ) = 0.03
◦ P (D|A3 ) = 0.025
◦ P (D|A4 ) = 0.02
◦ P (A1 ) = 0.35
◦ P (A2 ) = 0.20
◦ P (A3 ) = 0.24
◦ P (A4 ) = 0.21
Así que la probabilidad de que una caja elegida al azar sea defectuosa puede ser
FACYT-MATEMÁTICAS
43 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
Solución:
Z
P (X) = P (X|y)P (y)dy
∞
y X e−y −βy
Z
= βe dy
0 X!
Z ∞
β
= y X e−βy−y dy
X! 0
Z ∞
β
= y X e−y(β+1) dy (2.5.2)
X! 0
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 44
Solución:
Z ∞
P (X) = f (X|θ)P (θ)dθ
Z0 ∞
β α α−1 −θβ
= θe−θX θ e dθ
0 Γ(α)
Z ∞
βα
= θα+1−1 e−θX−θβ dθ
Γ(α) 0
Z ∞
βα
= θα+1−1 e−θ(X+θ) dθ (2.5.3)
Γ(α) 0
FACYT-MATEMÁTICAS
45 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
Se hace el cambio:
dw
w = θ(X + β) ⇒ dw = (X + β)dθ ⇒ dθ =
X+β
y sustituyendo en 2.5.3, se obtiene que:
Z ∞ α+1−1
βα w dw
P (X) = e−w
Γ(α) 0 X+β X+β
α Z ∞
β 1
= wα+1−1 e−w dw
Γ(α) (X + β)α+1 0
βα 1
= Γ(α + 1)
Γ(α) (X + β)α+1
βα 1
= αΓ(α)
Γ(α) (X + β)α+1
αβ α
=
(X + β)α+1
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 46
Entonces:
P (A ∩ D)
P (A|D) =
P (D)
P (D|A)P (A)
=
P (D)
11
1
= 23 =
1/2 3
P (D) = P (D ∩ A) + P (D ∩ B) + P (D ∩ C)
= P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C)
11 1 1 1
= +0 +1 =
23 3 3 2
Ejemplo 2.7. Suponga que se descubrió en el ejemplo 2.3 que una caja está
defectuosa. Calcular la probabilidad de que venga de A1 , A2 , A3 y A4 .
FACYT-MATEMÁTICAS
47 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
Así que:
0.01 × 0.35
P (A1 |D) = ≈ 0.1776
0.0197
0.03 × 0.20
P (A2 |D) = ≈ 0.3045
0.0197
0.025 × 0.24
P (A3 |D) = ≈ 0.3045
0.0197
0.02 × 0.21
P (A4 |D) = ≈ 0.2131
0.0197
Ejemplo 2.8. Suponga que y ∼ Exponencial(β) y x|y ∼ P oisson(y). Obtenga
la distribución condicional de y|x.
Solución:
f (y, x)
f (y|x) =
P (x)
P (x|y)f (y) P (x|y)f (y)
= =X
P (x) P (x|y)f (y)
x
x
y exp{−y}β exp{−βy}/x! (β + 1)x+1 βy x e−y−βy
= =
β/ [(β + 1)x+1 ] βx!
x+1 x −(y+βy) x+1 x+1−1 −y(β+1)
(β + 1) y e (β + 1) y e
= =
x! x!
x+1 (x+1)−1 −y(β+1)
(β + 1) y e
=
Γ(x + 1)
⇒ y|x ∼ Gamma(x + 1, β + 1)
Ejemplo 2.9. Si x|θ ∼ Exponencial(θ) y θ ∼ Gamma(α, β), obtener la
distribución de θ dada una observación x.
Solución:
P (θ ∩ x) P (x|θ)P (θ)
P (θ|x) = =
P (x) P (x)
β α α−1 −βθ
∝ P (x|θ)P (θ) = θe−θx θ e
Γ(α)
β α α+1−1 −βθ−θx
= θ e
Γ(α)
β α α+1−1 −θ(β−x)
= θ e
Γ(α)
⇒ θ|x ∼ Gamma(α + 1, β + x)
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 48
Ahora:
P (θ = 1 ∩ y = 1)
P (θ = 1|y = 1) =
P (y = 1)
P (y = 1|θ = 1)P (θ = 1)
=
P (y = 1|θ = 1)P (θ = 1) + P (y = 2|θ = 2)P (θ = 2)
N (y = 1; 1, 4) 21
= = 0.53
N (y = 1; 1, 4) 21 + N (y = 1; 2, 4) 12
FACYT-MATEMÁTICAS
49 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
c.
(y − 1)2 /σ 2 σ (y − 1)2 /σ 2 σ
lı́m 1 2
= lı́m 1 lı́m
2
(y − 1) 2
σ→0 (y − 1)2
σ→0
e σ2 (y−1) σ→0
e σ2 (y−1)
(y − 1)2 /σ 2
= lı́m 1 2
0
σ→0
e σ2 (y−1)
(y − 1)2 z ∞
= lı́m z(y−1)2 0 = 0
z→∞ e ∞
Aplicando la regla de L'Hôpital se obtiene lo siguiente:
(y − 1)2 z 1
lı́m z(y−1)2 = lı́m z(y−1)2 = 0
z→∞ e z→∞ e
Por lo tanto:
(y − 1)2 /σ 2 σ
lı́m 1 =0
σ→0
e σ2
(y−1)2 (y − 1)2
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 50
En conclusión:
1 1
lı́m 1
(y−1)2
+ 1
(y−2)2
=0
σ→0
σe σ2 σe σ2
FACYT-MATEMÁTICAS
51 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
Solucion:
b.
P (oF G ∩ EP = 8) 5
P (oF G|EP = 8) = = = 0.42
P (EP = 8) 12
c.
es decir, los valores posibles que toma la variable aleatoria X son: 0, 1, 2. Debido
a que θ ∼ Beta(4, 4), entonces la distribución a priori viene dada por:
P (θ) ∝ θ3 (1 − θ)3
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 52
1
E(y) = np = 1000 = 166.7
6
15 5000
V ar(y) = npq = np(1 − p) = 1000 =
r 66 36
p 5000
⇒ V ar(y) = = 11.8
36
De modo que:
• 5 % de los puntos es: E(y) − Z5 %
p
V ar(y) = 166.7 − (1.65)11.8 ≈ 147
de los puntos es: E(y) − Z25 % V ar(y) = 166.7 − (0.67)11.8 ≈ 159
p
• 25 %
de los puntos es: E(y) − Z50 % V ar(y) = 166.7 − (0)11.8 = 166.7
p
• 50 %
de los puntos es: E(y) − Z75 % V ar(y) = 166.7 + (−0.67)11.8 ≈ 175
p
• 75 %
de los puntos es: E(y) − Z95 % V ar(y) = 166.7 + (−1.64)11.8 ≈ 186
p
• 95 %
FACYT-MATEMÁTICAS
53 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
Solución:
De la misma forma:
1 p
P (y|θ) = ⇒ E(y) = 166.7, V ar(y) = 11.8
6
1 p
P (y|θ) = ⇒ E(y) = 250, V ar(y) = 13.7
4
Finalmente la distribución de y|θ es una mezcla de tres distribuciones
condicionales:
1 1 1
P (y|θ) ∝ N (83.33, 76.38) + N 166.7, (11.8)2 + N 250, (13.7)2
3 3 3
Ahora, usando el software R se procede a gracar la distribución de y|θ de la
siguiente manera:
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 54
y=1/3*rnorm(1000,83.33,8.74)+1/3*rnorm(1000,166.7,11.8)+
1/3*rnorm(1000,250,13.7);
plot(density(y))
FACYT-MATEMÁTICAS
55 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
a.
Z 1
P (y = k) = P (y = k|θ)dθ
0
Z 1
n
= θk (1 − θ)n−k dθ
0 k
Z 1
n
= θk+1 (1 − θ)n−k+1−1 dθ
k
0
n Γ(k + 1)Γ(n − k + 1)
=
k Γ(n + 2)
n! k!(n − k)! 1
= =
(n − k)!k! (n + 1)k! n+1
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 56
c. Se sabe que:
αβ 1
V ar(θ) = =
(α + β)2 (α + β + 1) 12
FACYT-MATEMÁTICAS
57 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
Entonces:
1 1 4−3 1
V ar(θ) = E θ2 − [E(θ)]2 = − =
=
3 4 12 12
Se calcula la distribución a posteriori de la siguiente manera:
P (θ|y) ∝ θy (1 − θ)n−y 1 = θy+1−1 (1 − θ)n−y+1−1
⇒ θ|y ∼ Beta(1 + y, 1 + n − y)
(1 + y)(n − y + 1)
V (θ|y) =
(2 + n)2 (3 + n)
1+y 1+n−y 1
=
2+n 2+n 3+n
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.5: Teorema de Bayes 58
Así que:
a+X
E(θ|X) =
a+b+n
Además:
(a + X)(n + b − X)
V ar(θ|X) =
(a + b + n + 1)(a + b + n)2
∂V ar(θ|X) (n + b − X) (a + X)
⇒ = 2
− =0
∂X (a + b + n + 1)(a + b + n) (a + b + n + 1)(a + b + n)2
De modo que:
n+b−X=a+X
⇒ n + b − a = 2X
FACYT-MATEMÁTICAS
59 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
h i
a. Probar que P (θ|X) = c/θ, donde θ ∈ (X − 1, X + 1), c = ln y −1 (X+1)
(X−1)
X > 1.
b. Calcule la media, la moda y la mediana de la distribución a posteriori.
Solución:
Ahora:
Z X+1 Z X+1
c X+1
1= dθ = c ln θ
P (θ|X)dθ =
X−1 X−1 θ X−1
(X + 1)
= c {ln(X + 1) − ln(X − 1)} = c ln
(X − 1)
1 (X + 1) −1 (X + 1)
⇒ = ln ⇒ c = ln
c (X − 1) (X − 1)
b.
Z X+1 Z X+1
c X+1
E(θ|X) = θ dθ = c dθ = cθ = c(X + 1 − X + 1) = 2c
X−1 θ X−1 X−1
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 60
2. Una caja contiene tres monedas con una cara en cada lado, cuatro monedas
con una cruz en cada lado y dos monedas legales. Si se selecciona al azar
una de estas nueve monedas y se lanza una vez, ¾cuál es la probabilidad de
obtener una cara?. Si se obtiene una cara, ¾cuál es la probabilidad de que
la moneda sea legal?. Si se tira la moneda n veces y se obtienen n caras,
¾cuál es la probabilidad de que la moneda sea legal?
FACYT-MATEMÁTICAS
61 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
8. Se han anotado las edades de 21 niños cuando hablaron por primera vez:
15, 26, 10, 9, 15, 20, 18, 11, 8, 20, 7, 9, 10, 11, 11, 10, 12, 42, 17, 11, 10
Suponiendo que los datos son normales y una distribución a priori:
1
µ|φ ∼ N 12,
φ
(a) Calcular la distribución a posteriori de µ|φ, X.
(b) Sea la distribución a priori de φ una Gamma, es decir, φ ∼
Gamma (1/2, 1/2).
i. Calcular la distribución a posteriori de φ|X.
ii. ¾Cuál es la distribución a posteriori de la varianza σ 2 = 1/φ?
iii. Obtener la distribución a posteriori de µ|X y escribir un intervalo
de credibilidad del 95 % para µ|X.
9. Suponga que X1 , X2 y X3 son independientes y todas poseen la misma
distribución continua con densidad f (X) y función de distribución F (X).
Encuentre la función de distribución de:
i ∼ Binomial(m, π)
j ∼ Binomial(n, π)
Sea k = i + j:
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 62
Encuentre:
12. Una variable aleatoria X se dice que tiene una distribución Weibull si
existen parámetros c > 0 y α > 0, tal que:
34 θ4−1 exp{−3θ}
f (θ) = , θ≥0
Γ(4)
FACYT-MATEMÁTICAS
63 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 64
FACYT-MATEMÁTICAS
65 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana
25. Suponga que se tiene una distribución a priori para la probabilidad de éxito
de π en un cierto tipo de juego, el cual tiene media 0.4, y se considera que
la información a priori es equivalente a 12 ensayos. Suponga que se juega
25 veces y se gana 12 veces. ¾Cuál es la distribución a posteriori de π?
26. Suponga X tiene una distribución Poisson de media 1/λ2 , asi que la
verosimilitud toma la forma siguiente:
−2X 1
L(λ|X) = λ exp
λ2
222, 234, 156, 287, 190, 255, 307, 101, 133, 251, 177, 225
148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236,
√
con desviación estándar φ = 25. ¾Cuál es la distribución predictiva para
una posible futura observación X?
30. Hoy me he pesado varias veces usando balanzas distintas con los resultados
(kilos):
UNIVERSIDAD DE CARABOBO
SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 66
Las diferencias entre las balanzas pueden haber causado los resultados
2
distintos. Suponiendo que los datos son normales con varianza σ = 9 y
que mi distribución a priori para mi verdadero peso µ es:
µ ∼ N (80, 100)
FACYT-MATEMÁTICAS
Capítulo 3
1. Modelo Bernoulli.
2. Modelo Binomial.
3. Modelo Geométrico.
4. Modelo de Poisson.
5. Modelo Beta.
6. Modelo Gamma.
7. Modelo Exponencial.
9. Modelo Dirichlet.
67
68
Solución:
θ ∼ N µ0 , τ02
Entonces:
P (θ|y) ∝ L(θ|y)P (θ)
1 2 1 2
= exp − 2 (y − θ) exp − 2 (θ − µ0 )
2σ 2τ0
1 2 1 2
= exp − 2 (y − θ) − 2 (θ − µ0 )
2σ 2τ0
1 2 2
1 2 2
= exp − 2 y − 2yθ + θ − 2 θ − 2θµ0 + µ0
2σ 2τ
2 0
θ 1 1 2θ y µ0
= exp − + + +
2 σ 2 τ02 2 σ 2 τ02
y/θ2 + µ0 /τ02
1 1 1 2
= exp − + θ − 2θ
2 σ 2 τ02 1/σ 2 + 1/τ02
Sea:
1 1 1 1
2
= 2 + 2 ⇒ τ12 =
τ1 σ τ0 1/σ + 1/τ02
2
y
y µ0
µ1 = 2
+ 2 τ12
σ τ0
FACYT-MATEMÁTICAS
69 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
= σ 2 + τ12
Los vectores φ(θ) y µ(yi ) por lo general tienen la misma dimensión que θ.
Además, φ(θ) se le llama parámetro natural de la familia F .
La verosimilitud correspondiente a una secuencia y = (y1 , . . . , yn ) de
observaciones independientes e idénticamente distribuidas es:
" n
# ( n
)
Y X
P (y|θ) = b(yi ) g n (θ) exp φT (θ) µ(yi ) , ∀ n, y (3.1.2)
i=1 i=1
Pn
donde T (y) = i=1 µ(yi ) y se dene como el estadístico suciente de θ .
Los estadísticos sucientes son útiles para manipulaciones algebraicas de las
verosimilitudes y las distribuciones a posteriori. La distribución a priori es
especicada por:
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.1: Distribuciones a Priori Conjugadas, Familias Exponenciales y
Estadísticos Sucientes 70
De modo que:
θ
f (y|θ) = (1 − θ) exp y log
1−θ
El uso de una densidad a priori que conjuga con la verosimilitud permite obtener
expresiones analíticas para la densidad a posteriori:
FACYT-MATEMÁTICAS
71 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 72
Pn 2 Pn 2
µ2 − 2µµ0 + µ20
1 i=1 xi − 2µ i=1 xi + nµ
= exp − +
2 σ2 σ2
Pn 0
1 n 1 i=1 xi µ0
∝ exp − 2
+ 2 µ2 − 2µ 2
+ 2
2 σ σ0 σ σ0
2 Pn
σ0 i=1 xi + µ0 σ 2
2 2
1 nσ0 + σ 2
∝ exp − µ −2 µ
2 σ 2 σ02 σ02 σ 2
2 Pn
1 nσ02 + σ 2 σ0 i=1 xi + σ 2 µ0
2
∝ exp − µ − 2µ
2 σ 2 σ02 nσ02 + σ 2
1 nσ0 + σ 2 σ02 ni=1 xi + σ 2 µ0
2 P
2
∝ exp − µ − 2µ
2 σ 2 σ02 nσ02 + σ 2
2 Pn 2
#)
σ0 i=1 xi + σ 2 µ0
+
nσ02 + σ 2
( Pn 2 )
2 2
2 2
1 nσ0 + σ σ xi + σ µ 0
∝ exp − 2 2
µ − 0 i=12 (Kernel normal)
2 σ σ0 nσ0 + σ 2
2 Pn
σ0 i=1 xi + σ 2 µ0 σ 2 σ02
∴ µ|x ∼ N , 2
nσ02 + σ 2 nσ0 + σ 2
donde:
Pn
σ02 i=1 xi + σ
2
µ0
µaposteriori =
nσ02 + σ 2
y
2 σ 2 σ02
σaposteriori =
nσ02 + σ 2
FACYT-MATEMÁTICAS
73 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
Pn 2
i=1 (xi − µ) + γ0
∝τ (n+δ0 )/2−1
exp −τ (Kernel Gamma)
2
De modo que:
Pn
− µ)2
n + δ0 γ0 + i=1 (xi
τ |x ∼ Gamma ,
2 2
donde µ|τ ∼ N (µ0 , σ02 /τ ) y τ ∼ Gamma (δ0 /2, γ0 /2). Hallar la conjunta
P (µ, τ |x):
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 74
( n
!)
Z ∞ 2
τ µ X
= τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i
0 2 σ0 i=1
( " n
!#)
τ 1 X µ 0
× exp − µ2 n + 2 − 2µ xi + 2 dτ
2 σ0 i=1
σ 0
Z ∞ ( n
!)
2
τ µ X
= τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i
0 2 σ 0
Pn i=1
2µ ( i=1 xi + µ0 /σ02 )
τ 1 2
× exp − n+ 2 µ − dτ
2 σ0 (n + 1/σ02 )
Z ∞ ( n
!)
(n+δ0 +1)/2−1 −τ µ20 X 2
= τ exp γ0 + 2 + xi
0 2 σ0 i=1
2µ ( ni=1 xi + µ0 /σ02 )
P
τ 1 2
× exp − n+ 2 µ −
2 σ0 n + 1/σ02
Pn 2 2
Pn #)
2 2
i=1 x i + µ 0 /σ 0 i=1 x i + µ 0 /σ0
+ − dτ
n + 1/σ02 n + 1/σ02
Z ∞ ( n
!)
2
τ µ X
= τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i
0 2 σ 0 i=1
( Pn 2 )
( i=1 xi + µ0 /σ02 )
τ 1
× exp − n+ 2 µ−
2 σ0 n + 1/σ02
( P 2
)
τ ( ni=1 xi + µ0 /σ02 )
× exp dτ
2 n + 1/σ02
FACYT-MATEMÁTICAS
75 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
i=1
σ0 σ0
n
Si c = n + y b = γ0 + xi , se tiene que:
X
1/σ02 µ20 /σ02 +
i=1
1
P (µ|x, τ ) ∝
[b + c(µ − a)2
− ca2 ](n+δ0 +1)/2
1
=
[b − ca + c(µ − a)2 ](n+δ0 +1)/2
2
−(n+δ0 +1)/2
c(µ − a)2
∝ 1+
b − ca2
−1 !
(n + δ0 )c
⇒ µ|x, τ ∼ t n + δ0 , a,
b − ca2
es decir, Y ∼ tp (d, m, Σ). En la parte c del ejemplo 3.7, se observó que µ|x, τ
tiene una distribución t con los siguientes parámetros:
• p = 1.
• Grados de libertad: d = n + S0 .
• Parámetro de localización: m = a .
• Parámetro de dispersión: Σ = [(n + δ0 )c/ (b − ca2 )] .
−1
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 76
(" n #)
2
τ µ X 1
∝ τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i − n + 2 a2
2 σ0 i=1
σ0
Z ∞
τ 1
× exp − n + 2 (µ − a)2 dµ
−∞ 2 σ0
Obviando las constantes adecuadas, el kernel de una normal es:
Z ∞
τ 1 2
exp − n + 2 (µ − a) dµ = 1
−∞ 2 σ0
Por lo tanto:
"( n #)
2
τ µ X 1
P (τ |x, µ) = τ (n+δ0 +1)/2−1 exp − γ0 + 02 + x2i − n + 2 a2
2 σ0 i=1
σ0
de modo que:
" n #!
µ20 X 2
n + δ0 + 1 1 1
τ |x, µ ∼ Gamma , γ0 + 2 + x i − n + 2 a2
2 2 σ0 i=1
σ0
Algoritmo 3.1.
Paso [1] Se genera:
h i−1
(n+δ0 )c
• µ|x, τ ∼ t n + δ0 , a, b−ca2
Ejercicio 3.1. Si x|τ ∼ Np (m, τ −1 Σ) y τ ∼ Gamma (δ0 /2, γ0 /2), entonces probar
que:
Z ∞
γ0
P (x) = f (x|τ )Π(τ )dτ ⇒ x ∼ tp δ0 , m, Σ
0 δ0
donde:
1 p/2 −1/2
n τ
T −1
o
f (x|τ ) = τ |Σ| exp − (x − m) Σ (x − m)
(2π)p/2 2
FACYT-MATEMÁTICAS
77 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
N
f (x|θ) = θx (1 − θ)N −x
x
Z
E(θ|x) = θP (θ|x)dθ
Θ
16
f (X|θ) = θX (1 − θ)16−X
X
Γ(α + β) α−1
P (θ) = θ (1 − θ)β−1
Γ(α)Γ(β)
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.4: Modelo de Poisson 78
n n
!
X X
⇒ θ|X ∼ Beta α + xi , n + β − xi
i=1 i=1
De modo que:
α
E(X) =
α+β
αβ
V ar(X) =
(α + β + 1)(α + β)2
FACYT-MATEMÁTICAS
79 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
De esta forma:
θα−1 e−θ/β
θ ∼ Gamma(α, β) ⇒ π(θ) =
Γ(α)β α
donde θ > 0, α > 0 y β > 0. Entonces:
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.6: Ventajas de las Distribuciones Conjugadas 80
Por lo tanto:
θ|X ∼ Gamma α + n, nX + β
En consecuencia la distribución Exponencial es conjugada con la distribución Gamma.
1 1 1 1
= 2 + 2 ⇒ τ12 = 1
τ12
σ τ σ2
+ τ12
X µ µ1 X µ
µ1 = 2
+ 2 τ12 ⇒ 2 = 2 + 2
σ τ τ1 σ τ
FACYT-MATEMÁTICAS
81 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
Entonces:
θ2
µ1
P (θ|X) ∝ exp − 2 + θ 2
2τ1 τ1
1 2
= exp − 2 θ − 2θµ1
2τ1
1 2 2 2
= exp − 2 θ − 2θµ1 + µ1 − µ1
2τ1
1 2
= exp − 2 (θ − µ1 )
2τ1
2
µ1 1 2
exp ∝ exp − 2 (θ − µ1 )
2τ12 2τ1
1 1 2
∝p exp − 2 (θ − µ1 )
2πτ12 2τ1
De este modo:
P (θ|X) ∼ N µ1 , τ12
donde Pi (θ) ∈ P , son conjugadas con una distribución muestral f (X|θ) en el sentido
de la denición 3.1. Luego:
k
X
P (θ|X) = wi∗ Pi∗ (θ)
i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.7: El Modelo Multinomial 82
k
y
Y
P (y|θ) ∝ θj j
j=1
Pk Pk
donde: j=1 θj = 1 y j=1 yj = n. La distribución a priori conjugada es una
generalización multivariada de la distribución Beta conocida como la distribución
de Dirichlet, dada por:
k
α −1
Y
P (θ|α) = θj j
j=1
FACYT-MATEMÁTICAS
83 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
Pk
donde la distribución es restringida a θj 's
j=1 θj = 1. La
no negativos con
distribución a posteriori para los θj 's es nuevamente un proceso de Dirichlet con
parámetros αj + yi , es decir:
k k
α −1
Y Y
P (θ|y) = θjyi θj j
j=1 j=1
θ|y ∼ Dirichlet(αj + yi )
y|µ, Σ ∼ N (µ, Σ)
−1/2 1 T −1
P (y|µ, Σ) ∝ |Σ| exp − (y − µ) Σ (y − µ)
2
n
( )
1 X
P (y1 , y2 , . . . , yn |µ, Σ) ∝ |Σ|−n/2 exp − (yi − µ)T Σ−1 (yi − µ)
2 i=1
−n/2 1 −1
= |Σ| exp − tr Σ S0
2
Pn
donde S0 = i=1 (yi − µ)(yi − µ)T . Recuerde que:
n
X T
(y − µ)T Σ−1 (y − µ) = y (i) − µ(i) Σ−1 y (i) − µ(i)
ii
i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.9: Distribución a Priori para µ con Σ Conocida 84
(µ + µ0 )T Λ−1 T T
−1
0 (µ − µ0 ) = µ + µ0 Λ0 (µ − µ0 )
= µT Λ−1 T −1 T −1 T −1
0 µ − µ Λ0 µ0 − µ0 Λ0 µ + µ0 Λ0 µ0
= µT Λ−1 T −1 T −1
0 µ − 2µ Λ0 µ0 + µ0 Λ0 µ0
Así que:
( n
!
n 1 X
P (µ|y, Σ) ∝ exp − µT Σ−1 µ − 2µT Σ−1 ȳ + y T Σ−1 yi
2 n i=1 i
1 T −1 T −1 T −1
− µ Λ0 µ − 2µ Λ0 µ0 + µ0 Λ0 µ0
2
n T −1 T −1 1 T −1 2 T −1
∝ exp − µ Σ µ − 2µ Σ ȳ + µ Λ0 µ − µ Λ0 µ0
2 n n
FACYT-MATEMÁTICAS
85 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
Λ−1 Λ−1
n T −1 0 T −1 0 µ0
= exp − µ Σ + µ − 2µ Σ ȳ +
2 n n
1
= exp − (µ − µn )T Σ−1
n (µ − µn )
2
donde:
−1
µn = Λ−1 −1
Λ−1 −1
0 + nΣ 0 µ0 + nΣ ȳ
Σ−1 −1
n = Λ0 + nΣ
−1
donde:
−1
β 1/2 = Λ12 (22)
n Λn
−1
Λ1/2 = Λ(11)
n − Λ(12)
n Λ(22)
n Λ(12)
n
−[(v0 +d)/2+1] 1 −1
k0 T −1
P (µ, Σ) ∝ |Σ| exp − tr Λ0 Σ − (µ − µ0 ) Σ (µ − µ0 )
2 2
entonces:
Λ0
µ, Σ ∼ N ormal − Inversa − W ishart µ0 , , v0 , Λ0
k0
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 86
La a posteriori es:
k0 n
µn = µ0 + ȳ,
k0 + n k0 + n
kn = k0 + n,
vn = v0 + n,
k0 n
Λn = Λ0 + S + (ȳ − µ0 )(ȳ − µ0 )T ,
k0 + n
donde:
n
X
S= (yi − ȳ)(yi − ȳ)T
i=1
FACYT-MATEMÁTICAS
87 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
3. Si X|θ es una familia exponencial, demostrar que dada una muestra X, siempre
existe un estadístico suciente para θ. Utilizar un ejemplo para demostrar que
la existencia de un estadístico suciente no siempre implica que X pertenece a
una familia exponencial.
X|θ ∼ U (0, θ)
1
f (θ) ∝ , θ > 12
θ4
(a) Calcular la constante de integración de la distribución a priori.
(c) Dadas las observaciones durante una semana: X = (2, 1, 8, 3, 10, 5, 7),
obtener la distribución a posteriori de θ.
(d) Calcular la media a posteriori de θ.
(e) Obtener la media predictiva del número de minutos de espera mañana por
la mañana.
5. Suponga que x tiene una distribución Poisson de media 1/λ2 , asi que la
verosimilitud toma la forma:
Explique, ¾cómo podría hacer inferencia acerca del parámetro θ usando una
priori conjugada?
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 88
Explique, ¾cómo podría hacer inferencia acerca del parámetro θ usando una
priori conjugada?
(b) Obtenga P (|Y| > 1|X), donde Y es una nueva observación tomada de la
misma población.
γn x̄n + (1 − γn ) µ0
FACYT-MATEMÁTICAS
89 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples
3
n! Y
Q3 pxi i , xi ≥ 0, x1 + x2 + x3 = n
i=1 xi ! i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 90
FACYT-MATEMÁTICAS
Capítulo 4
Elementos de Inferencia
91
SECCIÓN 4.1: Información de Fisher 92
Demostración.
n
Y
P (X|θ) = Pi (Xi |θ)
i=1
Xn
⇒ log [P (X|θ)] = log Pi (Xi |θ)
i=1
n
∂ 2 log P (X|θ) X ∂ 2 log Pi (Xi |θ)
− = −
∂θ∂θT i=1
∂θ∂θT
n
X
⇒ JX (θ) = JXi (θ)
i=1
n
" #
X ∂ 2 log Pi (Xi |θ)
EX|θ [I(θ)] = EX|θ − θ
i=1
∂θ∂θT
n
X ∂ 2 log Pi (Xi |θ)
= EX|θ − θ
i=1 ∂θ∂θT
n
X
= Ii (θ)
i=1
2
Denición 4.2. La función Score de X, se denota por U (X; θ) y se dene de la
siguiente manera:
∂ log P (X|θ)
U (X; θ) = (4.1.3)
∂θ
FACYT-MATEMÁTICAS
93 CAPÍTULO 4: Elementos de Inferencia
Demostración.
Z
P (X|θ)dX = 1
Z T Z 2
∂ log P (X|θ) ∂P (X|θ) ∂ log P (X|θ)
0= dX + P (X|θ)dX
∂θ ∂θ ∂θ∂θT
Z T
∂ log P (X|θ) ∂ log P (X|θ)
= P (X|θ)dX
∂θ ∂θ
∂ 2 log P (X|θ)
Z
+ P (X|θ)dX
∂θ∂θT
Z T
∂ log P (X|θ) ∂ log P (X|θ)
= P (X|θ)dX − I(θ)
∂θ ∂θ
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.2: Naturaleza Secuencial del Teorema de Bayes 94
Z T
∂ log P (X|θ) ∂ log P (X|θ)
⇒ I(θ) = P (X|θ)dX
∂θ ∂θ
Z
= U (X; θ)U T (X; θ)P (X|θ)dX
= EX|θ U 2 (X; θ)
o alternativamente:
" n
#
Y
P (θ|Xn , Xn−1 , . . . , X2 , X1 ) ∝ Li (θ; Xi ) P (θ)
i=1
4.3. Intercambiabilidad
Denición 4.3. Sea k = {k1 , . . . , kn } una permutación de {1, . . . , n}. Las variables
aleatorias X1 , . . . , Xn son intercambiables si las n! permutaciones (Xk1 , . . . , Xkn )
tienen la misma distribución de probabilidad n-dimensional.
Una consecuencia inmediata de la intercambiabilidad, es que todas las distribuciones
marginales pueden ser las mismas.
FACYT-MATEMÁTICAS
95 CAPÍTULO 4: Elementos de Inferencia
Ejemplo 4.1. Considérese una urna con m bolas, enumeradas r de ellas desde 1
hasta m − r con el número cero. Las bolas son tomadas de la urna, una a la vez
sin reemplazo. Si Xk denota el número asociado con la k-ésima bola seleccionada.
Entonces X1 , . . . , Xn , con n ≤ m, es una secuencia intercambiable, pero las X no
son independientes.
Teorema 4.1. Para todas las secuencia innitas de cantidades intercambiables
{Xn , n = 1, 2, . . .}. Asumiendo valores en [0, 1], le corresponde una distribución F
en (0, 1), tal que ∀n y k ≤ n, se tiene que:
Z 1
P (k, n − k) = θk (1 − θ)n−k dF (θ) (4.3.1)
0
donde (k, n − k) denota el evento que k de los X0i s son unos y los otros n − k son
cero (Teorema de Finetti, 1937).
Si se introduce la hipótesis de simetría de las distribuciones y la propiedad de
invarianza bajo transformaciones lineales, no es difícil probar que la densidad
conjunta de alguna subsecuencia está dada por:
Z ∞ Z ∞ n
Y
PN Xi ; θ, σ 2 dF θ, σ 2
P (X1 , . . . , Xn ) =
0 −∞ i=1
Z ∞Z ∞ Yn
1 1
= √ 2
exp − 2 (Xi − θ) dθdσ 2
0 −∞ i=1 2πσ 2 2σ
Z ∞Z ∞ ( n
)
1 1 X
= 2 n/2
exp − 2 (Xi − θ)2 dθdσ 2
0 −∞ (2πσ ) 2σ i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.3: Intercambiabilidad 96
Demostración.
P (X|θ) = P (X, T |θ); si T = T (X) y 0 si T 6= T (X)
= P (X|T, θ)P (T, θ)
= P (X|T, θ)P (T |θ)P (θ)
∝ P (X|T )P (T |θ)
Entonces:
P (θ|X) = P (θ|T )
2
Denición 4.6. (Punto de vista de la estadística Bayesiana).
El estadístico T (X) es suciente para θ si existe una función f tal que:
P (θ|X) ∝ f (θ; T ) (4.3.4)
0
At ∩ At0 = ∅, ∀t, t ∈ RP
y
[
At = S.
t
FACYT-MATEMÁTICAS
97 CAPÍTULO 4: Elementos de Inferencia
(⇐)
Z Z
P (T |θ) = P (X|θ)dθ = f (T ; θ)g(X)dX
AT AT
Z
= f (T ; θ) g(X)dX = f (T ; θ)G(X)
AT
de modo que:
P (X|θ) g(X)
P (X|T, θ) = ⇒ P (X|T, θ) = = P (X|T )
P (T |θ) G(X)
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.4: Eliminación de Parámetros. 98
1. Distribuciones marginales:
Z
P (θ|X) = P (θ, φ|X)dφ
Φ
Z
P (φ|X) = P (θ, φ|X)dθ
Θ
L(θ; X) = P (X|θ)
Z
= P (X, φ|θ)dφ
Zφ
= P (X|θ, φ)P (φ|θ)dφ
Zφ
L(φ; X) = P (X|φ, θ)P (θ|φ)dθ
θ
FACYT-MATEMÁTICAS
99 CAPÍTULO 4: Elementos de Inferencia
donde:
n n
1X
2
2 X 2
S = Xi − X ⇒ nS 2 = Xi − X
n i=1 i=1
donde:
h 2 iφ
W = nS 2 + n X − θ + n0 σ02
2
2W
⇒φ= 2
nS 2 + n X − θ + n0 σ02
2dW
⇒ dφ = 2
nS 2 + n X − θ + n0 σ02
De modo que:
" #(n0 +n)/2 Z
∞
1
L(θ; X) ∝ 2 W(n0 +n)/2−1 e−W dW
nS 2 +n X−θ + n0 σ02 0
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.5: Familias de Escala y Localización 100
Γ( n02+n )
=h 2 i(n0 +n)/2
2 2
nS + n X − θ + n0 σ0
1
∝h 2 i(n0 +n)/2
nS 2 + n X − θ + n0 σ02
1
= 2
(n0 +n)/2
2 n(X−θ)
2
(nS + n0 σ0 ) 1 + nS 2 +n0 σ2
0
−n/2
1
∝ k 2
; n0 → 0
(X−θ)
1 + S2
−[(n−1)+1]/2
T 2 (X, θ)
=k 1+
n−1
donde:
X−θ
T (X, θ) = q
S2
n−1
T ∼ tn−1
1 X−µ
1. σ
f σ
≥0
∞
X−µ
Z
1
2. f dX = 1
−∞ σ σ
FACYT-MATEMÁTICAS
101 CAPÍTULO 4: Elementos de Inferencia
X−µ
y= ⇒ σdy = dX
σ
De modo que nos queda lo siguiente:
∞ ∞
X−µ
Z Z
1
f dX = f (y)dy = 1
−∞ σ σ −∞
1 X−µ
En consecuencia, g(X|µ, σ) = σ
f σ
es una función de densidad de
probabilidad. 2
Denición 4.7. Sea f (X) una función de densidad de probabilidad, entonces la
familia de función de densidad de probabilidad f (X − µ) indexada por µ, donde
−∞ < µ < ∞, es llamada la familia de localización con función de densidad de
probabilidad estándar f (X) y µ es llamado el parámetro de localización de familia de
localización.
Denición 4.8. Sea f (X) una función de densidad de probabilidad, entonces para
algún σ > 0, la familia σ1 f Xσ indexada por el parámetro σ, es llamada la familia
escala con función de densidad de probabilidad estándar f (X) y σ es llamado
parámetro de escala de la familia.
Denición 4.9. Sea f (X) una función de densidad de probabilidad, entonces para
algún µ, donde −∞ < µ < ∞, y algún σ > 0, la familia de función de densidad
de probabilidad σ1 f X−µ
σ
indexada por el parámetro (µ, σ), es llamada la familia de
escala y localización con función de densidad de probabilidad estándar f (X), µ es el
parámetro de localización y σ es el parámetro de escala.
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 102
Una priori inversa π (σ 2 ) = 1/σ 2 , puede ser aproximada por una densidad Gamma.
FACYT-MATEMÁTICAS
103 CAPÍTULO 4: Elementos de Inferencia
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 104
1 1
⇒ θ ∼ Beta ,
2 2
Solución:
n−1
log f (Y|θ) = log + s log(θ) + (Y − s) log(1 − θ)
s−1
∂ log f (Y|θ) s Y−s
⇒ = −
∂θ θ 1−θ
2
∂ log f (Y|θ) s (Y − s)
2
=− 2 −
∂θ θ (1 − θ)2
FACYT-MATEMÁTICAS
105 CAPÍTULO 4: Elementos de Inferencia
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 106
σ 2 ∼ Inv − χ2 v0 , σ02
P σ 2 |Y ∝ L σ 2 |Y P σ 2
Así que:
v0 σ02
n nv o
2 2 −n/2 2 −(v0 /2+1)
P σ |Y ∝ σ exp − 2 σ exp − 2
2σ 2σ
−[(n+v0 )/2+1] 1
∝ σ2 exp − 2 nv + v0 σ02
2σ
2
2 2 v0 σ0 + nv
⇒ σ |Y ∼ Inv − χ v0 + n,
v0 + n
n/2+1
2
1 1 h 2
2 i
⇒ P µ, σ |X ∝ exp − 2 n − S + n X − µ
σ2 2σ
FACYT-MATEMÁTICAS
107 CAPÍTULO 4: Elementos de Inferencia
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 108
En consecuencia:
S2
µ|Y ∼ tn−1 X,
n
Ejemplo 4.7. Supóngase que X ∼ N (θ, σ2 ), donde σ2 es conocido y θ ∈ (a, b), con
a < b.
a. Obtenga la a priori no informativa para θ .
Solución:
FACYT-MATEMÁTICAS
109 CAPÍTULO 4: Elementos de Inferencia
Ejemplos
1. Supóngase que para −∞ < θ < ∞, entonces la priori π(θ) ∝ 1, así que:
Z ∞ Z ∞
π(θ)dθ = dθ = ∞
−∞ −∞
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 110
1 1
π σ 2 ∝ 2 ⇒ π(σ) ∝
σ σ
En la mayoría de los casos, la a priori de Jereys, es una a priori impropia, sin
embargo la distribución a posteriori es propia.
FACYT-MATEMÁTICAS
111 CAPÍTULO 4: Elementos de Inferencia
∂ 2L
nθ n − nθ
E − =−
∂θ2θ (1 − θ)2
nθ n(1 − θ) 1 1
=− + = −n +
θ (1 − θ)2 θ (1 − θ)
2
∂ L 1 1 n
⇒ −E 2
=n + = I(θ) =
∂θ θ 1−θ θ(1 − θ)
r
p n
π(θ) ∝ I(θ) = ∝ θ−1/2 (1 − θ)−1/2
θ(1 − θ)
1 1
⇒ θ ∼ Beta ,
2 2
n Pn
Y θXi e−θ θ i=1 Xi −nθ
e
P (X|θ) = = n
i=1
Xi ! Y
Xi !
i=1
n
X n
X
⇒ L = log P (X|θ) = Xi log(θ) − nθ − Xi !
i=1 i=1
Por lo tanto:
Pn
∂L Xi
= i=1 −n
∂θ θ
n
∂ 2L
P
i=1 Xi
2
= −
∂θ θ2
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.6: Distribuciones a Priori 112
P (x) ≥ 0, ∀x
Z
I = P (x)dx = 1
FACYT-MATEMÁTICAS
113 CAPÍTULO 4: Elementos de Inferencia
θ2
f (X|θ) = (X + 1) exp{−θX}, θ ≥ 0
θ+1
una función de densidad.
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.7: Práctica de Ejercicios del Capítulo 4 114
Fumadores: 39.8 34.2 34.7 35.2 33.5 34.2 36.3 33.6 33.8 38.8
No fumadores: 35.9 34.7 33.6 33.2 36.3 34.3 31.8 32.8 36.3 32.9
Suponiendo que los gastos en cada grupo se distribuyen como normales con
varianza 1, dadas las distribuciones a priori de Jereys para la media de cada
grupo:
(d) Repetir las partes (a) y (c) suponiendo que ahora las dos poblaciones son
normales con la misma precisión φ desconocida, y dada la distribución a
priori de Jereys.
FACYT-MATEMÁTICAS
115 CAPÍTULO 4: Elementos de Inferencia
( x
θ1 − θ2
θ2
e para x>0
f (x|θ1 , θ2 ) = (1−θ1 ) x/θ2
θ2
e para x<0
(a) Encuentrar los estimadores del método de los momentos de θ y p. ¾Para qué
valores de (θ, p) son estas estimaciones consistentes?
(b) Demostrar que hay un estadístico suciente bidimensional para (θ, p).
(c) Encuentre la información de Fisher.
UNIVERSIDAD DE CARABOBO
SECCIÓN 4.7: Práctica de Ejercicios del Capítulo 4 116
(a) (θ|x, µ)
(b) (µ|x)
(c) (θ|x)
13. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución U (θ1 , θ2 ),
donde:
1
P (x|θ1 , θ2 ) = , θ1 ≤ x ≤ θ2
θ2 − θ1
Sea T (X) = X(1) , X(n) , obtenga su distribución conjunta y demuestre que este
es un estadístico suciente para θ = (θ1 , θ2 ).
14. Sea(X1 , X2 , X3 ) un vector aleatorio de distribución trinomial con parámetro
θ = (θ1 , θ2 , θ3 ), donde θ3 = 1 − θ1 − θ2 y asuma que la a priori para θ es
constante.
16. Sea −∞ < µ0 < ∞, entonces si θ ∼ N (µ0 , σ02 ) y σ02 → ∞, se obtiene una a
priori no informativa. Gracar en WinBUGS usando los siguientes datos:
(a) µ0 = 0; σ02 = 10
(b) µ0 = 0; σ02 = 100
(c) µ0 = 0; σ02 = 1000
17. Sea yi = µ + αi + εi , i = 1, 2, . . . , n, εi ∼ N (0, 1), independientes e idénticamente
distribuidos. Sea Θ = (α1 , α2 , . . . , αn , θ) y supóngase una a priori plana π(θ) ∝ 1.
Demostrar que π(θ|y1 , . . . , yn ) es impropia.
FACYT-MATEMÁTICAS
Capítulo 5
Estimación
117
SECCIÓN 5.3: Comparación de Dos Medias. 118
2 2
X1 , . . . , Xn |µX , σX ∼ N µX , σX
2 2
Y1 , . . . , Ym |µY , σY ∼ N µY , σY
Suponga que las dos muestras son independientes. Se está interesado en la distribución
a posteriori para la diferencia de medias δ = µX − µY .
1
Π µX , µY , σ 2 ∝ 2
σ
δ− X−Y
q ∼ tv
1 1
Sp n + m
FACYT-MATEMÁTICAS
119 CAPÍTULO 5: Estimación
Teorema 5.1. Sea δ|X, Y ∼ N m∗1 − m∗2 , α∗11φ1 + α∗21φ2 . Suponiendo la siguiente a
priori: P (µ1 ) = P (µ2 ) ∝ 1, entonces las distribuciones marginales vienen dadas por:
µ1 |X ∼ N X, n11φ1
µ2 |Y ∼ N Y, n21φ2
1 1
δ|X, Y ∼ N X − Y, n1 φ1 + n2 φ2
El intervalo de credibilidad HPD para δ es el siguiente:
r
1 1
X − Y ± Z1− α2 +
n1 φ1 n2 φ2
el cual es igual al intervalo clásico.
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.4: Datos no Apareados 120
φ ∼ Gamma a2 , 2b
donde:
α1∗ = α1 + n1
α2∗ = α2 + n2
α1 m1 +n1 X
m∗1 = α1 +n1
FACYT-MATEMÁTICAS
121 CAPÍTULO 5: Estimación
α2 m2 +n2 Y
m∗2 = α2 +n2
a∗ = a + n 1 + n 2
α1 n1
2 α2 n2
2
b∗ = b + (n1 − 1)S12 + (n2 − 1)S22 + α1 +n1
X − m1 + α2 +n2
Y − m2
la cual es de la misma forma que la anterior, pero con valores distintos para los
parámetros. Ahora, se tiene que: α1∗ = n1 , α2∗ = n2 , m∗1 = X, m∗2 = Y, a∗ = n1 +n2 −2
y b∗ = (n1 − 1)S12 + (n2 − 1)S22 , entonces:
" −1 #
n1 + n2 − 2 (n1 − 1)S12 + (n2 − 1)S22
1 1
δ, φ|X, Y ∼ N − Gamma X − Y, + , ,
n1 n2 2 2
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.4: Datos no Apareados 122
1
P (µ1 , φ1 ) ∝
φ1
1
P (µ2 , φ2 ) ∝
φ2
Se sabe que las distribuciones marginales a posteriori de µ1 y µ2 , son distribuciones
t de Student no centradas, es decir:
S12
µ1 |X ∼ t n1 − 1, X,
n1
S22
µ2 |Y ∼ t n2 − 1, Y,
n2
Entonces la distribución a posteriori de δ es la distribución de la diferencia entre dos
variables t de Student.
Z
P (δ|X, Y) = Pµ1 (δ + µ2 |X) P (µ2 |Y)dµ2
Si se dene:
√
s 1 / n1
tan W = √
s 2 / n2
se puede demostrar que:
0
δ = T1 cos W − T2 senW
donde:
µ1 − X
T1 = √
s1 / n1
µ2 − Y
T2 = √
s2 / n2
tienen distribuciones t de Student centradas.
FACYT-MATEMÁTICAS
123 CAPÍTULO 5: Estimación
√s1 √s2
0 n1 n2
δ = T1 q − T2 q
s21 s22 s21 s22
n1
+ n2 n1
+ n2
√s1 √s2
µ1 − X n1 µ2 − Y n2
= −
√s1 √s2
q q
s21 s22 s21 s22
n1
n1
+ n2
n2
n1
+ n2
µ1 − X µ2 − Y
=q 2 −q 2
s1 s22 s1 s2
n1
+ n2 n1
+ n22
0
⇒ δ ∼ BF (v1 , v2 , W )
es decir:
√
0 s 1 / n1
δ ∼ BF n1 − 1, n2 − 1, arctan √
s 2 / n2
2
Nota 5.1. Es complicado calcular intervalos de credibilidad, sin embargo se puede
utilizar una aproximación. Si X ∼ BF (v1 , v2 , W ), se tiene que: X ≈ tb , donde a y
b se pueden estimar. Otro método es muestrear de las distribuciones marginales a
posteriori µ1 |X y µ2 |Y, es decir:
P (δ|X, Y) ∝ P (µ1 |X)P (µ2 |Y)
1
P (δ, φd ) ∝
φd
entonces la distribución a posteriori viene dada por:
(α∗ +1)/2−1 φd ∗ ∗ ∗ 2
P (δ, φd |X, Y) ∝ φd exp − b + α (δ − m )
2
donde:a∗ = a + n, b∗ = b + (n − 1)Sd2 + αn
α+n
(m − δ)2 , α∗ = α + n y m∗ =
(αm + nδ)/(α + n).
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.6: Estimación por Intervalo Usando el Método Bayesiano 124
θ|X ∼ N µ1 , τ12
donde:
n µ0
σ
X + τ02
µ1 =
n/σ 2 + 1/τ02
FACYT-MATEMÁTICAS
125 CAPÍTULO 5: Estimación
1
τ12 =
n/σ 2 + 1/τ 2
Un HPD se obtiene como sigue:
θ−µ1
τ1
X ∼ N (0, 1)
así que:
θ−µ1
1−α=P −z α2 < τ1
< z α2 X
=P µ1 − z α2 τ1 < θ < µ1 + z α2 τ1 X
En consecuencia, un HPD para θ es el siguiente:
µ1 − z α2 τ1 , µ1 + z α2 τ1
n + n0
E (n0 σ02 + nS02 ) φ X = n + n0 ⇒ E(φ|X) =
n0 σ02 + nS02
2(n + n0 )
⇐ 2(n + n0 ) = V ar n0 σ02 + nS02 φ|X
V ar [φ|X] = 2
(n0 σ02 + nS02 )
Los HPD para φ y σ2, vienen dados por:
1 − α = P χ21− α2 ,n1 < (n0 σ02 + nS02 ) φ < χ2α2 ,n1 X ; n1 = n0 + n
χ2 χ2α ,n
1− α 2 ,n1
=P 2 1
< φ < n0 σ2 +nS 2 X
n0 σ 2 +nS 2 0 0 0 0
2
Si σ = 1/φ, entonces el HPD del 100(1 − α) % para σ2 es:
!
n0 σ02 + nS02 n0 σ02 + nS02
1−α=P < σ2 <
χ2α ,n1 χ21− α ,n1
2 2
σ12
θ|X ∼ tn1 µ1 ,
c1
y
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.6: Estimación por Intervalo Usando el Método Bayesiano 126
donde:
c0 n µ 0 − X
n1 σ12 = n0 σ02 + (n − 1)S 2 +
n + c0
y
Pn 2
i=1 Xi − X
S2 =
n−1
El HPD para θ es el siguiente:
√ (θ − µ1 )
1 − α = P −t α2 ,n1 < c1 < t α2 ,n1
σ1
σ1 σ1
= P µ1 − t 2 ,n1 √ < θ < µ1 + t 2 ,n1 √
α α
c1 c1
y el HPD para φ es:
1−α=P χ21− α ,n1 < n1 σ12 φ < χ2α ,n1 X
2 2
χ2 χ 2
α
1− 2 ,n1 α
=P 2 ,n1
n1 σ 2
< φ < n1 σ 2
X
1 1
S2
θ|X ∼ tn−1 X,
n
y
(n − 1)φS 2 |X ∼ χ2n−1
√
Debido a que: θ−X n/S ∼ N (0, 1), y (n − 1)S 2 /σ 2 ∼ χ2n−1 , entonces:
√ √
θ − X n/S θ−X n
T =p = ∼ tn−1
(n − 1)S 2 /σ 2 (n − 1) S
FACYT-MATEMÁTICAS
127 CAPÍTULO 5: Estimación
1 1
σ12 = ⇒ φ1 = 2
φ1 σ1
1 1
σ22 = ⇒ φ2 = 2
φ2 σ2
Suponga que b1 φ1 ∼ χ2a1 y b2 φ2 ∼ χ2a2 , entonces:
b1 φ1 /a1 a2 b1 φ1
= ∼ Faa21
b2 φ2 /a2 a1 b2 φ2
1/σ12
Sea θ = φ1 /φ2 = 1/σ22
= σ22 /σ12 , de modo que:
σ2 σ12
1 1 1 1 1 b 1 a2 1 b1 a2 1−α
P < < =P < 12 < =P < < F
ls θ li ls σ2 li 1−α
a1 b2 Fa1 ,a2 σ22
a1 b2 a2 ,a1
Nota 5.2. Veamos lo siguiente:
φ1
1 − α = P (θ < ls) = P < ls
φ2
a2 b1 φ1 a2 b 1
=P ≤ ls
a1 b2 φ2 a1 b 2
1−α a2 b 1
= P Fa1 ,a2 ≤ ls
a1 b 2
Así que:
a2 b 1 a1 b2 1−α
ls = Fa1−α
,a ⇒ ls = F
a1 b 2 1 2
a2 b1 a1 ,a2
Por otro lado:
φ1
1 − α = P (θ > li) = P > li
φ2
a2 b 1 a2 b 1
=P > li
a1 b 2 a1 b 2
1−α a2 b1
= P Fa2 ,a1 > li
a1 b 2
Entonces:
a2 b 1 a1 b2 1−α
li = Fa1−α
2 ,a1
⇒ li = F
a1 b 2 a2 b1 a2 ,a1
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.8: Estimación Puntual 128
Solución:
Z
E{L(T, θ)} = (T − θ)2 f (θ)dθ
Z
= [T − E(θ) + E(θ) − θ]2 f (θ)dθ
Z
[T − E(θ)]2 + [E(θ) − θ]2
=
FACYT-MATEMÁTICAS
129 CAPÍTULO 5: Estimación
Z Z
2
f (θ)dθ − 2E(θ) θf (θ)dθ + E θ2
= [E(θ)]
= [E(θ)]2 − 2[E(θ)]2 + E θ2
= E θ2 − [E(θ)]2
∂E [L (T, θ)]
= 2 T B − E(θ) = 0
⇒
∂T
B
⇒ T − E(θ) = 0
Por lo tanto T B = E(θ|X) es el estimador de Bayes.
Ejemplo 5.3. Hallar T B si L(T, θ) = |T − θ|.
Solución:
−(T − θ) si T − θ < 0
|T − θ| =
T −θ si T − θ > 0
θ − T si T < θ
=
T − θ si T > θ
Por consiguiente:
Z Z T Z ∞
E{L(T, θ)} = |T − θ|f (θ)dθ = (T − θ)f (θ)dθ + (θ − T )f (θ)dθ
−∞ T
Asi que:
Z T Z ∞
∂E{L(T, θ)}
= (T − T )f (T ) + f (θ)dθ − (T − T )f (T ) + f (θ)dθ
∂θ −∞ T
= F (T ) − [1 − F (T )]
= 2F (T ) − 1 (5.8.2)
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.8: Estimación Puntual 130
a.
= θt(Xi ) (1 − θ)n−t(Xi )
= θt(Xi )+1−1 (1 − θ)n−t(Xi )+1−1
⇒ θ|X ∼ Beta(t + 1, n − t + 1)
n
donde: t = t(Xi ) = Xi , i = 1, . . . , n. Entonces:
X
i=1
Z 1
E [L(d, θ)] = L(d, θ)P (θ|X)dθ
0
1
(θ − d)2 t
Z
= θ (1 − θ)n−t dθ
0 θ(1 − θ)
Z 1
= (θ − d)2 θt−1 (1 − θ)n−t−1 dθ
0
= EBeta(t,n−t) (θ − d)2
De modo que:
∂E [L(d, θ)]
= −2EBeta(t,n−t) (θ − d) (5.8.3)
∂d
EBeta(t,n−t) (θ) = dˆ
Así que:
Pn
t t Xi
dˆ = = = i=1
=X
t+n−t n n
FACYT-MATEMÁTICAS
131 CAPÍTULO 5: Estimación
b.
Z 1
P (Xn+1 |X1 , . . . , Xn ) = P (Xn+1 |θ)P (θ|X1 , . . . , Xn )dθ
0
Z 1
= P (Xn+1 |θ)θt (1 − θ)n−t dθ
Z0 1
= θXn+1 (1 − θ)1−Xn+1 θt (1 − θ)n−t dθ
Z0 1
= θt+Xn+1 (1 − θ)n−t−Xn+1 +1 dθ
Z0 1
= θt+Xn+1 +1−1 (1 − θ)n−t−Xn+1 +2−1 dθ
0
Γ(t + Xn+1 + 1)Γ(n − t − Xn+1 + 2)
=
Γ(n + 3)
= Beta(t + Xn+1 + 1, n − t − Xn+1 + 2)
En consecuencia:
t + Xn+1 + 1
E(Xn+1 |X1 , . . . , Xn ) =
n+3
y
t + Xn+1 + 1
V ar(Xn+1 |X1 , . . . , Xn ) =
(n + 4)2 (n + 3)
Nota 5.3. La Integral Beta.
Z 1
Γ(α + β) α−1
Si θ (1 − θ)β−1 dθ = 1, entonces se tiene que:
0 Γ(α)Γ(β)
Z 1
Γ(α)Γ(β)
θα−1 (1 − θ)β−1 dθ =
0 Γ(α + β)
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 132
6. Un sistema está formado por varias componentes, cinco de las cuales son
revisadas. El número de componentes defectuosas X, tiene una distribución
Binomial(5, θ) y del pasado se sabe que θ ∼ Beta(1, 9). Suponga que se observa
x = 0.
FACYT-MATEMÁTICAS
133 CAPÍTULO 5: Estimación
(d) Suponga que se observó x = (−3.2, −1.0, 0.6, 1.8, 1.2) y se considera la priori
del item (c). Determine una región de credibilidad de nivel 0.90 para φ, de
alta probabilidad en torno de la moda a posteriori.
(e) Escriba las ecuaciones para desarrollar el item (d) considerando la priori del
item (b).
(c) Si 0 < λ < 0.2, el área es considerada de bajo riesgo, si 0.2 ≤ λ < 0.5, el
área es considerada de riesgo medio, y si λ ≥ 0.5, el área es considerada de
alto riesgo. La función de pérdida L(λ, a) viene dada en la siguiente tabla:
Con la información que se cuenta, ¾cuál es la acción que usted tomaría?
0≤ λ < 0.2 0 2 2
0.2≤ λ < 0.5 1 0 1
λ ≥ 0.5 2 2 0
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 134
(c) Suponga que además de las observaciones reportadas en (b), una observación
adicional fue hecha pero todo lo que se sabe es que duró más de 5 minutos.
Obtenga los estimadores de Bayes y máxima verosimilitud de θ en este caso.
11. Suponga que se desea probar tres tipos de bombillas: vida normal, vida larga
y vida extra larga. Los tiempos de vida de las bombillas tienen distribución
exponencial con medias θ, 2θ y 3θ, respectivamente. Asuma que la prueba
consiste en observar una bombilla selecionada aleatoriamente de cada tipo.
FACYT-MATEMÁTICAS
135 CAPÍTULO 5: Estimación
UNIVERSIDAD DE CARABOBO
SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 136
FACYT-MATEMÁTICAS
Capítulo 6
El término lineal en la expansión es cero debido a que la densidad del log −a posteriori
tiene derivada cero en la moda. El resto de los términos de mayor orden desaparecen
cuando θ está cerca de θ̂ y n es grande. Entonces es fácil probar que:
h i
−1
P (θ|Y) ≈ N θ̂, I θ̂
∂2
I(θ) = − log[P (θ|Y)]
∂θ2
Teorema 6.1. Suponga que xi |θ ∼ f (xi |θ) y que P (θ) es la distribución a priori.
Dado los datos X, cuando n → ∞:
1. θ|X ≈ N [E(θ|X), V ar(θ|X)], suponiendo que la media y la varianza existen.
h i
2. θ|X ≈ N θ̂, I1 θ̂ , donde: θ̂ es la moda de la distribución nal y I1 (θ) es la
−1
información observada.
137
SECCIÓN 6.1: Aproximación de la Distribución a
Posteriori Conjunta. 138
h i
3. θ|X ≈ N θ̂, I2−1 θ̂ , donde: θ̂ es el estimador de máxima verosimilitud de θ,
suponiendo que I2 (θ) = − ∂θ∂ 2 log [f (X|θ)]
2
h i n 2 o
4. θ|X ≈ N θ̂, I3−1 θ̂ , donde: I3 (θ) = −nEX ∂θ2 log [f (X|θ)] , es la
∂
información esperada.
Ejemplo 6.1. Sea y1 , y2 , . . . , yn ∼ N (µ, σ2 ), independientes e idénticamente
distribuidas. Suponga que P (µ, log σ) ∝ 1. A continuación se construirá la
aproximación:
1 2 2
log P (µ, log σ|y) = C − n log σ − (n − 1)S + n (ȳ − µ)
2σ 2
donde C es una constante.
Solución:
∂ log P n(ȳ − µ)
=
∂µ σ2
∂ log P (n − 1)S 2 + n(ȳ − µ)2
= −n +
∂ log σ σ2
FACYT-MATEMÁTICAS
139 CAPÍTULO 6: Inferencia Sobre Muestras Grandes
En consecuencia:
−n/σ̂ 2 0
I(θ) =
0 1/2n
2
−1 σ̂ /n 0
⇒ I (θ) =
0 2n
Por lo tanto:
" ! #
h ŷ 2
σ̂ /n 0
P (µ, log σ|y) ≈ N ,
i
log (n−1)
n
S 2
0 2n
Solución:
UNIVERSIDAD DE CARABOBO
SECCIÓN 6.1: Aproximación de la Distribución a
Posteriori Conjunta. 140
(α + β + n − 2)2 β+n−x−1
= + 2
α+x−1 α+β+n−2−α−x+1
α+β+n−2
2
(α + β + n − 2) (α + β + n − 2)2 (β + n − x − 1)
= +
α+x−1 (β + n − x − 1)2
2
(α + β + n − 2) (α + β + n − 2)2
= +
α+x−1 (β + n − x − 1)
2 1 1
= (α + β + n − 2) +
α+x−1 β+n−x−1
2 β +n−x−1+α+x−1
= (α + β + n − 2)
(α + x − 1)(β + n − x − 1)
2
(α + β + n − 2) (β + α + n − 2)
=
(α + x − 1)(β + n − x − 1)
(α + β + n − 2)3
=
(α + x − 1)(β + n − x − 1)
FACYT-MATEMÁTICAS
141 CAPÍTULO 6: Inferencia Sobre Muestras Grandes
(α + x − 1)(β + n − x − 1)
∴ I1−1 θ̂ =
(α + β + n − 2)3
En consecuencia:
α+x−1 (α + x − 1)(β + n − x − 1)
θ|x ≈ N ,
α+β+n−2 (α + β + n − 2)3
Si se utiliza la tercera aproximación , se obtiene que:
n
L(θ|x) = θx (1 − θ)n−x
x
n
log L(θ|x) = log + x log θ + (n − x) log(1 − θ)
x
∂ log L(θ|x) x (n − x)
= − (6.1.3)
∂θ θ 1−θ
Igualando a cero 6.1.3, se tiene lo siguiente:
x n−x
=
θ̂ 1 − θ̂
⇒ x 1 − θ̂ = (n − x)θ̂
⇒ x − xθ̂ = (n − x)θ̂
⇒ x = (n − x + x)θ̂
x
⇒ θ̂ =
n
Así que:
∂ 2 log[L(θ|x)]
I2 (θ) = −
∂θ2
2
∂ log[L(θ|x)] x (n − x)
= − −
∂θ2 θ2 (1 − θ)2
x (n − x)
⇒ I2 (θ) = 2 +
θ (1 − θ)2
x n−x
I2 θ̂ = 2 +
x x 2
n
1 − n
n2 x (n − x)n2
2 1 1
= 2 + =n +
x (n − x)2 x n−x
n3
2 n−x+x
=n =
x(n − x) x(n − x)
(n − x)x
⇒ I2−1 θ̂ =
n3
UNIVERSIDAD DE CARABOBO
SECCIÓN 6.1: Aproximación de la Distribución a
Posteriori Conjunta. 142
De esta forma:
x (n − x)x
θ|x ≈ N ,
n n3
Si se utiliza la cuarta aproximación , se tiene que:
∂ 2 log L(θ|x)
I3 (θ) = −nEx
∂θ2
Debido a que:
∂ 2 log L(θ|x) x (n − x)
2
=− 2 −
∂θ θ (1 − θ)2
∂ 2 log L(θ|x)
x (n − x) Ex (x) n − E(x)
⇒ Ex = −Ex 2 + =− +
∂θ2 θ (1 − θ)2 θ2 (1 − θ)2
nθ n − nθ n n(1 − θ)
=− 2 + =− +
θ (1 − θ)2 θ (1 − θ)2
n n 1−θ+θ
=− + = −n
θ 1−θ θ(1 − θ)
n
=−
θ(1 − θ)
En consecuencia:
∂ 2 log L(θ|x) n2
I3 (θ) = −nEx =
∂θ2 θ(1 − θ)
De este modo:
n2 n4
I3 θ̂ = x
=
1 − nx
n
x(n − x)
x(n − x)
⇒ I3−1 θ̂ =
n4
Por consiguiente:
x x(n − x)
θ|x ≈ N ,
n n4
Por ejemplo, si α = β = 1, n = 100 y x = 20, entonces las aproximaciones son las
siguientes:
Primera aproximación: θ|x ≈ N (0.2592, 0.00001541)
Segunda aproximación: θ|x ≈ N (0.2, 0.0016)
FACYT-MATEMÁTICAS
143 CAPÍTULO 6: Inferencia Sobre Muestras Grandes
Solución:
100 100
λ|x ∼ Gamma(1 + 99, 1 + 99 × 1) = Gamma(100, 100) ≈ N , = N (1, 0.01)
100 1002
Entonces el intervalo de credibilidad para λ es:
√
1 ± 1.96 0.01 = (0.804, 1.196)
Nota 6.1. Hay algunas situaciones donde no vale el teorema. Por ejemplo:
Si la probabilidad inicial de θ es cero.
Si la a posteriori es impropia.
Si el modelo no es identicable.
Por ejemplo, cuando el modelo L(θ1 , θ2 , . . . , θk ) = w1 g(θ1 |x) + · · · + wk g(θk |x) es
una mezcla de densidades de la misma familia. Dado los datos, la verosimilitud será
multimodal porque el modelo no es indenticable. Se necesita restringir el espacio
Θ para que el modelo sea indenticable. Se puede suponer que: θ1 < · · · < θk , y el
teorema es válido todavía.
x1 = 1, x2 = 1, x3 = 2, x4 = 3,
UNIVERSIDAD DE CARABOBO
SECCIÓN 6.2: Práctica de Ejercicios del Capítulo 6 144
b z
∼ F (2a, 2b);
a1−z
(b) una aproximación asintótica para ψ = θ/(1 − θ)
√
−1
(c) una aproximación asintótica para φ = sen θ
(d) Compare los resultados.
FACYT-MATEMÁTICAS
145 CAPÍTULO 6: Inferencia Sobre Muestras Grandes
Radiación Placebos
Número de casos 308 246
Número de sobrevivientes 56 34
10) La siguiente tabla da los resultados de los exámenes de 100 varones y 100
hembras de escuela de edades similares sobre el soplo cardíaco:
Varones 58 42 100
Hembras 46 54 100
Total 100 96 200
UNIVERSIDAD DE CARABOBO
SECCIÓN 6.2: Práctica de Ejercicios del Capítulo 6 146
FACYT-MATEMÁTICAS
Capítulo 7
Métodos de Aproximación y
Simulación.
Esto permite que se comience con un valor inicial x(0) y que se use la relación
mostrada anteriormente. El algoritmo suministra un nuevo valor x(1) cercano a la
raíz de la ecuación de arriba. Este nuevo punto es la intersección de la línea tangente,
(0) (1)
la aproximación lineal de g en x , con el eje x. El procedimiento se repite con x
(0) ∗
reemplazando x . Esto conduce a una mejor aproximación para x denotado por
x(2) . Se repite el proceso sucesivamente y se obtiene la relación recursiva:
(j−1) #−1
"
∂g x
x(j) = x(j−1) − g x(j−1)
(7.1.1)
∂x
147
SECCIÓN 7.1: Algoritmo Newton-Raphson (N-R). 148
y
(j)
g x < ε
Figura 7.1: Representación gráca del método iterativo para encontrar las raíces de
una ecuación en el caso escalar.
∂ log P (X|θ)
U (X; θ) =
∂θ
la función Score. El estimador de máxima verosimilitud es la solución de la ecuación
U (X; θ) = 0.
FACYT-MATEMÁTICAS
149 CAPÍTULO 7: Métodos de Aproximación y Simulación.
−1 (j−1)
θ(j) = θ(j−1) + J θ(j−1)
U θ
Así que:
n
X n
X
ln(l) = n ln(α) + n ln(β) − βxαi + (α − 1) ln(xi ) (7.1.2)
i=1 i=1
Por lo tanto:
n
∂ ln(l) n X α
= − xi (7.1.3)
∂β β i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.1: Algoritmo Newton-Raphson (N-R). 150
Ahora, sea:
∂U (x, α)
J(α) = −
∂α
2
nα ni=1 xαi ln2 (xi ) − ni=1 xαi ln(xi )
P P Pn α Pn α
n i=1 xi ln xi xi
= 2+ Pn 2 2 +n Pn α 2i=1
α ( i=1 xi ) ( i=1 xi )
FACYT-MATEMÁTICAS
151 CAPÍTULO 7: Métodos de Aproximación y Simulación.
# Algoritmo Newton-Raphson
# a iterado inicial
# b beta inicial
# tol tolerancia
newraph <-function(a,b,tol,n){
A<-rep(0,1000)
B<-rep(0,1000)
c=0;
i=1
A[i]=a
j=1
B[j]=b
while(abs(a-c)>tol){
i=i+1
j=j+1
x<-rweibull(n,b,a);
U<-(n/a)-(n*a*sum((x^a)*log(x)))/sum(x^a)+sum(log(x));
J = n/a^2+(n*sum((x^a)*log(x))*sum(x^a))/(sum(x^a)^2)
+n*a*sum(x^a*(log(x)^2-sum(x^a*log(x)))^2)/(sum(x^a))^2
c<-a;
a<-a+(J^-1)*U;
A[i]=a
b=n/sum(x^a);
B[j]=b
}
C<- rep(0,i)
for (t in 1:i){
if(A[t]!=0){
C[t]=A[t]
}
}
D<- rep(0,j)
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 152
for (h in 1:j){
if(B[h]!=0){
D[t]=B[t]
}
}
print("Resumen estadístico de alpha:")
H=summary(C)
print(H)
K=summary(D)
print("Resumen estadístico de beta:")
print(K)
par(mfrow=c(2,1))
ALPHA=C
BETA=D
plot(ALPHA,ylim=c(0,2),pch=15,col="red")
plot(BETA,ylim=c(0,0.02),pch=15,col="purple")
}
FACYT-MATEMÁTICAS
153 CAPÍTULO 7: Métodos de Aproximación y Simulación.
Figura 7.2: Grácos arrojados por el algoritmo en R 7.1., con a= 1.5, b= 2, tol= 0.01
y n= 1000.
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 154
donde:
Nótese que θ(0) es algún valor inicial dado para θ. La esperanza involucrada en la
(j)
denición de Q está basada en la verosimilitud completa de Y . Si θ denota el valor
de θ en la j -ésima iteración, el algoritmo EM está denido en dos pasos:
2. Paso M (Maximización):
evaluación de θ(j) , el valor de θ que maximiza
(j−1)
Q θ, θ .
(j)
θ − θ(j−1) < δ
Q θ(j) , θ(j−1) − Q θ(j−1) , θ(j−1) <
Ejemplo 7.3. Considere el estudio genético [11] que tiene un vector de conteo de
animales X = (x1 , x2 , x3 , x4 ), el cual se distribuye multinomial con parámetros n y
π , donde:
1 θ 1 1 θ
π= + , (1 − θ), (1 − θ),
2 4 4 4 4
FACYT-MATEMÁTICAS
155 CAPÍTULO 7: Métodos de Aproximación y Simulación.
tal que:
2
p(j) =
2 + θ(j)
El paso M involucra encontrar el valor de θ que maximiza Q(θ, θ(j) ). Luego, derivando
Q con respecto a θ se obtiene lo siguiente:
∂Q(θ, θ(j) ) x1 P (j) + x4 x2 + x3
= − (7.2.4)
∂θ θ 1−θ
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 156
em<-function(a,tol)
{
c=5
i=1
A<-rep(0,100)
A[i]<-a
while(abs(a-c)>tol){
i=i+1
c<-a
a<-(159*a+68)/(197*a+144)
A[i]=a
}
B<-rep(0,i)
for(j in 1:i){
if (A[j]!=0){
B[j]=A[j]
}
}
FACYT-MATEMÁTICAS
157 CAPÍTULO 7: Métodos de Aproximación y Simulación.
print(B)
THETA=B
plot(THETA,ylim=c(0,1),pch=15,col="blue")
}
Figura 7.3: Gráco arrojado por el algoritmo en R 7.2., con a= 0 y tol= 0.0001
Z
I= f (θ)dθ
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.3: Aproximación Laplace 158
Reescribiéndola como:
Z
I= g(θ) exp{−nh(θ)}dθ
2π p/2 1/2 n o
ˆ
I = g θ̂ Σ exp −nh θ̂
b
(7.3.1)
n
donde:
−1
∂ 2 h θ̂
Σ
b=
∂θ∂θT
n 2 nt(θ)
+ o n−1
nh(θ) = nh θ̂ + 2 θ − θ̂ +
2σ̂ 3!
tal que:
σ̂ 2 = Σ
b
y
3
∂ h θ̂ 3
t(θ) = θ − θ̂
∂θ3
Tomando exponencial y aplicando una expansión lineal a exp{−nt(θ)}, se obtiene lo
siguiente:
2
n o n
exp{−nh(θ)} = exp −nh θ̂ exp − 2 θ − θ̂
2σ̂
nt(θ)
+ o n−1 1 + o n−1
× 1−
6
FACYT-MATEMÁTICAS
159 CAPÍTULO 7: Métodos de Aproximación y Simulación.
Z 2 2 1/2
n 1/2 σ̂
1. exp − 2 θ − θ̂ dθ = (2π)
2σ̂ n
Z
2k+1 n 2
2. θ − θ̂ exp − 2 θ − θ̂ dθ = 0, ∀k ∈ Z
2σ̂
Z 2
n
dθ = o n−1
3. nt(θ) θ − θ̂ exp − 2 θ − θ̂
2σ̂
Entonces, cuando n → ∞, el valor de la integral es:
Iˆ = I 1 + o n−1
1/2 n o
I˜ = (2π)p/2 Σ
b ∗ ∗
exp −nh θ̂∗ (7.3.3)
donde θ̂∗
es el valor de θ que minimiza h y b∗
Σ es la matriz inversa de las segundas
∗ ∗
derivadas de h evaluadas en θ .
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.4: Métodos de Simulación 160
Z b
1
I= (b − a)g(θ) dθ = EU (a,b) [(b − a)g(θ)]
a (b − a)
donde U (a, b) es una variable aleatoria cuya distribución es uniforme en (a, b). El
método de los momentos es un estimador de esta cantidad, es decir:
n
1X
Iˆ = (b − a)g(θi )
n i=1
Algoritmo 7.1.
Paso [1] Se generan θ1 , . . . , θn ∼ U (a, b)
Paso [2] Se calcula g(θ1 ), P. . . , g(θn )
Paso [3] Se estima ḡ = n1 ni=1 g(θi )
Paso [4] Se aproxima Iˆ = (b − a)ḡ
Una generalización puede ser obtenida en forma clara. Sea I = Ep [g(θ)], el valor
esperado de g(θ) con respecto a una función de densidad de probabilidad P (θ). El
algoritmo es similar al anterior, sólo se hacen modicaciones de muestreo en el paso [1];
es decir, se generan θ1 , θ2 , . . . , θn ∼ P (·) en vez de una uniforme y el resto queda igual.
La extensión multivariada se basa sobre una evaluación de la integral multivariada
siguiente:
Z b1 Z bp
I= ···· g(θ)dθ
a1 ap
n
1X
Iˆ = g(θi ) (7.4.1)
n i=1
FACYT-MATEMÁTICAS
161 CAPÍTULO 7: Métodos de Aproximación y Simulación.
n
1X
I¯ = g(xi )W (xi )
n i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.4: Métodos de Simulación 162
Z
1
V I¯ = [g(x)W (x) − I]2 h(x)dx
n
V I¯
Por otro lado, se escoge g(x)W (x) aproximadamente constante para que sea
pequeña.
De modo que:
1 1 1
x2
Z Z
2 2 2 1 2 2+1
h(x)dx = (1 + x)dx = x+ = 1+ = =1
0 3 0 3 2 0 3 2 3 2
De esta manera:
1 1
3ex
Z Z
I= g(x)W (x)h(x)dx = h(x)dx
0 0 2(1 + x)
En consecuencia:
n
1 X 3exi
I¯ =
n i=1 2(1 + xi )
donde xi ∼ h(x), i = 1, 2, . . . , n, y:
Z 1
e2x
1 0.027
¯
V ar I = (3/2) 2 2
dx − I =
n 2
0 (1 + x) n
FACYT-MATEMÁTICAS
163 CAPÍTULO 7: Métodos de Aproximación y Simulación.
entonces:
Z x Z x
2
H(x) = h(w)dw = (1 + w)dw
0 0 3
x
2 x w2
Z
2
= (1 + w)dw = w+
3 0 3 2 0
x2
2
= x+ , 0<x<1
3 2
Usando el método de la transformada inversa para generar una muestra, se tiene lo
siguiente:
x2
2
U = H(x) = x+
3 2
2
3U x
⇒ =x+
2 2
⇒ 3U = 2x + x2
⇒ 3U = x2 + 2x + 1 − 1
⇒ 3U = (x + 1)2 − 1
⇒ (x + 1)2 = 3U + 1
√
⇒ (x + 1) = 3U + 1
√
⇒ x = 3U + 1 − 1
Luego, se genera U ∼ U (0, 1).
Algoritmo 7.2.
Paso [1] Se genera Ui ∼ √
U (0, 1)
Paso [2] Se genera xi = P 3Ui + 1 − 1
Paso [3] Se calcula I = n ni=1 3exi /2(1 + xi )
¯ 1
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.4: Métodos de Simulación 164
Sean:
1 si x ∈ [ 2, ∞)
g(x) = Ix [2, ∞] =
0 en otro caso
y
Z ∞
θ = P (x > 2) = g(x)P (x)dx
−∞
FACYT-MATEMÁTICAS
165 CAPÍTULO 7: Métodos de Aproximación y Simulación.
Así que:
Z x Z
2
H(x) = h(t)dt = I (2, ∞)dt
2 t
2 t
Z x x
−2 t−1
=2 t It (2, ∞)dt = 2 It (2, ∞)
2 −1 2
x
1 1 1 2
=2 − =2 − + =1−
t 2 x 2 x
es decir:
1 − 2/x si x ∈ (2, ∞)
H(x) =
0 en otro caso
Además, sea:
Ui = H(xi ) = 1 − 2/xi ⇒ 2/xi = 1 − Ui ⇒ xi = 2/(1 − Ui )
En consecuencia, el algoritmo Monte Carlo puede ser usado para resolver algunos
problemas de inferencia básica. En el caso bayesiano cuando uno desea evaluar
E [g(θ)|X], el algoritmo se resume como se muestra a continuación:
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.5: Métodos de Remuestreo. 166
Algoritmo 7.4.
Paso [1] Se genera θ1 , . . . , θn de la densidad a posteriori P (θ|X) (o de la densidad
de importancia h(θ)).
Paso [2] Se calcula:
gi = g(θi )
n
1X
θ̂J = θ̃i (7.5.1)
n i=1
El nombre de pseudo valor se debe al hecho de que para el caso especial donde
θ̂(X) = X, el pseudo valor coincide con la i-ésima observación, es decir:
n
X n
X
θ̃i = xj − xj = xi
j=1 j6=i
FACYT-MATEMÁTICAS
167 CAPÍTULO 7: Métodos de Aproximación y Simulación.
7.5.2. Bootstrap.
El concepto de Bootstrap fue introducido por Efron (1979) y consiste en generar un
número grande de muestras basadas en la distribución empírica obtenida de los datos
originales muestreados.
Sea X1 , X2 , . . . , Xn los datos observados de una muestra aleatoria de distribución
P (X|θ), donde θ ∈ Θ es un parámetro desconocido. Sea θ̂(X) un estimador de θ. La
función de distribución empírica se dene por:
# (Xi < x)
Fbn (x) = ; ∀x ∈ R
n
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.5: Métodos de Remuestreo. 168
B
∗ 1X ∗
θ̄ = θ̃
n i=1 i
B
1 X ∗ 2
σ̂ 2 θ̂∗ = θ̂i − θ̄∗
B − 1 i=1
Algoritmo 7.5.
Paso [1] Se genera x de una densidad auxiliar h(x).
Paso [2] Se genera u ∼ U (0, 1).
Paso [3] Si u ≤ P (x)/Ah(x), donde A = máx{P (x)}/h(x), entonces se acepta x. En
otro caso se retorna al paso [1].
FACYT-MATEMÁTICAS
169 CAPÍTULO 7: Métodos de Aproximación y Simulación.
Algoritmo 7.6.
Paso [1] Se toma una muestra x1 , . . . , xn de una densidad h(x).
Paso [2] Se evalúan los pesos de importancia:
P (xi )
w(xi ) = , i = 1, . . . , n
h(xi )
Paso
P[3] Se selecciona una nueva muestra x1 , . . . , xn de {x1 , . . . , xn } con probabilidad
∗ ∗
n
wi / i=1 wi , donde i = 1, . . . , n con reemplazo.
Nótese que:
n
X w
P (x∗ ≤ a) = Pn i Ixi (−∞, a)
i=1 j=1 wj
entonces:
Z a
∗
lı́m P (x ≤ a) → P (x)dx
n→∞ −∞
Si la idea es estimarP (θ|x) = kL(θ, x)P (θ), para θ ∈ Θ, al tomar h(x) = P (θ) y
w(x) = P (θ|x)/P (θ) = kL(θ, x), el algoritmo queda como sigue:
Algoritmo 7.7.
Paso [1] Se toma una muestra θ1 , . . . , θn de una distribución a priori P (θ).
Paso [2] Se evalúan los pesos:
P (θ|x)
wi = = kL(θ, x), i = 1, . . . , n
P (θ)
Paso [3] Se muestrea θ1∗ , θ2∗ , . . . , θm
∗
con reemplazo de {θ1 , . . . , θn }, utilizando las
probabilidades respectivas:
L
Pn i , i = 1, . . . , n
i=1 Li
donde Li = L(θi , x).
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.6: Métodos de Monte Carlo por Cadenas de Markov 170
FACYT-MATEMÁTICAS
171 CAPÍTULO 7: Métodos de Aproximación y Simulación.
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 172
De cualquier manera se tiene que ser capaz de simular de PX (x), PY (y), P (X|Y) o
P (Y|X). El muestreo de las distribuciones condicionales dene una cadena de Markov
bivariada y muestra una explicación intuitiva de por qué P (X, Y) es una distribución
estacionaria. El algoritmo consiste en:
Algoritmo 7.8.
Paso [1] Generar X = x ∼ PX (x)
Paso [2] Generar Y = y ∼ P (Y|X)
Paso [3] Obtener las muestras de P (X, Y) = P (Y|X)PX (x)
Asimismo, el algoritmo puede ser de la siguiente forma:
Algoritmo 7.9.
Paso [1] Generar Y = y ∼ PY (y)
Paso [2] Generar X = x ∼ P (X|Y)
Paso [3] Aproximar P (X, Y) = P (X|Y)PY (y)
El kernel de transición de una cadena de Markov bivariada es el siguiente:
P {[(x, y), (x0 , y 0 )]} = P [(x0 , y 0 ) |(x, y)] = P (x0 |x, y) P (y 0 |x0 , x, y) = P (x0 |y) (y 0 |x0 )
Algoritmo 7.10.
T
Paso [1] Sea j = 1. Se inicializa el estado de la cadena θ(0) = θ1(0) , . . . , θd(0) .
Paso [2] Se obtiene un nuevo valor θ(j) de θ(j−1) por sucesivos valores generados:
(j) (j−1) (j−1)
θ1 ∼Π θ1 |θ2 , . . . , θd
(j) (j) (j−1) (j−1)
θ2 ∼ Π θ2 |θ1 , θ3 , . . . , θd
.
.
.
(j) (j) (j)
θd ∼ Π θd |θ1 , . . . , θd−1
FACYT-MATEMÁTICAS
173 CAPÍTULO 7: Métodos de Aproximación y Simulación.
d
Y
P (θ, φ) = Π(φi |φ1 , . . . , φi−1 , θi+1 , . . . , θd )
i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 174
donde:
1 si E es verdad
I(E) =
0 si E es falso
Nótese lo siguiente:
Solución:
La contribución de cada observación yij se muestra a continución:
r
τ n τ o
f (yij |θi , τ ) = exp − (yij − θi )2
2π 2
De este modo, la verosimilitud completa queda como sigue:
ni
m Y
Y
L(θ, τ ; y) = f (yij |θi , τ )
i=1 j=1
( m
)
τ N/2 τ X
(ni − 1)Si2 + ni (yi· − θi )2
= exp −
2π 2 i=1
donde:
FACYT-MATEMÁTICAS
175 CAPÍTULO 7: Métodos de Aproximación y Simulación.
Pm
N= i=1 ni
yi· = (1/ni ) nj=1
P i
yij
Si2 = [1/ (ni − 1)] nj=1 (yij − yi· )2
P i
En consecuencia:
( " m
#)
1 X
Π(µ, τ, v, θ) ∝ v m/2+e−1 τ c−1 exp − 2dτ + 2f v + b(µ − a)2 + v (θi − µ)2
2 i=1
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 176
Entonces:
ab + nv θ̄ 1
µ|τ, v, θ, y ∼ N ,
b + mv b + mv
FACYT-MATEMÁTICAS
177 CAPÍTULO 7: Métodos de Aproximación y Simulación.
Algoritmo en R 7.3. Simulación de una normal bivariada con media cero y varianza
uno, pero con una correlación ρ entre las dos componentes:
#·······················································································································
# Muestreador de Gibbs
#·······················································································································
MG1<-function(n,rho){
x<-rnorm(n,0,1)
y<-rnorm(n,rho*x,sqrt(1-rho*rho))
cbind(x,y)
}
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 178
MG11<-MG1(10000,0.1)
par(mfrow=c(3,1))
plot(MG11,col=1:10000)
plot(MG11,type="l")
plot(ts(MG11[,1]))
par(mfrow=c(3,1))
plot(ts(MG11[,2]))
hist(MG11[,1],50)
hist(MG11[,2],50)
FACYT-MATEMÁTICAS
179 CAPÍTULO 7: Métodos de Aproximación y Simulación.
MG2<-function(n,rho){
matriz<-matrix(ncol=2,nrow=n)
x<-0
y<-0
matriz[1,]<-c(x,y)
for(i in 2:n){
x<-rnorm(1,rho*y,3)
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 180
y<-rnorm(1,rho*x,9)
matriz[i,]<-c(x,y)
}
matriz
}
MG22<-MG2(10000,-0.98)
par(mfrow=c(3,1))
plot(MG22,col=1:10000)
plot(MG22,type="l")
plot(ts(MG22[,1]))
par(mfrow=c(3,1))
plot(ts(MG22[,2]))
hist(MG22[,1],50)
hist(MG22[,2],50)
for(i in1:n){
theta<-rnorm(1,mu1*y,tao1)
y<-rnorm(1,theta,sigmac)
matriz[i,]<-c(theta,y)
}
matriz
}
FACYT-MATEMÁTICAS
181 CAPÍTULO 7: Métodos de Aproximación y Simulación.
resultado2<-MG3(10000,-0.1)
par(mfrow=c(3,1))
plot(resultado2,col=1:1000)
plot(resultado2,type="l")
plot(ts(resultado2[,1]))
par(mfrow=c(3,1))
plot(ts(resultado2[,2]))
hist(resultado2[,1],500)
hist(resultado2[,2],500)
# Convergencia
par(mfrow=c(2,1))
cum11<-cumsum(resultado2[,1])/c(1:10000)
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 182
plot(cum11,type="l")
cum22<-cumsum(resultado2[,2])/c(1:10000)
plot(cum22,type="l")
n<-3000
xa<-c(125,18,18,20,34)
MG3<-function(n,xa){
z<-20
theta<-0.5
z.0<-z
FACYT-MATEMÁTICAS
183 CAPÍTULO 7: Métodos de Aproximación y Simulación.
theta.0<-theta
for(j in 1:n){
theta<-rbeta(1,z+xa[5]+1,xa[3]+xa[4]+1)
prob<-theta/(theta+2)
z<-rbinom(1,xa[1],prob)
theta.0<-c(theta.0,theta)
z.0<-c(z.0,z)
}
cbind(theta.0,z.0)
}
salida3<-MG3(n,xa)
par(mfrow=c(2,2))
plot(salida3,col=1:197)
plot(salida3,type="l")
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 184
plot(ts(salida3[,1]))
plot(ts(salida3[,2]))
par(mfrow=c(2,2))
hist(salida3[,1],50)
hist(salida3[,2],50)
plot(density(salida3[,1],50))
plot(density(salida3[,2],50))
# Convergencia
par(mfrow=c(2,1))
acumulado0<-cumsum(salida3[,1])/c(1:3001)
plot(acumulado0,type="l")
acumulado00<-cumsum(salida3[,2])/c(1:3001)
plot(acumulado00,type="l")
FACYT-MATEMÁTICAS
185 CAPÍTULO 7: Métodos de Aproximación y Simulación.
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 186
• Π φ|λ, y , m
e
• Π m|λ, φ, y
e
Solución: (Ejercicio).
Algoritmo en R 7.7. El problema de cambio de punto:
y<-c(4,5,4,0,1,4,3,4,0,6,3,3,4,0,2,6,
3,3,5,4,5,3,1,4,4,1,5,5,3,4,2,5,
2,2,3,4,2,1,3,2,2,1,1,1,1,3,0,0,
1,0,1,1,0,0,3,1,0,3,2,2,0,1,1,1,
0,1,0,1,0,0,0,2,1,0,0,0,1,1,0,2,
3,3,1,1,2,1,1,1,1,2,4,2,0,0,1,4,
0,0,0,1,0,0,0,0,0,1,0,0,1,0,1,0)
ano<-c(1851:1962)
n<-3000
gibbs1<-function(n,y,ano){
FACYT-MATEMÁTICAS
187 CAPÍTULO 7: Métodos de Aproximación y Simulación.
th<-0.05
la<-0.08
b1<-0.2
b2<-0.6
k<-1
a1<-0.5
a2<-0.5
c1<-0
c2<-0
d1<-1
d2<-1
nn<-length(y)
v<-NULL
th.0<-NULL
la.0<-NULL
k.0<-NULL
b1.0<-NULL
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.8: Muestreador de Gibbs. 188
b2.0<-NULL
for(i in 1:n){
alfa1<-a1+cumsum(y)[k]
beta1<-k+b1
alfa2<-a2+sum(y)-cumsum(y)[k]
beta2<-nn-k+b2
th<-rgamma(1,alfa1,beta1)
la<-rgamma(1,alfa2,beta2)
b1<-rgamma(1,a1+c1,th+d1)
b2<-rgamma(1,a2+c2,la+d2)
for(j in 1:nn){
v[j]<-exp((la-th)*j)*(th/la)^(cumsum(y)[j])
}
FACYT-MATEMÁTICAS
189 CAPÍTULO 7: Métodos de Aproximación y Simulación.
k<-sample(1:nn,size=1, prob = v)
th.0<-c(th.0,th)
la.0<-c(la.0,la)
k.0<-c(k.0,k)
b1.0<-c(b1.0,b1)
b2.0<-c(b2.0,b2)
}
cbind(th.0,la.0,k.0,b1.0,b2.0)
}
salida1<-gibbs1(n,y)
n<-3000
summary(salida1)
par(mfrow=c(3,1))
plot(ano,y, xlab="Años",ylab="Número de desastres")
hist(salida1[,1],main="Histograma de los datos simuldos de Teta")
hist(salida1[,2], main="Histograma de los datos de lamda")
par(mfrow=c(3,1))
hist(salida1[,3], main="Histograma de los datos de k")
hist(salida1[,4], main="Histograma de los datos de b1")
hist(salida1[,5], main="Histograma de los datos de b2")
par(mfrow=c(3,1))
plot(density(salida1[,1]))
plot(density(salida1[,2]))
plot(density(salida1[,3]))
par(mfrow=c(3,1))
plot(density(salida1[,4]))
plot(density(salida1[,5]))
plot(density(salida1[,3]),type="l",main="Datos simuldos de k")
par(mfrow=c(3,1))
plot(salida1[,1],type="l",main="Traza de los datos simuldos de Teta")
plot(salida1[,2],type="l", main="Traza de los datos de lamda")
plot(salida1[,3],type="l", main="Traza de los datos de k")
par(mfrow=c(2,1))
plot(salida1[,4],type="l", main="Traza de los datos de b1")
plot(salida1[,5],type="l", main="Traza de los datos de b2")
par(mfrow=c(3,1))
acumulado1<-cumsum(salida1[,1])/c(1:3000)
plot(acumulado1,type="l",main="Convergencia de Teta")
acumulado2<-cumsum(salida1[,2])/c(1:3000)
plot(acumulado2,type="l",main="Convergencia de lamda")
acumulado3<-cumsum(salida1[,3])/c(1:3000)
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 190
plot(acumulado3,type="l",main="Convergencia de k")
par(mfrow=c(2,1))
acumulado4<-cumsum(salida1[,4])/c(1:3000)
plot(acumulado4,type="l",main="Convergencia de b1")
acumulado5<-cumsum(salida1[,5])/c(1:3000)
plot(acumulado5,type="l",main="Convergencia de b2")
FACYT-MATEMÁTICAS
191 CAPÍTULO 7: Métodos de Aproximación y Simulación.
θ1can
(j+1) con probabilidad p
θ1 = (j)
θ1 con probabilidad 1−p
donde:
(j)
(j) (j) (j) (j)
Π θ1can θ2 , . . . , θd q θ1 |θ1can , θ2 , . . . , θd
p = mı́n 1,
Π θ(j) |θ(j) , . . . , θ(j) q θcan θ(j) , θ(j) , . . . , θ(j)
1 2 d 1 1 2 d
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 192
(j)
(j)
y Π θ1can θ2 , . . . , θd es la densidad a posteriori condicional de θ1 en
(j) (j) (j)
θ1 = θ1can y similarmente para Π θ1 |θ2 , . . . , θd .
FACYT-MATEMÁTICAS
193 CAPÍTULO 7: Métodos de Aproximación y Simulación.
(j) (j) (j) (j) (j)
q θ1can θ1 , θ2 , . . . , θd = Π θ1can θ2 , . . . , θd
simetría
del generador candidato signica que los términos que involucran
(j) (j) (j)
can
a q θ1 θ1 , θ2 , . . . , θd se cancelan en la fórmula de la probabilidad de
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 194
aceptación, es decir:
(j)
(j)
Π θ1can
θ2 , . . . , θd
p = mı́n 1,
Π θ(j) |θ(j) , . . . , θ(j)
1 2 d
FACYT-MATEMÁTICAS
195 CAPÍTULO 7: Métodos de Aproximación y Simulación.
(j+1)
2. Para obtener θ2 se propone un candidato θ2can de:
(j+1) (j) (j)
q θ2can θ1 , θ2 , . . . , θd
(j+1)
y se acepta θ2 con probabilidad:
Π θ2can θ1(j+1) , θ3(j) , . . . , θd(j) q θ2(j) |θ1(j+1) , θ2can , . . . , θd(j)
p = mı́n 1,
Π θ(j) |θ(j+1) , θ(j) , . . . , θ(j) q θcan θ(j+1) , θ(j) , . . . , θ(j)
2 1 3 d 2 1 2 d
(j+1) (j)
Si θ2can es rechazado entonces se hace θ2 = θ2 .
Ejemplo 7.11. El ejemplo 7.3 del vínculo genético, toma en cuenta 197 animales.
Los animales se distribuyen en 4 categorías dadas por:
y = (y1 , y2 , y3 , y4 ) = (125, 18, 20, 34)
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 196
con probabilidades:
2+θ 1 1 θ
, (1 − θ), (1 − θ), , 0≤θ≤1
4 4 4 4
Considérese que θ ∼ U (0, 1), entonces la distribución a posteriori viene dada por
(demostrarla):
Solución:
Como generador candidato se puede tomar a θcan ∼ U (0, 1) y la probabilidad de
FACYT-MATEMÁTICAS
197 CAPÍTULO 7: Métodos de Aproximación y Simulación.
aceptación p es la siguiente:
Π(θcan |y)
p = mı́n 1,
Π(θ|y)
( y y +y y )
2 + θcan 1 1 − θcan 2 3 θcan 4
= mı́n 1,
2+θ 1−θ θ
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 198
donde:
( y y +y y )
2 + θcan 1 1 − θcan 2 3 θcan 4
p = mı́n 1,
2 + θ(0) 1 − θ(0) θ(0)
Este último se lleva a cabo por el muestreo de u ∼ U (0, 1), y tomando θ(1) = θcan si
y sólo si u < p.
Paso [3] Se itera este procedimiento hasta alcanzar la convergencia de los parámetros.
Ejemplo 7.12. Supóngase que yi |µ, w ∼ Cauchy (µ, 1/w) son variables aleatorias,
independientes e idénticamente distribuidas, donde i = 1, . . . , n, con función de
densidad de probablidad dada por:
n n
Y Y w1/2
f (y|µ, w) = f (yi |µ, w) =
i=1 i=1
π[1 + w(yi − µ)2 ]
Solución:
Ninguna de estas distribuciones tiene una forma conocida, por lo que el muestreador
de Gibbs no se puede implementar, se requiere usar algoritmos MCMC más generales.
De esta forma, se procede a utilizar el algoritmo Metrópolis-Hastings:
Algoritmo 7.13.
Paso [1] Se escogen valores iniciales µ(0) , w(0) .
FACYT-MATEMÁTICAS
199 CAPÍTULO 7: Métodos de Aproximación y Simulación.
Se toma µcan ∼ N µ(j) , Σµ y se hace:
(j+1) µcan con probabilidad p
µ =
µ(j) con probabilidad 1−p
donde:
( )
Π µcan |w(j) , y q µ(j) |µcan
p = mı́n 1,
Π (µ(j) |w(j) , y) q (µcan |µ(j) )
(j) 2
( n
" #)
(j)
−
h i Y
k0 2 1 + w y i µ
µ(j) − µ0 − (µcan − µ0 )2
= mı́n 1, exp
2 i=1
1 + w(j) (yi − µcan )2
can
(j+1) w con probabilidad p
w =
w(j) con probabilidad 1−p
donde:
(j+1) 2
( n/2+α0 −1 n
" #)
(j)
wcan Y 1 + w y i − µ
exp λ0 w − wcan
(j)
p = mı́n 1, 2
w(j) i=1 1 + w
can (yi − µ(j+1) )
Para llevar a cabo este paso, se simula u ∼ U (0, 1) y se hace w(j+1) = wcan si y
sólo si u < p.
Nota 7.1. Se acepta wcan > 0 si wcan < 0, entonces p = 0 y w(j+1) = w(j) .
Paso [3] Se itera el paso [2] un número grande de veces. Se descarta un número
inicial de muestras y en base al resto de las muestras se hace inferencia.
norm<-function(n,alpha){
vec<-vector("numeric",n)
x<-0
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 200
vec[1]<-x
for (i in 2:n){
innov<-runif(1,-alpha,alpha)
can<-x+innov
aprob<-min(1,dnorm(can)/dnorm(x))
u<-runif(1)
if (u<aprob)
x<-can
vec[i]<-x
}
vec
}
normvec<-norm(10000,10)
par(mfrow=c(3,1))
plot(ts(normvec))
hist(normvec,30)
plot(density(normvec))
Algoritmo en R 7.9. Datos del ejemplo del vínculo genético usando Metropolis-
Hastings:
y<-c(143,18,18,20,34)
n<-10000
MetroHast<-function(n,y){
pi.theta<-function(theta,y){
(2+theta)^{y[1]}*(1-theta)^{y[2]+y[3]}*theta^{y[4]}
}
theta<-0.2
theta.0<-theta
for(j in 1:n){
yy<-runif(1,0,1)
alfha<-min(1,pi.theta(yy,y)/pi.theta(theta,y))
u<-runif(1,0,1)
if(u<alfha)
theta<-yy
theta.0<-c(theta.0,theta)
}
theta.0
}
resuMH<-MetroHast(n,y)
summary(resuMH)
FACYT-MATEMÁTICAS
201 CAPÍTULO 7: Métodos de Aproximación y Simulación.
par(mfrow=c(3,1))
plot(resuMH,type="l",main="resuMH")
hist(resuMH,main="Datos simulados de Teta")
plot(density(resuMH),type="l",main="Densidad a posteiori de Teta")
acumulado1<-cumsum(salida1[,1])/c(1:10000)
par(mfrow=c(2,1))
plot(acumulado1,type="l",main="Convergencia de Teta")
##########################################################
g<-function(x,omega,n){
for(i in 1:n){
mu=rnorm(n,sum(x*omega)/sum(omega+0.05),sqrt(1/(0.05+2*sum(omega))))
omega<-rexp(n,1+(x-mu)^2)
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.9: Algoritmo Metropolis-Hastings 202
mat=cbind(mu,omega)
}
mat
}
result=g(1,2,10)
plot(result[,1])
2. Se debe ejecutar la cadena varias veces con diferentes valores y comprobar que
la salida de las distintas cadenas es muy similar.
FACYT-MATEMÁTICAS
203 CAPÍTULO 7: Métodos de Aproximación y Simulación.
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.10: Práctica de Ejercicios del Capítulo 7 204
n
1X
I¯ = g(xi )w(xi )
n i=1
donde:
p(xi )
w(xi ) =
h(xi )
y
xi ∼ h(x), i = 1, . . . , n,
4. Sea θ = P (X > 2), donde X tiene una distribución estándar Cauchy con
densidad:
1
P (x) = , x ∈ R
π (1 + x2 )
Sea h una densidad de muestreo importante denida por:
FACYT-MATEMÁTICAS
205 CAPÍTULO 7: Métodos de Aproximación y Simulación.
UNIVERSIDAD DE CARABOBO
SECCIÓN 7.10: Práctica de Ejercicios del Capítulo 7 206
10. Suponga que en una cadena de Markov con sólo dos estados, las probabilidades
de ir del estado i al estado j en una unidad de tiempo están dadas por las
entradas de la siguiente matriz:
1/3 2/3
A=
1/2 1/2
µ0 , c0 , v0 , a0 , b0 , θ0 , τ0 ∼ U (0, 1)
FACYT-MATEMÁTICAS
Bibliografía
[1] J. M Bernardo and A. F. M. Smith. Bayes Theory. 1999.
[5] R. Christian and C. George. Markov Chain Monte Carlo Methods. 1999.
[6] P. Congdon. Bayesian Statistical Modelling. John Wiley Sons, New York, 2001.
[8] D. Gamerman. Markov Chain Monte Carlo Stochastic for Bayesian Inference.
Chapman and Hall, 1997.
[11] C. R. Rao. Linear Statistical Inference. Wiley, New York, 2 edition, 1973.
[12] J. Carlin H. Stern, A. Gelman and D. Rubin. Bayesian Data Analysis. Chapman
and Hall, 2 edition, 2003.
207