Académique Documents
Professionnel Documents
Culture Documents
M atthieu Somé1
December 7, 2022
3 Estimation
P(A ∩ B)
P(A |B) :=
P(B)
[Probabilités totales]
Soit A et B deux évènements tels que P(B) > 0, alors
demo :
Demo :
Définition
Si (Xk )k ≤n sont des variables continues iid dont la loi est une densité fθ
dépendant d’un paramètre θ, on appelle fonction de vraisemblance la fonction
L définie par
n
Y
L (θ, x1 , x2 , · · · , xn ) = Pθ (Xi = xs )
k =1
(a)
Définition
Ainsi la loi jointe des observations de X = (X1 , . . . , Xn ) est conditionnelle à θ
et est notée f (x|θ) = f (x1 , · · · , xn |θ) dans le cas continu et
P(X = x|θ) = P (X1 = x1 , · · · , Xn = xn |θ) dans le cas discret. Dans le cas
continu, f (x|θ) est la densité jointe de la v.a. X
X ∼ f (X |θ)
θ∼π
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 14 / 75
Paradigme Bayésien
Définition
La loi de X et la loi a priori π sur θ sont continues. Alors, on peut exprimer la
loi a posteriori de la manière suivante :
f (X |θ)π(θ)
π(θ|X ) = R
u∈Θ
f (X |u)π(u)du
P(X = x|θ = θi )P (θ = θi )
P (θ = θi |X = x) =
P(X = x)
P(X = x|θ = θs )P (θ = θs )
=P
k P(X = x|θ = θk )P (θ = θk )
Consider six loaded dice with the following properties. Die A has
probability 0.1 of coming up 6, each of Dice B and C has probability 0.2 of
coming up 6, and each of Dice D, E and F has probability 0.3 of coming
up 6. A die is chosen randomly from the six dice and rolled twice. On
both occasions, 6 comes up. What is the posterior probability distribution
of θ , the probability of 6 coming up on the chosen die.
Définition
On appelle la loi marginale la loi définie par :
Z
mπ (X ) = f (X |u)π(u)du
u∈Θ
π(θ|X ) ∝ f (X |θ)π(θ)
Remarque
▶ Le calcul d’une loi a posteriori mène à une loi.
Fonction coût
L :Θ × Θ → R
(θ, θ̂) → L (θ, θ̂)
Exemples
Perte quadratique L(θ, θ′ ) = (θ − θ′ )2 ou L (θ, θ′ ) = ∥θ − θ′ ∥2 ,
(b)
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 21 / 75
Performance des procédures d’estimation(1/3)
Principe
Sélection du meilleur estimateur en tenant compte de la fonction coût L .
Z
R(θ) = Eθ L [θ̂, θ]|θ = L (θ̂(x), θ)f (x|θ)dx
X
Principe
Sélection du meilleur estimateur en tenant compte de la fonction coût L .
Z
R(θ) = Eθ L [θ̂, θ]|θ = L (θ̂(x), θ)f (x|θ)dx
X
Risque a posteriori :
Principe
Z
r(π, θ̂) = E L [θ̂, θ] = E Eθ L [θ̂, θ]|θ = E (R(θ)) = R(θ)π(θ)dθ
Θ
n o n o Z
r(π, θ̂) = E L [θ̂, θ] = E Eθ L [θ̂, θ]|x = E (ρ(x)) = ρ(x)f (x)dx
X
Etant donné
la loi des observations X ∼ f (x|θ)
la loi a priori π
Une fonction de coût
π)
La valeur r(π) = r (π, δ est le risque Bayésien Existence? unicité? Admissibilté? Minimaxité?
R (θ, δ0 ) ≥ R (θ, δ1 )
Bayésien
R (θ, δ0 ) ≥ R (θ, δ1 )
Bayésien
* Si π strictement positive sur Θ avec r(π) = Θ R (θ, δπ ) π(θ)dθ < ∞
R
Moyenne a posteriori
L’estimateur de Bayes associé à l’a priori π et avec la fonction de perte
quadratique est l’espérance de l’a posteriori
R
π π
θf (x|θ)π(θ)dθ
δ (x) = E [θ|x] = RΘ
Θ
f (x|θ)π(θ)dθ
µ̂ = y = 1
n
(y1 + . . . + yn ) (moyenne empirique)
Fonctions de perte
π π
n o
Q1−α (x) = θ; π(θ|x) ≥ k1−α (x)
π
k1−α (x) est choisi tel que
Z
π(θ|x)dθ = 1 − α
Q1−α (x)
(c)
(d)
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 31 / 75
Exercice on HPDR
We have a bent coin, for which θ, the probability of heads coming up, is
unknown. Our prior beliefs regarding θ may be described by a standard
uniform distribution. Thus no value of θ is deemed more or less likely than any
other. We toss the coin n = 5 times (independently), and heads come up
every time. Find the posterior mean, mode and median of θ. Also find the
80HPDR for θ.
Table:
Une loi conjuguée peut être déterminée en considérant la forme de la vraisemblance f (x|θ) et en
prenant une loi a priori de la même forme que cette dernière vue comme une fonction du paramètre.
θa θ
f (x|θ, a) = χ[a,+∞] (x)
x θ+1
Supposons a connu, f (x|θ) ∝ θe θ log(a/x) x −1 χ[a,+∞ [(x). On pourrait donc
prendre une loi a priori de type Gamma.
Exemple
Trouver l’a posteriori de p sachant X , quand p ∼ U ([0, 1]) et X ∼ B(n, p)
Définition
On appelle famille exponentielle à s paramètres, toute famille de loi de
distribution {Pθ } dont la densité a la forme suivante :
X s
f (x|θ) = exp ηj (θ)Tj (x) − B(θ) h(x) = exp(⟨η(θ), T (x)⟩ − B(θ))h(x)
j=1
où ηj (·) et B(·) sont des fonctions du paramètre θ et les Ti (·) sont des
statistiques. Le vecteur η(θ) est appellé paramètre naturel de la famille
Proposition
Soit f (x, θ) appartenant à une famille exponentielle canonique. Alors une
famille de loi a priori conjuguée pour f (x, θ) est donnée par :
Preuve:
π(θ|x) ∝ f (x|θ)π(θ)
∝ exp(⟨θ, T (x)⟩ − A (θ)) exp(⟨θ, µ⟩ − λA (θ))
∝ exp(⟨(µ + T (x)), θ⟩ − (λ + 1)A (θ))
Une loi non informative est une loi qui porte une information sur le paramètre
à estimer dont le poids dans l’inférence est réduit. Lois invariantes
∂ 2 #
∂2
" " #
I(θ) = E log f (X |θ) |θ où I(θ) = −E log f (X |θ)|θ
∂θ ∂θ2
Modèle normal-normal
Trouver l’a priori de Jeffreys pour µ si (X1 , . . . , Xn |µ) ∼ i.i.d. N(µ, σ2 ) où σ est
connu
Modèle normal-gamma
Trouver l’a priori de Jeffreys pour λ si (X1 , . . . , Xn |λ) ∼ i.i.d. N(µ, 1/λ) où µ est
connu
Modèle beta-binomial
Trouver l’a priori de Jeffreys pour θ si (X |θ) ∼ Bin(n, θ) où n est connu
n−1
P(X = x|p) = Cn+x−1 p x (1 − p)n , 0 < p < 1, x∈N
Marginales a posteriori
Z
π1 (θ1 |x) = π (θ1 , θ2 |x) dθ2
Z
π2 (θ2 |x) = π (θ1 , θ2 |x) dθ1
Méthodes numériques
En particulier on a
f (x|θ)π(θ)
π(θ|x) =
Z(x)
avec la constante de normalisation
Z
Z(x) = f (x|θ)π(θ)dθ
Θ
Région de confiance :
Z
P(θ ∈ S|x) = π(θ|x)dθ
S
g densité de θ et connue.
On note θ1 , θ2 , . . . , θN un échantillon i.i.d. de cette loi g.
Proposition
La quantité
N
1X
ÎN = h (θi )
N
i=1
Proposition
TCL La quantité
N
1X
ÎN = h (θi )
N
i=1
Z1 , . . . , Zn ∼ π(θ|x),
1 PN
Autrement dit : Zn →L g quand n → ∞, puis N i=1 h (Zi+n ) → E h(X )
quand N → ∞
On note X l’espace d’état. Dans la suite X est soit fini, soit infini dénombrable,
soit c’est Rd .
Définition
Une chaîne de Markov (X0 , X1 , . . .) avec Xi ∈ X est une suite de v.a. vérifiant
Chaine irréductible : toute région d’intérêt de l’espace d’états peut être visitée
transient : nombre moyen de passages est fini
recurrent : garantie de retour
Loi invariante : On dit que la chaine admet une loi invariante s’il existe f telle
que
Si xn ∼ f alors xn+1 ∼ f
Les chaînes construites par les algorithmes MCMC admettent une loi
invariante et elle est unique.
Définition
Une séquence de variables aléatoires (Xi )i∈N est une marche aléatoire si elle
satisfait
Xi+1 = Xi + εi
où (ϵi )i∈N sont des variables i.i.d. Si la distribution des ϵi est symétrique
autour de zéro, on parle de marche aléatoire symétrique
Pn
Sn = k =1 Xk avec S0 = 0, (Xi )i indépendant,
Xk = ±1, avec P (Xk = 1) = p et P (Xk = −1) = 1 − p = q
Définition
Une distribution g est dite invariante ou stationnaire par rapport à une chaîne
de Markov si ∀x ∈ R Z
g(x) = f (u)p(u, x)du
Proposition
Sous certaines conditions (vérifiées la plupart du temps) sur le noyau de
transition, πn converge en loi vers la mesure invariante g. De plus on a le
théorème ergodique :
N Z
1X
h (Xi ) → h(x)g(x)dx p.s.
N X
i=1
Remarque
PN R
1
N h (Xi ) est un estimateur fortement consistant de
i=1 X
h(x)g(x)dx
mais pas nécessairement sans biais.
Les Xi sont corrélées, contrairement au cadre classique d’application de
la loi forte des grands nombres.
Les premières v.a. Xi peuvent avoir une loi très éloignée de la loi g, il
peut donc être intéressant de ne pas en tenir compte pour améliorer
l’approximation :
N Z
1 X
h (Xi ) → h(x)g(x)dx p.s.
N − N0 + 1 X
i=N0
Algorithme
On définie une valeur initiale θ0 ,
Pour i = 1, . . . , N
1 On propose (génère) une nouvelle valeur θ∗ ∼ q(·|θi−1 ) (loi de proposition)
Supposons que X1 ; . . . ; Xi ont été générées. On génère Xi+1 comme suit
2 On calcule le taux d’acceptation
Proposition
La mesure g vérifie la condition d’équilibre pour le noyau de
Metropolis-Hastings.
On suppose
que
l’on sait
échantillonner selon les distributions conditionnelles
g1 θ |θ et g2 θ |θ
1 2 2 1
Algorithme
Soit θ10 , et θ20 ∈ R∀
Supposons (θ11 , θ21 ), . . . , (θ1i , θ2i ) ont été générées. On génère (θ1i+1 , θ2i+1 )
θ1i+1 ∼ g1 (.|θ2i )
θ2i+1 ∼ g2 (.|θ1i )
Note : L’analyse bayésienne dans (c) peut être fait par l’échantillonneur
de Gibbs.
(k)
(l) TP2
(m) TP2
1. Christian P. Robert & George Casella. Monte Carlo Statistical Methods. Springer, 2004.
2. Christian P. Robert. Le Choix Bayésien - Principes et pratique. Springer, 2006.