Académique Documents
Professionnel Documents
Culture Documents
1/37
Cours 4/10
Estimation bayésienne
Objectifs du cours 4
◮ Introduire la notion d’information a priori.
◮ Se familiariser avec les approches bayésiennes.
◮ Construire de nouveaux estimateurs intégrant un a priori.
2/37
Plan du cours
4 – Estimateurs bayésiens
5 – Exercice d’échauffement
3/37
Plan du cours
4 – Estimateurs bayésiens
5 – Exercice d’échauffement
Rappel : comparaison d’estimateurs
Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .
Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Rappel : comparaison d’estimateurs
Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .
Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :
2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5
1
3
2
0.5
1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (voir cours n°1)
2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5
1
3
2
0.5
1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (avec n = 10)
0.1 θ̂ = X̄
θ̂ = θ̂a
Rθ θ̂
0.05
θ̂ = θ̂b
0
0 0.2 0.4 0.6 0.8 1
θ
θ̂ = X̄ θ̂ = θ̂a θ̂ = θ̂b
≈ 0.1246
0.025 ≈ 0.0208 36
Rmax θ̂ 1 1
(n + 7)2
4n 4(n + 2)
(valable pour n ≤ 77)
RBayes,π θ̂ ≈ 0.0167 ≈ 0.0162 ≈ 0.0456
1 n+4 n + 69
avec π ∼
U [0,1]
6n 6(n + 2)2 6(n + 7)2
7/37
Exercice : montrer les expressions de Rmax et RBayes,π pour θ̂ = X̄ .
La famille des lois beta
2
Soit X ∼ β(a, b) avec (a, b) = θ ∈ (R+
⋆ ) . Sa densité est :
Γ(a + b) a−1
fθ (x) = x (1 − x)b−1 1]0,1[ (x).
Γ(a)Γ(b)
Propriétés
1
◮ Si X ∼ β(a, 1), alors − log(X ) ∼ E a .
◮ Si X ∼ Γ(a, λ), Y ∼ Γ(b, λ), et X ⊥ X
⊥ Y , alors X +Y ∼ β(a, b).
Paramètre inconnu → variable aléatoire
8/37
Paramètre inconnu → variable aléatoire
8/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que
Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.
(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que
Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.
(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que
Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.
(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Plan du cours
4 – Estimateurs bayésiens
5 – Exercice d’échauffement
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).
Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
n o
X
X , A , Pθ , θ ∈ Θ ,
Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
n o
X
X , A , Pθ , θ ∈ Θ ,
Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.
Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.
Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.
Proposition
La loi jointe admet la densité jointe
f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.
†
: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.
Proposition
La loi jointe admet la densité jointe
f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.
†
: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Démonstration
14/37
Démonstration
14/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :
f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)
Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp
fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)
f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)
Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp
fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)
fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)
La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.
16/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :
fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)
La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.
16/37
Exemple : boules blanches / boules rouges (suite)
B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).
17/37
Exemple : boules blanches / boules rouges (suite)
B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).
17/37
Exemple : boules blanches / boules rouges (suite)
Alors on a :
18/37
Exemple : boules blanches / boules rouges (suite)
Alors on a :
18/37
Exemple : boules blanches / boules rouges (suite)
a priori U[0,1] , n = 5 a priori β(1, 6), n = 5
2.5 6
ddp a priori
2 ddp a posteriori
replacements1.5 4
1
2
0.5
0 0
0 θ x̄ 1 0 θ x̄ 1
3
4
2
1
0 0
0 θ x̄ 1 0 θ x̄ 1
θ(1−θ)
Remarque : pour n → ∞, on a E(ϑ | X n ) = X̄n + O( 1n ) avec var(ϑ | X n ) ≃ n
.
19/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :
n
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1
20/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :
n
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1
20/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori
△
! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )
21/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori
△
! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )
21/37
Exemple : fiabilité composant (suite)
Application numérique. η0 = 14.0, σ0 = 1.0 et valeur vraie : η∗ = 11.4.
4
π(η)
3.5
p(η | x 10 )
3 p(η | x 100 )
p(η | x 1000 )
2.5
p(η | x 10000 )
2
1.5
0.5
0
10 *
=11.4 0
=14.0 17
22/37
Plan du cours
4 – Estimateurs bayésiens
5 – Exercice d’échauffement
Plusieurs approches
23/37
Exemple : boules blanches / boules rouges (suite)
24/37
Exemple : boules blanches / boules rouges (suite)
24/37
Exemple : boules blanches / boules rouges (suite)
4.5
3.5
2.5
1.5
0.5
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ
25/37
Exemple : fiabilité composant
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.
Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...
†
: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
A priori conjugués ➠ facilitent les calculs !
Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...
†
: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
Plan du cours
4 – Estimateurs bayésiens
5 – Exercice d’échauffement
Estimateurs bayésiens
Objectif
Construire des estimateurs de η = g (θ) prenant en compte
◮ les données x,
◮ et la loi a priori π.
28/37
Estimateurs bayésiens
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.
Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ
Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ
ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .
a
L’espérance d’une loi β(a, b) étant a+b , il vient :
N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0
31/37
Exemple : boules blanches / boules rouges (suite)
ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .
a
L’espérance d’une loi β(a, b) étant a+b , il vient :
N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0
31/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02
nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02
Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02
nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02
Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02
nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02
Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.
Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z
J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ
Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2
Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2
6
ddp a priori : β(1, 6)
5 ddp a posteriori : β(3, 9)
4
Application numérique
3 θ̂(L1 ) ≈ 0.2359
2 θ̂(L2 ) = 0.25
0
0 θ̂(L1 ) θ̂(L2 ) 1
34/37
Plan du cours
4 – Estimateurs bayésiens
5 – Exercice d’échauffement
Exercice (loi exponentielle + a prior gamma)
iid
Soient X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
On munit θ d’un a priori Gamma (α0 , β0 ).
Questions
i Montrer que l’a priori gamma est conjugué, et déterminer les
paramètres αn et βn de la loi a posteriori.
ii Expliciter l’estimateur bayésien de θ, pour la perte quadratique.
iii Montrer que cet estimateur tend vers l’EMV si les paramètres
α0 et β0 tendent vers une limite à préciser.
35/37
Corrigé de l’exercice 1
Remarque préliminaire : dans ce corrigé on s’autorise, comme c’est souvent le
cas en pratique, à noter de la même manière le paramètre « déterministe » θ et
la variable aléatoire associée, notée ϑ dans le cours.
i) On écrit la vraisemblance :
n
Y Pn
L (θ; x) = f (x | θ) = θe −θxi = θn e −θ i=1 xi ,
i=1
et la densité a priori :
β0α0 α0 −1 −β0 θ
π(θ) = θ e ∝ θα0 −1 e −β0 θ .
Γ(α0 )
iii) Cet estimateur tend vers l’EMV 1/X̄n lorsque les paramètres α0
et β0 tendent vers zéro.
37/37