Cours 4

Statistique et apprentissage
Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet

(prenom.nom@centralesupelec.fr)
Enseignement : CentraleSupélec / Département de Mathématiques

Recherche : Laboratoire des signaux & systèmes (L2S)
†
: Coordinateur du cours
1/37
Cours 4/10
Estimation bayésienne
Objectifs du cours 4
◮ Introduire la notion d’information a priori.
◮ Se familiariser avec les approches bayésiennes.
◮ Construire de nouveaux estimateurs intégrant un a priori.
2/37
Plan du cours
1 – Introduction : risque bayésien
2 – Statistique bayésienne : loi a priori / a posteriori
3 – Choisir une loi a priori
4 – Estimateurs bayésiens
5 – Exercice d’échauffement
3/37
Plan du cours
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .
Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .
Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :
1 approche minimax (ou « pire cas ») :

Rmax η̂ = sup Rθ η̂ ,
θ∈Θ
➠ ne sera pas discutée cette année ;
2 approche bayésienne (ou « en moyenne ») :

Z

RBayes,π η̂ = Rθ η̂ π(dθ),
Θ
où π est une mesure de probabilité sur Θ, à choisir.

➠ c’est le sujet de ce cours.
5/37

θ∈Θ

Z

Θ

5/37

θ∈Θ

Z

Θ

5/37
Exemple : boules blanches / boules rouges (voir cours n°1)
2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5
1
3
2
0.5
1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (voir cours n°1)
2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5
1
3
2
0.5
1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (avec n = 10)
0.1 θ̂ = X̄

θ̂ = θ̂a
Rθ θ̂
0.05
θ̂ = θ̂b
0
0 0.2 0.4 0.6 0.8 1
θ
θ̂ = X̄ θ̂ = θ̂a θ̂ = θ̂b
≈ 0.1246
0.025 ≈ 0.0208 36
Rmax θ̂ 1 1
(n + 7)2
4n 4(n + 2)
(valable pour n ≤ 77)

RBayes,π θ̂ ≈ 0.0167 ≈ 0.0162 ≈ 0.0456
1 n+4 n + 69
avec π ∼
U [0,1]
6n 6(n + 2)2 6(n + 7)2
RBayes,π θ̂ ≈ 0.0107 ≈ 0.0129 ≈ 0.0089

3 3n + 22 3n + 42
avec π ∼ β(1, 6) 28n 28(n + 2)2 28(n + 7)2
7/37
Exercice : montrer les expressions de Rmax et RBayes,π pour θ̂ = X̄ .
La famille des lois beta
2
Soit X ∼ β(a, b) avec (a, b) = θ ∈ (R+
⋆ ) . Sa densité est :
Γ(a + b) a−1
fθ (x) = x (1 − x)b−1 1]0,1[ (x).
Γ(a)Γ(b)
Moments Cas particulier

◮ moyenne : Eθ (X ) = a
a+b ◮ U[0,1] = β(1, 1)
◮ variance : varθ (X ) = ab
(a+b)2 (a+b+1)
Propriétés
1

◮ Si X ∼ β(a, 1), alors − log(X ) ∼ E a .
◮ Si X ∼ Γ(a, λ), Y ∼ Γ(b, λ), et X ⊥ X
⊥ Y , alors X +Y ∼ β(a, b).
Paramètre inconnu → variable aléatoire
On supposera à partir de maintenant un modèle dominé : ddp fθ (x).
Considérons le risque bayésien (quadratique dans ce cas)

Z

RBayes,π η̂ = Rθ η̂ π(dθ)
ZΘ

= Eθ kη̂ − g (θ)k2 π(dθ).
Θ
On peut le ré-écrire sous la forme :

ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ
8/37
Paramètre inconnu → variable aléatoire
On supposera à partir de maintenant un modèle dominé : ddp fθ (x).
Considérons le risque bayésien (quadratique dans ce cas)

Z

RBayes,π η̂ = Rθ η̂ π(dθ)
ZΘ

= Eθ kη̂ − g (θ)k2 π(dθ).
Θ
On peut le ré-écrire sous la forme :

ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ
8/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que
(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)
Alors le risque bayésien se ré-écrit plus simplement :

RBayes,π = E kη̂ − g (ϑ)k2 ,
l’espérance portant cette fois sur X et sur ϑ.
Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.
(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

9/37
(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

9/37
Plan du cours
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).
Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
n o
X
X , A , Pθ , θ ∈ Θ ,
◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).
Modèle supposé dominé → permet de définir une vraisemblance.

10/37
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).
Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
n o
X
X , A , Pθ , θ ∈ Θ ,
◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).
Modèle supposé dominé → permet de définir une vraisemblance.

10/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que
(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)
Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.
Interprétation (« bayésienne subjective »)

◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)
On appelle :

11/37
(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)
On appelle :

11/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)
Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,

pour une certaine mesure νΘ sur (Θ, FΘ ).
On définira Pϑ|X =x comme la mesure admettant la densité

f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)
par rapport à νΘ , pour tout x tel que f X (x) > 0.
On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,

Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

Z
p.s.
Θ
12/37


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

Z
p.s.
Θ
12/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.
Proposition
La loi jointe admet la densité jointe
f (X ,ϑ) (x, θ) = fθ (x) π(θ),
et les densité marginales associées sont
f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.
†
: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.
Proposition
La loi jointe admet la densité jointe
f (X ,ϑ) (x, θ) = fθ (x) π(θ),
et les densité marginales associées sont
f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.
†
: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Démonstration
Densité jointe (démonstration informelle) :
P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ

= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe
Densités marginales → il suffit d’intégrer :

Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.
14/37
Démonstration
Densité jointe (démonstration informelle) :
P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ

= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe
Densités marginales → il suffit d’intégrer :

Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.
14/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :
f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)
Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp
f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).
ii) La loi a posteriori (ϑ sachant X ) admet la densité :
fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)
Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.

15/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :
f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)
Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp
f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).
ii) La loi a posteriori (ϑ sachant X ) admet la densité :
fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)
Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.

15/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :
fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)
Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,
f ϑ|X (θ | x) ∝ fθ (x) π(θ),
soit encore, de façon informelle,
ddp a posteriori ∝ vraisemblance × ddp a priori.
La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.
16/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :
fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)
Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,
f ϑ|X (θ | x) ∝ fθ (x) π(θ),
soit encore, de façon informelle,
ddp a posteriori ∝ vraisemblance × ddp a priori.
La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.
16/37
Exemple : boules blanches / boules rouges (suite)
B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).
Densité des observations :
fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .

Pn
avec N(x) = i=1 xi .
On se donne un a priori β(a0 , b0 ) :
π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .
(La question du choix de l’a priori sera discutée plus loin.)
17/37
B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).
Densité des observations :
fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .

Pn
avec N(x) = i=1 xi .
On se donne un a priori β(a0 , b0 ) :
π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .
(La question du choix de l’a priori sera discutée plus loin.)
17/37
Alors on a :
f ϑ|X (θ | x) ∝ fθ (x) π(θ)

∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .
On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec

(
an = a0 + N,
bn = b0 + n − N.
Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).
18/37
Alors on a :
f ϑ|X (θ | x) ∝ fθ (x) π(θ)

∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .
On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec

(
an = a0 + N,
bn = b0 + n − N.
Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).
18/37
a priori U[0,1] , n = 5 a priori β(1, 6), n = 5
2.5 6
ddp a priori
2 ddp a posteriori
replacements1.5 4
1
2
0.5
0 0
0 θ x̄ 1 0 θ x̄ 1
a priori U[0,1] , n = 20 a priori β(1, 6), n = 20

4 6
3
4
2
1
0 0
0 θ x̄ 1 0 θ x̄ 1
θ(1−θ)
Remarque : pour n → ∞, on a E(ϑ | X n ) = X̄n + O( 1n ) avec var(ϑ | X n ) ≃ n
.
19/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :
n
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1
(Ici on choisit de tout paramétrer directement en η.)
On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :

(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02
20/37
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :
n
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1
(Ici on choisit de tout paramétrer directement en η.)
On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :

(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02
20/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori
△
! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )
21/37
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori
△
! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )
21/37
Application numérique. η0 = 14.0, σ0 = 1.0 et valeur vraie : η∗ = 11.4.
4
π(η)
3.5
p(η | x 10 )
3 p(η | x 100 )
p(η | x 1000 )
2.5
p(η | x 10000 )
2
1.5
0.5
0
10 *
=11.4 0
=14.0 17
Figure – Densité a priori de η et densités a posteriori pour 4 valeurs de n.
22/37
Plan du cours
Plusieurs approches
Deux types de sources d’information a priori :

◮ données « historiques »,
◮ experts : connaissances subjectives, expertise métier, etc.
Sujets plus avancés (pas traités dans ce cours) :

◮ fusions de plusieurs sources d’information a priori,
◮ loi a priori « peu informatives » ou « objectives »,
◮ loi a priori la plus défavorable (cf. minimax),
◮ ...
23/37
On dispose de données issues d’une première expérience :

◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.
Choix d’un a priori

On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.
Arguments en faveur de ce choix :

◮ la forme de la loi facilite les calculs (voir plus loin) ;
◮ espérance : a0 N0
a0 +b0 = p0 , avec p0 = n0 ;
a 0 b0 p0 (1−p0 )
◮ variance : (a0 +b0 )2 (a0 +b0 +1) ≈ n0 ➠ variance de X̄n0 .
24/37
On dispose de données issues d’une première expérience :

◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.
Choix d’un a priori

On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.

◮ la forme de la loi facilite les calculs (voir plus loin) ;
◮ espérance : a0 N0
a0 +b0 = p0 , avec p0 = n0 ;
a 0 b0 p0 (1−p0 )
◮ variance : (a0 +b0 )2 (a0 +b0 +1) ≈ n0 ➠ variance de X̄n0 .
24/37
4.5
3.5
2.5
1.5
0.5
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ
25/37
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.
Choix d’un a priori (élicitation)

On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

◮ L’a priori est (approx.) centré sur la valeur constructeur η0 .
◮ ≈ 95% de la proba a priori est portée par l’intervalle [0.9η0 , 1.1η0 ].
◮ La forme choisie (gaussienne) et la valeur 95% sont arbitraires.
26/37
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.
Choix d’un a priori (élicitation)

On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

◮ L’a priori est (approx.) centré sur la valeur constructeur η0 .
◮ ≈ 95% de la proba a priori est portée par l’intervalle [0.9η0 , 1.1η0 ].
◮ La forme choisie (gaussienne) et la valeur 95% sont arbitraires.
26/37
A priori conjugués ➠ facilitent les calculs !
Familles de lois a priori conjuguées

Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.
Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...
†
: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
A priori conjugués ➠ facilitent les calculs !
Familles de lois a priori conjuguées

Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.
Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...
†
: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
Plan du cours
Estimateurs bayésiens
Objectif
Construire des estimateurs de η = g (θ) prenant en compte
◮ les données x,
◮ et la loi a priori π.
28/37
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.
Définition : estimateur bayésien

Il minimise l’espérance a posteriori de la perte :
η̂ = arg minη̃∈N J(η̃, X )

avec

J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ
(☞ J est bien définie pour PX -presque tout x.)
Remarque : un tel estimateur minimise le risque bayésien Rπ .

29/37
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.
Définition : estimateur bayésien

Il minimise l’espérance a posteriori de la perte :
η̂ = arg minη̃∈N J(η̃, X )

avec

J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ
(☞ J est bien définie pour PX -presque tout x.)
Remarque : un tel estimateur minimise le risque bayésien Rπ .

29/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ
Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ
➠ η̂ est la moyenne a posteriori de ϑ.
Remarque : on peut aussi l’écrire

R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ
Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ
➠ η̂ est la moyenne a posteriori de ϑ.
Remarque : on peut aussi l’écrire

R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :
ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .
a
L’espérance d’une loi β(a, b) étant a+b , il vient :
N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0
Remarque : on retrouve les expressions de θ̂a et θ̂b .
31/37
Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :
ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .
a
L’espérance d’une loi β(a, b) étant a+b , il vient :
N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0
Remarque : on retrouve les expressions de θ̂a et θ̂b .
31/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02
D’où l’estimateur bayésien (pour la perte quadratique) :
nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02
Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
iid
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02
nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02
Interprétation.
σ
σθ
32/37
iid
◮ et ϑ ∼ N (µθ , σθ2 ),
alors Pn
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02
nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02
Interprétation.
σ
σθ
32/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ
Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2
➠ θ̂ est une médiane de la densité a posteriori de ϑ.
Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux

estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ
Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2
➠ θ̂ est une médiane de la densité a posteriori de ϑ.
Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux

estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Echantillon observé (n = 5) : x = (B, R, R, B, R).

A priori sur θ : ϑ ∼ β(1, 6), avec θ = P(X1 = B).
6
ddp a priori : β(1, 6)
5 ddp a posteriori : β(3, 9)
4
Application numérique
3 θ̂(L1 ) ≈ 0.2359
2 θ̂(L2 ) = 0.25
0
0 θ̂(L1 ) θ̂(L2 ) 1
34/37
Plan du cours
Exercice (loi exponentielle + a prior gamma)
iid
Soient X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
On munit θ d’un a priori Gamma (α0 , β0 ).
Questions
i Montrer que l’a priori gamma est conjugué, et déterminer les
paramètres αn et βn de la loi a posteriori.
ii Expliciter l’estimateur bayésien de θ, pour la perte quadratique.
iii Montrer que cet estimateur tend vers l’EMV si les paramètres
α0 et β0 tendent vers une limite à préciser.
35/37
Corrigé de l’exercice 1
Remarque préliminaire : dans ce corrigé on s’autorise, comme c’est souvent le
cas en pratique, à noter de la même manière le paramètre « déterministe » θ et
la variable aléatoire associée, notée ϑ dans le cours.
i) On écrit la vraisemblance :
n
Y Pn
L (θ; x) = f (x | θ) = θe −θxi = θn e −θ i=1 xi ,
i=1
et la densité a priori :
β0α0 α0 −1 −β0 θ
π(θ) = θ e ∝ θα0 −1 e −β0 θ .
Γ(α0 )
On en déduit la densité a posteriori par la formule de Bayes :

Pn
f (θ | x) ∝ L (θ; x) π(θ) ∝ θα0 +n e −θ(β0 + i=1 xi )
36/37
Corrigé de l’exercice 1 (suite)
La loi de θ sachant X , ou loi a posteriori, est donc une loi gamma

de paramètres
◮ αn = α0 + n,
P
◮ βn = β0 + ni=1 Xi .
ii) L’estimateur bayésien pour la perte quadratique est donné

l’espérance a posteriori de θ sachant les observations :
αn α0 + n
E (θ | X ) = = P .
βn β0 + ni=1 Xi
iii) Cet estimateur tend vers l’EMV 1/X̄n lorsque les paramètres α0
et β0 tendent vers zéro.
37/37

Cours 4

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 4

Transféré par

Droits d'auteur :

Formats disponibles

Statistique et apprentissage

Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet

Enseignement : CentraleSupélec / Département de Mathématiques

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

1 approche minimax (ou « pire cas ») :

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :

où π est une mesure de probabilité sur Θ, à choisir.

1 approche minimax (ou « pire cas ») :

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :

où π est une mesure de probabilité sur Θ, à choisir.

1 approche minimax (ou « pire cas ») :

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :

où π est une mesure de probabilité sur Θ, à choisir.

RBayes,π θ̂ ≈ 0.0107 ≈ 0.0129 ≈ 0.0089

Moments Cas particulier

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)

On peut le ré-écrire sous la forme :

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)

On peut le ré-écrire sous la forme :

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :

l’espérance portant cette fois sur X et sur ϑ.

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :

l’espérance portant cette fois sur X et sur ϑ.

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :

l’espérance portant cette fois sur X et sur ϑ.

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Interprétation (« bayésienne subjective »)

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Interprétation (« bayésienne subjective »)

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Interprétation (« bayésienne subjective »)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,

On définira Pϑ|X =x comme la mesure admettant la densité

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,

On définira Pϑ|X =x comme la mesure admettant la densité

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,

On définira Pϑ|X =x comme la mesure admettant la densité

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,