Vous êtes sur la page 1sur 72

Statistique et apprentissage

Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet


(prenom.nom@centralesupelec.fr)

Enseignement : CentraleSupélec / Département de Mathématiques


Recherche : Laboratoire des signaux & systèmes (L2S)

: Coordinateur du cours

1/37
Cours 4/10
Estimation bayésienne

Objectifs du cours 4
◮ Introduire la notion d’information a priori.
◮ Se familiariser avec les approches bayésiennes.
◮ Construire de nouveaux estimateurs intégrant un a priori.

2/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement

3/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .

Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),

Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Rappel : comparaison d’estimateurs

Risque quadratique : Rθ (η̂) = Eθ kη̂ − g (θ)k2 .

Définitions
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),

Remarques
◮ La relation « préférable à » est un ordre partiel sur les risques.
◮ Il n’existe pas en général un estimateur optimal, càd un
estimateur préférable à tous les autres (sauf à restreindre la
classe d’estimateurs considérés).
4/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :


 
Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.


➠ c’est le sujet de ce cours.
5/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :


 
Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.


➠ c’est le sujet de ce cours.
5/37
Comparer (tous) les estimateurs : deux approches
Deux approches permettent d’affiner la comparaison
dans les cas où les fonctions Rθ ne sont pas comparables :

1 approche minimax (ou « pire cas ») :


 
Rmax η̂ = sup Rθ η̂ ,
θ∈Θ

➠ ne sera pas discutée cette année ;

2 approche bayésienne (ou « en moyenne ») :


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ),
Θ

où π est une mesure de probabilité sur Θ, à choisir.


➠ c’est le sujet de ce cours.
5/37
Exemple : boules blanches / boules rouges (voir cours n°1)

2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5

1
3

2
0.5
1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (voir cours n°1)

2
ddp U [0,1] 6 ddp β(1, 6)
1.5 5

1
3

2
0.5
1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
Mesure π : uniforme sur [0, 1] Mesure π : β (1, 6)
Pn Pn
i=1 Xi +1 i=1 Xi +1
θ̂a = θ̂b =
n+2 n+7
n+2
Observation : θ̂b = n+7 θ̂a ,
➠ le deuxième estimateur fournit des réponses plus petites.
6/37
Exemple : boules blanches / boules rouges (avec n = 10)

0.1 θ̂ = X̄
 

θ̂ = θ̂a
Rθ θ̂

0.05
θ̂ = θ̂b

0
0 0.2 0.4 0.6 0.8 1
θ
θ̂ = X̄ θ̂ = θ̂a θ̂ = θ̂b
≈ 0.1246
  0.025 ≈ 0.0208 36
Rmax θ̂ 1 1
(n + 7)2
4n 4(n + 2)
(valable pour n ≤ 77)
 
RBayes,π θ̂ ≈ 0.0167 ≈ 0.0162 ≈ 0.0456
1 n+4 n + 69
avec π ∼ 
U [0,1]
 6n 6(n + 2)2 6(n + 7)2

RBayes,π θ̂ ≈ 0.0107 ≈ 0.0129 ≈ 0.0089


3 3n + 22 3n + 42
avec π ∼ β(1, 6) 28n 28(n + 2)2 28(n + 7)2

7/37
Exercice : montrer les expressions de Rmax et RBayes,π pour θ̂ = X̄ .
La famille des lois beta
2
Soit X ∼ β(a, b) avec (a, b) = θ ∈ (R+
⋆ ) . Sa densité est :

Γ(a + b) a−1
fθ (x) = x (1 − x)b−1 1]0,1[ (x).
Γ(a)Γ(b)

Moments Cas particulier


◮ moyenne : Eθ (X ) = a
a+b ◮ U[0,1] = β(1, 1)
◮ variance : varθ (X ) = ab
(a+b)2 (a+b+1)

Propriétés
1

◮ Si X ∼ β(a, 1), alors − log(X ) ∼ E a .
◮ Si X ∼ Γ(a, λ), Y ∼ Γ(b, λ), et X ⊥ X
⊥ Y , alors X +Y ∼ β(a, b).
Paramètre inconnu → variable aléatoire

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ)


= Eθ kη̂ − g (θ)k2 π(dθ).
Θ

On peut le ré-écrire sous la forme :


ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ

8/37
Paramètre inconnu → variable aléatoire

On supposera à partir de maintenant un modèle dominé : ddp fθ (x).

Considérons le risque bayésien (quadratique dans ce cas)


Z
 
RBayes,π η̂ = Rθ η̂ π(dθ)


= Eθ kη̂ − g (θ)k2 π(dθ).
Θ

On peut le ré-écrire sous la forme :


ZZ

RBayes,π η̂ = kη̂(x) − g (θ)k2 fθ (x) ν(dx) π(dθ) .
X ×Θ | {z }
Mesure de proba sur X × Θ

8/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :



RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :



RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Paramètre inconnu → variable aléatoire (suite)
Introduisons une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Alors le risque bayésien se ré-écrit plus simplement :



RBayes,π = E kη̂ − g (ϑ)k2 ,

l’espérance portant cette fois sur X et sur ϑ.

Approche bayésienne
En statistique bayésienne, le paramètre inconnu θ est (aussi)
modélisé comme une variable aléatoire.

(Remarque technique : l’introduction d’une nouvelle VA ϑ telle que (⋆) soit vraie est toujours possible,
e = Ω × Θ, à condition que Θ soit muni d’une tribu FΘ
quitte à remplacer l’espace Ω sous-jacent par Ω
telle que θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F .)
9/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).

Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
 n o
X
X , A , Pθ , θ ∈ Θ ,

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.


10/37
Modèle statistique bayésien
Hypothèses techniques : on suppose à partir de maintenant que
◮ Θ est muni d’une tribu FΘ . Par ex. : si Θ ⊂ Rp , FΘ = B (Θ) ;
◮ θ 7→ Pθ (E ) est FΘ -mesurable pour tout E ∈ F (tribu sur Ω sous-jacent).

Définition
On appelle modèle statistique bayésien la donnée
◮ d’un modèle statistique tel que défini précédemment :
 n o
X
X , A , Pθ , θ ∈ Θ ,

◮ d’une mesure de probabilité π, dite loi a priori, sur (Θ, FΘ ).

Modèle supposé dominé → permet de définir une vraisemblance.


10/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.

Interprétation (« bayésienne subjective »)


◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.

Interprétation (« bayésienne subjective »)


◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
Lois jointe, a priori et a posteriori
Rappel : on introduit une nouvelle variable aléatoire ϑ, telle que

(X , ϑ) ∼ fθ (x) ν(dx) π(dθ). (⋆)

Vocabulaire bayésien
On appelle :
◮ loi jointe la loi de X et ϑ, c’est-à-dire (⋆),
◮ loi a priori la loi marginale Pϑ de ϑ, c’est-à-dire π,
◮ loi a posteriori la loi Pϑ|X de ϑ sachant les observations.

Interprétation (« bayésienne subjective »)


◮ loi a priori → connaissance de θ avant acquisition des données
◮ loi a posteriori → . . . après acquisition des données
11/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,


pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,


Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,


pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,


Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
A propos. . . qu’est-ce que la loi conditionnelle Pϑ|X ?
Définition générale : hors programme !
(⇒ utilise la notion de noyau)

Supposons que (ϑ, X ) admet une densité par rapport à ν ⊗ νΘ ,


pour une certaine mesure νΘ sur (Θ, FΘ ).

On définira Pϑ|X =x comme la mesure admettant la densité


f ϑ,X (θ, x)
f ϑ|X (θ | x) =
f X (x)

par rapport à νΘ , pour tout x tel que f X (x) > 0.

On a alors, pour toute fonction ϕ mesurable t.q. ϕ(ϑ, X ) ∈ L1 ,


Z
p.s.
E (ϕ(ϑ, X ) | X ) = ϕ(θ, X ) f ϑ|X (θ | X ) νΘ (dθ).
Θ
12/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.

Proposition
La loi jointe admet la densité jointe

f (X ,ϑ) (x, θ) = fθ (x) π(θ),

et les densité marginales associées sont

f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.


: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Densité jointe et densités marginales
On supposera à partir de maintenant† que π admet une densité
◮ par rapport à une mesure νΘ sur (Θ, FΘ ), par ex. Lebesgue,
◮ on notera (abusivement) : π(dθ) = π(θ) dθ.

Proposition
La loi jointe admet la densité jointe

f (X ,ϑ) (x, θ) = fθ (x) π(θ),

et les densité marginales associées sont

f ϑ (θ) = π(θ),
Z
X
f (x) = fθ (x) π(θ) dθ.


: Ce n’est pas vraiment une hypothèse, on peut toujours prendre νΘ = π (avec la ddp égale à 1).
13/37
Démonstration

Densité jointe (démonstration informelle) :

P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ


= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe

Densités marginales → il suffit d’intégrer :


Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.

14/37
Démonstration

Densité jointe (démonstration informelle) :

P(X ,ϑ) (dx, dθ) = fθ (x) ν(dx) π(θ) dθ


= fθ (x) π(θ) ν(dx) dθ
| {z }
ddp jointe

Densités marginales → il suffit d’intégrer :


Z
f ϑ (θ) = fθ (x) π(θ) ν(dx) = π(θ),
Z
f X (x) = fθ (x) π(θ) dθ.

14/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :

f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)

Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp

f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).

ii) La loi a posteriori (ϑ sachant X ) admet la densité :

fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)

Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.


15/37
Vraisemblance et formule de Bayes
Rappel de la densité conditionnelle :

f (Y ,Z ) (y , z)
f Y |Z (y | z) = , ∀z t.q. f Z (z) 6= 0. (⋆)
f Z (z)

Proposition
i) La loi conditionnelle de X sachant ϑ admet la ddp

f X |ϑ (x | θ) = fθ (x) (« vraisemblance »).

ii) La loi a posteriori (ϑ sachant X ) admet la densité :

fθ (x) π(θ)
f ϑ|X (θ | x) = (formule de Bayes).
f X (x)

Démonstration. Il suffit d’appliquer (⋆) à la densité jointe.


15/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :

fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)

Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,

f ϑ|X (θ | x) ∝ fθ (x) π(θ),

soit encore, de façon informelle,

ddp a posteriori ∝ vraisemblance × ddp a priori.

La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.

16/37
Remarque : proportionnalité
1
Le terme f X (x)
joue le rôle d’une constante de normalisation :

fθ (x) π(θ)
f ϑ|X (θ | x) = .
f X (x)

Notation. Le symbole « ∝ » indique la proportionnalité. Ainsi,

f ϑ|X (θ | x) ∝ fθ (x) π(θ),

soit encore, de façon informelle,

ddp a posteriori ∝ vraisemblance × ddp a priori.

La « constante » f X (x) est souvent difficile à calculer, mais dans certaines situations (estimateur MAP,
méthodes numériques MCMC. . . ) on peut s’en affranchir.

16/37
Exemple : boules blanches / boules rouges (suite)

B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).

Densité des observations :

fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .


Pn
avec N(x) = i=1 xi .

On se donne un a priori β(a0 , b0 ) :

π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .

(La question du choix de l’a priori sera discutée plus loin.)

17/37
Exemple : boules blanches / boules rouges (suite)

B iid
Rappel : on veut estimer θ = R+B à partir de X1 , . . . , Xn ∼ Ber(θ).

Densité des observations :

fθ (x) = Πni=1 θxi (1 − θ)1−xi = θN(x) (1 − θ)n−N(x) .


Pn
avec N(x) = i=1 xi .

On se donne un a priori β(a0 , b0 ) :

π(θ) ∝ θa0 −1 (1 − θ)b0 −1 .

(La question du choix de l’a priori sera discutée plus loin.)

17/37
Exemple : boules blanches / boules rouges (suite)

Alors on a :

f ϑ|X (θ | x) ∝ fθ (x) π(θ)


∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .

On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec


(
an = a0 + N,
bn = b0 + n − N.

Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).

18/37
Exemple : boules blanches / boules rouges (suite)

Alors on a :

f ϑ|X (θ | x) ∝ fθ (x) π(θ)


∝ θN(x) (1 − θ)n−N(x) · θa0 −1 (1 − θ)b0 −1
= θa0 +N(x)−1 (1 − θ)b0 +n−N(x)−1 .

On reconnaît (à une cst près) la densité de la loi β(an , bn ), avec


(
an = a0 + N,
bn = b0 + n − N.

Conclusion. Loi a posteriori : ϑ | X ∼ β(an , bn ).

18/37
Exemple : boules blanches / boules rouges (suite)
a priori U[0,1] , n = 5 a priori β(1, 6), n = 5
2.5 6
ddp a priori
2 ddp a posteriori
replacements1.5 4

1
2
0.5

0 0
0 θ x̄ 1 0 θ x̄ 1

a priori U[0,1] , n = 20 a priori β(1, 6), n = 20


4 6

3
4

2
1

0 0
0 θ x̄ 1 0 θ x̄ 1

θ(1−θ)
Remarque : pour n → ∞, on a E(ϑ | X n ) = X̄n + O( 1n ) avec var(ϑ | X n ) ≃ n
.
19/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :

n  
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1

(Ici on choisit de tout paramétrer directement en η.)

On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :


 
(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02

20/37
Exemple : fiabilité composant
iid
Rappel : X1 , . . . , Xn ∼ E(θ) = E( η1 ), d’où la vraisemblance :

n  
Y 1 1
L(η, x n ) = f (x n | η) = exp − xi
η η
i=1
n
!
−n 1X
= η exp − xi .
η
i=1

(Ici on choisit de tout paramétrer directement en η.)

On choisit (voir plus loin) un a priori N (η0 , σ02 ) tronqué pour η :


 
(η − η0 )2
π(η) ∝ exp − 1η≥0 .
2σ02

20/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!  
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori


! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )

21/37
Exemple : fiabilité composant (suite)
Loi a posteriori de η. Par la formule de Bayes, on obtient :
n
!  
−n 1X (η − η0 )2
p(η | x n ) ∝ η exp − xi · exp − .
η 2σ02
| {z i=1 } | {z }
vraisemblance ddp a priori


! Cette fois-ci on ne reconnaît pas une densité « connue »
➠ évaluation numérique des intégrales
Z Pn (η−η0 )2
− η1 −
f (x n ) = η −n
e i=1 xi e 2σ 2
0 dη
Z Pn (η−η0 )2
1 −n − η1 i=1 xi
− 2
2σ0
E (η | X n = x n ) = η ·η e e dη
f (x n )

21/37
Exemple : fiabilité composant (suite)
Application numérique. η0 = 14.0, σ0 = 1.0 et valeur vraie : η∗ = 11.4.

4
π(η)
3.5
p(η | x 10 )
3 p(η | x 100 )
p(η | x 1000 )
2.5
p(η | x 10000 )
2

1.5

0.5

0
10 *
=11.4 0
=14.0 17

Figure – Densité a priori de η et densités a posteriori pour 4 valeurs de n.

22/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Plusieurs approches

Deux types de sources d’information a priori :


◮ données « historiques »,
◮ experts : connaissances subjectives, expertise métier, etc.

Sujets plus avancés (pas traités dans ce cours) :


◮ fusions de plusieurs sources d’information a priori,
◮ loi a priori « peu informatives » ou « objectives »,
◮ loi a priori la plus défavorable (cf. minimax),
◮ ...

23/37
Exemple : boules blanches / boules rouges (suite)

On dispose de données issues d’une première expérience :


◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.

Choix d’un a priori


On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.

Arguments en faveur de ce choix :


◮ la forme de la loi facilite les calculs (voir plus loin) ;
◮ espérance : a0 N0
a0 +b0 = p0 , avec p0 = n0 ;
a 0 b0 p0 (1−p0 )
◮ variance : (a0 +b0 )2 (a0 +b0 +1) ≈ n0 ➠ variance de X̄n0 .

24/37
Exemple : boules blanches / boules rouges (suite)

On dispose de données issues d’une première expérience :


◮ échantillon de n0 = 20 observations,
◮ N0 = 15 boules blanches tirées.

Choix d’un a priori


On peut décider, par exemple, de choisir une loi β(a0 , b0 ),
avec a0 = N0 = 15 et b0 = n0 − N0 = 5.

Arguments en faveur de ce choix :


◮ la forme de la loi facilite les calculs (voir plus loin) ;
◮ espérance : a0 N0
a0 +b0 = p0 , avec p0 = n0 ;
a 0 b0 p0 (1−p0 )
◮ variance : (a0 +b0 )2 (a0 +b0 +1) ≈ n0 ➠ variance de X̄n0 .

24/37
Exemple : boules blanches / boules rouges (suite)
4.5

3.5

2.5

1.5

0.5

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ
25/37
Exemple : fiabilité composant
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.

Choix d’un a priori (élicitation)


On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

Arguments en faveur de ce choix :


◮ L’a priori est (approx.) centré sur la valeur constructeur η0 .
◮ ≈ 95% de la proba a priori est portée par l’intervalle [0.9η0 , 1.1η0 ].
◮ La forme choisie (gaussienne) et la valeur 95% sont arbitraires.
26/37
Exemple : fiabilité composant
On dispose des informations suivantes :
◮ Le constructeur indique que la durée de vie des composantes
est de l’ordre de η0 = 6 mois.
◮ Un expert du domaine estime à ε0 = 10% la précision de
l’information fournie par le constructeur.

Choix d’un a priori (élicitation)


On peut décider, par exemple, de choisir une loi N (η0 , σ0 ),
tronquée à [0, +∞[, avec σ0 = ε0 η0 /1.96.

Arguments en faveur de ce choix :


◮ L’a priori est (approx.) centré sur la valeur constructeur η0 .
◮ ≈ 95% de la proba a priori est portée par l’intervalle [0.9η0 , 1.1η0 ].
◮ La forme choisie (gaussienne) et la valeur 95% sont arbitraires.
26/37
A priori conjugués ➠ facilitent les calculs !

Familles de lois a priori conjuguées


Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.

Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...


: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
A priori conjugués ➠ facilitent les calculs !

Familles de lois a priori conjuguées


Une famille de lois (densités) est dite conjuguée pour un certain
modèle statistique si, pour toute loi a priori π dans cette famille, la
loi a posteriori f ϑ|X est encore dedans.

Exemples.
◮ échantillon Ber(θ) + a priori β,
◮ échantillon N (µ, σ 2 ) avec σ 2 connu + a priori N sur µ,
◮ échantillon N (µ, σ 2 ) avec µ connu + a priori IG † sur σ 2 ,
◮ échantillon E(θ) + a priori gamma,
◮ ...


: inverse gamma. Z ∼ IG si 1/Z suit une loi gamma.
27/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Estimateurs bayésiens

Objectif
Construire des estimateurs de η = g (θ) prenant en compte
◮ les données x,
◮ et la loi a priori π.

28/37
Estimateurs bayésiens
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.

Définition : estimateur bayésien


Il minimise l’espérance a posteriori de la perte :

η̂ = arg minη̃∈N J(η̃, X )


avec
 
J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ

(☞ J est bien définie pour PX -presque tout x.)

Remarque : un tel estimateur minimise le risque bayésien Rπ .


29/37
Estimateurs bayésiens
On se donne une fonction de perte L : N × N → R.
◮ rappel : L(η, η̃) est la perte si l’on estime η̃ alors que la vraie valeur est η.

Définition : estimateur bayésien


Il minimise l’espérance a posteriori de la perte :

η̂ = arg minη̃∈N J(η̃, X )


avec
 
J(η̃, x) = E L g (ϑ), η̃ X = x
Z

= L g (θ), η̃ f ϑ|X (θ | x) dθ.
Θ

(☞ J est bien définie pour PX -presque tout x.)

Remarque : un tel estimateur minimise le risque bayésien Rπ .


29/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ

➠ η̂ est la moyenne a posteriori de ϑ.

Remarque : on peut aussi l’écrire


R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Perte quadratique
Considérons le cas de la perte quadratique L(η, η̃) = kη − η̃k2 :
Z
J(η̃, x) = kg (θ) − η̃k2 f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien est
Z
η̂ = E (g (ϑ) | X ) = g (θ) f ϑ|X (θ | X ) dθ.
Θ

➠ η̂ est la moyenne a posteriori de ϑ.

Remarque : on peut aussi l’écrire


R R
g (θ) fθ (x) π(θ) dθ g (θ) fθ (x) π(θ) dθ
η̂(x) = Θ X
= ΘR
.
f (x) f (x) π(θ) dθ
Θ θ
30/37
Exemple : boules blanches / boules rouges (suite)

Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :

ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .

a
L’espérance d’une loi β(a, b) étant a+b , il vient :

N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0

Remarque : on retrouve les expressions de θ̂a et θ̂b .

31/37
Exemple : boules blanches / boules rouges (suite)

Avec un a priori ϑ ∼ β(a0 , b0 ), on a vu que :

ϑ|X ∼ β (N + a0 , n − N + b0 )
Pn
avec N = i=1 Xi .

a
L’espérance d’une loi β(a, b) étant a+b , il vient :

N + a0
θ̂ = E (ϑ | X ) = .
n + a0 + b 0

Remarque : on retrouve les expressions de θ̂a et θ̂b .

31/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors  Pn 
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors  Pn 
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Autre exemple : n-échantillon gaussien (σ 2 connu)
iid
On montre (cf. TD 4) que si X1 , . . . , Xn ∼ N (θ, σ02 )
◮ avec θ ∈ R (inconnu), σ0 > 0 (connu),
◮ et ϑ ∼ N (µθ , σθ2 ),
alors  Pn 
σθ2 i=1 Xi + σ02 µθ σθ2 σ02
ϑ|X ∼ N ,
nσθ2 + σ02 nσθ2 + σ02

D’où l’estimateur bayésien (pour la perte quadratique) :

nσθ2
θ̂ = λ X + (1 − λ) µθ avec λ =
nσθ2 + σ02

Interprétation.
◮ quand n → ∞, θ̂ ≈ X̄ (l’a priori n’a plus d’influence)
σ
◮ à n fini, quand 0 ≫ 1, θ̂ ≈ µθ (données presque inutiles).
σθ
32/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2

➠ θ̂ est une médiane de la densité a posteriori de ϑ.

Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux


estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Perte L1
Supposons pour simplifier que η = θ ∈ R.

Considérons la fonction de perte L(θ, θ̃) = θ − θ̃ :
Z

J(θ̃, x) = θ − θ̃ f ϑ|X (θ | x) dθ.
Θ

Proposition
Dans ce cas, l’estimateur bayésien θ̂ est tel que
Z θ̂ Z ∞
ϑ|X 1
f (θ | X ) dθ = f ϑ|X (θ | X ) dθ = PX -p.s..
−∞ θ̂ 2

➠ θ̂ est une médiane de la densité a posteriori de ϑ.

Remarque : lorsque ϑ a une densité a posteriori symétrique, les deux


estimateurs bayésiens (perte L1 et perte L2 ) coïncident.
Exemple : moyenne d’un n-échantillon gaussien, avec a priori gaussien.
33/37
Exemple : boules blanches / boules rouges (suite)

Echantillon observé (n = 5) : x = (B, R, R, B, R).


A priori sur θ : ϑ ∼ β(1, 6), avec θ = P(X1 = B).

6
ddp a priori : β(1, 6)
5 ddp a posteriori : β(3, 9)
4
Application numérique
3 θ̂(L1 ) ≈ 0.2359
2 θ̂(L2 ) = 0.25

0
0 θ̂(L1 ) θ̂(L2 ) 1

34/37
Plan du cours

1 – Introduction : risque bayésien

2 – Statistique bayésienne : loi a priori / a posteriori

3 – Choisir une loi a priori

4 – Estimateurs bayésiens

5 – Exercice d’échauffement
Exercice (loi exponentielle + a prior gamma)

iid
Soient X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
On munit θ d’un a priori Gamma (α0 , β0 ).

Questions
i Montrer que l’a priori gamma est conjugué, et déterminer les
paramètres αn et βn de la loi a posteriori.
ii Expliciter l’estimateur bayésien de θ, pour la perte quadratique.
iii Montrer que cet estimateur tend vers l’EMV si les paramètres
α0 et β0 tendent vers une limite à préciser.

35/37
Corrigé de l’exercice 1
Remarque préliminaire : dans ce corrigé on s’autorise, comme c’est souvent le
cas en pratique, à noter de la même manière le paramètre « déterministe » θ et
la variable aléatoire associée, notée ϑ dans le cours.

i) On écrit la vraisemblance :
n
Y Pn
L (θ; x) = f (x | θ) = θe −θxi = θn e −θ i=1 xi ,
i=1

et la densité a priori :

β0α0 α0 −1 −β0 θ
π(θ) = θ e ∝ θα0 −1 e −β0 θ .
Γ(α0 )

On en déduit la densité a posteriori par la formule de Bayes :


Pn
f (θ | x) ∝ L (θ; x) π(θ) ∝ θα0 +n e −θ(β0 + i=1 xi )
36/37
Corrigé de l’exercice 1 (suite)

La loi de θ sachant X , ou loi a posteriori, est donc une loi gamma


de paramètres
◮ αn = α0 + n,
P
◮ βn = β0 + ni=1 Xi .

ii) L’estimateur bayésien pour la perte quadratique est donné


l’espérance a posteriori de θ sachant les observations :
αn α0 + n
E (θ | X ) = = P .
βn β0 + ni=1 Xi

iii) Cet estimateur tend vers l’EMV 1/X̄n lorsque les paramètres α0
et β0 tendent vers zéro.
37/37

Vous aimerez peut-être aussi