Vous êtes sur la page 1sur 63

STAT2–Introduction à la statistique Bayésienne

Mathieu Ribatet

École Centrale de Nantes

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 1 / 36


Quelques références bibliographiques

[1] M. K. Cowles. Applied Bayesian Statistics with R and OpenBugs


Examples. Springer Texts in Statistics. Springer-Verlag, 2013.

[2] J. A. Hartigan. Bayes Theory. Springer Series in Statistics.


Springer-Verlag, 1983.

[3] C.P. Robert. The Bayesian Choice: A Decision-theoretic Motivation.


Springer Texts in Statistics. Springer-Verlag, 2007.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 2 / 36


1. Introduction

2. Notions de base

3. Loi a priori
4. Inférence
Bayésienne

1. Introduction

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 3 / 36


Modèle statistique (paramétrique)

Définition 1. Une famille paramétrée de fonctions {f (x; θ) : x ∈ E, θ ∈ Θ}


est un modèle statistique si, pour tout θ ∈ Θ, x 7→ f (x; θ) est une densité de
probabilité sur E.
L’ensemble Θ est appelé espace des paramètres et E espace des observations.

Remarque. On parle de modèle statistique paramétrique lorsque dim(Θ) < ∞.

Exemple 1. La famille
2
   
1 (x − µ) 2
f (x; θ) = √ exp − 2
: x ∈ R, θ = (µ, σ ) ∈ R × (0, ∞)
2πσ 2 2σ

est un modèle statistique, celui de la loi Gausienne.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 4 / 36


Statistique fréquentiste

 Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modèle statistique.


 La statistique fréquentiste suppose l’existence d’un “vrai” paramètre θ∗
générant les données, i.e.,

(X1 , . . . , Xn ) ∼ g(·; θ∗ ).

 Ensuite on cherchera / utilisera un estimateur θ̂ de θ∗ avec de bonnes


propriétés, e.g.,
√ L
n(θ̂ − θ∗ ) −→ N (0, Σ), n → ∞.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 5 / 36


Statistique fréquentiste

 Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modèle statistique.


 La statistique fréquentiste suppose l’existence d’un “vrai” paramètre θ∗
générant les données, i.e.,

(X1 , . . . , Xn ) ∼ g(·; θ∗ ).

 Ensuite on cherchera / utilisera un estimateur θ̂ de θ∗ avec de bonnes


propriétés, e.g.,
√ L
n(θ̂ − θ∗ ) −→ N (0, Σ), n → ∞.

Remarque. Bien souvent on supposera que le modèle statistique utilisé pour


l’estimation contient celui générant les données. . . mais on peut généraliser
cela !

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 5 / 36


Estimation ponctuelle et précision

 L’estimateur θ̂ nous donnera donc une estimation ponctuelle pour θ∗


 Bien souvent on utilisera des résultats asymptotiques comme celui plus
haut pour obtenir des intervalles de confiance, e.g.,
h i
θ̂ − z0.975 std.err(θ̂), θ̂ + z0.975 std.err(θ̂) , z0.975 = Φ−1 (0.975).

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 6 / 36


Estimation ponctuelle et précision

 L’estimateur θ̂ nous donnera donc une estimation ponctuelle pour θ∗


 Bien souvent on utilisera des résultats asymptotiques comme celui plus
haut pour obtenir des intervalles de confiance, e.g.,
h i
θ̂ − z0.975 std.err(θ̂), θ̂ + z0.975 std.err(θ̂) , z0.975 = Φ−1 (0.975).

 En bref, θ̂ est une variable aléatoire pour laquelle bien souvent seule la loi
asymptotique est connue. . .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 6 / 36


1. Introduction

2. Notions de base

3. Loi a priori
4. Inférence
Bayésienne

2. Notions de base

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 7 / 36


Idée fondamentale de la statistique Bayésienne

Idée : Considérer le paramètre θ comme une variable aléatoire.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36


Idée fondamentale de la statistique Bayésienne

Idée : Considérer le paramètre θ comme une variable aléatoire.

 On supposera donc que θ ∼ π et cette loi est appelée loi a priori.


 La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir
accès aux données

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36


Idée fondamentale de la statistique Bayésienne

Idée : Considérer le paramètre θ comme une variable aléatoire.

 On supposera donc que θ ∼ π et cette loi est appelée loi a priori.


 La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir
accès aux données

Exemple 2. Pour notre modèle gaussien on pourrait par exemple poser

π(θ) = π(µ) × π(σ 2 ) = N (µ0 , τ ) × InvGamma(α, β).

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36


Idée fondamentale de la statistique Bayésienne

Idée : Considérer le paramètre θ comme une variable aléatoire.

 On supposera donc que θ ∼ π et cette loi est appelée loi a priori.


 La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir
accès aux données

Exemple 2. Pour notre modèle gaussien on pourrait par exemple poser

π(θ) = π(µ) × π(σ 2 ) = N (µ0 , τ ) × InvGamma(α, β).

Définition 2. Les paramètres de la loi a priori, dans notre exemple µ0 , τ, α et


β, sont appelés hyper-paramètres.
C’est au statisticien de fixer les valeurs pour ces hyper paramètres. On ne les
ajuste pas, on les définit !

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36


Loi jointe et a posteriori

 Puisque θ admet une loi, on peut pour un modèle statistique


{f (x | θ) : x ∈ E, θ ∈ Θ} donné exprimer la loi jointe

π(x, θ) = f (x | θ)π(θ)

 Toutefois la loi jointe n’a que peu d’intérêt pour le Bayésien et on


s’intéressera bien plus à la loi a posteriori

Définition 3. On appelle loi a posteriori la loi dont la densité est donnée par

f (x | θ)π(θ)
π(θ | x) = R .
Θ f (x | θ)π(θ)dθ

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 9 / 36


Loi jointe et a posteriori

 Puisque θ admet une loi, on peut pour un modèle statistique


{f (x | θ) : x ∈ E, θ ∈ Θ} donné exprimer la loi jointe

π(x, θ) = f (x | θ)π(θ)

 Toutefois la loi jointe n’a que peu d’intérêt pour le Bayésien et on


s’intéressera bien plus à la loi a posteriori

Définition 3. On appelle loi a posteriori la loi dont la densité est donnée par

f (x | θ)π(θ)
π(θ | x) = R .
Θ f (x | θ)π(θ)dθ

Remarque. Attention j’utiliserai toujours f (x | θ) pour désigner selon le


contexte soit la densité évaluée en x ∈ R, soit la vraisemblance évaluée en
x ∈ Rn .
Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 9 / 36
Loi marginale et constante de normalisation

f (x | θ)π(θ)
π(θ | x) = R .
Θ f (x | θ)π(θ)dθ

 Le dénominateur correspond à la loi marginale de x—que l’on notera


parfois m(x).
 Elle joue le rôle de constante de normalisation pour la loi a posteriori
puisqu’elle est indépendante de θ.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 10 / 36


Loi marginale et constante de normalisation

f (x | θ)π(θ)
π(θ | x) = R .
Θ f (x | θ)π(θ)dθ

 Le dénominateur correspond à la loi marginale de x—que l’on notera


parfois m(x).
 Elle joue le rôle de constante de normalisation pour la loi a posteriori
puisqu’elle est indépendante de θ.

 Aussi bien souvent nous travaillerons à une constante multiplicative près,


i.e.,
f (x | θ)π(θ)
π(θ | x) = R ∝ f (x | θ)π(θ).
Θ f (x | θ)π(θ)dθ

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 10 / 36


Au fait pourquoi le nom statistique Bayesienne ?

 Rappelons nous le Théorème de Bayes

Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(Y ∈ A | X ∈ B) = .
Pr(X ∈ B)

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 11 / 36


Au fait pourquoi le nom statistique Bayesienne ?

 Rappelons nous le Théorème de Bayes

Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(Y ∈ A | X ∈ B) = .
Pr(X ∈ B)

 Mais puisque l’on considère θ comme une v.a., cela nous autorise à écrire

Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)
Pr(θ ∈ A | X ∈ B) = .
Pr(X ∈ B)

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 11 / 36


Au fait pourquoi le nom statistique Bayesienne ?

 Rappelons nous le Théorème de Bayes

Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(Y ∈ A | X ∈ B) = .
Pr(X ∈ B)

 Mais puisque l’on considère θ comme une v.a., cela nous autorise à écrire

Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)
Pr(θ ∈ A | X ∈ B) = .
Pr(X ∈ B)

 Ceci est à comparer avec la définition de notre loi a posteriori

f (x | θ)π(θ)
π(θ | x) = R .
Θ f (x | θ)π(θ)dθ

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 11 / 36


Sommeil

 Soit X le nombre d’étudiants qui vont


s’endormir pendant mon cours parmi les n
présents aujourd’hui
 On s’intéresse à la probabilité inconnue

p = Pr(un étudiant quelconque s’endort).

 Quelle loi a priori ? Expression loi jointe


// loi a posteriori ?

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 12 / 36


Illustration numérique

X= 0 X = 11 X = 17 X = 33
35

35
5
30

30
4
4
25

25
3
15 20

15 20
3
π(p x)

π(p x)

π(p x)

π(p x)
2
2
10

10
1
1
5

5
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p p

Figure 1: Évolution de la loi a posteriori π(p | X) en fonction de X—ici n = 33.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 13 / 36


1. Introduction

2. Notions de base

3. Loi a priori
4. Inférence
Bayésienne

3. Loi a priori

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 14 / 36


Loi a priori conjuguée

Définition 4. Une famille F de lois de probabilités sur Θ est dite conjuguée


pour le modèle statistique {f (x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , la
loi a posteriori
π(θ | x) ∝ f (x | θ)π(θ)
appartient également à F .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 15 / 36


Loi a priori conjuguée

Définition 4. Une famille F de lois de probabilités sur Θ est dite conjuguée


pour le modèle statistique {f (x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , la
loi a posteriori
π(θ | x) ∝ f (x | θ)π(θ)
appartient également à F .

 L’utilisation de lois conjuguées est une “astuce” permettant d’obtenir des


lois a posteriori explicitesa
a
On verra plus tard lors du cours Bayésien avancé que cela nous servira pour obtenir des
échantillonneurs de type MCMC efficaces

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 15 / 36


Sommeil 2

Reprenons notre exemple du sommeil en cours


mais supposons que la loi a priori est une
Beta(α, β) dont la densité est

xα−1 (1 − x)β−1
f (x) = 1{0≤x≤1} ,
B(α, β)

avec α > 0, β > 0 et B(·, ·) la fonction Beta.


 La loi a posteriori est alors. . .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 16 / 36


Illustration

xα−1 (1 − x)β−1 α αβ
f (x) = , E[X] = , Var[X] = 2
.
B(α, β) α+β (α + β) (α + β + 1)

 α ≫ β ⇒ “plus de poids vers 1”


 α ≪ β ⇒ “plus de poids vers 0”

α = 0.5, β = 2 α = 1, β = 1 α = 2, β = 0.5
1.4
15

15

3
1.2
10

10

π(p x)
π(p)

π(p)

π(p)
1.0

2
5

5
0.8

1
0.6
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p p

Figure 2: Impact de la loi a priori sur la loi a posteriori. Ici n = 10 et x = 2.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 17 / 36


Teasing. . .

 On verra dans le cours Bayésien avancé que lorsque n → ∞ l’impact de


π(θ) sera (bien souvent) négligeable
 Pour le moment on se contentera de la “preuve” numérique suivante. . .

n = 10 n = 50 n = 5000

60
7
15

50
6
3

40
10

π(p x)

π(p x)

π(p x)
4
π(p)

30
2

20
5

2
1

10
1
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p p

Figure 3: Évolution de la loi a posteriori en fonction de n—ici p∗ = 1/3.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 18 / 36


Loi impropre

Définition 5. Une mesure µ sur E est dite impropre si c’est une mesure
σ-finie mais non finie, i.e.,
µ(E) = ∞,
mais pour autant il existe un recouvrement au plus dénombrable {En : n ∈ I},
I ⊆ N, de E tel que
µ(En ) < ∞, ∀n ∈ I.

Exemple 3. Les mesures sur (0, ∞)

dµ1 (x) = dx, dµ2 (x) = x−2 dx

sont des lois de probabilités impropres.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 19 / 36


Utilisation de loi a priori impropre

 Il est tout à fait possible d’utiliser une loi a priori impropre. . .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 20 / 36


Utilisation de loi a priori impropre

 Il est tout à fait possible d’utiliser une loi a priori impropre. . .


 . . . à la restriction près que l’on doit s’assurer que
Z
m(x) = f (x | θ)π(θ)dθ < ∞.
Θ

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 20 / 36


Utilisation de loi a priori impropre

 Il est tout à fait possible d’utiliser une loi a priori impropre. . .


 . . . à la restriction près que l’on doit s’assurer que
Z
m(x) = f (x | θ)π(θ)dθ < ∞.
Θ

 De sorte que la loi a posteriori

f (x | θ)π(θ)
π(θ | x) =
m(x)

définit bien une loi de probabilité non dégénérée.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 20 / 36


Un exemple Gaussien

Exemple 4. On dispose d’un n-échantillon iid x = (x1 , . . . , xn ). Considérons


le modèle Gaussien N (µ, 1) et prenons comme loi a priori π(µ) ∝ 1{µ∈R} .
Que vaut m(x) ?

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 21 / 36


Loi a priori non informative

 Nous avons vu que l’issue de notre inférence dépend du choix de la loi a


priori
 C’est l’un des points vivement critiqué des statistiques Bayésiennes

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 22 / 36


Loi a priori non informative

 Nous avons vu que l’issue de notre inférence dépend du choix de la loi a


priori
 C’est l’un des points vivement critiqué des statistiques Bayésiennes
 Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 22 / 36


Loi a priori non informative

 Nous avons vu que l’issue de notre inférence dépend du choix de la loi a


priori
 C’est l’un des points vivement critiqué des statistiques Bayésiennes
 Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?
 L’objectif (idéalisé) de l’utilisation d’une loi a priori non informative est
– d’encoder notre totale ignorance sur θ ;
– de ne pas influencer la loi a posteriori.
 Pour ce cours nous allons voir deux familles de lois a priori non
informatives : Laplace et Jeffreys.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 22 / 36


Loi a priori non informative

 Nous avons vu que l’issue de notre inférence dépend du choix de la loi a


priori
 C’est l’un des points vivement critiqué des statistiques Bayésiennes
 Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?
 L’objectif (idéalisé) de l’utilisation d’une loi a priori non informative est
– d’encoder notre totale ignorance sur θ ;
– de ne pas influencer la loi a posteriori.
 Pour ce cours nous allons voir deux familles de lois a priori non
informatives : Laplace et Jeffreys.

 La notion de loi a priori non informative est sujet à controverse.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 22 / 36


Loi a priori de Laplace

Définition 6. La loi a priori de Laplace consiste à poser π(θ) ∝ 1{θ∈Θ} .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 23 / 36


Loi a priori de Laplace

Définition 6. La loi a priori de Laplace consiste à poser π(θ) ∝ 1{θ∈Θ} . C’est


donc la loi uniforme (discrète ou continue selon Θ), voire la mesure de
Lebesgue si nous sommes impropre.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 23 / 36


Loi a priori de Laplace

Définition 6. La loi a priori de Laplace consiste à poser π(θ) ∝ 1{θ∈Θ} . C’est


donc la loi uniforme (discrète ou continue selon Θ), voire la mesure de
Lebesgue si nous sommes impropre.

 La loi a priori de Laplace a quelques défauts cependant :


 elle peut mener à une loi a priori impropre et donc. . .
 elle est non invariante par reparamétrisation.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 23 / 36


Loi a priori de Laplace

Définition 6. La loi a priori de Laplace consiste à poser π(θ) ∝ 1{θ∈Θ} . C’est


donc la loi uniforme (discrète ou continue selon Θ), voire la mesure de
Lebesgue si nous sommes impropre.

 La loi a priori de Laplace a quelques défauts cependant :


 elle peut mener à une loi a priori impropre et donc. . .
 elle est non invariante par reparamétrisation.

Exemple 5. Considérons le modèle Exponentiel(λ), λ > 0 et sa


reparamétrisation via λ = exp(θ), θ ∈ R. Dans le premier cas on a

π1 (λ) ∝ 1{λ>0} ,

et dans le 2ème

π2 (θ) ∝ 1 =⇒ π2 (λ) ∝ λ−1 π2 (ln λ)1{λ>0} ∝ λ−1 1{λ>0} .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 23 / 36


Loi a priori de Jeffreys

Définition 7. Soit un modèle statistique {f (x; θ) : x ∈ E, θ ∈ Θ}. On appelle


information de Fisher la quantité
h i

I(θ) = E {∇θ ln f (X; θ)} ∇θ ln f (X; θ) , X ∼ f (·; θ).

Sous les hypothèses d’interversion du signe intégral et dérivé alors


 2 
I(θ) = −E ∇θ ln f (X; θ) .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 24 / 36


Loi a priori de Jeffreys

Définition 7. Soit un modèle statistique {f (x; θ) : x ∈ E, θ ∈ Θ}. On appelle


information de Fisher la quantité
h i

I(θ) = E {∇θ ln f (X; θ)} ∇θ ln f (X; θ) , X ∼ f (·; θ).

Sous les hypothèses d’interversion du signe intégral et dérivé alors


 2 
I(θ) = −E ∇θ ln f (X; θ) .

Définition 8. La loi a priori de Jeffreys est donnée par π(θ) ∝ |I(θ)|1/2 , où
|A| correspond au déterminant de A.

 Cette loi a priori est invariante par reparamétrisation


 Elle peut néanmoins donner lieu à des lois a priori impropres
 Elle n’est pas recommandée lorsque dim Θ > 1.1
1
On verra en TD ce qu’il faut alors faire. . .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 24 / 36


Sommeil 3

 Puisque vous ne dormez toujours pas,


reprenons encore notre exemple sur le som-
meil en cours. . .
 Quelle est la loi a priori de Jeffrey la prob-
abilité p de s’endormir ?

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 25 / 36


1. Introduction

2. Notions de base

3. Loi a priori
4. Inférence
Bayésienne

4. Inférence Bayésienne

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 26 / 36


Motivation

 Dans le cadre de travail Bayésien, la loi a posteriori π(θ | x) contient


toute l’information nécessaire sur θ
 Cela dit devoir manipuler l’intégralité de la loi est parfois peu commode.
 Il est donc utile d’utiliser des résumés statistiques de π(θ | x) comme
– la moyenne a posteriori
– la médiane a posteriori
– le mode/maximum a posteriori (MAP)
– un quantile à posteriori d’ordre p.
 On peut également s’intéresser à des régions de confiance.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 27 / 36


Motivation

 Dans le cadre de travail Bayésien, la loi a posteriori π(θ | x) contient


toute l’information nécessaire sur θ
 Cela dit devoir manipuler l’intégralité de la loi est parfois peu commode.
 Il est donc utile d’utiliser des résumés statistiques de π(θ | x) comme
– la moyenne a posteriori
– la médiane a posteriori
– le mode/maximum a posteriori (MAP)
– un quantile à posteriori d’ordre p.
 On peut également s’intéresser à des régions de confiance.

 Nous verrons dans le cours Bayésien avancé (ou pas !) que ces choix
peuvent être justifiés via la théorie de la décision.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 27 / 36


Rappels : Intervalles de confiances (fréquentiste)

Définition 9. Un intervalle de confiance de niveau α pour une quantité


d’intérêt f (θ0 ) est un intervalle aléatoire Iα tel que Pr{f (θ0 ) ∈ Iα } = 1 − α.

Exemple 6. Soient X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 connu. Alors


 
σ σ
I = X̄n − 1.96 √ , X̄n + 1.96 √ ,
n n

est un intervalle de confiance pour µ à 95%.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 28 / 36


Rappels : Intervalles de confiances (fréquentiste)

Définition 9. Un intervalle de confiance de niveau α pour une quantité


d’intérêt f (θ0 ) est un intervalle aléatoire Iα tel que Pr{f (θ0 ) ∈ Iα } = 1 − α.

Exemple 6. Soient X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 connu. Alors


 
σ σ
I = X̄n − 1.96 √ , X̄n + 1.96 √ ,
n n

est un intervalle de confiance pour µ à 95%.

 En pratique on obtient donc une réalisation de cet intervalle aléatoire. Le


niveau α% correspond donc à la proportion que n réalisations de cet intervalle
de confiance contienne le vrai paramètre f (θ0 ) lorsque n → ∞ !!!

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 28 / 36


Région α–crédible

Définition 10. Pour une loi a priori π donnée, un ensemble Cx ⊂ Θ est un


ensemble α–crédible si

Prπ (θ ∈ Cx | x) ≥ 1 − α.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 29 / 36


Région α–crédible

Définition 10. Pour une loi a priori π donnée, un ensemble Cx ⊂ Θ est un


ensemble α–crédible si

Prπ (θ ∈ Cx | x) ≥ 1 − α.

Remarque. Avez vous bien compris le sens de la notation suivante

Prπ (θ ∈ Cx | x) = . . .?

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 29 / 36


Région α–crédible

Définition 10. Pour une loi a priori π donnée, un ensemble Cx ⊂ Θ est un


ensemble α–crédible si

Prπ (θ ∈ Cx | x) ≥ 1 − α.

Remarque. Avez vous bien compris le sens de la notation suivante


Z
Prπ (θ ∈ Cx | x) = 1{θ∈Cx } . . .
Θ

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 29 / 36


Région α–crédible

Définition 10. Pour une loi a priori π donnée, un ensemble Cx ⊂ Θ est un


ensemble α–crédible si

Prπ (θ ∈ Cx | x) ≥ 1 − α.

Remarque. Avez vous bien compris le sens de la notation suivante


Z
Prπ (θ ∈ Cx | x) = 1{θ∈Cx } π(θ | x)dθ.
Θ

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 29 / 36


Intervalle de crédibilité

On se restreint au cas où θ est un paramètre scalaire.2

Définition 11. Pour une loi a priori π donnée, un intervalle Ix ⊂ R est un


intervalle de crédibilité de niveau 1 − α si

Prπ (θ ∈ Ix | x) = 1 − α.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 30 / 36


Intervalle de crédibilité

On se restreint au cas où θ est un paramètre scalaire.2

Définition 11. Pour une loi a priori π donnée, un intervalle Ix ⊂ R est un


intervalle de crédibilité de niveau 1 − α si

Prπ (θ ∈ Ix | x) = 1 − α.

 Bien souvent on utilisera des intervalles de crédibilité symétriques, i.e.,


h α   α i
Ix = qπ , x , qπ 1 − , x ,
2 2
avec
qπ (p, x) = inf {u ∈ R : Prπ (θ ≤ u | x) ≥ 1 − α} .

2
ou alors on se restreint à θj , j ∈ {1, . . . , p} lorsque dim Θ = p.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 30 / 36


Illustration
3.0

3.0

3.0
2.5

2.5

2.5
2.0

2.0

2.0
π(p x)

π(p x)

π(p x)
1.5

1.5

1.5
1.0

1.0

1.0
0.5

0.5

0.5
0.0

0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p

Figure 4: Trois différents intervalles de crédibilité (segments rouges) tous de niveau 95%.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 31 / 36


Région HPD (High Posterior Density)

Définition 12. Une région α–crédible Cx est une région HPD α–crédible si
elle est de la forme Cx = {θ ∈ Θ : π(θ | x) ≥ uα }.
3.0

3.0

3.0
2.5

2.5

2.5
2.0

2.0

2.0
π ( p x)

π ( p x)

π ( p x)
1.5

1.5

1.5
1.0

1.0

1.0
u0.9
0.5

0.5

0.5
u0.95

u0.99
0.0

0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p

Figure 5: Illustration des régions α–crédibles HPD de niveau 90%, 95% et 99%.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 32 / 36


Région HPD (High Posterior Density)

Définition 12. Une région α–crédible Cx est une région HPD α–crédible si
elle est de la forme Cx = {θ ∈ Θ : π(θ | x) ≥ uα }.
3.0

3.0

3.0
2.5

2.5

2.5
2.0

2.0

2.0
π ( p x)

π ( p x)

π ( p x)
1.5

1.5

1.5
1.0

1.0

1.0
0.5

0.5

0.5
u0.9 u0.95 u0.99
0.0

0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p

Figure 5: Illustration des régions α–crédibles HPD de niveau 90%, 95% et 99%.

 Les régions HPD peuvent être non connexes !

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 32 / 36


Intervalles de confiance vs. crédibilité

Pr(θ0 ∈ I) = 1 − α Prπ (θ ∈ I | x) = 1 − α.

 I est aléatoire  θ est aléatoire


 La prochaine réalisation de I aura  Ayant observé x, il y a (1 − α)%
(1−α)% de chance de contenir θ0 . de chance que I contienne θ0 .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 33 / 36


Loi prédictive a posteriori

 On souhaite prédire une nouvelle observation xn+1 .


 En statistique fréquentiste, on utilisera souvent le prédicteur E[X],
X ∼ f (·; θ̂), θ̂ estimateur de θ.
 Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.
 Le cadre Bayésien permet de tenir compte de cette incertitude.

Définition 13. On appelle loi prédictive a posteriori la loi de densité


Z
π(xn+1 | x) = f (xn+1 | θ, x)π(θ | x)dθ.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 34 / 36


Loi prédictive a posteriori

 On souhaite prédire une nouvelle observation xn+1 .


 En statistique fréquentiste, on utilisera souvent le prédicteur E[X],
X ∼ f (·; θ̂), θ̂ estimateur de θ.
 Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.
 Le cadre Bayésien permet de tenir compte de cette incertitude.

Définition 13. On appelle loi prédictive a posteriori la loi de densité


Z
π(xn+1 | x) = f (xn+1 | θ, x)π(θ | x)dθ.

 On utilisera alors le prédicteur Bayésien


Z
x̂n+1 = xn+1 π(xn+1 | x)dxn+1 .

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 34 / 36


Sommeil 4

Un nouvel élève arrive en cours d’année (il a


prolongé sa césure) et suit mon cours pour
la première fois. Va-t-il s’endormir durant ce
cours ?

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 35 / 36


Parce que nous n’avons pas assez de temps. . .

 Les statistiques Bayésiennes ont le vent en poupe depuis le début des


années 2000
 Ici nous sommes restés dans un cadre (bien trop) scolaire
 Heureusement le cours Bayésien avancé du second semestre viendra
combler ce manque en couvrant notamment
– les techniques dı̂tes de Monte Carlo
– les algorithmes plus spécifiques de type MCMC
– les modèles Bayésiens hiérarchiques.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 36 / 36

Vous aimerez peut-être aussi