4 Bayes

STAT2–Introduction à la statistique Bayésienne
Mathieu Ribatet
École Centrale de Nantes
Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 1 / 36

Quelques références bibliographiques
[1] M. K. Cowles. Applied Bayesian Statistics with R and OpenBugs

Examples. Springer Texts in Statistics. Springer-Verlag, 2013.
[2] J. A. Hartigan. Bayes Theory. Springer Series in Statistics.

Springer-Verlag, 1983.
[3] C.P. Robert. The Bayesian Choice: A Decision-theoretic Motivation.

Springer Texts in Statistics. Springer-Verlag, 2007.

1. Introduction
2. Notions de base
3. Loi a priori
4. Inférence
Bayésienne
1. Introduction

Modèle statistique (paramétrique)
Définition 1. Une famille paramétrée de fonctions {f (x; θ) : x ∈ E, θ ∈ Θ}

est un modèle statistique si, pour tout θ ∈ Θ, x 7→ f (x; θ) est une densité de
probabilité sur E.
L’ensemble Θ est appelé espace des paramètres et E espace des observations.
Remarque. On parle de modèle statistique paramétrique lorsque dim(Θ) < ∞.
Exemple 1. La famille
2

1 (x − µ) 2
f (x; θ) = √ exp − 2
: x ∈ R, θ = (µ, σ ) ∈ R × (0, ∞)
2πσ 2 2σ
est un modèle statistique, celui de la loi Gausienne.

Statistique fréquentiste
Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modèle statistique.

La statistique fréquentiste suppose l’existence d’un “vrai” paramètre θ∗
générant les données, i.e.,
(X1 , . . . , Xn ) ∼ g(·; θ∗ ).
Ensuite on cherchera / utilisera un estimateur θ̂ de θ∗ avec de bonnes

propriétés, e.g.,
√ L
n(θ̂ − θ∗ ) −→ N (0, Σ), n → ∞.

Statistique fréquentiste
Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modèle statistique.

La statistique fréquentiste suppose l’existence d’un “vrai” paramètre θ∗
générant les données, i.e.,
(X1 , . . . , Xn ) ∼ g(·; θ∗ ).
Ensuite on cherchera / utilisera un estimateur θ̂ de θ∗ avec de bonnes

propriétés, e.g.,
√ L
n(θ̂ − θ∗ ) −→ N (0, Σ), n → ∞.
Remarque. Bien souvent on supposera que le modèle statistique utilisé pour

l’estimation contient celui générant les données. . . mais on peut généraliser
cela !

Estimation ponctuelle et précision
L’estimateur θ̂ nous donnera donc une estimation ponctuelle pour θ∗

Bien souvent on utilisera des résultats asymptotiques comme celui plus
haut pour obtenir des intervalles de confiance, e.g.,
h i
θ̂ − z0.975 std.err(θ̂), θ̂ + z0.975 std.err(θ̂) , z0.975 = Φ−1 (0.975).

Estimation ponctuelle et précision
L’estimateur θ̂ nous donnera donc une estimation ponctuelle pour θ∗

Bien souvent on utilisera des résultats asymptotiques comme celui plus
haut pour obtenir des intervalles de confiance, e.g.,
h i
θ̂ − z0.975 std.err(θ̂), θ̂ + z0.975 std.err(θ̂) , z0.975 = Φ−1 (0.975).
En bref, θ̂ est une variable aléatoire pour laquelle bien souvent seule la loi
asymptotique est connue. . .

1. Introduction
2. Notions de base
3. Loi a priori
4. Inférence
Bayésienne
2. Notions de base

Idée fondamentale de la statistique Bayésienne
Idée : Considérer le paramètre θ comme une variable aléatoire.

On supposera donc que θ ∼ π et cette loi est appelée loi a priori.

La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir
accès aux données


Exemple 2. Pour notre modèle gaussien on pourrait par exemple poser
π(θ) = π(µ) × π(σ 2 ) = N (µ0 , τ ) × InvGamma(α, β).


Exemple 2. Pour notre modèle gaussien on pourrait par exemple poser
π(θ) = π(µ) × π(σ 2 ) = N (µ0 , τ ) × InvGamma(α, β).
Définition 2. Les paramètres de la loi a priori, dans notre exemple µ0 , τ, α et

β, sont appelés hyper-paramètres.
C’est au statisticien de fixer les valeurs pour ces hyper paramètres. On ne les
ajuste pas, on les définit !

Loi jointe et a posteriori
Puisque θ admet une loi, on peut pour un modèle statistique

{f (x | θ) : x ∈ E, θ ∈ Θ} donné exprimer la loi jointe
π(x, θ) = f (x | θ)π(θ)
Toutefois la loi jointe n’a que peu d’intérêt pour le Bayésien et on

s’intéressera bien plus à la loi a posteriori
Définition 3. On appelle loi a posteriori la loi dont la densité est donnée par
f (x | θ)π(θ)
π(θ | x) = R .
Θ f (x | θ)π(θ)dθ

Loi jointe et a posteriori
Puisque θ admet une loi, on peut pour un modèle statistique

{f (x | θ) : x ∈ E, θ ∈ Θ} donné exprimer la loi jointe
π(x, θ) = f (x | θ)π(θ)
Toutefois la loi jointe n’a que peu d’intérêt pour le Bayésien et on

s’intéressera bien plus à la loi a posteriori
Définition 3. On appelle loi a posteriori la loi dont la densité est donnée par
f (x | θ)π(θ)
π(θ | x) = R .
Remarque. Attention j’utiliserai toujours f (x | θ) pour désigner selon le

contexte soit la densité évaluée en x ∈ R, soit la vraisemblance évaluée en
x ∈ Rn .
Loi marginale et constante de normalisation
f (x | θ)π(θ)
π(θ | x) = R .
Le dénominateur correspond à la loi marginale de x—que l’on notera

parfois m(x).
Elle joue le rôle de constante de normalisation pour la loi a posteriori
puisqu’elle est indépendante de θ.

Loi marginale et constante de normalisation
f (x | θ)π(θ)
π(θ | x) = R .
Le dénominateur correspond à la loi marginale de x—que l’on notera

parfois m(x).
Elle joue le rôle de constante de normalisation pour la loi a posteriori
puisqu’elle est indépendante de θ.
Aussi bien souvent nous travaillerons à une constante multiplicative près,

i.e.,
f (x | θ)π(θ)
π(θ | x) = R ∝ f (x | θ)π(θ).

Au fait pourquoi le nom statistique Bayesienne ?
Rappelons nous le Théorème de Bayes
Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(Y ∈ A | X ∈ B) = .
Pr(X ∈ B)

Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(Y ∈ A | X ∈ B) = .
Pr(X ∈ B)
Mais puisque l’on considère θ comme une v.a., cela nous autorise à écrire
Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)
Pr(θ ∈ A | X ∈ B) = .
Pr(X ∈ B)

Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(Y ∈ A | X ∈ B) = .
Pr(X ∈ B)
Mais puisque l’on considère θ comme une v.a., cela nous autorise à écrire
Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)
Pr(θ ∈ A | X ∈ B) = .
Pr(X ∈ B)
Ceci est à comparer avec la définition de notre loi a posteriori
f (x | θ)π(θ)
π(θ | x) = R .

Sommeil
Soit X le nombre d’étudiants qui vont

s’endormir pendant mon cours parmi les n
présents aujourd’hui
On s’intéresse à la probabilité inconnue
p = Pr(un étudiant quelconque s’endort).
Quelle loi a priori ? Expression loi jointe

// loi a posteriori ?

Illustration numérique
X= 0 X = 11 X = 17 X = 33
35
35
5
30
30
4
4
25
25
3
15 20
15 20
3
π(p x)
π(p x)
π(p x)
π(p x)
2
2
10
10
1
1
5
5
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p p
Figure 1: Évolution de la loi a posteriori π(p | X) en fonction de X—ici n = 33.

1. Introduction
2. Notions de base
3. Loi a priori
4. Inférence
Bayésienne
3. Loi a priori

Loi a priori conjuguée
Définition 4. Une famille F de lois de probabilités sur Θ est dite conjuguée

pour le modèle statistique {f (x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , la
loi a posteriori
π(θ | x) ∝ f (x | θ)π(θ)
appartient également à F .

Loi a priori conjuguée
Définition 4. Une famille F de lois de probabilités sur Θ est dite conjuguée

pour le modèle statistique {f (x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , la
loi a posteriori
π(θ | x) ∝ f (x | θ)π(θ)
appartient également à F .
L’utilisation de lois conjuguées est une “astuce” permettant d’obtenir des

lois a posteriori explicitesa
a
On verra plus tard lors du cours Bayésien avancé que cela nous servira pour obtenir des
échantillonneurs de type MCMC efficaces

Sommeil 2
Reprenons notre exemple du sommeil en cours

mais supposons que la loi a priori est une
Beta(α, β) dont la densité est
xα−1 (1 − x)β−1
f (x) = 1{0≤x≤1} ,
B(α, β)
avec α > 0, β > 0 et B(·, ·) la fonction Beta.

La loi a posteriori est alors. . .

Illustration
xα−1 (1 − x)β−1 α αβ
f (x) = , E[X] = , Var[X] = 2
.
B(α, β) α+β (α + β) (α + β + 1)
α ≫ β ⇒ “plus de poids vers 1”

α ≪ β ⇒ “plus de poids vers 0”
α = 0.5, β = 2 α = 1, β = 1 α = 2, β = 0.5
1.4
15
15
3
1.2
10
10
π(p x)
π(p)
π(p)
π(p)
1.0
2
5
5
0.8
1
0.6
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p p
Figure 2: Impact de la loi a priori sur la loi a posteriori. Ici n = 10 et x = 2.

Teasing. . .
On verra dans le cours Bayésien avancé que lorsque n → ∞ l’impact de

π(θ) sera (bien souvent) négligeable
Pour le moment on se contentera de la “preuve” numérique suivante. . .
n = 10 n = 50 n = 5000
60
7
15
50
6
3
40
10
π(p x)
π(p x)
π(p x)
4
π(p)
30
2
20
5
2
1
10
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p p
Figure 3: Évolution de la loi a posteriori en fonction de n—ici p∗ = 1/3.

Loi impropre
Définition 5. Une mesure µ sur E est dite impropre si c’est une mesure
σ-finie mais non finie, i.e.,
µ(E) = ∞,
mais pour autant il existe un recouvrement au plus dénombrable {En : n ∈ I},
I ⊆ N, de E tel que
µ(En ) < ∞, ∀n ∈ I.
Exemple 3. Les mesures sur (0, ∞)
dµ1 (x) = dx, dµ2 (x) = x−2 dx
sont des lois de probabilités impropres.

Utilisation de loi a priori impropre
Il est tout à fait possible d’utiliser une loi a priori impropre. . .


. . . à la restriction près que l’on doit s’assurer que
Z
m(x) = f (x | θ)π(θ)dθ < ∞.
Θ


. . . à la restriction près que l’on doit s’assurer que
Z
m(x) = f (x | θ)π(θ)dθ < ∞.
Θ
De sorte que la loi a posteriori
f (x | θ)π(θ)
π(θ | x) =
m(x)
définit bien une loi de probabilité non dégénérée.

Un exemple Gaussien
Exemple 4. On dispose d’un n-échantillon iid x = (x1 , . . . , xn ). Considérons

le modèle Gaussien N (µ, 1) et prenons comme loi a priori π(µ) ∝ 1{µ∈R} .
Que vaut m(x) ?

Loi a priori non informative
Nous avons vu que l’issue de notre inférence dépend du choix de la loi a

priori
C’est l’un des points vivement critiqué des statistiques Bayésiennes


priori
Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?


priori
L’objectif (idéalisé) de l’utilisation d’une loi a priori non informative est
– d’encoder notre totale ignorance sur θ ;
– de ne pas influencer la loi a posteriori.
Pour ce cours nous allons voir deux familles de lois a priori non
informatives : Laplace et Jeffreys.


priori
L’objectif (idéalisé) de l’utilisation d’une loi a priori non informative est
– d’encoder notre totale ignorance sur θ ;
– de ne pas influencer la loi a posteriori.
Pour ce cours nous allons voir deux familles de lois a priori non
informatives : Laplace et Jeffreys.
La notion de loi a priori non informative est sujet à controverse.

Loi a priori de Laplace
Définition 6. La loi a priori de Laplace consiste à poser π(θ) ∝ 1{θ∈Θ} .

Définition 6. La loi a priori de Laplace consiste à poser π(θ) ∝ 1{θ∈Θ} . C’est

donc la loi uniforme (discrète ou continue selon Θ), voire la mesure de
Lebesgue si nous sommes impropre.


La loi a priori de Laplace a quelques défauts cependant :

elle peut mener à une loi a priori impropre et donc. . .
elle est non invariante par reparamétrisation.


La loi a priori de Laplace a quelques défauts cependant :

elle peut mener à une loi a priori impropre et donc. . .
elle est non invariante par reparamétrisation.
Exemple 5. Considérons le modèle Exponentiel(λ), λ > 0 et sa

reparamétrisation via λ = exp(θ), θ ∈ R. Dans le premier cas on a
π1 (λ) ∝ 1{λ>0} ,
et dans le 2ème
π2 (θ) ∝ 1 =⇒ π2 (λ) ∝ λ−1 π2 (ln λ)1{λ>0} ∝ λ−1 1{λ>0} .

Loi a priori de Jeffreys
Définition 7. Soit un modèle statistique {f (x; θ) : x ∈ E, θ ∈ Θ}. On appelle

information de Fisher la quantité
h i
⊤
I(θ) = E {∇θ ln f (X; θ)} ∇θ ln f (X; θ) , X ∼ f (·; θ).
Sous les hypothèses d’interversion du signe intégral et dérivé alors

2
I(θ) = −E ∇θ ln f (X; θ) .

Loi a priori de Jeffreys
Définition 7. Soit un modèle statistique {f (x; θ) : x ∈ E, θ ∈ Θ}. On appelle

information de Fisher la quantité
h i
⊤
I(θ) = E {∇θ ln f (X; θ)} ∇θ ln f (X; θ) , X ∼ f (·; θ).
Sous les hypothèses d’interversion du signe intégral et dérivé alors

2
I(θ) = −E ∇θ ln f (X; θ) .
Définition 8. La loi a priori de Jeffreys est donnée par π(θ) ∝ |I(θ)|1/2 , où
|A| correspond au déterminant de A.
Cette loi a priori est invariante par reparamétrisation

Elle peut néanmoins donner lieu à des lois a priori impropres
Elle n’est pas recommandée lorsque dim Θ > 1.1
1
On verra en TD ce qu’il faut alors faire. . .

Sommeil 3
Puisque vous ne dormez toujours pas,

reprenons encore notre exemple sur le som-
meil en cours. . .
Quelle est la loi a priori de Jeffrey la prob-
abilité p de s’endormir ?

1. Introduction
2. Notions de base
3. Loi a priori
4. Inférence
Bayésienne
4. Inférence Bayésienne

Motivation
Dans le cadre de travail Bayésien, la loi a posteriori π(θ | x) contient

toute l’information nécessaire sur θ
Cela dit devoir manipuler l’intégralité de la loi est parfois peu commode.
Il est donc utile d’utiliser des résumés statistiques de π(θ | x) comme
– la moyenne a posteriori
– la médiane a posteriori
– le mode/maximum a posteriori (MAP)
– un quantile à posteriori d’ordre p.
On peut également s’intéresser à des régions de confiance.

Motivation
Dans le cadre de travail Bayésien, la loi a posteriori π(θ | x) contient

toute l’information nécessaire sur θ
Cela dit devoir manipuler l’intégralité de la loi est parfois peu commode.
Il est donc utile d’utiliser des résumés statistiques de π(θ | x) comme
– la moyenne a posteriori
– la médiane a posteriori
– le mode/maximum a posteriori (MAP)
– un quantile à posteriori d’ordre p.
On peut également s’intéresser à des régions de confiance.
Nous verrons dans le cours Bayésien avancé (ou pas !) que ces choix
peuvent être justifiés via la théorie de la décision.

Rappels : Intervalles de confiances (fréquentiste)
Définition 9. Un intervalle de confiance de niveau α pour une quantité

d’intérêt f (θ0 ) est un intervalle aléatoire Iα tel que Pr{f (θ0 ) ∈ Iα } = 1 − α.
Exemple 6. Soient X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 connu. Alors

σ σ
I = X̄n − 1.96 √ , X̄n + 1.96 √ ,
n n
est un intervalle de confiance pour µ à 95%.

Rappels : Intervalles de confiances (fréquentiste)
Définition 9. Un intervalle de confiance de niveau α pour une quantité

d’intérêt f (θ0 ) est un intervalle aléatoire Iα tel que Pr{f (θ0 ) ∈ Iα } = 1 − α.
Exemple 6. Soient X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 connu. Alors

σ σ
I = X̄n − 1.96 √ , X̄n + 1.96 √ ,
n n
est un intervalle de confiance pour µ à 95%.
En pratique on obtient donc une réalisation de cet intervalle aléatoire. Le

niveau α% correspond donc à la proportion que n réalisations de cet intervalle
de confiance contienne le vrai paramètre f (θ0 ) lorsque n → ∞ !!!

Région α–crédible
Définition 10. Pour une loi a priori π donnée, un ensemble Cx ⊂ Θ est un

ensemble α–crédible si
Prπ (θ ∈ Cx | x) ≥ 1 − α.


Prπ (θ ∈ Cx | x) ≥ 1 − α.
Remarque. Avez vous bien compris le sens de la notation suivante
Prπ (θ ∈ Cx | x) = . . .?


Prπ (θ ∈ Cx | x) ≥ 1 − α.

Z
Prπ (θ ∈ Cx | x) = 1{θ∈Cx } . . .
Θ


Prπ (θ ∈ Cx | x) ≥ 1 − α.

Z
Prπ (θ ∈ Cx | x) = 1{θ∈Cx } π(θ | x)dθ.
Θ

Intervalle de crédibilité
On se restreint au cas où θ est un paramètre scalaire.2
Définition 11. Pour une loi a priori π donnée, un intervalle Ix ⊂ R est un

intervalle de crédibilité de niveau 1 − α si
Prπ (θ ∈ Ix | x) = 1 − α.

Intervalle de crédibilité
On se restreint au cas où θ est un paramètre scalaire.2
Définition 11. Pour une loi a priori π donnée, un intervalle Ix ⊂ R est un

intervalle de crédibilité de niveau 1 − α si
Prπ (θ ∈ Ix | x) = 1 − α.
Bien souvent on utilisera des intervalles de crédibilité symétriques, i.e.,

h α α i
Ix = qπ , x , qπ 1 − , x ,
2 2
avec
qπ (p, x) = inf {u ∈ R : Prπ (θ ≤ u | x) ≥ 1 − α} .
2
ou alors on se restreint à θj , j ∈ {1, . . . , p} lorsque dim Θ = p.

Illustration
3.0
3.0
3.0
2.5
2.5
2.5
2.0
2.0
2.0
π(p x)
π(p x)
π(p x)
1.5
1.5
1.5
1.0
1.0
1.0
0.5
0.5
0.5
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p
Figure 4: Trois différents intervalles de crédibilité (segments rouges) tous de niveau 95%.

Région HPD (High Posterior Density)
Définition 12. Une région α–crédible Cx est une région HPD α–crédible si
elle est de la forme Cx = {θ ∈ Θ : π(θ | x) ≥ uα }.
3.0
3.0
3.0
2.5
2.5
2.5
2.0
2.0
2.0
π ( p x)
π ( p x)
π ( p x)
1.5
1.5
1.5
1.0
1.0
1.0
u0.9
0.5
0.5
0.5
u0.95
u0.99
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p
Figure 5: Illustration des régions α–crédibles HPD de niveau 90%, 95% et 99%.

Région HPD (High Posterior Density)
Définition 12. Une région α–crédible Cx est une région HPD α–crédible si
elle est de la forme Cx = {θ ∈ Θ : π(θ | x) ≥ uα }.
3.0
3.0
3.0
2.5
2.5
2.5
2.0
2.0
2.0
π ( p x)
π ( p x)
π ( p x)
1.5
1.5
1.5
1.0
1.0
1.0
0.5
0.5
0.5
u0.9 u0.95 u0.99
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
p p p
Figure 5: Illustration des régions α–crédibles HPD de niveau 90%, 95% et 99%.
Les régions HPD peuvent être non connexes !

Intervalles de confiance vs. crédibilité
Pr(θ0 ∈ I) = 1 − α Prπ (θ ∈ I | x) = 1 − α.
I est aléatoire θ est aléatoire

La prochaine réalisation de I aura Ayant observé x, il y a (1 − α)%
(1−α)% de chance de contenir θ0 . de chance que I contienne θ0 .

Loi prédictive a posteriori
On souhaite prédire une nouvelle observation xn+1 .

En statistique fréquentiste, on utilisera souvent le prédicteur E[X],
X ∼ f (·; θ̂), θ̂ estimateur de θ.
Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.
Le cadre Bayésien permet de tenir compte de cette incertitude.
Définition 13. On appelle loi prédictive a posteriori la loi de densité

Z
π(xn+1 | x) = f (xn+1 | θ, x)π(θ | x)dθ.

Loi prédictive a posteriori
On souhaite prédire une nouvelle observation xn+1 .

En statistique fréquentiste, on utilisera souvent le prédicteur E[X],
X ∼ f (·; θ̂), θ̂ estimateur de θ.
Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.
Le cadre Bayésien permet de tenir compte de cette incertitude.
Définition 13. On appelle loi prédictive a posteriori la loi de densité

Z
π(xn+1 | x) = f (xn+1 | θ, x)π(θ | x)dθ.
On utilisera alors le prédicteur Bayésien

Z
x̂n+1 = xn+1 π(xn+1 | x)dxn+1 .

Sommeil 4
Un nouvel élève arrive en cours d’année (il a

prolongé sa césure) et suit mon cours pour
la première fois. Va-t-il s’endormir durant ce
cours ?

Parce que nous n’avons pas assez de temps. . .
Les statistiques Bayésiennes ont le vent en poupe depuis le début des

années 2000
Ici nous sommes restés dans un cadre (bien trop) scolaire
Heureusement le cours Bayésien avancé du second semestre viendra
combler ce manque en couvrant notamment
– les techniques dı̂tes de Monte Carlo
– les algorithmes plus spécifiques de type MCMC
– les modèles Bayésiens hiérarchiques.

4 Bayes

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

4 Bayes

Transféré par

Droits d'auteur :

Formats disponibles

STAT2–Introduction à la statistique Bayésienne

École Centrale de Nantes

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 1 / 36

[1] M. K. Cowles. Applied Bayesian Statistics with R and OpenBugs

[2] J. A. Hartigan. Bayes Theory. Springer Series in Statistics.

[3] C.P. Robert. The Bayesian Choice: A Decision-theoretic Motivation.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 2 / 36

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 3 / 36

Définition 1. Une famille paramétrée de fonctions {f (x; θ) : x ∈ E, θ ∈ Θ}

Remarque. On parle de modèle statistique paramétrique lorsque dim(Θ) < ∞.

est un modèle statistique, celui de la loi Gausienne.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 4 / 36

Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modèle statistique.

Ensuite on cherchera / utilisera un estimateur θ̂ de θ∗ avec de bonnes

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 5 / 36

Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modèle statistique.

Ensuite on cherchera / utilisera un estimateur θ̂ de θ∗ avec de bonnes

Remarque. Bien souvent on supposera que le modèle statistique utilisé pour

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 5 / 36

L’estimateur θ̂ nous donnera donc une estimation ponctuelle pour θ∗

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 6 / 36

L’estimateur θ̂ nous donnera donc une estimation ponctuelle pour θ∗

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 6 / 36

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 7 / 36

Idée : Considérer le paramètre θ comme une variable aléatoire.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36

Idée : Considérer le paramètre θ comme une variable aléatoire.

On supposera donc que θ ∼ π et cette loi est appelée loi a priori.

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36

Idée : Considérer le paramètre θ comme une variable aléatoire.

On supposera donc que θ ∼ π et cette loi est appelée loi a priori.

Exemple 2. Pour notre modèle gaussien on pourrait par exemple poser

π(θ) = π(µ) × π(σ 2 ) = N (µ0 , τ ) × InvGamma(α, β).

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36

Idée : Considérer le paramètre θ comme une variable aléatoire.

On supposera donc que θ ∼ π et cette loi est appelée loi a priori.

Exemple 2. Pour notre modèle gaussien on pourrait par exemple poser

π(θ) = π(µ) × π(σ 2 ) = N (µ0 , τ ) × InvGamma(α, β).

Définition 2. Les paramètres de la loi a priori, dans notre exemple µ0 , τ, α et

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 8 / 36

Puisque θ admet une loi, on peut pour un modèle statistique

Toutefois la loi jointe n’a que peu d’intérêt pour le Bayésien et on

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 9 / 36

Puisque θ admet une loi, on peut pour un modèle statistique

Toutefois la loi jointe n’a que peu d’intérêt pour le Bayésien et on

Remarque. Attention j’utiliserai toujours f (x | θ) pour désigner selon le

Le dénominateur correspond à la loi marginale de x—que l’on notera

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 10 / 36

Le dénominateur correspond à la loi marginale de x—que l’on notera

 Aussi bien souvent nous travaillerons à une constante multiplicative près,

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 10 / 36

Rappelons nous le Théorème de Bayes

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 11 / 36

Rappelons nous le Théorème de Bayes

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 11 / 36

Rappelons nous le Théorème de Bayes

Ceci est à comparer avec la définition de notre loi a posteriori

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 11 / 36

Soit X le nombre d’étudiants qui vont

p = Pr(un étudiant quelconque s’endort).

Quelle loi a priori ? Expression loi jointe

Bayesien (v2) Mathieu Ribatet—mathieu.ribatet@ec-nantes.fr – 12 / 36

Figure 1: Évolution de la loi a posteriori π(p | X) en fonction de X—ici n = 33.

Aussi bien souvent nous travaillerons à une constante multiplicative près,

L’utilisation de lois conjuguées est une “astuce” permettant d’obtenir des

La notion de loi a priori non informative est sujet à controverse.

La loi a priori de Laplace a quelques défauts cependant :

La loi a priori de Laplace a quelques défauts cependant :