Statistique Bayesienne VF 2021

Cours de Statistique Bayésienne
M atthieu Somé1
December 7, 2022
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 1 / 75

Plan
1 Introduction aux principes de l’inférence bayésienne.
2 Comment choisir la loi a priori ?
3 Estimation
4 Simulation de loi a posteriori
5 Modèles hiérarchiques (optionnel)

Objectifs
Maitriser les bases de la statistique bayésienne
Connaitre les fondements de la théorie de la décision
Connaitre la modélisation de l’information à priori
Modéliser selon la théorie bayésienne avec R, BUGS, JGAS, etc...

Quelques références
Congdon, Peter Applied Bayesian modelling. Wiley Series in Probability

and Statistics.
Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin.
”Bayesian Data Analysis”Chapman and Hall Texts in Statistical Science
Series.
Robert (2001) The Bayesian Choice : from Decision-Theoretic
Motivations to Computational Implementation Springer-Verlag, New York
Robert C. & G. Casella (1999) Monte Carlo Statistical Methods
Springer-Verlag, New York.
Robert C. (1992) L’Analyse Statistique Bayésienne. Economica, Paris
Robert C. (1996) Méthodes de Monte-Carlo par chaînes de Markov,
Economica, Paris

Introduction aux principes de
l’inférence bayésienne

Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste
Considérons quatre problèmes d’inférence statistique.

1 Une machine à sous (i.e. ludic lydia, autre?) disposant d’un bouton
donne 100 XOF avec une probabilité θ et 0 XOF sinon. On cherche à
estimer cette probabilité.
2 Pour une étude de marché, on cherche à estimer la moyenne du prix de
vente d’un produit.

Intro Intro

3 Un informateur nous préviens que 30% des machines à sous ont une
probabilité θ1 de donner 100 XOF, le reste a une probabilité θ2 . On
cherche à savoir à quelle type appartient cette machine.
4 Une société de conseil nous propose de faire l’étude du prix de vente.
Pour un produit, on fait une étude parallèle pour étudier si l’information
qu’elle propose est fiable.

Intro Intro

?¿ Estimer à partir d’observations un paramètre décrivant la distribution
de probabilité.

Intro Intro

de probabilité.
Dans 3 et 4, on dispose d’une information supplémentaire sur ce
paramètre.

Intro Intro

de probabilité.
Dans 3 et 4, on dispose d’une information supplémentaire sur ce
paramètre.
Ce cours est destiné à donner un cadre précis pour l’utilisation de cette
information a M
priori dans un problème
atthieu SOMÉ, UTS - MIME-MISE
d’inférence.
Cours de Statistique bayésienne 6 / 75
Intro Intro
Définition (Probabilité conditionnelle)

Soit A et B deux évènements tels que P(B) > 0, alors
P(A ∩ B)
P(A |B) :=
P(B)
[Probabilités totales]
Soit A et B deux évènements tels que P(B) > 0, alors
P(B) = P(B|A )P(A ) + P(B|A )P(A )
demo :

Théorème (Bayes)
Soit A et B deux évènements tels que P(B) , 0
P(B|A )P(A ) P(B|A )P(A )

P(A |B) = =
P(B) P(B|A )P(A ) + P(B|A )P(A )
Demo :
Définition (Probabilité conditionnelle)

Soit A, B, C des évènements tels que P(C) , 0, alors A est indépendant de B
conditionnellement à C si
P(A ∩ B|C) = P(A |C)P(B|C)
indépendant =⇒ conditionnellement indépendant (faux en général)

Intro Intro
APPROCHE FREQUENTISTE : Estimer θ̂ à partir d’observations

(x1 , . . . , xn )
Modèle statistique X = (X1 , . . . , Xn ) des v.a. discrètes/continues ∈ Rd et
de loi inconnu θ ∈ Θ ⊆ Rd
=⇒ Quelles méthodes d’estimations de paramétres ??

Intro Intro
APPROCHE FREQUENTISTE : Estimer θ̂ à partir d’observations

(x1 , . . . , xn )
Modèle statistique X = (X1 , . . . , Xn ) des v.a. discrètes/continues ∈ Rd et
de loi inconnu θ ∈ Θ ⊆ Rd
=⇒ Quelles méthodes d’estimations de paramétres ??
Définition
Si (Xk )k ≤n sont des variables continues iid dont la loi est une densité fθ
dépendant d’un paramètre θ, on appelle fonction de vraisemblance la fonction
L définie par
n
Y
L (θ, x1 , x2 , · · · , xn ) = Pθ (Xi = xs )
k =1
Cas continue fθ = Pθ et (Xk )k ≤n à valeurs (xi )i∈I
La valeur de cette fonction au point (θ; x1 ; x2 ; . . . ; xn ) est la vraisemblance

de l’échantillon (x1 ; x2 ; . . . ; xn ) pour le paramètre θ.
Définition
Si (Xk )k ≤n sont des variables continues iid dont la loi est une densité fθ
dépendant d’un paramètre θ, on appelle fonction de vraisemblance la fonction
L définie par
n
Y
L (θ, x1 , x2 , · · · , xn ) = Pθ (Xi = xs )
k =1
Cas continue fθ = Pθ et (Xk )k ≤n à valeurs (xi )i∈I
La valeur de cette fonction au point (θ; x1 ; x2 ; . . . ; xn ) est la vraisemblance

de l’échantillon (x1 ; x2 ; . . . ; xn ) pour le paramètre θ.

Exemple 1 : On considère n va (Xi )i≤n suivant N θ, σ2 où θ ∈ R et σ2
est supposé connu et fixé. On note g la densité de la loi jointe :
n
Y 1 1 2
e − 2σ2 i −θ) = L (θ, x1 , · · · , xn )
(x
g(x) = fθ (x1 , · · · , xn ) = √
i=1 2πσ

Exemple 2 : On considère n va (Xi )i≤n suivant une loi de Bernouilli de
paramètre θ, θ ∈ [0, 1], B(θ)
n
Y
L (θ, x1 , x2 , . . . , xn ) = P (Xs = xi |θ) = θs (1 − θ)n−s
i=1
Pn
où s = i=1 xi . Plusieurs méthodes d’estimation repose sur la technique
du maximum de vraissemblance
θ̂ = arg max L (θ, x)

θ∈Θ
Dans ces deux exemples on a

n
1X
θ̂ = xi
n
i=1

Objectif analyse statistique bayésienne : déterminer la loi du paramètre
conditionnellement à l’observation en utilisant la loi a priori et de
l’observation effectuée OU
la loi a posteriori qui actualisée l’information sur le paramètre
(a)
Toute la statistique bayésienne repose sur cette loi a posteriori.
Difficultés essentielles : détermination et choix de la loi a priori et calcul

explicite de la loi a posteriori.

Paradigme Bayésien
Définition (Loi a priori)

Soit une famille de densités de probabilité à paramètre dans Θ. Une loi a
priori π est une loi de probabilité (ou densité de probabilité) sur Θ
Définition
Ainsi la loi jointe des observations de X = (X1 , . . . , Xn ) est conditionnelle à θ
et est notée f (x|θ) = f (x1 , · · · , xn |θ) dans le cas continu et
P(X = x|θ) = P (X1 = x1 , · · · , Xn = xn |θ) dans le cas discret. Dans le cas
continu, f (x|θ) est la densité jointe de la v.a. X
Définition (Modèle Bayésien)

Un modèle bayésien est la donnée, pour une v.a. (ou une suite de v.a.)
d’une loi conditionnelle et d’une loi a priori :
X ∼ f (X |θ)
θ∼π
Paradigme Bayésien
Définition
La loi de X et la loi a priori π sur θ sont continues. Alors, on peut exprimer la
loi a posteriori de la manière suivante :
f (X |θ)π(θ)
π(θ|X ) = R
u∈Θ
f (X |u)π(u)du
De manière analogue, dans le cas discret, on a
P(X = x|θ = θi )P (θ = θi )
P (θ = θi |X = x) =
P(X = x)
P(X = x|θ = θs )P (θ = θs )
=P
k P(X = x|θ = θk )P (θ = θk )
Comme le dénominateur ne dépend pas de θ, on l’interprète souvent

comme une constante de normalisation.

Exercices (en anglais)
Consider six loaded dice with the following properties. Die A has
probability 0.1 of coming up 6, each of Dice B and C has probability 0.2 of
coming up 6, and each of Dice D, E and F has probability 0.3 of coming
up 6. A die is chosen randomly from the six dice and rolled twice. On
both occasions, 6 comes up. What is the posterior probability distribution
of θ , the probability of 6 coming up on the chosen die.
As in previously, suppose that Die A has probability 0.1 of coming up 6,

each of Dice B and C has probability 0.2 of coming up 6, and each of
Dice D, E and F has probability 0.3 of coming up 6. A die is chosen
randomly from the six dice and rolled twice. On both occasions, 6 comes
up. Using the proportionality formula, find the posterior probability
distribution of θ, the probability of 6 coming up on the chosen die.

Paradigme Bayésien
Définition
On appelle la loi marginale la loi définie par :
Z
mπ (X ) = f (X |u)π(u)du
u∈Θ
Elle ne dépend que de X et de la loi a priori et donc pas de θ.
Cette quantité f (X |θ)π(θ) est le produit de la vraisemblance, et de la

densité a priori. La loi a posteriori peut donc s’interpréter comme une
mise à jour de la loi a priori à l’aide des données. C’est l’opération de
conditionnement qui permet cette mise à jour.

Si on cherche par exemple le maximum de cette loi a posteriori, le calcul
de la loi marginale est inutile. Ainsi, on note
π(θ|X ) ∝ f (X |θ)π(θ)
Remarque
▶ Le calcul d’une loi a posteriori mène à une loi.
Résultat de l’inférence beaucoup plus informatif que dans le cas fréquentiste

(on a accès beaucoup plus facilement à des intervalles de confiances pour une
estimation de θ (en prenant par ex. le maximum de la loi a posteriori)
▶ En pratique, on calcule la loi a posteriori empirique. Dans le cas continu pour X,
on considère une réalisation x1 , x2 , . . . , xn de X , on a :
f (x1 , . . . , xn |θ) π(θ)
π(θ|X = (x1 , . . . , xn )) = R
u∈Θ
f (X |u)π(u)du

Estimateur de Bayes
▶ La moyenne de la loi a posteriori π(θ|X = (x1 , . . . , xn ))
Z
E(θ|X ) = θπ(θ|X = (x1 , . . . , xn ))dθ
▶ La médiane de π(θ|X = (x1 , . . . , xn ))

Z m(X )
1
= π(θ|X = (x1 , . . . , xn ))dθ
2 −∞
▶ L’estimateur du maximum a posteriori (MAP) sans fonction de perte : La

valeur de θ qui maximise la densité de la loi a posteriori
θ̂n = arg max π(θ|X = (x1 , . . . , xn ))

Performance des procédures d’estimation(1/3)
Elle repose sur la fonction coût
Fonction coût
L :Θ × Θ → R
(θ, θ̂) → L (θ, θ̂)
où L mesure l’erreur/la pénalité résultant de l’emploi de la décision θ pour

estimer θ̂
Procédure θ est appelé estimateur (alors que la valeur θ(x) est une
estimation de θ̂)

F onctions de perte usuelles
Fonction de perte L : (Θ × Θ′ ) → R+
Exemples
Perte quadratique L(θ, θ′ ) = (θ − θ′ )2 ou L (θ, θ′ ) = ∥θ − θ′ ∥2 ,
perte absolue L(θ, θ′ ) = |θ − θ′ |,
perte 0 − 1 pour les tests d’hypothèses, . . ..
(b)
Performance des procédures d’estimation(1/3)
Risque (fréquentiste) "coût moyen" pour un estimateur θ donné:
Principe
Sélection du meilleur estimateur en tenant compte de la fonction coût L .
Z
R(θ) = Eθ L [θ̂, θ]|θ = L (θ̂(x), θ)f (x|θ)dx
X

Performance des procédures d’estimation (2/3)
Risque (fréquentiste) "coût moyen" pour un estimateur θ donné:
Principe
Sélection du meilleur estimateur en tenant compte de la fonction coût L .
Z
R(θ) = Eθ L [θ̂, θ]|θ = L (θ̂(x), θ)f (x|θ)dx
X
Risque a posteriori :
Intégrer sur l’espace Θ pour avoir la perte a posteriori
ρ(x) = Eπ [L [θ̂, θ]|x]

Z
= L (θ̂(x), θ)π(θ|x)dθ
Θ

Risques bayesien(1/3)
Risque bayésien à partir de la fonction de risque
Principe
Z
r(π, θ̂) = E L [θ̂, θ] = E Eθ L [θ̂, θ]|θ = E (R(θ)) = R(θ)π(θ)dθ
Θ
Risque bayésien à partir de l’a posteriori :
n o n o Z
r(π, θ̂) = E L [θ̂, θ] = E Eθ L [θ̂, θ]|x = E (ρ(x)) = ρ(x)f (x)dx
X

Performance des procédures d’estimation (3/3)
Etant donné
la loi des observations X ∼ f (x|θ)
la loi a priori π
Une fonction de coût
Procedure Bayes optimal

Un estimateur de Bayes associé à l’a priori π et de fonction de perte L est
δπ (x) = arg min r(π, δ)

δ
π)
La valeur r(π) = r (π, δ est le risque Bayésien Existence? unicité? Admissibilté? Minimaxité?

Admissibilité
Fréquentiste
Définition (Estimateur admissible)

Un estimateur δ0 est inadmissible s’il existe un estimateur δ1 tel que, ∀θ,
R (θ, δ0 ) ≥ R (θ, δ1 )
et, pour au moins un θ0 ,
R (θ0 , δ0 ) > R (θ0 , δ1 )
Dans le cas contraire, δ0 est admissible
Bayésien

Admissibilité
Fréquentiste
Définition (Estimateur admissible)

Un estimateur δ0 est inadmissible s’il existe un estimateur δ1 tel que, ∀θ,
R (θ, δ0 ) ≥ R (θ, δ1 )
et, pour au moins un θ0 ,
R (θ0 , δ0 ) > R (θ0 , δ1 )
Dans le cas contraire, δ0 est admissible
Bayésien
* Si π strictement positive sur Θ avec r(π) = Θ R (θ, δπ ) π(θ)dθ < ∞
R
et R (θ, δπ ) continu, alors l’estimateur de Bayes est admissible
* Si l’estimateur de Bayes associé à l’a priori π est unique, alors il est

admissible
A posteriori sous perte quadratique
Moyenne a posteriori
L’estimateur de Bayes associé à l’a priori π et avec la fonction de perte
quadratique est l’espérance de l’a posteriori
R
π π
θf (x|θ)π(θ)dθ
δ (x) = E [θ|x] = RΘ
Θ
f (x|θ)π(θ)dθ

Exercices sur le risque Bayésien (1/3)
Exercice 1(fonction risque & risque de Bayes) : Considérons un modèle

normal-normal :
(y1 , . . . , yn |µ) ∼ i.i.d. N µ, σ2

µ ∼ N µ0 , σ20
Pour chacun des estimateurs suivants, donner une formule de la fonction
de risque sous perte quadratique
µ̂ = y = 1
n
(y1 + . . . + yn ) (moyenne empirique)

Exercices sur le risque Bayésien (3/3)
Exercice 2 Considérons un échantillon aléatoire x1 , . . . , xn suivant une loi

Poisson de paramètre λ et dont la densité à priori est une gamma de
paramètres α et β
1 Trouver la fonction risque, le risque Bayésien et le risque a posteriori

pour un estimateur λ̂ = 2x sous la fonction de perte quadratique
2 Sous la perte quadratique, trouver un estimateur de λ avec un risque

bayésien plus petit que en (1).

Région de de crédibilité
Pour un niveau de confiance 1 − α (niveau de risque α).

On cherche les intervalles de crédibilité a posteriori en anglais "highest
posterior density region (HPDR)"
Fonctions de perte
π π
n o
Q1−α (x) = θ; π(θ|x) ≥ k1−α (x)
π
k1−α (x) est choisi tel que
Z
π(θ|x)dθ = 1 − α
Q1−α (x)

TP
(c)
(d)
Exercice on HPDR
We have a bent coin, for which θ, the probability of heads coming up, is
unknown. Our prior beliefs regarding θ may be described by a standard
uniform distribution. Thus no value of θ is deemed more or less likely than any
other. We toss the coin n = 5 times (independently), and heads come up
every time. Find the posterior mean, mode and median of θ. Also find the
80HPDR for θ.

TP

Comment choisir la loi a priori

Intro
Choix de l’a priori Choix de l’a priori
Méthodes numériques
Comment choisir la loi a priori
Différents choix motivés par différents points de vue :

Choix basé sur des expériences du passé ou sur une intuition du
statisticien.
Choix basé sur la faisabilité des calculs.
Choix basé sur la volonté de n’apporter aucune information nouvelle
pouvant biaiser l’estimation.

Loi subjectives (paramétrique)
Utilisation des données antérieures (p.e.x. raisonnement sur expertise des spécialistes). Pour plusieurs
experts, il peut être utile de pondérer leurs réponses et d’utiliser des modèles hiérarchiques.
Approche partiellement informative
Définition (Notions de lois conjuguées)

Une famille F de distributions sur Θ est dite conjuguée pour la loi f (x|Θ) si pour tout π ∈ F ; la distribution a
posteriori π(·|x) appartient également à F .
Avantages : simplification des calculs

Quelques exemples de lois conjuguées
f (x|θ) π(θ) π(θ|x)

σ2 µ+τ2 z

2 2
, σ2 τ 2

N θ, σ2 N µ, τ2 N
σ2 +τ2 σ +τ
P(θ) Ga(α, β) Ga(α + x, β + 1)
Ga(ν, θ) Ga(α, β) Ga(α + ν, β + x)
B(n, θ) Be(α, β) + x, β + n − x)
Be(α
(µ−x)2

N µ, θ1 Ga(α, β) Ga α + 12 , β + 2
Table:
Une loi conjuguée peut être déterminée en considérant la forme de la vraisemblance f (x|θ) et en
prenant une loi a priori de la même forme que cette dernière vue comme une fonction du paramètre.

Exemple
on considère une loi Pareto de paramètres (α, a) :
θa θ
f (x|θ, a) = χ[a,+∞] (x)
x θ+1
Supposons a connu, f (x|θ) ∝ θe θ log(a/x) x −1 χ[a,+∞ [(x). On pourrait donc
prendre une loi a priori de type Gamma.
Exemple
Trouver l’a posteriori de p sachant X , quand p ∼ U ([0, 1]) et X ∼ B(n, p)

Cas du modèle exponentiel
Définition
On appelle famille exponentielle à s paramètres, toute famille de loi de
distribution {Pθ } dont la densité a la forme suivante :
 
X s 
f (x|θ) = exp  ηj (θ)Tj (x) − B(θ) h(x) = exp(⟨η(θ), T (x)⟩ − B(θ))h(x)
 
 
j=1
où ηj (·) et B(·) sont des fonctions du paramètre θ et les Ti (·) sont des
statistiques. Le vecteur η(θ) est appellé paramètre naturel de la famille
Exercice?? : La plupart des lois classiques (Bernoulli, Poisson, binomiale

(avec n fixé), exponentielle, . . .) forment des familles exponentielles. Par
contre, les lois dont le support dépend de θ ne forment jamais des familles
exponentielles.

Cas du modèle exponentiel
Proposition
Soit f (x, θ) appartenant à une famille exponentielle canonique. Alors une
famille de loi a priori conjuguée pour f (x, θ) est donnée par :
π(θ) = K (µ, λ) exp(⟨θ, µ⟩ − λA (θ))
où (µ, λ) sont des paramètres (µ de dimension s et λ de dimension 1) et

K (µ, λ) est une constante de renormalisation. Dans ce cas la loi a posteriori
est de la forme :
π(θ|x) ∝ exp(⟨(µ + T (x)), θ) − (λ + 1)A (θ))
Preuve:
π(θ|x) ∝ f (x|θ)π(θ)
∝ exp(⟨θ, T (x)⟩ − A (θ)) exp(⟨θ, µ⟩ − λA (θ))
∝ exp(⟨(µ + T (x)), θ⟩ − (λ + 1)A (θ))

Loi a priori non informative (1/2)
Dans le cas où on dispose que de peu d’informations sur θ, on peut choisir

des loi a priori dites peu ou non informatives. On souhaite que l’a priori
intervienne de façon minimale dans la loi a posteriori , i.e. que les données
parlent d’elles même.
Une loi non informative est une loi qui porte une information sur le paramètre
à estimer dont le poids dans l’inférence est réduit. Lois invariantes
Lois invariantes par translation
π(θ) = π (θ + θ0 ) pour tout θ0 ∈ Θ

Lois invariantes par changement d’échelle
π(σ) = απ(ασ) pour tout α > 0

Loi a priori non informative (2/2)
Loi a priori de Jeffreys :
Définition
La loi a priori de Jeffreys est donnée par
p
π(θ) ∝ I(θ)
où I(·) est l’information de Fisher donné par
∂ 2 #
∂2
" " #
I(θ) = E log f (X |θ) |θ où I(θ) = −E log f (X |θ)|θ

∂θ ∂θ2
sous certaines conditions de régularité
Deux intérêts principaux pour la loi a priori de Jeffreys :

I(θ) : indicateur de la quantité d’information apportée par le modèle f (x|θ)
La loi de Jeffreys est invariante par reparamétrisation.
cette méthode conduit souvent à des lois impropres
c’est une méthode pour construire des loi donnant un poids plus
important aux valeurs θ ou l’information de Fisher I(θ) (quantité d’info.
sur θ apportéMpar x)SOMÉ,
atthieu estUTSgrande.
- MIME-MISE Cours de Statistique bayésienne 41 / 75
T D (1/2)
Modèle normal-normal
Trouver l’a priori de Jeffreys pour µ si (X1 , . . . , Xn |µ) ∼ i.i.d. N(µ, σ2 ) où σ est
connu
Modèle normal-gamma
Trouver l’a priori de Jeffreys pour λ si (X1 , . . . , Xn |λ) ∼ i.i.d. N(µ, 1/λ) où µ est
connu
Modèle beta-binomial
Trouver l’a priori de Jeffreys pour θ si (X |θ) ∼ Bin(n, θ) où n est connu

T D (2/2)
On considère la loi binomiale négative de paramètres (n; p) dont on rappelle

la définition :
n−1
P(X = x|p) = Cn+x−1 p x (1 − p)n , 0 < p < 1, x∈N
1 Calculer E(X ), l’espérance mathématique de X .
2 On suppose n fixé. En utilisant la règle de Jeffreys, construire une loi a

priori non informative pour p.
3 Soit (x1 , x2 , . . . , xN ) un N-échantillon de la loi binomiale négative de

paramètres (n, p). Calculer la loi a posteriori de p pour la loi a priori
obtenue ci-dessus.
4 Donner l’estimateur de Bayes de p pour un coût quadratique.

Modèle bayésien avec plusieurs paramètres (1/2)
Trouver l’a posteriori
π(θ|y) ∝ π(θ)π(y|θ)
ou encore
π (θ1 , θ2 |y) ∝ π (θ1 , θ2 ) π (y|θ1 , θ2 )
avec π(θ) = π(θ1 , θ2 )
Réécriture de l’a priori

π(θ) = π(θ1 , θ2 ) = π(θ1 )π(θ2 |θ1 )
Marginales a posteriori
Z
π1 (θ1 |x) = π (θ1 , θ2 |x) dθ2
Z
π2 (θ2 |x) = π (θ1 , θ2 |x) dθ1

Modèle bayésien avec plusieurs paramètres (2/2)
Suppose that five heads have come up on an unknown number of tosses of a

bent coin. Before the experiment, we believed the coin was going to be tossed
a number of times equal to 1, 2, 3, ..., or 9, with all possibilities equally likely.
As regards the probability of heads coming up on a single toss, we deemed
no value more or less likely than any other value. We also considered the
probability of heads as unrelated to the number of tosses.
Find the marginal posterior distribution and mean of the number of tosses and
of the probability of heads, respectively. Also find the number of heads we
could expect to come up if the coin were to be tossed again the same number
of times.
Indications : Consider this hierarchical model
(y|θ, n) ∼ Binomial(n, θ)
(θ|n) ∼ U(0, 1)
n ∼ DU(1, . . . , k ), k = 9 (i.e. f (n) = 1/9, n = 1, . . . , 9).

Etude de sensibilité de la loi a priori
Le choix de la priori comporte de l’arbitraire à deux niveaux

option
Choix famille de probabilités
optiion
choix des valeurs numériques communiquées par l’Expert pour
déterminer les hyperparamètres de la loi a priori.


Intro
Choix de l’a priori Méthodes numériques
Soit E l’espace des observations et Θ l’espace des paramètres, un sous

ensemble de Rp .
modèle f (x|θ)
loi a priori π(θ)
loi a posteriori π(θ|x) ∝ f (x|θ)π(θ)
En particulier on a
f (x|θ)π(θ)
π(θ|x) =
Z(x)
avec la constante de normalisation
Z
Z(x) = f (x|θ)π(θ)dθ
Θ

Calcul d’intégrale fastidieux surtout si Θ de dimension grande. On retrouve
Inférence : la moyenne a posteriori est donnée par
Z
E[θ|x] = θπ(θ|x)dθ
Θ
Région de confiance :
Z
P(θ ∈ S|x) = π(θ|x)dθ
S
Densités a posteriori marginales

Z Z
π θ |x =
1
. . . π θ1 , . . . , θn |x dθ2 . . . dθn
Méthodes des rectangles, trapèzes, Simpson, etc

Les méthodes de Monte Carlo ont permis d’élargir le champs
d’application des méthode bayésiennes en sortant du cadre des lois
conjuguées simples (explicites)

Méthodes de Monte Carlo
De manière générale on cherche à approcher la quantité (supposée bien

définie) Z
I = Eg [h(θ)] = h(θ)g(θ)dθ
Θ
g densité de θ et connue.
On note θ1 , θ2 , . . . , θN un échantillon i.i.d. de cette loi g.
Proposition
La quantité
N
1X
ÎN = h (θi )
N
i=1
est un estimateur sans biais et fortement consistant de I

ÎN −→ I en loi et quand N → ∞ (loi forte des grands nombres)

Méthodes de Monte Carlo (cas bayésien)
On cherche à approcher la quantité (supposée bien définie) Eg [h(θ)|x]
On suppose que l’on connait aussi la loi a posteriori π(θ|x) On note
θ1 , θ2 , . . . , θN un échantillon i.i.d. de cette loi g.
Proposition
TCL La quantité
N
1X
ÎN = h (θi )
N
i=1
est un estimateur sans biais et fortement consistant de I

ÎN −→ I en loi et quand N → +∞

Monte Carlo par chaîne de Markov (MCMC)
But : Approcher la loi de θ à l’aide d’une CM de mesure invariante g.

Si
Z1 , . . . , Zn ∼ π(θ|x),
alors on peut prendre comme estimateur de θ

θ̂n := n1 ni=1 Zi (estimateur de Monte-Carlo)
P
θ̂n := mediane (Z1 , . . . , Zn )

θ̂n := argmax hist (Z1 , . . . , Zn )

Monte Carlo par chaîne de Markov (MCMC)
Principe général des algorithmes MCMC : pour produire une approximation
acceptable d’une intégrale ou d’une autre fonctionnelle d’une distribution
d’intérêt (i.e. la loi g posteriori), il suffit de générer
une chaîne de Markov dont la distribution limite est la distribution d’intérêt (i.e.
la loi g posteriori), puis d’y appliquer la méthode de Monte-Carlo.
1 PN
Autrement dit : Zn →L g quand n → ∞, puis N i=1 h (Zi+n ) → E h(X )
quand N → ∞
Il est plus souvent plus facile de simuler
une chaine de Markov de loi invariante f

que
des variables indépendantes de loi f

Généralités sur les chaînes de Markov
STA305slidesM CMC.pdf |
On note X l’espace d’état. Dans la suite X est soit fini, soit infini dénombrable,
soit c’est Rd .
Définition
Une chaîne de Markov (X0 , X1 , . . .) avec Xi ∈ X est une suite de v.a. vérifiant
P (Xi+1 |Xi , . . . , X1 ) = P (Xi+1 |Xi ) = K (Xi+1 , Xi )
La chaîne est dite homogène ssi
P (Xi+1 |Xi , . . . , X1 ) = P (Xi+1 |Xi ) = P (X1 |X0 )

Propriétés sur les chaînes de Markov
Chaine irréductible : toute région d’intérêt de l’espace d’états peut être visitée
transient : nombre moyen de passages est fini
recurrent : garantie de retour
Loi invariante : On dit que la chaine admet une loi invariante s’il existe f telle
que
Si xn ∼ f alors xn+1 ∼ f
Les chaînes construites par les algorithmes MCMC admettent une loi
invariante et elle est unique.

Définition
Une séquence de variables aléatoires (Xi )i∈N est une marche aléatoire si elle
satisfait
Xi+1 = Xi + εi
où (ϵi )i∈N sont des variables i.i.d. Si la distribution des ϵi est symétrique
autour de zéro, on parle de marche aléatoire symétrique
Pn
Sn = k =1 Xk avec S0 = 0, (Xi )i indépendant,
Xk = ±1, avec P (Xk = 1) = p et P (Xk = −1) = 1 − p = q
(f) Marche aléatoire simple

Définition
Une distribution g est dite invariante ou stationnaire par rapport à une chaîne
de Markov si ∀x ∈ R Z
g(x) = f (u)p(u, x)du
On dit alors que la loi de densité g est stationnaire.
p(u, x) = fXn+1 |Xn =u (x)
Interpretation Supposons que pour un certain entier k , l’observation Xk admet

une loi de densité f stationnaire. Alors Xk +1 suit encore une loi de densité f .
Les probabilites invariantes jouent un rôle important dans l’ etude des
comportements asympto-tiques des chaînes de Markov.

Proposition
Sous certaines conditions (vérifiées la plupart du temps) sur le noyau de
transition, πn converge en loi vers la mesure invariante g. De plus on a le
théorème ergodique :
N Z
1X
h (Xi ) → h(x)g(x)dx p.s.
N X
i=1

Remarque
PN R
1
N h (Xi ) est un estimateur fortement consistant de
i=1 X
h(x)g(x)dx
mais pas nécessairement sans biais.
Les Xi sont corrélées, contrairement au cadre classique d’application de
la loi forte des grands nombres.
Les premières v.a. Xi peuvent avoir une loi très éloignée de la loi g, il
peut donc être intéressant de ne pas en tenir compte pour améliorer
l’approximation :
N Z
1 X
h (Xi ) → h(x)g(x)dx p.s.
N − N0 + 1 X
i=N0

Algorithme de Metropolis-Hastings
Supposons que : g(θ) = γ(θ)/Z avec Z : cte de normalisation
Objectif : Trouver une chaîne de Markov qui admette g comme mesure

invariante mais Z n’apparaît pas dans le noyau de transition.
=⇒ Supposons un noyau de Markov (densité symétrique) q(θ′ |θ)
Algorithme
On définie une valeur initiale θ0 ,
Pour i = 1, . . . , N
1 On propose (génère) une nouvelle valeur θ∗ ∼ q(·|θi−1 ) (loi de proposition)
Supposons que X1 ; . . . ; Xi ont été générées. On génère Xi+1 comme suit
2 On calcule le taux d’acceptation
g (θ∗ ) q (θi−1 |θ∗ ) f (θ∗ )

!
α (θ∗ , θi−1 ) = min 1, ∗
=
g (θi−1 ) q (θ |θi−1 ) f (θi−1 )
3 Avec probabilité α, on prend θi = θ∗ et avec probabilité 1 − α, θi = θi−1

Remarque : L’agorithme de Metropolis-Hastings génère une chaine de
Markov à densité stationaire g.
Algorithme de Metropolis-Hastings
Algorithme
On définie une valeur initiale θ0 ,
Pour i = 1, . . . , N
1 On propose (génère) une nouvelle valeur θ∗ ∼ q(·|θi−1 ) (loi de proposition)
Supposons que X1 ; . . . ; Xi ont été générées. On génère Xi+1 comme suit
2 On calcule le taux d’acceptation
g (θ∗ ) q (θi−1 |θ∗ ) f (θ∗ )

!
α (θ∗ , θi−1 ) = min 1, ∗
=
g (θi−1 ) q (θ |θi−1 ) f (θi−1 )
3 Avec probabilité α, on prend θi = θ∗ et avec probabilité 1 − α, θi = θi−1

Remarque : L’agorithme de Metropolis-Hastings génère une chaine de
Markov à densité stationaire g.
Proposition
La mesure g vérifie la condition d’équilibre pour le noyau de
Metropolis-Hastings.

Algorithme de Gibbs Lorsque l’on souhaite simuler des lois
multidimensionnelles (bivarié ici) il peut être utile de se ramener à des
simulations uni-dimensionnelles
: c’est le principe de l’échantillonneur de
Gibbs. Soit θ = θ1 , θ2 Comment simuler θ ∼ g?
On suppose
que
l’on sait
échantillonner selon les distributions conditionnelles
g1 θ |θ et g2 θ |θ
1 2 2 1
Algorithme
Soit θ10 , et θ20 ∈ R∀
Supposons (θ11 , θ21 ), . . . , (θ1i , θ2i ) ont été générées. On génère (θ1i+1 , θ2i+1 )
θ1i+1 ∼ g1 (.|θ2i )
θ2i+1 ∼ g2 (.|θ1i )

Régression

Régression

Régression

Régression

Algorithme de Gibbs
Considérons le modèle de régression linéaire suivant

Yi ∼ N µi , σ2 , i = 1, . . . , n,
µi = a + bxi
(prédicteur linéaire pour une valeur avec la covariable xi xi
1 Générer un vecteur y = (y1 , . . . , yn ) suivant le modèle en utilisant :

n = 10, a = 5, b = 2, σ = 2 et avec les covariables xi = i pour tout
i = 1, . . . , n
2 Mener une analyse classique de données de (a). Donner le MV et 95%IC
pour a et b. Aussi, créer un seul graphe qui montre :
▶ les données
▶ la vraie régression E(Y |x) = a + bx
▶ la régression lissée Ê(Y |x) = â + b̂x
▶ deux lignes montrant les 95%IC pour la droite de régression
▶ deux lignes montrant les intervalles de prédiction à 95% pour tout point x

Regression simple et bayésienne avec rjags
Considérons le modèle de régression linéaire suivant

Yi ∼ N µi , σ2 , i = 1, . . . , n,
µi = a + bxi
(prédicteur linéaire pour une valeur avec la covariable xi xi
1 Générer un vecteur y = (y1 , . . . , yn ) suivant le modèle en utilisant :

n = 10, a = 5, b = 2, σ = 2 et avec les covariables xi = i pour tout
i = 1, . . . , n
2 Mener une analyse classique de données de (a). Donner le MV et 95%IC
pour a et b. Aussi, créer un seul graphe qui montre :
▶ les données
▶ la vraie régression E(Y |x) = a + bx
▶ la régression lissée Ê(Y |x) = â + b̂x
▶ deux lignes montrant les 95%IC pour la droite de régression
▶ deux lignes montrant les intervalles de prédiction à 95% pour tout point x

Algorithme de Gibbs
Faire une analyse bayésienne de l’inférence en (b) en utilisant

l’algorithme de Metropolis-Hastings et un échantillon Monte Carlo de
dimension J = 2000.
Utiliser un convenable a priori impropre et non informative pour les 03
paramètres du modèle
Créer un seul graphique montrant toute l’information contenue dans les

graphiques (b) et (c).
Note : L’analyse bayésienne dans (c) peut être fait par l’échantillonneur
de Gibbs.

Algorithme de Gibbs
(k)

Algorithme de Gibbs
(l) TP2

Initiation à rjags
(m) TP2

Initiation à rjags (critère de Gelman-Rubin)
Pour savoir si on a atteint l’ état stationnaire de la chaine MCMC, on peut

calculer l’indice de réduction de la variance de Gelman :
r
variance totale
variance intra − chaines
Si l’indice est de 1, ce qui signifie que les 3 chaînes échantillonnent
suivant la même distribution (a posteriori)
Une chaîne MCMC ne doit pas être auto-corélée (sinon il faut plus
d’itérations). On peut vérifier cela à l’aide de la commande suivante :
autocorr.plot|

References
1. Christian P. Robert & George Casella. Monte Carlo Statistical Methods. Springer, 2004.
2. Christian P. Robert. Le Choix Bayésien - Principes et pratique. Springer, 2006.

Anitché, Barka, Djarama, ...

Statistique Bayesienne VF 2021

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Bayesienne VF 2021

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Statistique Bayésienne

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 1 / 75

1 Introduction aux principes de l’inférence bayésienne.

2 Comment choisir la loi a priori ?

4 Simulation de loi a posteriori

5 Modèles hiérarchiques (optionnel)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 2 / 75

Maitriser les bases de la statistique bayésienne

Connaitre les fondements de la théorie de la décision

Connaitre la modélisation de l’information à priori

Modéliser selon la théorie bayésienne avec R, BUGS, JGAS, etc...

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 3 / 75

Congdon, Peter Applied Bayesian modelling. Wiley Series in Probability

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 4 / 75

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 5 / 75

Considérons quatre problèmes d’inférence statistique.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75

Considérons quatre problèmes d’inférence statistique.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75

Considérons quatre problèmes d’inférence statistique.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75

Considérons quatre problèmes d’inférence statistique.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75

Considérons quatre problèmes d’inférence statistique.

Définition (Probabilité conditionnelle)

P(B) = P(B|A )P(A ) + P(B|A )P(A )

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 7 / 75

P(B|A )P(A ) P(B|A )P(A )

Définition (Probabilité conditionnelle)

P(A ∩ B|C) = P(A |C)P(B|C)

indépendant =⇒ conditionnellement indépendant (faux en général)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 8 / 75

APPROCHE FREQUENTISTE : Estimer θ̂ à partir d’observations

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 9 / 75

APPROCHE FREQUENTISTE : Estimer θ̂ à partir d’observations

Cas continue fθ = Pθ et (Xk )k ≤n à valeurs (xi )i∈I

La valeur de cette fonction au point (θ; x1 ; x2 ; . . . ; xn ) est la vraisemblance

Cas continue fθ = Pθ et (Xk )k ≤n à valeurs (xi )i∈I

La valeur de cette fonction au point (θ; x1 ; x2 ; . . . ; xn ) est la vraisemblance

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 10 / 75

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 11 / 75

θ̂ = arg max L (θ, x)

Dans ces deux exemples on a

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 12 / 75

la loi a posteriori qui actualisée l’information sur le paramètre

Toute la statistique bayésienne repose sur cette loi a posteriori.

Difficultés essentielles : détermination et choix de la loi a priori et calcul

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 13 / 75

Définition (Loi a priori)

Définition (Modèle Bayésien)

De manière analogue, dans le cas discret, on a

Comme le dénominateur ne dépend pas de θ, on l’interprète souvent

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 15 / 75

As in previously, suppose that Die A has probability 0.1 of coming up 6,

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 16 / 75

Elle ne dépend que de X et de la loi a priori et donc pas de θ.

Cette quantité f (X |θ)π(θ) est le produit de la vraisemblance, et de la

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 17 / 75

Résultat de l’inférence beaucoup plus informatif que dans le cas fréquentiste

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 18 / 75

▶ La médiane de π(θ|X = (x1 , . . . , xn ))

▶ L’estimateur du maximum a posteriori (MAP) sans fonction de perte : La

θ̂n = arg max π(θ|X = (x1 , . . . , xn ))