Vous êtes sur la page 1sur 81

Cours de Statistique Bayésienne

M atthieu Somé1

December 7, 2022

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 1 / 75


Plan

1 Introduction aux principes de l’inférence bayésienne.

2 Comment choisir la loi a priori ?

3 Estimation

4 Simulation de loi a posteriori

5 Modèles hiérarchiques (optionnel)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 2 / 75


Objectifs

Maitriser les bases de la statistique bayésienne

Connaitre les fondements de la théorie de la décision

Connaitre la modélisation de l’information à priori

Modéliser selon la théorie bayésienne avec R, BUGS, JGAS, etc...

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 3 / 75


Quelques références

Congdon, Peter Applied Bayesian modelling. Wiley Series in Probability


and Statistics.
Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin.
”Bayesian Data Analysis”Chapman and Hall Texts in Statistical Science
Series.
Robert (2001) The Bayesian Choice : from Decision-Theoretic
Motivations to Computational Implementation Springer-Verlag, New York
Robert C. & G. Casella (1999) Monte Carlo Statistical Methods
Springer-Verlag, New York.
Robert C. (1992) L’Analyse Statistique Bayésienne. Economica, Paris
Robert C. (1996) Méthodes de Monte-Carlo par chaînes de Markov,
Economica, Paris

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 4 / 75


Introduction aux principes de
l’inférence bayésienne

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 5 / 75


Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

Considérons quatre problèmes d’inférence statistique.


1 Une machine à sous (i.e. ludic lydia, autre?) disposant d’un bouton
donne 100 XOF avec une probabilité θ et 0 XOF sinon. On cherche à
estimer cette probabilité.
2 Pour une étude de marché, on cherche à estimer la moyenne du prix de
vente d’un produit.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75


Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

Considérons quatre problèmes d’inférence statistique.


1 Une machine à sous (i.e. ludic lydia, autre?) disposant d’un bouton
donne 100 XOF avec une probabilité θ et 0 XOF sinon. On cherche à
estimer cette probabilité.
2 Pour une étude de marché, on cherche à estimer la moyenne du prix de
vente d’un produit.
3 Un informateur nous préviens que 30% des machines à sous ont une
probabilité θ1 de donner 100 XOF, le reste a une probabilité θ2 . On
cherche à savoir à quelle type appartient cette machine.
4 Une société de conseil nous propose de faire l’étude du prix de vente.
Pour un produit, on fait une étude parallèle pour étudier si l’information
qu’elle propose est fiable.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75


Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

Considérons quatre problèmes d’inférence statistique.


1 Une machine à sous (i.e. ludic lydia, autre?) disposant d’un bouton
donne 100 XOF avec une probabilité θ et 0 XOF sinon. On cherche à
estimer cette probabilité.
2 Pour une étude de marché, on cherche à estimer la moyenne du prix de
vente d’un produit.
3 Un informateur nous préviens que 30% des machines à sous ont une
probabilité θ1 de donner 100 XOF, le reste a une probabilité θ2 . On
cherche à savoir à quelle type appartient cette machine.
4 Une société de conseil nous propose de faire l’étude du prix de vente.
Pour un produit, on fait une étude parallèle pour étudier si l’information
qu’elle propose est fiable.
?¿ Estimer à partir d’observations un paramètre décrivant la distribution
de probabilité.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75


Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

Considérons quatre problèmes d’inférence statistique.


1 Une machine à sous (i.e. ludic lydia, autre?) disposant d’un bouton
donne 100 XOF avec une probabilité θ et 0 XOF sinon. On cherche à
estimer cette probabilité.
2 Pour une étude de marché, on cherche à estimer la moyenne du prix de
vente d’un produit.
3 Un informateur nous préviens que 30% des machines à sous ont une
probabilité θ1 de donner 100 XOF, le reste a une probabilité θ2 . On
cherche à savoir à quelle type appartient cette machine.
4 Une société de conseil nous propose de faire l’étude du prix de vente.
Pour un produit, on fait une étude parallèle pour étudier si l’information
qu’elle propose est fiable.
?¿ Estimer à partir d’observations un paramètre décrivant la distribution
de probabilité.
Dans 3 et 4, on dispose d’une information supplémentaire sur ce
paramètre.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 6 / 75


Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

Considérons quatre problèmes d’inférence statistique.


1 Une machine à sous (i.e. ludic lydia, autre?) disposant d’un bouton
donne 100 XOF avec une probabilité θ et 0 XOF sinon. On cherche à
estimer cette probabilité.
2 Pour une étude de marché, on cherche à estimer la moyenne du prix de
vente d’un produit.
3 Un informateur nous préviens que 30% des machines à sous ont une
probabilité θ1 de donner 100 XOF, le reste a une probabilité θ2 . On
cherche à savoir à quelle type appartient cette machine.
4 Une société de conseil nous propose de faire l’étude du prix de vente.
Pour un produit, on fait une étude parallèle pour étudier si l’information
qu’elle propose est fiable.
?¿ Estimer à partir d’observations un paramètre décrivant la distribution
de probabilité.
Dans 3 et 4, on dispose d’une information supplémentaire sur ce
paramètre.
Ce cours est destiné à donner un cadre précis pour l’utilisation de cette
information a M
priori dans un problème
atthieu SOMÉ, UTS - MIME-MISE
d’inférence.
Cours de Statistique bayésienne 6 / 75
Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

Définition (Probabilité conditionnelle)


Soit A et B deux évènements tels que P(B) > 0, alors

P(A ∩ B)
P(A |B) :=
P(B)

[Probabilités totales]
Soit A et B deux évènements tels que P(B) > 0, alors

P(B) = P(B|A )P(A ) + P(B|A )P(A )

demo :

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 7 / 75


Théorème (Bayes)
Soit A et B deux évènements tels que P(B) , 0

P(B|A )P(A ) P(B|A )P(A )


P(A |B) = =
P(B) P(B|A )P(A ) + P(B|A )P(A )

Demo :

Définition (Probabilité conditionnelle)


Soit A, B, C des évènements tels que P(C) , 0, alors A est indépendant de B
conditionnellement à C si

P(A ∩ B|C) = P(A |C)P(B|C)

indépendant =⇒ conditionnellement indépendant (faux en général)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 8 / 75


Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

APPROCHE FREQUENTISTE : Estimer θ̂ à partir d’observations


(x1 , . . . , xn )
Modèle statistique X = (X1 , . . . , Xn ) des v.a. discrètes/continues ∈ Rd et
de loi inconnu θ ∈ Θ ⊆ Rd
=⇒ Quelles méthodes d’estimations de paramétres ??

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 9 / 75


Intro Intro
Choix de l’a priori Rappels de probabilités
Méthodes numériques Rappels sur l’approche fréquentiste

APPROCHE FREQUENTISTE : Estimer θ̂ à partir d’observations


(x1 , . . . , xn )
Modèle statistique X = (X1 , . . . , Xn ) des v.a. discrètes/continues ∈ Rd et
de loi inconnu θ ∈ Θ ⊆ Rd
=⇒ Quelles méthodes d’estimations de paramétres ??

Définition
Si (Xk )k ≤n sont des variables continues iid dont la loi est une densité fθ
dépendant d’un paramètre θ, on appelle fonction de vraisemblance la fonction
L définie par
n
Y
L (θ, x1 , x2 , · · · , xn ) = Pθ (Xi = xs )
k =1

Cas continue fθ = Pθ et (Xk )k ≤n à valeurs (xi )i∈I

La valeur de cette fonction au point (θ; x1 ; x2 ; . . . ; xn ) est la vraisemblance


de l’échantillon (x1 ; x2 ; . . . ; xn ) pour le paramètre θ.
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 9 / 75
Définition
Si (Xk )k ≤n sont des variables continues iid dont la loi est une densité fθ
dépendant d’un paramètre θ, on appelle fonction de vraisemblance la fonction
L définie par
n
Y
L (θ, x1 , x2 , · · · , xn ) = Pθ (Xi = xs )
k =1

Cas continue fθ = Pθ et (Xk )k ≤n à valeurs (xi )i∈I

La valeur de cette fonction au point (θ; x1 ; x2 ; . . . ; xn ) est la vraisemblance


de l’échantillon (x1 ; x2 ; . . . ; xn ) pour le paramètre θ.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 10 / 75


 
Exemple 1 : On considère n va (Xi )i≤n suivant N θ, σ2 où θ ∈ R et σ2
est supposé connu et fixé. On note g la densité de la loi jointe :
n
Y 1 1 2
e − 2σ2 i −θ) = L (θ, x1 , · · · , xn )
(x
g(x) = fθ (x1 , · · · , xn ) = √
i=1 2πσ

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 11 / 75


Exemple 2 : On considère n va (Xi )i≤n suivant une loi de Bernouilli de
paramètre θ, θ ∈ [0, 1], B(θ)
n
Y
L (θ, x1 , x2 , . . . , xn ) = P (Xs = xi |θ) = θs (1 − θ)n−s
i=1
Pn
où s = i=1 xi . Plusieurs méthodes d’estimation repose sur la technique
du maximum de vraissemblance

θ̂ = arg max L (θ, x)


θ∈Θ

Dans ces deux exemples on a


n
1X
θ̂ = xi
n
i=1

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 12 / 75


Objectif analyse statistique bayésienne : déterminer la loi du paramètre
conditionnellement à l’observation en utilisant la loi a priori et de
l’observation effectuée OU

la loi a posteriori qui actualisée l’information sur le paramètre

(a)

Toute la statistique bayésienne repose sur cette loi a posteriori.

Difficultés essentielles : détermination et choix de la loi a priori et calcul


explicite de la loi a posteriori.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 13 / 75


Paradigme Bayésien

Définition (Loi a priori)


Soit une famille de densités de probabilité à paramètre dans Θ. Une loi a
priori π est une loi de probabilité (ou densité de probabilité) sur Θ

Définition
Ainsi la loi jointe des observations de X = (X1 , . . . , Xn ) est conditionnelle à θ
et est notée f (x|θ) = f (x1 , · · · , xn |θ) dans le cas continu et
P(X = x|θ) = P (X1 = x1 , · · · , Xn = xn |θ) dans le cas discret. Dans le cas
continu, f (x|θ) est la densité jointe de la v.a. X

Définition (Modèle Bayésien)


Un modèle bayésien est la donnée, pour une v.a. (ou une suite de v.a.)
d’une loi conditionnelle et d’une loi a priori :

X ∼ f (X |θ)
θ∼π
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 14 / 75
Paradigme Bayésien

Définition
La loi de X et la loi a priori π sur θ sont continues. Alors, on peut exprimer la
loi a posteriori de la manière suivante :

f (X |θ)π(θ)
π(θ|X ) = R
u∈Θ
f (X |u)π(u)du

De manière analogue, dans le cas discret, on a

P(X = x|θ = θi )P (θ = θi )
P (θ = θi |X = x) =
P(X = x)
P(X = x|θ = θs )P (θ = θs )
=P
k P(X = x|θ = θk )P (θ = θk )

Comme le dénominateur ne dépend pas de θ, on l’interprète souvent


comme une constante de normalisation.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 15 / 75


Exercices (en anglais)

Consider six loaded dice with the following properties. Die A has
probability 0.1 of coming up 6, each of Dice B and C has probability 0.2 of
coming up 6, and each of Dice D, E and F has probability 0.3 of coming
up 6. A die is chosen randomly from the six dice and rolled twice. On
both occasions, 6 comes up. What is the posterior probability distribution
of θ , the probability of 6 coming up on the chosen die.

As in previously, suppose that Die A has probability 0.1 of coming up 6,


each of Dice B and C has probability 0.2 of coming up 6, and each of
Dice D, E and F has probability 0.3 of coming up 6. A die is chosen
randomly from the six dice and rolled twice. On both occasions, 6 comes
up. Using the proportionality formula, find the posterior probability
distribution of θ, the probability of 6 coming up on the chosen die.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 16 / 75


Paradigme Bayésien

Définition
On appelle la loi marginale la loi définie par :
Z
mπ (X ) = f (X |u)π(u)du
u∈Θ

Elle ne dépend que de X et de la loi a priori et donc pas de θ.

Cette quantité f (X |θ)π(θ) est le produit de la vraisemblance, et de la


densité a priori. La loi a posteriori peut donc s’interpréter comme une
mise à jour de la loi a priori à l’aide des données. C’est l’opération de
conditionnement qui permet cette mise à jour.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 17 / 75


Si on cherche par exemple le maximum de cette loi a posteriori, le calcul
de la loi marginale est inutile. Ainsi, on note

π(θ|X ) ∝ f (X |θ)π(θ)

Remarque
▶ Le calcul d’une loi a posteriori mène à une loi.

Résultat de l’inférence beaucoup plus informatif que dans le cas fréquentiste


(on a accès beaucoup plus facilement à des intervalles de confiances pour une
estimation de θ (en prenant par ex. le maximum de la loi a posteriori)
▶ En pratique, on calcule la loi a posteriori empirique. Dans le cas continu pour X,
on considère une réalisation x1 , x2 , . . . , xn de X , on a :
f (x1 , . . . , xn |θ) π(θ)
π(θ|X = (x1 , . . . , xn )) = R
u∈Θ
f (X |u)π(u)du

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 18 / 75


Estimateur de Bayes
▶ La moyenne de la loi a posteriori π(θ|X = (x1 , . . . , xn ))
Z
E(θ|X ) = θπ(θ|X = (x1 , . . . , xn ))dθ

▶ La médiane de π(θ|X = (x1 , . . . , xn ))


Z m(X )
1
= π(θ|X = (x1 , . . . , xn ))dθ
2 −∞

▶ L’estimateur du maximum a posteriori (MAP) sans fonction de perte : La


valeur de θ qui maximise la densité de la loi a posteriori

θ̂n = arg max π(θ|X = (x1 , . . . , xn ))

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 19 / 75


Performance des procédures d’estimation(1/3)

Elle repose sur la fonction coût

Fonction coût
L :Θ × Θ → R
(θ, θ̂) → L (θ, θ̂)

où L mesure l’erreur/la pénalité résultant de l’emploi de la décision θ pour


estimer θ̂
Procédure θ est appelé estimateur (alors que la valeur θ(x) est une
estimation de θ̂)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 20 / 75


F onctions de perte usuelles
Fonction de perte L : (Θ × Θ′ ) → R+

Exemples
Perte quadratique L(θ, θ′ ) = (θ − θ′ )2 ou L (θ, θ′ ) = ∥θ − θ′ ∥2 ,

perte absolue L(θ, θ′ ) = |θ − θ′ |,

perte 0 − 1 pour les tests d’hypothèses, . . ..

(b)
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 21 / 75
Performance des procédures d’estimation(1/3)

Risque (fréquentiste) "coût moyen" pour un estimateur θ donné:

Principe
Sélection du meilleur estimateur en tenant compte de la fonction coût L .
  Z
R(θ) = Eθ L [θ̂, θ]|θ = L (θ̂(x), θ)f (x|θ)dx
X

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 22 / 75


Performance des procédures d’estimation (2/3)

Risque (fréquentiste) "coût moyen" pour un estimateur θ donné:

Principe
Sélection du meilleur estimateur en tenant compte de la fonction coût L .
  Z
R(θ) = Eθ L [θ̂, θ]|θ = L (θ̂(x), θ)f (x|θ)dx
X

Risque a posteriori :

Intégrer sur l’espace Θ pour avoir la perte a posteriori

ρ(x) = Eπ [L [θ̂, θ]|x]


Z
= L (θ̂(x), θ)π(θ|x)dθ
Θ

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 23 / 75


Risques bayesien(1/3)

Risque bayésien à partir de la fonction de risque

Principe

     Z
r(π, θ̂) = E L [θ̂, θ] = E Eθ L [θ̂, θ]|θ = E (R(θ)) = R(θ)π(θ)dθ
Θ

Risque bayésien à partir de l’a posteriori :

n o n  o Z
r(π, θ̂) = E L [θ̂, θ] = E Eθ L [θ̂, θ]|x = E (ρ(x)) = ρ(x)f (x)dx
X

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 24 / 75


Performance des procédures d’estimation (3/3)

Etant donné
la loi des observations X ∼ f (x|θ)
la loi a priori π
Une fonction de coût

Procedure Bayes optimal


Un estimateur de Bayes associé à l’a priori π et de fonction de perte L est

δπ (x) = arg min r(π, δ)


δ

π)
La valeur r(π) = r (π, δ est le risque Bayésien Existence? unicité? Admissibilté? Minimaxité?

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 25 / 75


Admissibilité
Fréquentiste

Définition (Estimateur admissible)


Un estimateur δ0 est inadmissible s’il existe un estimateur δ1 tel que, ∀θ,

R (θ, δ0 ) ≥ R (θ, δ1 )

et, pour au moins un θ0 ,

R (θ0 , δ0 ) > R (θ0 , δ1 )

Dans le cas contraire, δ0 est admissible

Bayésien

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 26 / 75


Admissibilité
Fréquentiste

Définition (Estimateur admissible)


Un estimateur δ0 est inadmissible s’il existe un estimateur δ1 tel que, ∀θ,

R (θ, δ0 ) ≥ R (θ, δ1 )

et, pour au moins un θ0 ,

R (θ0 , δ0 ) > R (θ0 , δ1 )

Dans le cas contraire, δ0 est admissible

Bayésien
* Si π strictement positive sur Θ avec r(π) = Θ R (θ, δπ ) π(θ)dθ < ∞
R

et R (θ, δπ ) continu, alors l’estimateur de Bayes est admissible

* Si l’estimateur de Bayes associé à l’a priori π est unique, alors il est


admissible
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 26 / 75
A posteriori sous perte quadratique

Moyenne a posteriori
L’estimateur de Bayes associé à l’a priori π et avec la fonction de perte
quadratique est l’espérance de l’a posteriori
R
π π
θf (x|θ)π(θ)dθ
δ (x) = E [θ|x] = RΘ
Θ
f (x|θ)π(θ)dθ

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 27 / 75


Exercices sur le risque Bayésien (1/3)

Exercice 1(fonction risque & risque de Bayes) : Considérons un modèle


normal-normal :  
(y1 , . . . , yn |µ) ∼ i.i.d. N µ, σ2
 
µ ∼ N µ0 , σ20
Pour chacun des estimateurs suivants, donner une formule de la fonction
de risque sous perte quadratique

µ̂ = y = 1
n
(y1 + . . . + yn ) (moyenne empirique)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 28 / 75


Exercices sur le risque Bayésien (3/3)

Exercice 2 Considérons un échantillon aléatoire x1 , . . . , xn suivant une loi


Poisson de paramètre λ et dont la densité à priori est une gamma de
paramètres α et β

1 Trouver la fonction risque, le risque Bayésien et le risque a posteriori


pour un estimateur λ̂ = 2x sous la fonction de perte quadratique

2 Sous la perte quadratique, trouver un estimateur de λ avec un risque


bayésien plus petit que en (1).

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 29 / 75


Région de de crédibilité

Pour un niveau de confiance 1 − α (niveau de risque α).


On cherche les intervalles de crédibilité a posteriori en anglais "highest
posterior density region (HPDR)"

Fonctions de perte
π π
n o
Q1−α (x) = θ; π(θ|x) ≥ k1−α (x)

π
k1−α (x) est choisi tel que
Z
π(θ|x)dθ = 1 − α
Q1−α (x)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 30 / 75


TP

(c)

(d)
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 31 / 75
Exercice on HPDR

We have a bent coin, for which θ, the probability of heads coming up, is
unknown. Our prior beliefs regarding θ may be described by a standard
uniform distribution. Thus no value of θ is deemed more or less likely than any
other. We toss the coin n = 5 times (independently), and heads come up
every time. Find the posterior mean, mode and median of θ. Also find the
80HPDR for θ.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 32 / 75


TP

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 33 / 75


Comment choisir la loi a priori

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 34 / 75


Intro
Choix de l’a priori Choix de l’a priori
Méthodes numériques

Comment choisir la loi a priori

Différents choix motivés par différents points de vue :


Choix basé sur des expériences du passé ou sur une intuition du
statisticien.
Choix basé sur la faisabilité des calculs.
Choix basé sur la volonté de n’apporter aucune information nouvelle
pouvant biaiser l’estimation.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 35 / 75


Loi subjectives (paramétrique)
Utilisation des données antérieures (p.e.x. raisonnement sur expertise des spécialistes). Pour plusieurs
experts, il peut être utile de pondérer leurs réponses et d’utiliser des modèles hiérarchiques.
Approche partiellement informative

Définition (Notions de lois conjuguées)


Une famille F de distributions sur Θ est dite conjuguée pour la loi f (x|Θ) si pour tout π ∈ F ; la distribution a
posteriori π(·|x) appartient également à F .

Avantages : simplification des calculs


Quelques exemples de lois conjuguées

f (x|θ) π(θ) π(θ|x)


σ2 µ+τ2 z
 
2 2
, σ2 τ 2
   
N θ, σ2 N µ, τ2 N
σ2 +τ2 σ +τ
P(θ) Ga(α, β) Ga(α + x, β + 1)
Ga(ν, θ) Ga(α, β) Ga(α + ν, β + x)
B(n, θ) Be(α, β)  + x, β + n − x) 
Be(α
(µ−x)2
 
N µ, θ1 Ga(α, β) Ga α + 12 , β + 2

Table:

Une loi conjuguée peut être déterminée en considérant la forme de la vraisemblance f (x|θ) et en
prenant une loi a priori de la même forme que cette dernière vue comme une fonction du paramètre.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 36 / 75


Exemple
on considère une loi Pareto de paramètres (α, a) :

θa θ
f (x|θ, a) = χ[a,+∞] (x)
x θ+1
Supposons a connu, f (x|θ) ∝ θe θ log(a/x) x −1 χ[a,+∞ [(x). On pourrait donc
prendre une loi a priori de type Gamma.

Exemple
Trouver l’a posteriori de p sachant X , quand p ∼ U ([0, 1]) et X ∼ B(n, p)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 37 / 75


Cas du modèle exponentiel

Définition
On appelle famille exponentielle à s paramètres, toute famille de loi de
distribution {Pθ } dont la densité a la forme suivante :
 
X s 
f (x|θ) = exp  ηj (θ)Tj (x) − B(θ) h(x) = exp(⟨η(θ), T (x)⟩ − B(θ))h(x)
 
 
j=1

où ηj (·) et B(·) sont des fonctions du paramètre θ et les Ti (·) sont des
statistiques. Le vecteur η(θ) est appellé paramètre naturel de la famille

Exercice?? : La plupart des lois classiques (Bernoulli, Poisson, binomiale


(avec n fixé), exponentielle, . . .) forment des familles exponentielles. Par
contre, les lois dont le support dépend de θ ne forment jamais des familles
exponentielles.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 38 / 75


Cas du modèle exponentiel

Proposition
Soit f (x, θ) appartenant à une famille exponentielle canonique. Alors une
famille de loi a priori conjuguée pour f (x, θ) est donnée par :

π(θ) = K (µ, λ) exp(⟨θ, µ⟩ − λA (θ))

où (µ, λ) sont des paramètres (µ de dimension s et λ de dimension 1) et


K (µ, λ) est une constante de renormalisation. Dans ce cas la loi a posteriori
est de la forme :

π(θ|x) ∝ exp(⟨(µ + T (x)), θ) − (λ + 1)A (θ))

Preuve:

π(θ|x) ∝ f (x|θ)π(θ)
∝ exp(⟨θ, T (x)⟩ − A (θ)) exp(⟨θ, µ⟩ − λA (θ))
∝ exp(⟨(µ + T (x)), θ⟩ − (λ + 1)A (θ))

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 39 / 75


Loi a priori non informative (1/2)

Dans le cas où on dispose que de peu d’informations sur θ, on peut choisir


des loi a priori dites peu ou non informatives. On souhaite que l’a priori
intervienne de façon minimale dans la loi a posteriori , i.e. que les données
parlent d’elles même.

Une loi non informative est une loi qui porte une information sur le paramètre
à estimer dont le poids dans l’inférence est réduit. Lois invariantes

Lois invariantes par translation

π(θ) = π (θ + θ0 ) pour tout θ0 ∈ Θ


Lois invariantes par changement d’échelle

π(σ) = απ(ασ) pour tout α > 0

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 40 / 75


Loi a priori non informative (2/2)
Loi a priori de Jeffreys :
Définition
La loi a priori de Jeffreys est donnée par
p
π(θ) ∝ I(θ)

où I(·) est l’information de Fisher donné par

∂ 2 #
∂2
" " #
I(θ) = E log f (X |θ) |θ où I(θ) = −E log f (X |θ)|θ

∂θ ∂θ2

sous certaines conditions de régularité

Deux intérêts principaux pour la loi a priori de Jeffreys :


I(θ) : indicateur de la quantité d’information apportée par le modèle f (x|θ)
La loi de Jeffreys est invariante par reparamétrisation.
cette méthode conduit souvent à des lois impropres
c’est une méthode pour construire des loi donnant un poids plus
important aux valeurs θ ou l’information de Fisher I(θ) (quantité d’info.
sur θ apportéMpar x)SOMÉ,
atthieu estUTSgrande.
- MIME-MISE Cours de Statistique bayésienne 41 / 75
T D (1/2)

Modèle normal-normal
Trouver l’a priori de Jeffreys pour µ si (X1 , . . . , Xn |µ) ∼ i.i.d. N(µ, σ2 ) où σ est
connu

Modèle normal-gamma
Trouver l’a priori de Jeffreys pour λ si (X1 , . . . , Xn |λ) ∼ i.i.d. N(µ, 1/λ) où µ est
connu

Modèle beta-binomial
Trouver l’a priori de Jeffreys pour θ si (X |θ) ∼ Bin(n, θ) où n est connu

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 42 / 75


T D (2/2)

On considère la loi binomiale négative de paramètres (n; p) dont on rappelle


la définition :

n−1
P(X = x|p) = Cn+x−1 p x (1 − p)n , 0 < p < 1, x∈N

1 Calculer E(X ), l’espérance mathématique de X .

2 On suppose n fixé. En utilisant la règle de Jeffreys, construire une loi a


priori non informative pour p.

3 Soit (x1 , x2 , . . . , xN ) un N-échantillon de la loi binomiale négative de


paramètres (n, p). Calculer la loi a posteriori de p pour la loi a priori
obtenue ci-dessus.

4 Donner l’estimateur de Bayes de p pour un coût quadratique.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 43 / 75


Modèle bayésien avec plusieurs paramètres (1/2)
Trouver l’a posteriori
π(θ|y) ∝ π(θ)π(y|θ)
ou encore
π (θ1 , θ2 |y) ∝ π (θ1 , θ2 ) π (y|θ1 , θ2 )
avec π(θ) = π(θ1 , θ2 )

Réécriture de l’a priori


π(θ) = π(θ1 , θ2 ) = π(θ1 )π(θ2 |θ1 )

Marginales a posteriori
Z
π1 (θ1 |x) = π (θ1 , θ2 |x) dθ2
Z
π2 (θ2 |x) = π (θ1 , θ2 |x) dθ1

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 44 / 75


Modèle bayésien avec plusieurs paramètres (2/2)

Suppose that five heads have come up on an unknown number of tosses of a


bent coin. Before the experiment, we believed the coin was going to be tossed
a number of times equal to 1, 2, 3, ..., or 9, with all possibilities equally likely.
As regards the probability of heads coming up on a single toss, we deemed
no value more or less likely than any other value. We also considered the
probability of heads as unrelated to the number of tosses.
Find the marginal posterior distribution and mean of the number of tosses and
of the probability of heads, respectively. Also find the number of heads we
could expect to come up if the coin were to be tossed again the same number
of times.
Indications : Consider this hierarchical model
(y|θ, n) ∼ Binomial(n, θ)
(θ|n) ∼ U(0, 1)
n ∼ DU(1, . . . , k ), k = 9 (i.e. f (n) = 1/9, n = 1, . . . , 9).

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 45 / 75


Etude de sensibilité de la loi a priori

Le choix de la priori comporte de l’arbitraire à deux niveaux


option
Choix famille de probabilités
optiion
choix des valeurs numériques communiquées par l’Expert pour
déterminer les hyperparamètres de la loi a priori.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 46 / 75


Méthodes numériques

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 47 / 75


Intro
Choix de l’a priori Méthodes numériques
Méthodes numériques

Méthodes numériques

Soit E l’espace des observations et Θ l’espace des paramètres, un sous


ensemble de Rp .
modèle f (x|θ)
loi a priori π(θ)
loi a posteriori π(θ|x) ∝ f (x|θ)π(θ)

En particulier on a
f (x|θ)π(θ)
π(θ|x) =
Z(x)
avec la constante de normalisation
Z
Z(x) = f (x|θ)π(θ)dθ
Θ

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 48 / 75


Méthodes numériques
Calcul d’intégrale fastidieux surtout si Θ de dimension grande. On retrouve
Inférence : la moyenne a posteriori est donnée par
Z
E[θ|x] = θπ(θ|x)dθ
Θ

Région de confiance :
Z
P(θ ∈ S|x) = π(θ|x)dθ
S

Densités a posteriori marginales


  Z Z  
π θ |x =
1
. . . π θ1 , . . . , θn |x dθ2 . . . dθn

Méthodes des rectangles, trapèzes, Simpson, etc


Les méthodes de Monte Carlo ont permis d’élargir le champs
d’application des méthode bayésiennes en sortant du cadre des lois
conjuguées simples (explicites)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 49 / 75


Méthodes de Monte Carlo

De manière générale on cherche à approcher la quantité (supposée bien


définie) Z
I = Eg [h(θ)] = h(θ)g(θ)dθ
Θ

g densité de θ et connue.
On note θ1 , θ2 , . . . , θN un échantillon i.i.d. de cette loi g.

Proposition
La quantité
N
1X
ÎN = h (θi )
N
i=1

est un estimateur sans biais et fortement consistant de I


ÎN −→ I en loi et quand N → ∞ (loi forte des grands nombres)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 50 / 75


Méthodes de Monte Carlo (cas bayésien)

On cherche à approcher la quantité (supposée bien définie) Eg [h(θ)|x]

On suppose que l’on connait aussi la loi a posteriori π(θ|x) On note

θ1 , θ2 , . . . , θN un échantillon i.i.d. de cette loi g.

Proposition
TCL La quantité
N
1X
ÎN = h (θi )
N
i=1

est un estimateur sans biais et fortement consistant de I


ÎN −→ I en loi et quand N → +∞

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 51 / 75


Monte Carlo par chaîne de Markov (MCMC)

But : Approcher la loi de θ à l’aide d’une CM de mesure invariante g.


Si

Z1 , . . . , Zn ∼ π(θ|x),

alors on peut prendre comme estimateur de θ


θ̂n := n1 ni=1 Zi (estimateur de Monte-Carlo)
P

θ̂n := mediane (Z1 , . . . , Zn )


θ̂n := argmax hist (Z1 , . . . , Zn )

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 52 / 75


Monte Carlo par chaîne de Markov (MCMC)
Principe général des algorithmes MCMC : pour produire une approximation
acceptable d’une intégrale ou d’une autre fonctionnelle d’une distribution
d’intérêt (i.e. la loi g posteriori), il suffit de générer
une chaîne de Markov dont la distribution limite est la distribution d’intérêt (i.e.
la loi g posteriori), puis d’y appliquer la méthode de Monte-Carlo.

1 PN 
Autrement dit : Zn →L g quand n → ∞, puis N i=1 h (Zi+n ) → E h(X )
quand N → ∞

Il est plus souvent plus facile de simuler

une chaine de Markov de loi invariante f


que

des variables indépendantes de loi f

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 53 / 75


Généralités sur les chaînes de Markov
STA305slidesM CMC.pdf |

On note X l’espace d’état. Dans la suite X est soit fini, soit infini dénombrable,
soit c’est Rd .
Définition
Une chaîne de Markov (X0 , X1 , . . .) avec Xi ∈ X est une suite de v.a. vérifiant

P (Xi+1 |Xi , . . . , X1 ) = P (Xi+1 |Xi ) = K (Xi+1 , Xi )

La chaîne est dite homogène ssi

P (Xi+1 |Xi , . . . , X1 ) = P (Xi+1 |Xi ) = P (X1 |X0 )

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 54 / 75


Propriétés sur les chaînes de Markov

Chaine irréductible : toute région d’intérêt de l’espace d’états peut être visitée
transient : nombre moyen de passages est fini
recurrent : garantie de retour

Loi invariante : On dit que la chaine admet une loi invariante s’il existe f telle
que
Si xn ∼ f alors xn+1 ∼ f

Les chaînes construites par les algorithmes MCMC admettent une loi
invariante et elle est unique.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 55 / 75


Généralités sur les chaînes de Markov

Définition
Une séquence de variables aléatoires (Xi )i∈N est une marche aléatoire si elle
satisfait
Xi+1 = Xi + εi
où (ϵi )i∈N sont des variables i.i.d. Si la distribution des ϵi est symétrique
autour de zéro, on parle de marche aléatoire symétrique

Pn
Sn = k =1 Xk avec S0 = 0, (Xi )i indépendant,
Xk = ±1, avec P (Xk = 1) = p et P (Xk = −1) = 1 − p = q

(f) Marche aléatoire simple

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 56 / 75


Généralités sur les chaînes de Markov

Définition
Une distribution g est dite invariante ou stationnaire par rapport à une chaîne
de Markov si ∀x ∈ R Z
g(x) = f (u)p(u, x)du

On dit alors que la loi de densité g est stationnaire.

p(u, x) = fXn+1 |Xn =u (x)

Interpretation Supposons que pour un certain entier k , l’observation Xk admet


une loi de densité f stationnaire. Alors Xk +1 suit encore une loi de densité f .
Les probabilites invariantes jouent un rôle important dans l’ etude des

comportements asympto-tiques des chaînes de Markov.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 57 / 75


Généralités sur les chaînes de Markov

Proposition
Sous certaines conditions (vérifiées la plupart du temps) sur le noyau de
transition, πn converge en loi vers la mesure invariante g. De plus on a le
théorème ergodique :
N Z
1X
h (Xi ) → h(x)g(x)dx p.s.
N X
i=1

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 58 / 75


Généralités sur les chaînes de Markov

Remarque
PN R
1
N h (Xi ) est un estimateur fortement consistant de
i=1 X
h(x)g(x)dx
mais pas nécessairement sans biais.
Les Xi sont corrélées, contrairement au cadre classique d’application de
la loi forte des grands nombres.
Les premières v.a. Xi peuvent avoir une loi très éloignée de la loi g, il
peut donc être intéressant de ne pas en tenir compte pour améliorer
l’approximation :
N Z
1 X
h (Xi ) → h(x)g(x)dx p.s.
N − N0 + 1 X
i=N0

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 59 / 75


Algorithme de Metropolis-Hastings
Supposons que : g(θ) = γ(θ)/Z avec Z : cte de normalisation

Objectif : Trouver une chaîne de Markov qui admette g comme mesure


invariante mais Z n’apparaît pas dans le noyau de transition.
=⇒ Supposons un noyau de Markov (densité symétrique) q(θ′ |θ)

Algorithme
On définie une valeur initiale θ0 ,
Pour i = 1, . . . , N
1 On propose (génère) une nouvelle valeur θ∗ ∼ q(·|θi−1 ) (loi de proposition)
Supposons que X1 ; . . . ; Xi ont été générées. On génère Xi+1 comme suit
2 On calcule le taux d’acceptation

g (θ∗ ) q (θi−1 |θ∗ ) f (θ∗ )


!
α (θ∗ , θi−1 ) = min 1, ∗
=
g (θi−1 ) q (θ |θi−1 ) f (θi−1 )

3 Avec probabilité α, on prend θi = θ∗ et avec probabilité 1 − α, θi = θi−1


Remarque : L’agorithme de Metropolis-Hastings génère une chaine de
Markov à densité stationaire g.
M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 60 / 75
Algorithme de Metropolis-Hastings
Algorithme
On définie une valeur initiale θ0 ,
Pour i = 1, . . . , N
1 On propose (génère) une nouvelle valeur θ∗ ∼ q(·|θi−1 ) (loi de proposition)
Supposons que X1 ; . . . ; Xi ont été générées. On génère Xi+1 comme suit
2 On calcule le taux d’acceptation

g (θ∗ ) q (θi−1 |θ∗ ) f (θ∗ )


!
α (θ∗ , θi−1 ) = min 1, ∗
=
g (θi−1 ) q (θ |θi−1 ) f (θi−1 )

3 Avec probabilité α, on prend θi = θ∗ et avec probabilité 1 − α, θi = θi−1


Remarque : L’agorithme de Metropolis-Hastings génère une chaine de
Markov à densité stationaire g.

Proposition
La mesure g vérifie la condition d’équilibre pour le noyau de
Metropolis-Hastings.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 61 / 75


Algorithme de Gibbs Lorsque l’on souhaite simuler des lois
multidimensionnelles (bivarié ici) il peut être utile de se ramener à des
simulations uni-dimensionnelles
  : c’est le principe de l’échantillonneur de
Gibbs. Soit θ = θ1 , θ2 Comment simuler θ ∼ g?

On suppose
 que
 l’on sait
 échantillonner selon les distributions conditionnelles
g1 θ |θ et g2 θ |θ
1 2 2 1

Algorithme
Soit θ10 , et θ20 ∈ R∀
Supposons (θ11 , θ21 ), . . . , (θ1i , θ2i ) ont été générées. On génère (θ1i+1 , θ2i+1 )
θ1i+1 ∼ g1 (.|θ2i )
θ2i+1 ∼ g2 (.|θ1i )

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 62 / 75


Régression

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 63 / 75


Régression

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 64 / 75


Régression

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 65 / 75


Régression

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 66 / 75


Algorithme de Gibbs

Considérons le modèle de régression linéaire suivant


 
Yi ∼ N µi , σ2 , i = 1, . . . , n,
µi = a + bxi
(prédicteur linéaire pour une valeur avec la covariable xi xi

1 Générer un vecteur y = (y1 , . . . , yn ) suivant le modèle en utilisant :


n = 10, a = 5, b = 2, σ = 2 et avec les covariables xi = i pour tout
i = 1, . . . , n
2 Mener une analyse classique de données de (a). Donner le MV et 95%IC
pour a et b. Aussi, créer un seul graphe qui montre :
▶ les données
▶ la vraie régression E(Y |x) = a + bx
▶ la régression lissée Ê(Y |x) = â + b̂x
▶ deux lignes montrant les 95%IC pour la droite de régression
▶ deux lignes montrant les intervalles de prédiction à 95% pour tout point x

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 67 / 75


Regression simple et bayésienne avec rjags

Considérons le modèle de régression linéaire suivant


 
Yi ∼ N µi , σ2 , i = 1, . . . , n,
µi = a + bxi
(prédicteur linéaire pour une valeur avec la covariable xi xi

1 Générer un vecteur y = (y1 , . . . , yn ) suivant le modèle en utilisant :


n = 10, a = 5, b = 2, σ = 2 et avec les covariables xi = i pour tout
i = 1, . . . , n
2 Mener une analyse classique de données de (a). Donner le MV et 95%IC
pour a et b. Aussi, créer un seul graphe qui montre :
▶ les données
▶ la vraie régression E(Y |x) = a + bx
▶ la régression lissée Ê(Y |x) = â + b̂x
▶ deux lignes montrant les 95%IC pour la droite de régression
▶ deux lignes montrant les intervalles de prédiction à 95% pour tout point x

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 68 / 75


Algorithme de Gibbs

Faire une analyse bayésienne de l’inférence en (b) en utilisant


l’algorithme de Metropolis-Hastings et un échantillon Monte Carlo de
dimension J = 2000.
Utiliser un convenable a priori impropre et non informative pour les 03
paramètres du modèle

Créer un seul graphique montrant toute l’information contenue dans les


graphiques (b) et (c).

Note : L’analyse bayésienne dans (c) peut être fait par l’échantillonneur
de Gibbs.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 69 / 75


Algorithme de Gibbs

(k)

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 70 / 75


Algorithme de Gibbs

(l) TP2

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 71 / 75


Initiation à rjags

(m) TP2

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 72 / 75


Initiation à rjags (critère de Gelman-Rubin)

Pour savoir si on a atteint l’ état stationnaire de la chaine MCMC, on peut


calculer l’indice de réduction de la variance de Gelman :
r
variance totale
variance intra − chaines
Si l’indice est de 1, ce qui signifie que les 3 chaînes échantillonnent
suivant la même distribution (a posteriori)
Une chaîne MCMC ne doit pas être auto-corélée (sinon il faut plus
d’itérations). On peut vérifier cela à l’aide de la commande suivante :
autocorr.plot|

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 73 / 75


References

1. Christian P. Robert & George Casella. Monte Carlo Statistical Methods. Springer, 2004.
2. Christian P. Robert. Le Choix Bayésien - Principes et pratique. Springer, 2006.

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 74 / 75


Anitché, Barka, Djarama, ...

M atthieu SOMÉ, UTS - MIME-MISE Cours de Statistique bayésienne 75 / 75

Vous aimerez peut-être aussi