Vous êtes sur la page 1sur 19

plan du cours

1. Modélisation bayésienne
Introduction à la statistique
bayésienne 2. Estimation et prévision bayésienne

3. Construition des lois a priori


Anne Philippe

Université de Nantes, LMJL 2020

Chapitre 1

Modélisation bayésienne
Exemple et
Définitions et exemples rappels sur le calcul des lois conditionnelles
Exemple du billard Approche fréquentiste
On lance une bille qui s’arrête à un point
θ ∈ [0,1] uniformément distribué. X suit une loi binomiale ℬ(N, θ) où θ est un paramètre
inconnu
Question comment déterminer la valeur

(X)
de θ sans effectuer de mesures ?
N X
La vraisemblance s’écrit V(θ, X) = θ (1 − θ)N−X
On repète la même expérience N fois de
façon indépendante et on note X le ̂ X
l’estimateur du MV est égal à θ MV
N =
nombre de fois où elle s’arrête à gauche N
du point d’arrêt
Cet estimateur n’utilise pas la 1er expérience
Comment estimer θ à partir de X ? aléatoire.

Conditionnement
Alternative
Soit (X,Y) un couple de variables aléatoires discrètes.

θ est une v.a. distribuée la loi marginale de Y s’écrit

θ est la loi uniforme sur [0,1]



la loi de P(Y = y) = P(X = x, Y = y)
x
la loi binomiale ℬ(N, θ) est la loi conditionnelle de X
sachant θ La loi conditionnelle de X sachant Y est donnée par la
formule de Bayes :
Quelle est la loi de θ sachant X ?
P(X = x, Y = y)
P(X = x | Y = y) =
P(Y = y)
Conditionnement Formule de BAYES
Soit (X,Y) un couple de variables aléatoires continues.
On note f la densité du couple (X,Y). Soit (X,Y) un couple de variables aléatoires

la loi marginale de Y admet une densité égale à La formule de Bayes est donnée par

∫ ∫B
fY(y) = f(x, y) dx P(X ∈ A | Y = y) fY(y) dy si Y est continue
P(X ∈ A , Y ∈ B) =

La loi conditionnelle de X sachant Y admet une densité P(X ∈ A | Y = y) P(Y = y) si Y est discrète
définie par y∈B

f(x, y) C’est l’outil central pour calculer les lois conditionnelles.


fX|Y(x | y) =
fY(y)

Exemple du billard (cont.) Exemple du billard (cont.)


La loi marginale de X est

( x ) ∫0
1
N
On connait P(X = x) = P(X = x, θ ∈ [0,1]) = ϑ x(1 − ϑ)N−x dϑ
θ ∼ U(0,1) et on note sa densité : π(ϑ) = I[0,1](ϑ)

(x)
N
la loi conditionnelle P(X = x | θ = ϑ) = ϑ x(1 − ϑ)N−x En appliquant la formule de Bayes, on obtient

P(X = x , θ ∈ B)
P(θ ∈ B | X = x) =
Formule de BAYES : P(X = x)
ϑ x(1 − ϑ)N−x
∫B ( x )
N
∫B
P(X = x, θ ∈ B) = P(X = x | θ = ϑ)π(ϑ) dϑ = ϑ x(1 − ϑ)N−x I[0,1](ϑ) dϑ x
∫B ϑ (1 − ϑ) N−x
dϑ π(ϑ | X = x) = 1
= ∫0 ϑ x(1 − ϑ)N−x dϑ
1
∫0 ϑ x(1 − ϑ)N−x dϑ
P(X = x, θ ∈ B) = P(θ ∈ B | X = x)P(X = x) c’est la loi beta de paramètres

∫B
= π(ϑ | X = x)dϑ (x+1 , N-x+1)
expériences numériques
N 5 10 50 100
X 3 5 31 68
MV 0.6 0.5 0.62 0.68

Loi mean
quantile quantile Définition du modèle bayésien
2.5% 97.5 %
(prior) π .50 .O3 .98

N = 5 .57 .22 .88 loi a priori


π( . | X)
N = 1O .50 .24 .77
posteriori
Representation des lois N = 50 .62 .48 .74
conditionnelles de θ sachant .68
N=100 .58 .76
les N observations

Définition :
Modèle paramétrique bayésien
la loi du paramètre θ est appelée « loi a priori »
cette loi est construite à partir des informations disponibles sur le
paramètre θ avant de collecter des données
On considère Pθn( ⋅ ) , θ ∈ Θ une famille de lois indexées
par θ. L'information (dite a priori ) provient

On note X = (X1, . . . , Xn) les observations. d’avis d’expert

On suppose que θ est une VARIABLE ALÉATOIRE de résultats d’experiences précédentes dont les résultats sont
supposé similaires

la loi Pθn( ⋅ ) est interprété comme la loi conditionnelle des propriétés physiques
de X = (X1, . . . , Xn) sachant le paramètre θ
Exemple du billard :
Pθn( ⋅ ) = P n( ⋅ | θ) On sait que θ est la position du point d’arrêt de la première
boule. D’après l’expert ce point est uniformément distribué
Fréquentiste vs Bayésien
X1, . . . , Xn observations X1, . . . , Xn observations

il existe θO ∈ Θ inconnu θ variable aléatoire


Inférence
Pθn0( ⋅ ) est la loi des Pθn( ⋅ ) = P (n)( ⋅ | θ) est la
observations loi conditionnelle des
observations sachant θ loi a posteriori

Inférence

?
P−ps−L p
estimateur ̂ ,...,X )
θ(X θ0
1 n
intervalle de confiance

calcul de la loi a posteriori


Inférence
continue/continue
L’objectif est de mettre à jour la loi a priori sur θ à partir
des observations.
π : densité de la loi a priori
En combinant la loi a priori et la loi des observations sachant
le paramètre θ, on peut calculer f (n)(x1, . . . , xn | θ) : densité la loi de (X1, . . . , Xn) sachant θ

La loi jointe de (X1, . . . , Xn, θ)


La loi jointe : gn(x1, . . . , xn, ϑ) = π(ϑ)f (n)(x1, . . . , xn | ϑ)
La loi marginale de (X1, . . . , Xn) appelée loi prédictive a priori

∫Θ
La loi marginale : mn(x1, . . . , xn,) = π(ϑ)f (n)(x1, . . . , xn | ϑ) dϑ
La loi conditionnelle de θ sachant (X1, . . . , Xn)
Définition :
la loi conditionnelle du paramètre θ sachant les
π(ϑ)f (n)(x1, . . . , xn | ϑ)
La loi a posteriori : π(ϑ | x1, . . . , xn,) =
observations est appelée « loi a posteriori » mn(x1, . . . , xn)
calcul de la loi a posteriori : calcul de la loi a posteriori :
discrète / discrète continue/discrète
Θ = {θ1, . . . , θp} la loi a priori est définie par πi = P(θ = θi) π : densité de la loi a priori

P (n)(X1 = x1, . . . , Xn = xn | θ) : loi de (X1, . . . , Xn) sachant θ la loi de (X1, . . . , Xn) sachant θ est discrète

La loi marginale :
p La loi marginale :

∫Θ
(n) (n)

P (X1 = x1, . . . , Xn = xn) = πi P (X1 = x1, . . . , Xn = xn | θ = θi) Pn(X1 = x1, . . . , Xn = xn) = π(ϑ)P (n)(X1 = x1, . . . , Xn = xn | ϑ) dϑ
1

La loi a posteriori : La loi a posteriori :


π P (n)(X1 = x1, . . . , Xn = xn | θ = θi) π(ϑ)P (n)(X1 = x1, . . . , Xn = xn | ϑ)
P(θ = θi | X1 = x1, . . . , Xn = xn) = i π(ϑ | x1, . . . , xn,) =
P (n)(X1 = x1, . . . , Xn = xn) Pn(X1 = x1, . . . , Xn = xn)
📝

calcul de la loi a posteriori : Remarque


discrète / continue
A partir de la loi a priori et la conditionnelle de X sachant θ on
Θ = {θ1, . . . , θp} la loi a priori est définie par πi = P(θ = θi) connait la loi a posteriori à une constante multiplicative près.

f (n)(x1, . . . , xn | θ) : densité la loi de (X1, . . . , Xn) sachant θ


par exemple si θ est une va continue on a
p
πi f (n)(x1, . . . , xn | θi) π(ϑ | x1, . . . , xn,) ∝ π(ϑ)f (n)(x1, . . . , xn | ϑ)

La loi marginale : mn(x1, . . . , xn) =
1
ou
π(ϑ | x1, . . . , xn,) ∝ π(ϑ)P (n)(X1 = x1, . . . , Xn = xn | ϑ)
πi f (n)(X1, . . . , Xn | θi)
La loi a posteriori : P(θ = θi | X1, . . . , Xn) =
mn(X1, . . . , Xn) Comme on cherche une loi de probabilité, la loi a posteriori est
bien définie à partir des expressions de droite
📝
Estimation bayésienne
=
Chapitre 2
estimation probabiliste

Estimation et prévision a partir du modèle bayésien, on obtient une loi de


probabilité sur le paramètre : la loi a posteriori
bayésienne
cette loi résume l’information provenant des données
X = (X1, . . . , Xn) et de l’information a priori

Loi a priori Observations

Loi a posteriori

intervalle de crédibilité
On fixe α ∈ ]0,1/2[.
on cherche un intervalle [l(X); u(X)] ⊂ Θ tel que

P(θ ∈ [l(X); u(X)] | X) = 1 − α

Estimation par intervalle Interprétation : Ayant observé X,


l’intervalle contient le paramètre θ
avec une probabilité 1−α
crédibilité

exemple :
l(X) = q(α/2,X) et u(X) = q(1 − α/2,X)

où q(α, X) quantile d’ordre α de la loi a posteriori


intervalles de crédibilité défauts des IC
Il n’y a pas unicité des lss’intervalle, 1. Soit [l(X), u(X)] le plus court intervalle de crédibilité
tous les intervalles de la forme suivante sont des intervalles de de niveau 1 − α
crédibilité [a, b] ⊂ [l(X), u(X)] vérifie
P(θ ∈ [a, b] | X1, . . . , Xn) ≈ 0
[q(β, X) ; q(1 − α + β, X)] avec 0 ≤ β ≤ α
⇒ [l(X), a] ∪ [b, u(X)] est une
On cherche le plus court
région de niveau 1 − α plus
intervalle :
courte que IC optimal
on cherche la valeur de β
qui minimise la longueur
2. La généralisation en dimension supérieure est difficile
q(1 − α + β, X) − q(β, X)

Région Highest Posterior Density (HPD)


Propriétés
On cherche la plus petite région H ⊂ Θ telle que
P(θ ∈ H | X1, . . . , Xn) = 1 − α
la définition est indépendante de la dimension de Θ
ces régions sont de la forme
En dimension 1 si la distribution est unimodale alors
H(K) = {θ : π(θ | X1, . . . , Xn) > K} la région HPD est un intervalle qui coincide avec le
plus court intervalle de crédibilité
On choisit la valeur K := K1−α(X)
telle que la définition se généralise aux lois discrètes en
P(θ ∈ H(K1−α(X)) | X1, . . . , Xn) = 1 − α prenant
H(K) = {ϑ : P(θ = ϑ | X1, . . . , Xn) > K}
La région {θ : π(θ | X1, . . . , Xn) > K1−α(X)}
est appelé région HPD de niveau 1−α
Exemple En utilisant R
On modélise X1, . . . , Xn le nombre de pannes par une loi de poisson de qgamma quantile de la loi gamma
paramètre θ > 0 which.min recherche du min

La loi priori est la loi exponentielle de paramètre 1 (1) on calcule et represente


la longueur en fonction de β
Calcul de la loi a posteriori
(2) on détermine la valeur de
1 loi gamma (21,11)
P(X1 = x1, . . . , Xnxn | ϑ) = e −nϑ ∑ xi
ϑ β qui minimise la longueur
x1 ! . . . xn !
(3) on en déduit le plus court
π(ϑ | ) ∝ e −ϑ Iϑ>0 intervalle de crédibilité qui
coïncide avec la région HPD
π(ϑ | x1, . . . , xn) ∝ e −(n+1)ϑϑ ∑ xi Iϑ>0


On observe n = 10 et Xi = 20

loi uniondale : IC et HPD coïncident


📝

lien avec les intervalles de Probabilité fréquentiste d’un


confiance. intervalle de crédibilité
un intervalle de confiance de niveau 1 − α est une intervalle aléatoire Soit [l(X) u(X)] un intervalle de crédibilité de niveau
[a(X) , b(X)] tel que, pour tout θ : 1−α
Pθ( [a(X), b(X)] ∋ θ) = 1 − α
Pour le modèle {Pθ, θ ∈ Θ}, sa probabilité fréquentiste est
1 − α % des intervalles de confiance contiennent la vraie valeur du paramètre égale à

Pθ( [l(X), u(X)] ∋ θ) = β(θ, n)


un intervalle de crédibilité de niveau 1 − α est une intervalle [l(X) u(X)] tel
que

P(θ ∈ [l(x), u(X)] | X) = 1 − α En général β(θ, n) ≠ 1 − α


Ayant observé X, le paramètre appartient à l’intervalle avec une probabilité 1−α
Exemple : le modèle exponentiel le niveau fréquentiste est
β(n, θ) = Gn(gn+a(1 − α + β) − bθ) − Gn(gn+a(β) − bθ)
- conditionnellement à θ, X1, . . . , Xn iid suivant une loi
exponentielle θ > 0 A n fixé, quand a-> 0 et b-> 0 alors le niveau fréquentiste converge
vers 1 − α Notation : q est le quantile
β
- La loi priori est la gamma de paramètre (a,b) d’ordre β et Φ la fonction de
Approximation de la loi gamma
répartition de la loi gaussienne

1. La loi a posteriori est la loi gamma (a + n, b + Xi) N(0,1)

Quand n → ∞, on a gn(β) ∼ qβ n + n

[ b + ∑ Xi ]
gn+a(β) gn+a(1 − α + β)
2. Pour tout β ∈ (0,α) : ; est un
b + ∑ Xi Si xn ∼ nx + n avec x≠0 alors Gn(xn) ∼ Φ (x) quand n → ∞
intervalle de crédibilité de niveau 1−α A (a,b) fixés, le niveau fréquentiste converge vers 1 − α quand n → ∞.
L’intervalle de crédibilité de niveau 1 − α est un intervalle de
Notation : ga(β) est le quantile d’ordre β et Ga la
fonction de répartition de la loi gamma (a, 1)
📝 confiance asymptotiquement de niveau 1−α 📝

Crédibilité d’une hypothèse Exemple : modèle exponentiel (cont.)

On considère le test statistique La loi a posteriori est la loi gamma


H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1

(n + a, b + Xi)
On suppose que P(θ ∈ Θi) ≠ 0 pour i=1,2
On prend a=b= 1
Règle de décision Bayésienne :

On calcule les probabilités a posteriori des hypothèses :


On veut tester θ ≤ 1 contre θ > 1
P(θ ∈ Θi | X) pour i=1,2
On dit que H0 est plus crédible que H1 si On évalue la pobabilitité a posteriori
P(θ ∈ Θ0 | X) ≥ P(θ ∈ Θ1 | X) de l’hypothèse nulle, c’est à dire

La valeur de la probabilité a posteriori quantifie la crédibilité de



l’hypothèse.
P(θ ≤ 1 | X) = Gn+a(b + Xi) ( = 83 %)
Loi prédictive
Objectif : on veut prévoir Xn+1 à partir des observations
passées (X1, . . . , Xn) dans le modèle bayesien

Loi a priori
Prévision Bayésienne Loi a posteriori Loi
Loi conditionnelle prédictive
des observations
sachant le paramètre
Prévision en loi

Définition : la loi prédictive est la loi


conditionnelle de Xn+1 sachant (X1, . . . , Xn) .

Calcul de la loi prédictive A partir de la loi prédictive on construit

La loi prédictive s’écrit : 1. Un intervalle de prévision de niveau 1 − α, c’est un


∫Θ p(xn+1 | ϑ, x1, . . . , xn,) π(ϑ | x1, . . . , xn) dθ continue
intervalle [P1 ; P2] tel que
p(xn+1 | x1, . . . , xn) =

p(xn+1 | ϑ, x1, . . . , xn,) P(θ = ϑ | x1, . . . , xn) discrète
P(Xn+1 ∈ [P1 ; P2] | X1, . . . , Xn) = 1 − α
ϑ∈Θ

Où p(xn+1 | ϑ, x1, . . . , xn) est la densité de la loi conditionnelle de Xn+1 sachant θ


et le passé X1, . . . , Xn :
2
2. Un prédicteur ponctuel : Pour l’erreur L , la meilleure
f(x1, . . . , xn+1 | ϑ)
p(xn+1 | ϑ, x1, . . . , xn) = approximation de Xn+1 par une fonction de X1, . . . , Xn est
f(x1, . . . , xn | ϑ)
l’espérance conditionnelle

X̂n+1 = E(Xn+1 | X1, . . . , Xn)


La loi prédictive est un mélange de loi.
📝
Exemple : regression linéaire suivant
Exemple : observations iid suivant f( ⋅ | θ)
X = θt + ϵ ϵ iid N(0,σ 2)
L’indépendance conditionnellement à θ implique que L’indépendance conditionnellement à θ implique que
p(xn+1 | ϑ, x1, . . . , xn) = f(xn+1 | ϑ) p(xn+1 | ϑ, x1, . . . , xn) = f(xn+1 | ϑ)
c’est la densité de la loi gaussienne de moyenne θ tn+1 et de variance σ 2
D’ou la loi prédictive

∫Θ
D’ou la loi prédictive
p(xn+1 | x1, . . . , xn) = f(xn+1 | ϑ) π(ϑ | x1, . . . , xn) dϑ
1
∫Θ×R+
1 2
p(xn+1 | x1, . . . , xn) = e 2σ2 (xn+1−θtn+1) π(σ 2, ϑ | x1, . . . , xn) dϑdσ 2
2πσ

∫Θ
Le prédicateur ponctuel est X̂n+1 = E(Xn+1 | ϑ)π(ϑ | X1, . . . , Xn) dϑ
Le prédicteur ponctuel est égal à X̂n+1 = E(θ | X1, . . . , Xn) tn+1

📝 📝

Estimateurs de Bayes
Soit L une fonction de coût :
elle permet évaluer la qualité d’un estimateur δ := δ(X) du paramètre θ

L2(δ, θ) = (δ − θ)2 coût/erreur quadratique L 2


Exemple :
L1(δ, θ) = | δ − θ | coût/erreur absolue L 1

plus généralement c’est une fonction positive L: Θ × Θ → R + telle que


Estimateurs de Bayes L(δ; θ) = 0 ⇔ δ = θ

Le risque bayesien d’un estimateur δ du paramètre θ est


Construction d’estimateurs à partir de la loi a posteriori
r(δ, π) = E(L(δ(X), θ)) = L(δ(x), ϑ)gn(x, ϑ) dx1 . . . dxndϑ


= L(δ(x), ϑ)π(ϑ | x) dϑ mn(x1, . . . , xn) dx1 . . . dxn

Définition : Un estimateur δ π est un estimateur de Bayes sous coût L, s’il


minimise le risque bayesien c’est à dire r(δ π, π) ≤ r(δ, π) pour estimateur δ
Construction des estimateurs de Bayes

∫Θ
On définit ρ(δ) = L(δ, ϑ)π(ϑ | X1, . . . Xn) dϑ

Théorème :
📝
δ π(X) = argminδ ρ(δ) est un estimateur de Bayes Propriétés asymptotiques
Cas particulier

Coût quadratique : l’estimateur de Bayes est l’espérance de la loi a —


posteriori

δ π(X) = E(θ | X1, . . . Xn)


📝
Coût absolue : l’estimateur de Bayes est la médiane de la loi a posteriori

Contexte Théorème 2
on suppose que le modèle {Pθn = P n( ⋅ | θ) θ ∈ Θ} est régulier
Si π est une loi a priori telle que π(θ) > 0, ∀θ ∈ Θ et π est C 1 sur Θ
alors
Sous ces hypothèse : l’estimateur du maximum de vraisemblance θnMV
converge presque surement et θnMV est asymptotiquement efficace 1) Pour tout intervalle ouvert U contenant θ0
ps
on a P(θ ∈ U | X) 1
n→∞
On suppose que les observations sont iid suivant fθ0 où θ0 appartient à
P
l’intérieur de Θ 2) E(θ | X) θ0
n→∞
Théorème 1 P
si π1, π2 sont deux lois a priori telles que πi(θ) > 0, ∀θ ∈ Θ 3) Var(θ | X) 0
n→∞
alors pour tout A⊂Θ :

∫A
p.s.
| π1(ϑ | X) − π2(ϑ | X) | dϑ 0
n→∞
Théorème 3
Si π est une loi a priori telle que π(θ) > 0, ∀θ ∈ Θ et π est C 2 sur Conséquence du théorème 3
Θ 1) l’estimateur de Bayes sous coût quadratique
alors
c’est à dire δ π(X) = E(θ | X1, . . . Xn) est asymptotiquement
1) On peut approcher la loi a posteriori par la loi gaussienne efficace
de moyenne E(θ | X) et de variance Var(θ | X)
On applique le théorème de SLutski
2) On peut approcher la loi a posteriori par la loi gaussienne n(E(θ | X) − θ0) = n(E(θ | X) − θnMV ) + n(θnMV − θ0)
de moyenne θnMV et de variance n −1I −1(θnMV ) Le premier terme converge vers 0 en proba et le

où I est l’information de Fisher apportée par une observation confond en loi vers N(0,I −1(θ0))

n→∞
3) On a n(E(θ | X) − θnMV ) 0 4) Le niveau fréquentiste des intervalles de crédibilité
P
de niveau 1 − α converge vers 1 − α

β(θ, n) 1−α
n→∞

Chapitre 3
Lois informatives
Loi a priori
La loi a posteriori est aussi une loi discrète à valeurs
Loi discrète dans Θ

Pour tout i=1…p, on a


On suppose que le paramètre appartient à un ensemble fini
Θ = {θ1, . . . , θp} avec les probabilités π1, . . . , πp c’est à dire fn(X | θi)πi
P(θ = θi | X) = p
P(θ = θi) = πi ∑j=1 πj fn(X | θj)
Source d’information :
Si X ∼ Pθ0 avec P(θ = θ0) = 0
les résultats d’études précédentes supposées similaires alors la loi a posteriori ne se concentre pas autour de la
vraie valeur c’est à dire
les avis de p experts et la proba représente la
confiance accordée à chaque expert. il existe un intervalle U tel que θ0 ∈ U et
P(θ ∈ U | X) ↛ 1

Illustration Illustration (cont.)


la loi a priori est uniforme sur {0, 1/2, 1 ,3/2, 2} les observations sont simulées suivant la loi exponentielle
de paramètre 1
les observations sont simulées suivant la loi exponentielle
de paramètre 0.75 Evolution des probabilités a posteriori en
On a P(θ = 1) = 1/5 fonction de n
Evolution des probabilités a
posteriori en fonction de n

On observe que

On représente la loi
P(θ = 1 | X) → 1
a posteriori en
fonction de n pour
3 échantillons.
Histogramme La loi a posteriori s’écrit
On relaxe le contrainte de finitude de Θ = {θ1, . . . , θp} en prenant p
comme support un intervalle πi
∑ θi − θi−1
π(θ | X1, . . . Xn) ∝ f(X1, . . . Xn | θ) 1[θi−1,θi[(θ)
On ordonne les valeurs θi, i = 1,...,p i=1

D’où
on ajoute une borne inférieure : θ0 < θ1 < θ2 < ⋯ < θp
p π
∑i=1 θ − iθ f(X1, . . . Xn | θ) 1[θi−1,θi[(θ)
On construit l’histogramme
π(θ | X1, . . . Xn) = i i−1
π θ
p
p
πi ∑i=1 θ − iθ ∫θ i f(X1, . . . Xn | θ)dθ
∑ θi − θi−1 [θi−1,θi[
π(θ) = 1 (θ) i i−1 i−1

i=1

Cette loi vérifie P(θ ∈ [θi−1, θi[) = πi

π(θ) > 0 pour tout θ ∈ [θ0; θp[

Illustration (cont.)
les observations sont simulées suivant la loi exponentielle de
Famille de lois conjuguées
paramètre .75.
On considère = {πλ , λ ∈ Λ} une famille paramétrique de
A priori uniforme A priori non uniforme
lois sur Θ.
Définition
On dit que est une famille conjuguée avec
ℱ = {fn( ⋅ | θ) , θ ∈ Θ} si la loi a priori appartient à alors la
loi a posteriori appartient aussi à .

Autrement dit
∀λ ∈ Λ si θ ∼ πλ alors ∃λ(X) ∈ Λ tel que π(θ | X) = πλ(X)(θ)
𝒫𝒫
𝒫
𝒫
Choix de l’hyperparamètre λ
Exemple de Famille de lois
conjuguées
ℱ est la famille des lois exponentielles on fixe la valeur de λ à partir de l’information disponible a priori
f(x1, . . . , xn | θ) = θ ne −θnX̄n
Exemple 1. Information a priori : θ est autour de 1
La famille des lois Gamma est une famille de lois conjuguées :


1 −bθ a−1
π(θ) = b a e θ 1θ>0 a> 0 et b> 0. On choisitλ tel que E(θ) = ϑπλ(ϑ)dϑ = 1. En fonction de la
Γ(a)
On a λ = (a, b) ⟶ λ(X) = (n + a, b + nX̄n)
📝 dimension de Λ on pourra aussi ajouter une contrainte sur la
variance de θ qui traduit la confiance accordée à l’information
ℱ est la famille des lois uniformes sur [0,θ]
1
f(x1, . . . , xn | θ) = n 1Mn≤θ avec Mn = max(X, . . . , Xn) Exemple 2. Information a priori : θ∈A (avec une forte probabilité)
θ

∫A
La famille des lois de pareto est une famille de lois conjuguées :
ba On fixe λ tel que P(θ ∈ A) = πλ(ϑ)dϑ = 95 % ou 80%, 99% … en
π(θ) = a 1 avec a> et b>0.
θ a+1 θ>b fonction de la confiance accordée à l’information
On a λ = (a, b) ⟶ λ(X) = (n + a, max(b, Mn))
📝

Mélange d’experts a priori Illustration : modèle exponentiel


Expert 1 : θ = 1 ± .5 Expert 2 : θ = 2 ± .5
Proposition : Soit = {πλ , λ ∈ Λ} une famille de lois conjuguées, a
=1
a
= .52
a
=2
a
= .52
la famille des mélanges de lois de forme aussi une famille de b b2 b b2
lois conjuguées A priori Γ(4,4) A priori Γ(16,8)
Mélange
k A posteriori Γ(n + 4 , nX̄n + 4) A posteriori Γ(n + 16 , nX̄n + 8)
(λ1, . . . , λk) ∈ Λk ,

Rappel : un mélange s’écrit pjπλj(θ) avec 1/2 -1/2
j=1
k
k

(p1, . . . , pk) ∈ [0,1] et pj = 1
j=1
n= 10
Application : on peut prendre en compte différentes sources
d’information et accorder des poids différents en fonction de la
fiabilité des sources
A priori A posteriori
𝒫
𝒫
Loi a priori impropre
∑ϑ∈Θ π(ϑ) = ∞
{ ∫Θ π(ϑ) dϑ = ∞
discrète
On considère π : Θ ↦ R+ telle que
continue

Lois non informatives π ne définit pas une loi de probabilité sur Θ

Définition
on dit que π : Θ ↦ R + est une loi impropre pour le modèle ℱ = {fn( ⋅ | θ) , θ ∈ Θ} si

∫Θ
π(θ)fn(x1, . . . xn | θ) dθ < ∞ presque surement .

Si π est une loi impropre alors la loi a posteriori est bien définie par
π(θ)fn(X | θ)
π(θ | X) =
∫Θ π(ϑ)fn(X | ϑ) dϑ

Si π est une loi impropre alors pour tout C>0, ν(θ) = Cπ(θ) est aussi une loi impropre.
A partir de ces deux lois impropres, on obtient la même loi a posteriori

Exemple : modèle exponentiel Loi a priori de Laplace


Si Θ est un ensemble fini ou de mesure de Lebesgue finie

∫Θ
On considère π(θ) = 1R+(θ) ( dϑ < ∞) alors la loi a priori de Laplace est la loi uniforme sur

on a Θ

∫R +
π(ϑ) dϑ = ∞ Θ infini dénombrable ∫Θ dϑ = ∞
{ ∑ϑ∈Θ fn(X | ϑ) < ∞
Si ou
∫Θ fn(X | ϑ) dϑ < ∞

∫Θ ∫R +
n −ϑnX̄n
π(ϑ)fn(x1, . . . xn | ϑ) dϑ = ϑ e dϑ < ∞ ⇔ (n > 1 et X̄n > 0) .
alors la loi a priori de Laplace est une loi impropre définie par
La fonction π définit donc une loi impropre si et seulement n>1 π(θ) ∝ 1Θ(θ).
Pour n> 1, la loi a posteriori est la loi gamma Γ(n + 1,nX̄n) Proposition : Si la loi a priori de Laplace existe alors la loi a
posteriori vérifie π(θ | X) ∝ fn(X | θ)
Loi Non informative de Jeffreys Loi Non informative de Jeffreys

On suppose que le modèle ℱ = {fn( ⋅ | θ) , θ ∈ Θ} est régulier

Soit In l’information de Fisher et | In | son déterminant La loi de Jeffreys favorise les régions où
l’information de Fisher prend des grandes valeurs

∫Θ
c’est à dire les régions où les données apportent
Si | In(ϑ) | dϑ < ∞ plus d’information sur le paramètre
ou La loi de Jeffreys est invariante par

∫Θ ∫Θ
si | In(ϑ) | ) dϑ = ∞ et | In(ϑ) | fn(X | ϑ) dϑ < ∞ reparamétrisation

alors la loi de Jeffreys est définie par π(ϑ) ∝ | In(ϑ) |

Exemple : modèle exponentiel

On considère n variables aléatoires iid suivant la loi


exponentielle
n
L’information de Fisher est donnée par
θ2
∞ ∞
1
∫O ∫O
dϑ = ∞ et ϑ n−1e −nθX̄n dϑ < ∞ ps car n>0 et X̄n > 0 ps
ϑ
1
La loi de Jeffreys est une loi impropre définie π(θ) ∝ 1 +(θ)
θ R
La loi a posteriori est la loi gamma Γ(n, nX̄n)
📝

Vous aimerez peut-être aussi