Académique Documents
Professionnel Documents
Culture Documents
1. Modélisation bayésienne
Introduction à la statistique
bayésienne 2. Estimation et prévision bayésienne
Chapitre 1
Modélisation bayésienne
Exemple et
Définitions et exemples rappels sur le calcul des lois conditionnelles
Exemple du billard Approche fréquentiste
On lance une bille qui s’arrête à un point
θ ∈ [0,1] uniformément distribué. X suit une loi binomiale ℬ(N, θ) où θ est un paramètre
inconnu
Question comment déterminer la valeur
(X)
de θ sans effectuer de mesures ?
N X
La vraisemblance s’écrit V(θ, X) = θ (1 − θ)N−X
On repète la même expérience N fois de
façon indépendante et on note X le ̂ X
l’estimateur du MV est égal à θ MV
N =
nombre de fois où elle s’arrête à gauche N
du point d’arrêt
Cet estimateur n’utilise pas la 1er expérience
Comment estimer θ à partir de X ? aléatoire.
Conditionnement
Alternative
Soit (X,Y) un couple de variables aléatoires discrètes.
la loi marginale de Y admet une densité égale à La formule de Bayes est donnée par
∫ ∫B
fY(y) = f(x, y) dx P(X ∈ A | Y = y) fY(y) dy si Y est continue
P(X ∈ A , Y ∈ B) =
∑
La loi conditionnelle de X sachant Y admet une densité P(X ∈ A | Y = y) P(Y = y) si Y est discrète
définie par y∈B
( x ) ∫0
1
N
On connait P(X = x) = P(X = x, θ ∈ [0,1]) = ϑ x(1 − ϑ)N−x dϑ
θ ∼ U(0,1) et on note sa densité : π(ϑ) = I[0,1](ϑ)
(x)
N
la loi conditionnelle P(X = x | θ = ϑ) = ϑ x(1 − ϑ)N−x En appliquant la formule de Bayes, on obtient
P(X = x , θ ∈ B)
P(θ ∈ B | X = x) =
Formule de BAYES : P(X = x)
ϑ x(1 − ϑ)N−x
∫B ( x )
N
∫B
P(X = x, θ ∈ B) = P(X = x | θ = ϑ)π(ϑ) dϑ = ϑ x(1 − ϑ)N−x I[0,1](ϑ) dϑ x
∫B ϑ (1 − ϑ) N−x
dϑ π(ϑ | X = x) = 1
= ∫0 ϑ x(1 − ϑ)N−x dϑ
1
∫0 ϑ x(1 − ϑ)N−x dϑ
P(X = x, θ ∈ B) = P(θ ∈ B | X = x)P(X = x) c’est la loi beta de paramètres
∫B
= π(ϑ | X = x)dϑ (x+1 , N-x+1)
expériences numériques
N 5 10 50 100
X 3 5 31 68
MV 0.6 0.5 0.62 0.68
Loi mean
quantile quantile Définition du modèle bayésien
2.5% 97.5 %
(prior) π .50 .O3 .98
Définition :
Modèle paramétrique bayésien
la loi du paramètre θ est appelée « loi a priori »
cette loi est construite à partir des informations disponibles sur le
paramètre θ avant de collecter des données
On considère Pθn( ⋅ ) , θ ∈ Θ une famille de lois indexées
par θ. L'information (dite a priori ) provient
On suppose que θ est une VARIABLE ALÉATOIRE de résultats d’experiences précédentes dont les résultats sont
supposé similaires
la loi Pθn( ⋅ ) est interprété comme la loi conditionnelle des propriétés physiques
de X = (X1, . . . , Xn) sachant le paramètre θ
Exemple du billard :
Pθn( ⋅ ) = P n( ⋅ | θ) On sait que θ est la position du point d’arrêt de la première
boule. D’après l’expert ce point est uniformément distribué
Fréquentiste vs Bayésien
X1, . . . , Xn observations X1, . . . , Xn observations
Inférence
?
P−ps−L p
estimateur ̂ ,...,X )
θ(X θ0
1 n
intervalle de confiance
∫Θ
La loi marginale : mn(x1, . . . , xn,) = π(ϑ)f (n)(x1, . . . , xn | ϑ) dϑ
La loi conditionnelle de θ sachant (X1, . . . , Xn)
Définition :
la loi conditionnelle du paramètre θ sachant les
π(ϑ)f (n)(x1, . . . , xn | ϑ)
La loi a posteriori : π(ϑ | x1, . . . , xn,) =
observations est appelée « loi a posteriori » mn(x1, . . . , xn)
calcul de la loi a posteriori : calcul de la loi a posteriori :
discrète / discrète continue/discrète
Θ = {θ1, . . . , θp} la loi a priori est définie par πi = P(θ = θi) π : densité de la loi a priori
P (n)(X1 = x1, . . . , Xn = xn | θ) : loi de (X1, . . . , Xn) sachant θ la loi de (X1, . . . , Xn) sachant θ est discrète
La loi marginale :
p La loi marginale :
∫Θ
(n) (n)
∑
P (X1 = x1, . . . , Xn = xn) = πi P (X1 = x1, . . . , Xn = xn | θ = θi) Pn(X1 = x1, . . . , Xn = xn) = π(ϑ)P (n)(X1 = x1, . . . , Xn = xn | ϑ) dϑ
1
Loi a posteriori
intervalle de crédibilité
On fixe α ∈ ]0,1/2[.
on cherche un intervalle [l(X); u(X)] ⊂ Θ tel que
exemple :
l(X) = q(α/2,X) et u(X) = q(1 − α/2,X)
∑
On observe n = 10 et Xi = 20
Quand n → ∞, on a gn(β) ∼ qβ n + n
[ b + ∑ Xi ]
gn+a(β) gn+a(1 − α + β)
2. Pour tout β ∈ (0,α) : ; est un
b + ∑ Xi Si xn ∼ nx + n avec x≠0 alors Gn(xn) ∼ Φ (x) quand n → ∞
intervalle de crédibilité de niveau 1−α A (a,b) fixés, le niveau fréquentiste converge vers 1 − α quand n → ∞.
L’intervalle de crédibilité de niveau 1 − α est un intervalle de
Notation : ga(β) est le quantile d’ordre β et Ga la
fonction de répartition de la loi gamma (a, 1)
📝 confiance asymptotiquement de niveau 1−α 📝
Loi a priori
Prévision Bayésienne Loi a posteriori Loi
Loi conditionnelle prédictive
des observations
sachant le paramètre
Prévision en loi
∫Θ
D’ou la loi prédictive
p(xn+1 | x1, . . . , xn) = f(xn+1 | ϑ) π(ϑ | x1, . . . , xn) dϑ
1
∫Θ×R+
1 2
p(xn+1 | x1, . . . , xn) = e 2σ2 (xn+1−θtn+1) π(σ 2, ϑ | x1, . . . , xn) dϑdσ 2
2πσ
∫Θ
Le prédicateur ponctuel est X̂n+1 = E(Xn+1 | ϑ)π(ϑ | X1, . . . , Xn) dϑ
Le prédicteur ponctuel est égal à X̂n+1 = E(θ | X1, . . . , Xn) tn+1
📝 📝
Estimateurs de Bayes
Soit L une fonction de coût :
elle permet évaluer la qualité d’un estimateur δ := δ(X) du paramètre θ
∫
Construction d’estimateurs à partir de la loi a posteriori
r(δ, π) = E(L(δ(X), θ)) = L(δ(x), ϑ)gn(x, ϑ) dx1 . . . dxndϑ
∫
= L(δ(x), ϑ)π(ϑ | x) dϑ mn(x1, . . . , xn) dx1 . . . dxn
∫Θ
On définit ρ(δ) = L(δ, ϑ)π(ϑ | X1, . . . Xn) dϑ
Théorème :
📝
δ π(X) = argminδ ρ(δ) est un estimateur de Bayes Propriétés asymptotiques
Cas particulier
Contexte Théorème 2
on suppose que le modèle {Pθn = P n( ⋅ | θ) θ ∈ Θ} est régulier
Si π est une loi a priori telle que π(θ) > 0, ∀θ ∈ Θ et π est C 1 sur Θ
alors
Sous ces hypothèse : l’estimateur du maximum de vraisemblance θnMV
converge presque surement et θnMV est asymptotiquement efficace 1) Pour tout intervalle ouvert U contenant θ0
ps
on a P(θ ∈ U | X) 1
n→∞
On suppose que les observations sont iid suivant fθ0 où θ0 appartient à
P
l’intérieur de Θ 2) E(θ | X) θ0
n→∞
Théorème 1 P
si π1, π2 sont deux lois a priori telles que πi(θ) > 0, ∀θ ∈ Θ 3) Var(θ | X) 0
n→∞
alors pour tout A⊂Θ :
∫A
p.s.
| π1(ϑ | X) − π2(ϑ | X) | dϑ 0
n→∞
Théorème 3
Si π est une loi a priori telle que π(θ) > 0, ∀θ ∈ Θ et π est C 2 sur Conséquence du théorème 3
Θ 1) l’estimateur de Bayes sous coût quadratique
alors
c’est à dire δ π(X) = E(θ | X1, . . . Xn) est asymptotiquement
1) On peut approcher la loi a posteriori par la loi gaussienne efficace
de moyenne E(θ | X) et de variance Var(θ | X)
On applique le théorème de SLutski
2) On peut approcher la loi a posteriori par la loi gaussienne n(E(θ | X) − θ0) = n(E(θ | X) − θnMV ) + n(θnMV − θ0)
de moyenne θnMV et de variance n −1I −1(θnMV ) Le premier terme converge vers 0 en proba et le
où I est l’information de Fisher apportée par une observation confond en loi vers N(0,I −1(θ0))
n→∞
3) On a n(E(θ | X) − θnMV ) 0 4) Le niveau fréquentiste des intervalles de crédibilité
P
de niveau 1 − α converge vers 1 − α
β(θ, n) 1−α
n→∞
Chapitre 3
Lois informatives
Loi a priori
La loi a posteriori est aussi une loi discrète à valeurs
Loi discrète dans Θ
On observe que
On représente la loi
P(θ = 1 | X) → 1
a posteriori en
fonction de n pour
3 échantillons.
Histogramme La loi a posteriori s’écrit
On relaxe le contrainte de finitude de Θ = {θ1, . . . , θp} en prenant p
comme support un intervalle πi
∑ θi − θi−1
π(θ | X1, . . . Xn) ∝ f(X1, . . . Xn | θ) 1[θi−1,θi[(θ)
On ordonne les valeurs θi, i = 1,...,p i=1
D’où
on ajoute une borne inférieure : θ0 < θ1 < θ2 < ⋯ < θp
p π
∑i=1 θ − iθ f(X1, . . . Xn | θ) 1[θi−1,θi[(θ)
On construit l’histogramme
π(θ | X1, . . . Xn) = i i−1
π θ
p
p
πi ∑i=1 θ − iθ ∫θ i f(X1, . . . Xn | θ)dθ
∑ θi − θi−1 [θi−1,θi[
π(θ) = 1 (θ) i i−1 i−1
i=1
Illustration (cont.)
les observations sont simulées suivant la loi exponentielle de
Famille de lois conjuguées
paramètre .75.
On considère = {πλ , λ ∈ Λ} une famille paramétrique de
A priori uniforme A priori non uniforme
lois sur Θ.
Définition
On dit que est une famille conjuguée avec
ℱ = {fn( ⋅ | θ) , θ ∈ Θ} si la loi a priori appartient à alors la
loi a posteriori appartient aussi à .
Autrement dit
∀λ ∈ Λ si θ ∼ πλ alors ∃λ(X) ∈ Λ tel que π(θ | X) = πλ(X)(θ)
𝒫𝒫
𝒫
𝒫
Choix de l’hyperparamètre λ
Exemple de Famille de lois
conjuguées
ℱ est la famille des lois exponentielles on fixe la valeur de λ à partir de l’information disponible a priori
f(x1, . . . , xn | θ) = θ ne −θnX̄n
Exemple 1. Information a priori : θ est autour de 1
La famille des lois Gamma est une famille de lois conjuguées :
∫
1 −bθ a−1
π(θ) = b a e θ 1θ>0 a> 0 et b> 0. On choisitλ tel que E(θ) = ϑπλ(ϑ)dϑ = 1. En fonction de la
Γ(a)
On a λ = (a, b) ⟶ λ(X) = (n + a, b + nX̄n)
📝 dimension de Λ on pourra aussi ajouter une contrainte sur la
variance de θ qui traduit la confiance accordée à l’information
ℱ est la famille des lois uniformes sur [0,θ]
1
f(x1, . . . , xn | θ) = n 1Mn≤θ avec Mn = max(X, . . . , Xn) Exemple 2. Information a priori : θ∈A (avec une forte probabilité)
θ
∫A
La famille des lois de pareto est une famille de lois conjuguées :
ba On fixe λ tel que P(θ ∈ A) = πλ(ϑ)dϑ = 95 % ou 80%, 99% … en
π(θ) = a 1 avec a> et b>0.
θ a+1 θ>b fonction de la confiance accordée à l’information
On a λ = (a, b) ⟶ λ(X) = (n + a, max(b, Mn))
📝
Définition
on dit que π : Θ ↦ R + est une loi impropre pour le modèle ℱ = {fn( ⋅ | θ) , θ ∈ Θ} si
∫Θ
π(θ)fn(x1, . . . xn | θ) dθ < ∞ presque surement .
Si π est une loi impropre alors la loi a posteriori est bien définie par
π(θ)fn(X | θ)
π(θ | X) =
∫Θ π(ϑ)fn(X | ϑ) dϑ
Si π est une loi impropre alors pour tout C>0, ν(θ) = Cπ(θ) est aussi une loi impropre.
A partir de ces deux lois impropres, on obtient la même loi a posteriori
∫Θ
On considère π(θ) = 1R+(θ) ( dϑ < ∞) alors la loi a priori de Laplace est la loi uniforme sur
on a Θ
∫R +
π(ϑ) dϑ = ∞ Θ infini dénombrable ∫Θ dϑ = ∞
{ ∑ϑ∈Θ fn(X | ϑ) < ∞
Si ou
∫Θ fn(X | ϑ) dϑ < ∞
∫Θ ∫R +
n −ϑnX̄n
π(ϑ)fn(x1, . . . xn | ϑ) dϑ = ϑ e dϑ < ∞ ⇔ (n > 1 et X̄n > 0) .
alors la loi a priori de Laplace est une loi impropre définie par
La fonction π définit donc une loi impropre si et seulement n>1 π(θ) ∝ 1Θ(θ).
Pour n> 1, la loi a posteriori est la loi gamma Γ(n + 1,nX̄n) Proposition : Si la loi a priori de Laplace existe alors la loi a
posteriori vérifie π(θ | X) ∝ fn(X | θ)
Loi Non informative de Jeffreys Loi Non informative de Jeffreys
Soit In l’information de Fisher et | In | son déterminant La loi de Jeffreys favorise les régions où
l’information de Fisher prend des grandes valeurs
∫Θ
c’est à dire les régions où les données apportent
Si | In(ϑ) | dϑ < ∞ plus d’information sur le paramètre
ou La loi de Jeffreys est invariante par
∫Θ ∫Θ
si | In(ϑ) | ) dϑ = ∞ et | In(ϑ) | fn(X | ϑ) dϑ < ∞ reparamétrisation