Vous êtes sur la page 1sur 45

theorem]Résumé

USTHB-FACULTE DES MATHEMATIQUES


Département de Probabilités-Statistique

Cours de Statistique Bayésienne

Rabah Messaci

NOVEMBRE 2020
2

Statistique Bayésienne R.Messaci


Ce polycopié de notes de cours de statistique bayésienne correspond au programme du
module correspondant de la deuxième année des masters FINANCE et SPA.

R.Messaci.

3
4

Statistique Bayésienne R.Messaci


Table des matières

1 Eléments de théorie de la décision statistique 9


1.1 Problèmes de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Problèmes de décision statistique . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Règles de décisions optimales . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Règles optimales dans une sous-classe . . . . . . . . . . . . . . . . . 12
1.3.2 Règles minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.3 Règles de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Règles de décisions bayésiennes 15


2.1 Théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Lois a priori, a posteriori et prédictives . . . . . . . . . . . . . . . . . . . . . 16
2.3 Théorème fondamental de la statistique bayésienne . . . . . . . . . . . . . . 18
2.4 Application aux principaux problèmes d’inférence statistique . . . . . . . . 19
2.4.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.4 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Lois a priori 25
3.1 Lois a priori informatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Lois a priori non informatives . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1 Lois impropres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Lois invariantes par transformations . . . . . . . . . . . . . . . . . . 30
3.2.3 Lois dans Rn invariantes par translation . . . . . . . . . . . . . . . . 30
3.2.4 Lois dans R invariantes par changement d’échelle . . . . . . . . . . . 31
3.2.5 Lois non informatives de JEFFREYS . . . . . . . . . . . . . . . . . 31

A Lois de probabilités usuelles 35


A.1 Lois de probabilités univariées . . . . . . . . . . . . . . . . . . . . . . . . . . 35
A.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
A.1.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
A.1.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
A.1.4 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . . 36
A.1.5 Loi gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
A.1.6 Loi inverse gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
A.1.7 Loi beta sur [0, 1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5
6 TABLE DES MATIÈRES

A.1.8 Loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38


A.1.9 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
A.1.10 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
A.2 Lois de probabilités multivariées . . . . . . . . . . . . . . . . . . . . . . . . 40
A.2.1 Loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
A.2.2 Loi de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
A.2.3 Loi normale multivariée . . . . . . . . . . . . . . . . . . . . . . . . . 41
A.2.4 Loi de Student multivariée . . . . . . . . . . . . . . . . . . . . . . . . 42

Statistique Bayésienne R.Messaci


Introduction

Les problèmes de statistique mathématique et notamment l’inférence (estimation ponc-


tuelle, estimation ensembliste, tests d’hypothèses, prévision ect.) sont traités traditionnel-
lement dans deux cadres :
1. le cadre fréquentiste :
Soit X une variable aléatoire de loi Pθ où θ est un paramètre inconnu apparte-
nant à un ensemble Θ. X est observable et on suppose que n réalisations de X,
(x1 , x2 , .., xn ) sont disponibles. Partant du postulat que toute observation contient
de l’information sur θ, le point de vue fréquentiste considère que c’est la seule source
d’information sur laquelle on peut se baser pour l’inférence. Les propriétés des esti-
mateurs, tests ect., seront donc meilleurs lorsque la taille de l’échantillon est grand,
puique l’information augmente. Les exemples type sont les procédures basées sur le
maximum de vraisemblance (estimateurs du maximum de vraisemblance, tests du
rapport de vraisemblances maximales) et leurs propriétés asymtotiques.
2. le cadre bayésien :
Ce point de vue considère le paramètre d’intêret θ, lui-m ême, comme une variable
aléatoire, non observable, ayant une distribution de probabilité. Cette dernière est
donc une deuxième source d’information, qui se rajoute à la précédente. L’inférence
statistique sur θ se basera sur ces deux sources.
Dans ce cadre, un problème de statistique doit spécifier deux lois de probabilité distinctes :
1. la distribution de θ dite loi a priori
2. la distribution de X, Pθ , dite distribution d’échantillonage et qui s’interprète dans
ce contexte comme la loi conditionnelle de X sachant θ.
Bien que ses origines remontent à T. Bayes et à S.Laplace, la statistique bayésienne n’a
pris un essor important que depuis les trois ou quatre dernières décennies. La principale
raison est que les règles de décision bayésiennes sont généralement difficilement accessibles
et nécessitent de faire appel à des méthodes de calcul et de simulation complexes. Depuis
elle constitue l’un des domaines de recherche les plus importants, aussi bien au niveau théo-
rique qu’au niveau des applications. voici à titre d’illustration l’évolution du pourcentage
d’articles "bayésiens" parus dans la célèbre revue de statistique J.A.S.A :

1971 − 1975 1976 − 1980 1981 − 1985 1986 − 1990 1991 − 1995 1995 − 2000
4% 5% 5% 6% 11% 15%
Le nombre d’ouvrages qui lui sont consacrés soit spécifiquement soit aux domaines qui
lui sont liés, notamment les méthodes M.C.M.C (Monte Carlo par chaines de Markov)
augmente d’année en année.

7
8 TABLE DES MATIÈRES

Les applications touchent des domaines variés : économétrie, biostatistique, recherche


médicale, finance, physique ect.
Pour ce cours les principales références seront Robert (2005),Gelman et al. (2013) et
Jackman (2009).

Statistique Bayésienne R.Messaci


Chapitre 1

Eléments de théorie de la décision


statistique

L’approche bayésienne de la statistique peut être présenté soit dans le cadre de la théo-
rie de la décision statistique, soit hors de ce cadre. La première méthode présente l’avantage
de pouvoir la comparer avec d’autres approches, et de faire apparaitre les différences exis-
tantes. Nous allons brièvement donner quelques éléments de théorie de la décision, en
général, qui englobe aussi les problèmes de décision statistique comme la théorie des jeux.

1.1 Problèmes de décision


Définition 1.1. On appelle problème de décision un triplet : (Θ, A, L), où :
— Θ est un ensemble dit espace des états de la nature.
— A est un ensemble dit espace des actions.
— L une application de Θ × A → R, dite fonction perte.
∀θ ∈ Θ et ∀a ∈ A, L(θ, a) représente la perte subie lorsque θ est le vrai etat de la
nature et que c’est l’action a qui a été choisie.

Exemple 1.1. L’un des domaines d’application de la théorie de la décision est la théorie
des jeux. Considérons un jeu simple à trois états possibles de la nature et à trois actions
possibles, comme c’est le cas dans les jeux de pronostic d’un match de football. Une équipe
A joue contre une équipe B ; Il s’agit de prévoir le résultat du match : 1 si l’équipe A gagne,
2 si l’équipe B gagne et × si match nul. Un exemple de fonction perte est la suivante :

A\Θ 1 × 2
1 -20 10 5
× 5 -25 10
2 40 10 -40
Une perte négative est un gain. Les pertes ne sont pas toutes égales car il y a des
résultats plus difficiles à prévoir, généralement l’équipe qui reçoit a plus de chances de
gagner.
Exemple 1.2. Tous les problèmes classiques de statistique s’insèrent dans le cadre théo-
rique précédent :

9
10 CHAPITRE 1. ELÉMENTS DE THÉORIE DE LA DÉCISION STATISTIQUE

1. Estimation ponctuelle
Un problème de décision est dit estimation ponctuelle lorsque Θ = A. Les fonctions
pertes usuelles sont, par exemple, dans le cas d’un paramètre réel
— perte quadratique : L(θ, a) = (θ − a)2
— perte écart-absolu : L(θ, a) = |θ − a|
— L(θ, a) = 1{θ6=a} .
p p
(θi − ai )2 ou encore |θi − ai |.
P P
et dans le cas vectoriel L(θ, a) =
1=1 1=1
Dans le cas fonctionnel (Θ est l’ensemble des fonctions de répartition sur R par
exemple, ou ce qui revient au même l’ensemble des mesures de probabilités)
R
L(θ, a) = sup |θ(x) − a(x)| ou L(θ, a) = R |θ(x) − a(x)| d(x)
x∈R
2. Tests d’hypothèses :
Lorsque ak = {a0 , a1 }, le problème de décision est dit test d’hypothèses. Une hypo-
thèse est par définition une partie de Θ, il s’agit alors de décider à quelle partie (Θ0
ou Θ1 , deux parties disjointes de Θ ) appartient le vrai état de la nature. L’action
ai (1 ≤ i ≤ 2) consiste à décider qu’il appartient à Θi .
Une fonction perte usuelle est défini par :
L(θ, a0 ) = l01 1{θ∈Θ1 } et L(θ, a1 ) = l10 1{θ∈Θ0 }

A\Θ Θ0 Θ1
a0 0 l01
a1 10 0

Dans le cas l01 = l10 = 1, la fonction perte est dite symétrique.


3. Estimation par régions de confiance :
C’est le cas : A = P(Θ) ou un sous ensemble de P(Θ). Des fonctions perte possibles
sont : L(θ, a) = 1{θ∈a} ou L(θ, a) = 1{θ∈a} + µ(a) où µ est une mesure positive
définie sur A. Par exemple dans R, si µ est la mesure de Lebesgue (longueur) la
deuxième fonction perte pénalise les ensembles de "longueur" trop grande et donc
les régions optimales seront celles de longueur minimale.

1.2 Problèmes de décision statistique


Dans ce cas on dispose d’une variable aléatoire X dont la loi de probabilité Pθ dé-
pend de l’état de la nature. On suppose que X est observable et qu’on dispose de x =
(x1, x2 , ....., xn ),, n réalisations de X. Une hypothèse fondamentale, à la base de toute in-
férence statistique, est que ces observations (ou réalisations) contiennent de l’information
sur θ. Il est donc naturel de choisir l’action sur la base de x.

Définition 1.2. On appelle problème de décision statistique la donnée :


— d’un problème de décision : (Θ, A, L).
— d’une variable aléatoire X : Ω → X,de loi Pθ , θ ∈ Θ.

Statistique Bayésienne R.Messaci


1.3. RÈGLES DE DÉCISIONS OPTIMALES 11

Définition 1.3. On appelle fonction décision (ou règle de décision ) pure (ou détermi-
niste) toute application mesurable

d : X→ A
x → d(x)

La perte moyenne induite par d


Z
R(θ, d) = Eθ (L(θ, d(X)) = L(θ, d(x))dPθ (x)
Θ

est dite fonction risque de d.

Exemple 1.3. Estimation ponctuelle d’un paramètre réel avec fonction perte quadratique :
Si d(x) = d(x1, x2 , ....., xn ) = x, alors R(θ, d) = Eθ ((X − θ)2 ).
R(θ, d) est dit risque quadratique ou erreur moyenne quadratique.

1.3 Règles de décisions optimales


Il est naturel de rechercher les règles de décision qui ont le "plus faible risque" dans un
sens à définir.

Définition 1.4. Une règle d1 domine la règle d2 et on note d1  d2 si :

R(θ, d1 ) ≤ R(θ, d2 ), ∀θ ∈ Θ
La règle d1 domine strictement la règle d2 et on note d1  d2 si :

d1  d2 et si : ∃ θ ∈ Θ/R(θ, d1 ) < R(θ, d2 ).

Cette relation de dominance définit de manière évidente un ordre sur D, qui n’est
cependant pas total ({R(θ, d)/d ∈ D} est un ensemble de fonctions (voir figures ci-dessous)
Les éléments extrémaux de cette relation d’ordre sont donc les seuls interressants à
considérer.

Définition 1.5. Une règle d1 est dite admissible si :

@ d ∈ D/d  d1

Exemple 1.4. Soit le problème de décision statistique consistant à estimer la moyenne θ


d’une loi normale N (θ, 1) sur la base d’un n-échantillon x = (x1 , x2 , ...., xn ).
Considérons les trois règles de décision : d1 (x) = x, d2 (x) = 0 et d3 (x) = med(x). On
a:
1 1, 58
R(θ, d1 ) = , R(θ, d2 ) = θ2 et R(θ, d3 ) = .
n n

Statistique Bayésienne R.Messaci


12 CHAPITRE 1. ELÉMENTS DE THÉORIE DE LA DÉCISION STATISTIQUE

On a : d1  d3 , par contre les couples (d1 , d2 ) et (d2 , d3 ) ne sont pas comparables. d1


et d2 sont admissibles mais pas d3 .
Les règles admissibles constituent, dans D, la sous-classe des règles optimales.
Le critère de dominance ,à lui seul, ne suffit pas à dégager une fonction décision meilleure
que toutes les autres.Pour départager les règles admissibles, différents critères ont été pro-
posés. Les trois principaux sont :
— la recherche d’une solution optimale dans une sous-classe D0 de D.
— le critère minimax.
— le critère de Bayes.

1.3.1 Règles optimales dans une sous-classe


C’est la démarque adoptà e c en statistique classique avec l’estimation sans biais de va-
riance minimale, les estimateurs des moindres carrà s
c en rà gression
c linà aire
c (proprià tÃ
c
c
dite BLUE ; best linear unbiased estimators) ou encore les tests les plus puissants au sens
de Neyman-Pearson.

Estimateurs sans biais de variance minimum


Considérons le problème d’estimation ponctuelle : Θ =R = A et L la fonction perte
quadratique. Le point de vue classique consiste à se restreindre au sous-ensemble D0 des
règles sans biais et à trouver la solution optimale. Une régle de décision (ici estimateur)
est dite sans biais si : E(d(X)) = θ . On a :

R(θ, d) = Eθ (L(θ, d(X)) = Eθ ((θ − d(X)2 )


= Eθ ((Eθ (d(X) − d(X)2 ) + (θ − Eθ (d(X))2

ou encore :

E.M.Q = V ARIAN CE + BIAIS AU CARRE

R(θ, d) est dit erreur moyenne quadratique (E.M.Q) Si on se limite à D0 , la solution


optimale est l’estimateur sans biais de variance minimale.
Ces estimateurs sont dans certains cas très mauvais, comme le montre l’exemple sui-
vant :
Exemple 1.5. Si x est une observation d’une loi de Poisson P(θ). On peut montrer (voir
exercice ) que l’unique estimateur sans biais de e−2θ est θb = (−1)x , qui peut prendre des
valeurs négatives .
D’autre part, on peut aboutir à des estimateurs non admissibles, i.e qui sont dominés
par des estimateurs biaisés ayant une erreur moyenne quadratique moindre.
Exemple 1.6. Soit un n-échantillon d’une loi normale Np (θ, Σ) dans Rp (p > 3). L’es-
timateur classique de θ, X qui est l’e.s.b.v.u.m (et aussi l’estimateur du maximum de
vraisemblance) n’est pas admissible (résultat démontré par Stein (1956)).
(pour un exemple plus simple voir l’exercice )

Statistique Bayésienne R.Messaci


1.3. RÈGLES DE DÉCISIONS OPTIMALES 13

Estimateurs BLUE

Ce sont les estimateurs optimaux dans la sous-classe des estimateurs sans biais dépen-
dant linéairement des observations. On cherche donc l’optimum dans la sous-classe Dl , où
Dl = {d ∈ D0 /d(x) =ni=1 ci xi } .

Tests de Neymann-Pearson

Considérons le cas des tests d’une hypothèse simple ”θ = θ0 ”contre une alternative
simple ”θ = θ1 ”, avec la fonction perte symétrique (l01 = l10 = 1). La fonction risque d’un
test d prend deux valeurs : R(θ0 , d) et R(θ1 , d) et est donc assimilable à un point de R2 .On
montre que l’ensemble de tous ces points (lorsque d parcourt D ), dit ensemble risque est
convexe et a l’allure ci-dessous, comprenant les points (0, 1) et (1, 0) correspondants aux
deux règles de decision triviales, d0 : "choisir toujours l’action a0 ” et d1 :"choisir toujours
l’action a1 ” .
1.0
0.8
0.6

(α,β)
β

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1.1 – Ensemble risque

L’ensemble des tests admissibles est constitué par les points de la frontière inférieure (
en gras).
Il n’y a pas de test optimal (R(θ0 , d) et R(θ1 , d) varient dans le même sens lorsqu’on
est dans cet ensemble). NEYMANN et PEARSON ont proposé de se restreindre à la sous-
classe D1 des tests vérifiant R(θ0 , d) ≤ α où α est un réel fixé de [0, 1] dit seuil, et de
prendre le test optimal dans ce sous-ensemble, i.e celui minimisant R(θ1 , d). Ce test, qui
existe (ce qui peut se voir sur la figure précédente) est dit test le plus puissant au niveau
α.
R(θ0 , d) et R(θ1 , d) sont respectivement les erreurs de première et deuxième espèce et
1 − R(θ1 , d) la puissance du test.

Statistique Bayésienne R.Messaci


14 CHAPITRE 1. ELÉMENTS DE THÉORIE DE LA DÉCISION STATISTIQUE

1.3.2 Règles minimax

Définition 1.6. Une règle de décision d1 est dite meilleure qu’une régle d2 au sens du
critère minimax si :

sup R(θ, d1 ) ≤ sup R(θ, d2 )


θ∈Θ θ∈Θ

et une règle dm est dite minimax dans l’ensemble D si

sup R(θ, dm ) = inf sup R(θ, d)


θ∈Θ d∈D θ∈Θ

Dans l’exemple précédent la règle d1 est minimax dans l’ensemble {d1 , d2 , d3 }.


4

R(θ, d1)
R(θ, d2)
R(θ, d3)
3
R(θ, d)

2
1
0

−2 −1 0 1 2

Figure 1.2 – Comparaison de rà gles


c

1.3.3 Règles de Bayes

Définition 1.7. On appelle problème de décision statistique bayésien la donnée de :


— un problème de décision statistique : (Θ, A, L) et (X, (Pθ θ ∈ Θ))
— une loi de probabilité Π sur (Θ, Φ),où Φ est une tribu de parties de Θ

Définition 1.8. Soit un problème de décision statistique bayésien, on appelle risque


bayésien de la règle d la quantité EΠ (R(θ, dB )).
Une règle dB est dite de Bayes si elle minimise le risque bayésien.

EΠ (R(θ, dB )) = inf EΠ (R(θ, d))


d∈D

Le critère de Bayes compare les règles de décision en comparant les risques moyens
relativement à la loi à priori.

Statistique Bayésienne R.Messaci


Chapitre 2

Règles de décisions bayésiennes

Le point de vue bayésien considère l’état de la nature θ (le paramètre en statistique)


comme une variable aléatoire, non observable, ayant une distribution de probabilité, dite loi
a priori. Cette loi est censée résumer toutes les connaissances antérieures qu’on a sur θ, ou
les croyances purement subjectives de l’expérimentateur ou du statisticien. Avec la variable
aléatoire X, qu’on observe et dont la loi dépend de l’état de la nature, nous avons donc
un couple de variables aléatoires. L’inférence statistique bayésienne utilise la loi a priori
et les observations de X comme deux sources d’information distinctes. Dans ce cadre, le
théorème de Bayes est un outil de base de l’analyse statistique bayésienne.

2.1 Théorème de Bayes

Ce théorème sera décliné sous deux formes : pour évènements et pour variables aléa-
toires.

Théorème 2.1. Soit (Ω, A, P ) un espace de probabilité, A et B0 deux évènements, de


probabilités non nulles, alors :

P (A | B0 )P (B0 )
P (B0 | A) = .
P (A)

Si (Bn )n∈ est un système complet d’évenements a alors on a :

P (A/B0 )P (B0 )
P (B0 /A) = +∞
.
P
P (A/Bn )P (Bn )
n=0

a. (Bn )n∈N est un système complet d’évènements si :


1) ∀n ∈ N, Bn ∈ A; 2) ∪n∈N Bn = Ω; 3) Bn ∩ Bm = ∅ ∀n 6= m.

15
16 CHAPITRE 2. RÈGLES DE DÉCISIONS BAYÉSIENNES

Corollaire 2.2. Soit X et Y deux variables aléatoires discrètes à valeurs respectives


dans X = {(xi ), i ∈ N } et Y = {(yj ), j ∈ N } alors on a comme application directe
du théorème :

P (X = xi | Y = yj )P (Y = yj ) P (X = xi | Y = yj )P (Y = yj )
P (Y = yj | X = xi ) = = +∞
P (X = xi )
P (X = xi | Y = yn )
P
n=0
(2.1)

On a une version continue de ce théorème.

Théorème 2.3. Soit X et Y deux variables absolument continues de densités respec-


tives :fX et fY et de densité conjointe fX,Y alors la loi coniditionnelle de Y sachant
que X = x existe et est absolument continue de densità c :

f (x | Y = y)fY (y) f (x | Y = y)fY (y)


f (y | X = x) = =R (2.2)
fX (x) f (x | Y = y)fY (y)dy

2.2 Lois a priori, a posteriori et prédictives


L’approche bayésienne de l’inference statistique, considère le paramètre θ comme une
v.a de loi de probabilité Π ,qui est dite loi a priori, car l’interprétation qu’on en fait en
pratique est qu’elle résume toute l’information qu’on possède sur θ avant d’observer la v.a

X.
De ce point de vue, nous avons donc deux v.a X et θ. La loi Pθ ne s’interprète plus
comme la loi de X (approche non bayésienne ) mais comme la loi conditionnelle de X
sachant θ. Notons fθ (.) et π(.) les densités de Pθ et de Π relativement à des mesures
appropriées.
On a, en utilisant (2)

fθ (x)π(θ)
π(θ | X = x) = R
Θ fθ (x)π(θ)dθ
dite loi a posteriori de θ.
Le numérateur fθ (x)π(θ) qui aurait dû être noté, en toute rigueur f (x | θ)π(θ) est la
loi du couple (X, θ).Le dénominateur est la loi marginale de X, dite loi prédictive noté f
ou m. Z
fx (x) = fθ (x)π(θ)dθ
Θ

Lorsqu’on considère l’expression (1) comme fonction deR θ ,fθ (x) est la vraisemblance
de l’observation x et est notée L(θ, x), le dénominateur Θ fθ (x)π(θ)dθ est alors une
1
constante qui est interprétée comme la constante de normalisation C = R
Θ fθ (x)π(θ)dθ
afin que C L(θ, x)π(θ) soit une densité de probabilité. Le calcul de cette dernière est
souvent fastidieux, et dans beaucoup de cas on doit faire appel à des méthodes numériques

Statistique Bayésienne R.Messaci


2.2. LOIS A PRIORI, A POSTERIORI ET PRÉDICTIVES 17

qui nous en donne une approximation. Sa connaissance n’est cependant pas indispensable
pour la détermination de la loi a posteriori.
On a

π(θ | X = x) ∝ L(θ, x).π(θ)


loi a posteriori ∝ loi a priori x vraisemblance.

(le symbole ∝ signifiant égal à une constante près ou encore proportionnel). La constante
C se déduit souvent de la forme de L(θ, x).π(θ).

Exemple 2.1 (Modèle binomial). Soit X une v.a de loi B(n, θ), la loi a priori de θ est
une loi B[0,1] (a, b) de densité :

1 (θ)
π(θ) = θa−1 (1 − θ)b−1 1[a,b] .
B(a, b)

La loi a posteriori est donnée par :


1
Cnx θx (1 − θ)n−x B(a,b) θa−1 (1 − θ)b−1
π(θ | X = x) =
R1 1
Cnx θx (1 − θ)n−x B(a,b) θa−1 (1 − θ)b−1 dθ
0
1
= θa+x−1 (1 − θ)n+b−x−1
B(a + x, b + n − x)

Π|X=x est donc la loi B[0,1] (a + x, b + n − x).


B(n, θ) s’interprète comme la loi conditionnelle de X sachant θ. La loi de X étant la
loi prédictive donnée par la densité

Z1
1
fX (x) = Cnx θx (1 − θ)n−x θa−1 (1 − θ)b−1 dθ
B(a, b)
0
Γ(x + a)Γ(n − x + b)Γ(n + 1)Γ(a + b)
= x ∈ {0, 1, 2, ..., n} .
Γ(x + 1)Γ(n − x + 1)Γ(a)Γ(b)Γ(n + a + b)

Cette loi est dite beta-binomiale et on note X ∼ BetaBin(n, a, b).

Exemple 2.2 (Modèle poissonnien). Soit X une v.a de loi P(θ), la loi a priori de θ est
une loi γ(a, b) de densité :
Γ(a) (θ)
π(θ) = a θa−1 e−bθ 1R+ .
b
La loi a posteriori est donnée par :
Γ(a) a−1 −bθ e−θ x
a
θ e . θ (b + 1)a+1 a+x−1 −(b+1)θ
π(θ | X = x) = 1 b x!
−θ
= θ e
R Γ(a)
a−1 −bθ
e x
Γ(a + x)
a
θ e . θ dθ
0 b x!
La loi a posteriori est la loi γ(a + x, b + 1).

Statistique Bayésienne R.Messaci


18 CHAPITRE 2. RÈGLES DE DÉCISIONS BAYÉSIENNES

loi a priori
vraisemblance
loi a posteriori
3
π(θ)

2
1
0

0.0 0.2 0.4 0.6 0.8 1.0

Figure 2.1 – Modèle binomial


0.5

loi a priori
vraisemblance
loi a posteriori
0.4
0.3
π(θ)

0.2
0.1
0.0

0 2 4 6 8 10

Figure 2.2 – Modèle poissonnien

2.3 Théorème fondamental de la statistique bayésienne

La détermination pratique des règles de Bayes est fondée sur le théorème suivant :

Statistique Bayésienne R.Messaci


2.4. APPLICATION AUX PRINCIPAUX PROBLÈMES D’INFÉRENCE
STATISTIQUE 19

Théorème 2.4. Soit un problème de décision statistique bayésien. Une règle est de
Bayes si et seulement si elle minimise la perte moyenne relativement à la loi a posteriori,
∀x ∈ X , i.e si :

Eθ (L(θ, dB (x)) = min Eθ (L(θ, d(x)), ∀x ∈ X.


d∈D

ou encore :
Z Z
L(θ, dB (x))dπ|X=x (θ) = min L(θ, d(x))dπ|X=x (θ), ∀x ∈ X.
d∈D
Θ Θ

Démonstration. On a

R(dB ) = min R(d) = min Eθ (R(θ, d))


d∈D d∈D
Z
= min Eθ (E(L(θ, d(X))) = min X (L(θ, d(x))fθ (x)dx) π(θ)dθ
d∈D d∈D
Θ
Z
= min X L(θ, d(x))π|X=x (θ)f (x)dxdθ
d∈D
Θ
 
Z  
= min X  L(θ, d(x))π|X=x (θ)dθ  f (x)dx.
d∈D
Θ

Pour minimiser cette intégrale il suffit de mimimiser


Z  
L(θ, d(x))π|X=x (θ)dθ ∀x ∈ X.
Θ

2.4 Application aux principaux problèmes d’inférence sta-


tistique
2.4.1 Estimation ponctuelle

Corollaire 2.5. L’estimateur bayésien de θ relativement à la fonction perte quadratique


est la moyenne de la loi a posteriori.

Corollaire 2.6. L’estimateur bayésien de θ relativement à la fonction perte écart absolu


est la médiane de la loi a posteriori.

Démonstration. Elle est basée sur le lemme suivant :

Statistique Bayésienne R.Messaci


20 CHAPITRE 2. RÈGLES DE DÉCISIONS BAYÉSIENNES

Lemme 2.7. 1. La fonction g(a) = E((X − a)2 ) admet un minimum au point


a0 = E(X).
2. La fonction h(a) = E(|X − a|) admet un minimum au point a1 = med(X).

du lemme. 1. On a g(a) = E(X 2 ) − 2aE(X) + a2 =⇒ g 0 (a) = −2E(X) + 2a,


g 0 (a0 ) = 0 ⇐⇒ a0 = E(X)
avec g 00 (a0 ) = 2, donc a0 correspond bien à un minimum de la fonction g.
2.
Z
h(a) = |x − a| fX (x)dx
R
Za +∞
Z
= (a − x)fX (x)dx + (x − a)fX (x)dx
−∞ a
Za Za +∞
Z +∞
Z
= a fX (x)dx − xfX (x)dx + xfX (x)dx − a fX (x)dx.
−∞ −∞ a a

On déduit

h0 (a) = FX (a) + afX (a) − afX (a) − afX (a) − (1 − FX (a)) + afX (a)

1
h0 (a1 ) = 0 ⇐⇒ 2FX (a1 ) = 1 ⇐⇒ FX (a1 ) =
2
.
La solution est donc : a1 = med(X).

Corollaire 2.8. L’estimateur bayésien de θ, pour la fonction perte 0 − 1, L(θ, a) =


1{θ6=a} , est le mode de la loi a posteriori.

Démonstration. La fonction perte 0 − 1 peut-être vue comme la limite quand ε −→ 0 de


la fonction perte Lε (θ, a) = 1{|θ−a|>ε} .
Déterminons d’abord l’estimateur bayésien de θ pour Lε pour un ε fixé.

Z Z
L(θ, a)π|X=x (θ)dθ = 1{|θ−a|>ε} π|X=x (θ)dθ
Θ Θ
= Π|X=x (|θ − a| > ε).

min Π|X=x (|θ − a| > ε) = min(1 − Π|X=x (|θ − a| ≤ ε)) = min(1 − Π|X=x (a − ε ≤ θ ≤
a∈R a∈R a∈R
a + ε))

Statistique Bayésienne R.Messaci


2.4. APPLICATION AUX PRINCIPAUX PROBLÈMES D’INFÉRENCE
STATISTIQUE 21

⇐⇒ max Π|X=x (a − ε ≤ θ ≤ a + ε)
a∈R
Le maximum est atteint lorsque a est le centre de l’intervalle de longueur 2ε de proba-
bilité maximale.
Si ε −→ 0, l’estimateur précédent tend vers le "point de probabilité maximal", i.e le
mode. Donc :
θbB = arg max π|X=x (θ)

2.4.2 Tests d’hypothèses


Nous considérons le cas d’une hypothèse simple ”θ = θ0 ” contre une hypothèse simple
”θ = θ1 ”, le cas général sera traité dans le chapitre 5. En utilisant les notations de
l’exemple..., les probabilités a posteriori de θ0 et θ1 sont données par :

π(θ0 )fθ0 (x)


π|X=x (θ0 ) =
π(θ0 )fθ0 (x) + (1 − π(θ0 ))fθ1 (x)

π|X=x (θ1 ) = 1 − π|X=x (θ0 )


π(θ1 )fθ1 (x)
=
π(θ0 )fθ0 (x) + (1 − π(θ0 ))fθ1 (x)
.
Les pertes moyennes relativemant à la loi a posteriori
 sont égales
 à, suivant que les ac-
tions choisies sont a0 ou a1 : Eπ|X=x (L(θ, a0 ) = 1 − π|X=x (θ0 ) l10 et Eπ|X=x (L(θ, a1 ) =
π|X=x (θ0 )l01 .
Eπ|X=x (L(θ, a1 ) = π|X=x (θ0 )l01
Un test bayésien minimise Eπ|X=x (L(θ, a), on prend donc l’action a0 si Eπ|X=x (L(θ, a0 ) <
Eπ|X=x (L(θ, a1 ) et l’action a1 dans le cas contraire.


l10
 a0 si π|X=x (θ0 ) ≥


a= l01 + l10 (2.3)
l10
 a1 si π|X=x (θ0 ) <


l01 + l10
⇐⇒
π|X=x (θ0 )

l01
 a0 si ≥



π|X=x (θ1 ) l10
a= (2.4)
 π|X=x (θ0 ) l01
 a1 si <


π|X=x (θ1 ) l10
Dans le cas symétrique (l01 = l10 ) le test bayésien choisit l’ hypothèse ayant la plus
1
grande probabilité a posteriori, i.e dire ”θ0 ” si π|X=x (θ0 ) ≥ et ”θ1 ” sinon. Le rapport
2
π|X=x (θ0 )
(odd ratio) B01 = est dit facteur de Bayes. Toujours dans le cas symétrique, la
π|X=x (θ1 )
décision ”θ = θ0 ” est choisie si B01 ≥ 1.

Les formules (2.3 et (2.4 peuvent être écrites sous la forme :

Statistique Bayésienne R.Messaci


22 CHAPITRE 2. RÈGLES DE DÉCISIONS BAYÉSIENNES

fθ1 (x) π(θ0 ) l01



 a0 si

 ≤
fθ0 (x) 1 − π(θ0 ) l10
a= fθ1 (x) π(θ0 ) l01 (2.5)
 a1 si >


fθ0 (x) 1 − π(θ0 ) l10

 que pour le test bayésien, la région de rejet de ”θ = θ0 ” est de la forme


 On déduit
fθ1 (x)
> k , c’est à dire est un test de rapport de vraisemblance, mais il se distingue du
fθ0 (x)
test le plus puissant au sens de Neyman-Pearson par la valeur de k.

2.4.3 Intervalles de confiance


L’équivalent des régions de confiance, est dit régions de crédibilté.

Définition 2.1. On appelle région de crédibilité de niveau 1 − α (0 < α < 1), toute
partie B ⊂ Θ telle que π|X=x (B) = 1 − α.

Définition 2.2. Une région B0 est dite HPD (High Probability Density) de niveau
1 − α si pour toute partie B1 de niveau 1 − α, on a :

π|X=x (θ0 ) ≥ π|X=x (θ1 ) ∀θ0 ∈ B0 , ∀θ1 ∈ B1 .

Théorème 2.9. Dans le cas Θ = R, un intervalle de crédibilité de niveau 1 − α est


optimal (au sens de longueur minimale) si est seulement si il est HPD.

La détermination des intervalles HPD est en général compliqué et nécessite de faire


appel à des méthodes numériques, sauf dans certains cas simples.
Loi a posteriori symétrique.
Soit m la moyenne de la loi, qui est forcément le centre de symétrie, l’intervalle HPD
est de la forme : [m − a, m + a]. C’est le cas par exemple de la loi normale ou de la loi de
Student.
Loi a postériori à densité monotone.
Dans le cas décroissant, par exemple sur [0, +∞[,,l’intervalle HPD est de la forme :
[0, a].
C’est le cas de la loi exponentielle, de certaines lois gamma ou béta.

2.4.4 Prédiction
Si on dispose de n observations x = (x1 , x2 , ...., xn ) d’une variable aléatoire X, le point
de vue bayésien permet de déterminer la loi d’une future observation et d’estimer la valeur
qu’elle peut prendre.
f (xn+1 , θ | x)
En utilisant on a : f (xn+1 | θ) = =⇒ f (xn+1 , θ | x) = f (xn+1 | θ)π(θ |
π(θ | x)
x)
On déduit :

Statistique Bayésienne R.Messaci


2.4. APPLICATION AUX PRINCIPAUX PROBLÈMES D’INFÉRENCE
STATISTIQUE 23
π(θ|x)

1 −α

Figure 2.3 – Région de confiance HPD ; cas symétrique


π(θ|x)

1 −α

Figure 2.4 – Région de confiance non HPD

Z
f (xn+1 | x) = fθ (xn+1 )π(θ | x)dθ.
Θ
On peut estimer la valeur d’une future observation par l’espérance de cette loi :

en+1 = E(Xn+1 | x).


x

Statistique Bayésienne R.Messaci


24 CHAPITRE 2. RÈGLES DE DÉCISIONS BAYÉSIENNES
π(θ|x)

1 −α

Figure 2.5 – Région de confiance HPD ; cas monotone

Statistique Bayésienne R.Messaci


Chapitre 3

Lois a priori

Le choix de la loi a priori est un point sensible et très controversé. Sur quelle base
faire ce choix sans qu’il ne soit arbitraire. Si dans le cas de grands échantillons d’observa-
tions, comme on le verra, l’importance de cette loi diminue, ce n’est pas le cas pour des
échantillons plus petits. On distingue deux types de situations :
1. Situations informatives où on dispose d’informations objectives sur l’état de la na-
ture, par exemple des estimations antérieures de θ, on peut alors de manière em-
pirique (histogramme ect.) ajuster une loi qui résumerait cette connaissance. Dans
d’autres cas une loi informative subjective peut-être choisie sur la base d’une exper-
tise qu’a le statisticien.
2. Pour les situations non informatives, la question de base est de déterminer les lois
capables de traduire cette absence de connaissances, puique toutes les lois, a l’ex-
ception de la loi uniforme, discriminent entre différentes valeurs du paramètre.
Un critère souhaitable dans le choix des lois a priori est qu’elles doivent conduire à des
lois a posteriori simples ou connues, pour pouvoir calculer leurs principales caractéristiques
(moyenne, mode, variance ect.) en vue de l’inférence statistique. C’est la propriété que
possède les lois conjugués naturelles qui sont souvent utilisées en situation informative.

3.1 Lois a priori informatives

Définition 3.1. La famille de lois F c sur Θ est dite conjuguée naturelle de la famille
de lois F sur X, si :

∀ Π ∈ F c , ∀ x ∈ X =⇒ Π|X=x ∈ F c .

Définition 3.2. La famille de lois F = {fθ (.)/θ ∈ Θ} de Rp est dite appartenir à la


famille des lois exponentielles Ek d’ordre k s’il existe des fonctions h, ti (1 ≤ i ≤ k) de
Rp dans R et des fonctions c, αi (1 ≤ i ≤ k) de Θ dans R telles que :
( k )
X
fθ (x) = c(θ)h(x) exp ti (x)αi (θ) ∀x ∈ Rp (3.1)
i=1

25
26 CHAPITRE 3. LOIS A PRIORI

Si k = 1, on parle de famille des lois exponentielles d’ordre 1, on a dans ce cas

fθ (x) = c(θ)h(x) exp {t(x)α(θ)} .

.
αi (θ) = ψi sont dits paramètres naturels. Ce changement de variables permet de
réecrire (3.1) sous la forme :
( k )
0 X
fψ (x) = c (ψ)h(x) exp ψi ti (x) ∀x ∈ Rp
i=1

Théorème 3.1. La famille des lois


( ( k ) )
X
c β0
F = c(θ) exp βi αi (θ) /βi ∈ R,1 ≤ i ≤ k
i=1

est la famille des lois conjuguées naturelles de Ek (lois exponentielles d’ordre k).

Démonstration. Soit fθ ∈ F et Π ∈ F c . On a
 
X n
k X 
π(θ | X = x) ∝ c(θ)β0 +n exp ( ti (xj ) + βi )αi (θ)
 
i=1 j=1
( k )
0 X 0
β0
= c(θ) exp βi αi (θ)
i=1

avec
n
0 0 X
β0 = β0 + n et βi = βi + ti (xj ) (3.2)
j=1

. Donc Π|X=x ∈ F c .

Pourquoi les lois conjuguées sont-elles informatives ?


Les formules (3.2) donnant les paramètres de la loi a posteriori montre que la loi a priori
est équivalente (d’un point de vue purement mathématique) à un échantillon de taille β0 , sur
lequel la statistique exhaustive prend la valeur (β1 , β2 , ....βk ). Cette interprétation justifie
pourquoi, mis à part le cas ou βi = 0 et (β1 , β2 , ....βk ) = (0, 0, , 0), ces lois sont considérées
comme informatives.
Soit fθ (x) = c(θ)h(x) exp {θx} ∈ E1 . On a : E(X) = β 0 (θ) et V ar(X) = β 00 (θ).

Exemple 3.1 (Lois normales). Soit n réalisations indépendantes d’une v.a X de loi
N (θ, σ 2 ).
1. θ inconnu, σ 2 connu.

Statistique Bayésienne R.Messaci


3.1. LOIS A PRIORI INFORMATIVES 27

La vraisemblance est égale à :


 n 
(x − θ)2 
P
1 i=1 i

 
1  
L(θ, x
e) = √ exp −
( 2πσ)n  2

 σ2 


 n 
(xi − x)2 + n(x − θ)2 
 P
 
1 1  
= √ exp − i=1
( 2πσ)n
 2

 σ2 


( )
1 1 n(θ − x)2
∝ √ exp − (
( 2πσ)n 2 σ2

en prenant comme paramètres la statistique exhaustive x et la taille de l’échantillon


(à un changement bijectif prés) ,on conclut que la famille des lois conjuguées est
formée des lois N (µ, τ 2 ).
2. θ connu, σ 2 inconnu.

 n 
(xi − θ)2 
 P
 
1 1  
L(σ 2 , x
e) = √
n
exp − i=1 2
( 2πσ)  2

 σ 


 n 
(xi − θ)2 
 P
 
1 1  
= √ n exp − i=1 2
n 2
( 2π) (σ ) 2  2

 σ 


 n 
(xi − x)2 
( )  P
n(x − θ)2
 
1 − 21 1  1 i=1 
∝ exp n−1 exp −
σ σ2 (σ 2 ) 2  2

 σ2 

1 b
 
∝ 2 a+1
exp −
(σ ) σ2
n
n 1
− 1 et b = (xi − θ)2 . La famille des lois conjuguées dans ce
P
en posant a = 2 2
i=1
cas est la famille des lois gamma-inverse.
3. θ inconnu, σ 2 inconnu.

 n 
(xi − θ)2 
 P
 
1 1  
L(θ, σ 2 , x
e) = √
n
exp − i=1 2
( 2πσ) 

 2 σ 


 n 
(xi − x)2 + n(x − θ)2 
 P
 
1 1  
= √ n exp − i=1
n 2
( 2π) (σ ) 2  2

 σ2 

Statistique Bayésienne R.Messaci


28 CHAPITRE 3. LOIS A PRIORI

Loi d’échantillonage Paramètres Loi conjuguée


Binomiale B(n, θ) θ Beta B[0,1] (a, b)
Binomiale négative BN (n, θ) θ Beta B[0,1] (a, b)
Poisson P(θ) θ Gamma γ(a, b)
Exponentielle Exp(θ) θ Gamma γ(a, b)
Normale N (θ, σ 2 ) θ, σ 2 Normale Inverse-Gamma N IG(µ, τ 2 , a, b)

Table 3.1 – Exemples de lois conjuguées

σ2
qui est le noyau d’une loi normale -gamma- inverse N (µ, )IG(a, b).
τ
Remarque 1. Les lois de la famille des lois exponentielles ne sont pas les seules à avoir des
lois conjuguées. Par exemple la loi uniforme U[0,θ] qui n’appartient pas à E1 admet les lois
de Pareto comme lois conjuguées.

3.2 Lois a priori non informatives


Dans beaucoup de situations,on ne dispose pas d’informations a priori (ou très peu )
sur le paramètre d’intêret. Il n’est alors pas possible de spécifier une loi a priori raisonnable
et fondée.
Intuitivement, la loi uniforme apparait comme celle qui traduit le mieux l’état d’in-
différence, ou d’équiprobabilité, à l’égard des différentes valeurs possibles du paramètre.
Historiquement, c’est d’ailleurs la première loi proposée pour ce cas par Laplace. Son uti-
lisation pose cependant plusieurs problèmes, parmi lesquels :
-elle n’est pas définie sur des ensembles non bornés : R+ , R, R2 ect....
-elle n’est pas invariante par reparamétrisation.
Supposons que Θ = [0, 1] et que θ U[0,1] . Déterminons la loi de θ2 .On a
√ √
Fθ2 (x) = P [θ2 < x] = P [θ < x] = Fθ ( x)

=⇒
1 √ 1
fθ2 (x) = √ fθ ( x) = √ 1[0,1] (x).
2 x 2 x
Ainsi θ2 ne suit pas une loi uniforme, sa loi est dans un certain sens informative car elle
discrimine entre les différentes valeurs qu’elle peut prendre. On a par exemple,
√ pour deux
1 1 3 3
intervalles de meme longueur : P [θ2 < ] = 6= P [ < θ2 < 1] = 1 − .
4 2 4 2
La recherche de lois pouvant traduire la situation de non-information, ou de vague
information, a constitué l’un des sujets de recherche majeurs en statistique bayésienne et
a aboutit à plusieurs :
-utilisation de lois impropres.
-utilisation du principe d’invariance pour certaines transformations.
-lois non informatives au sens de Jeffreys.
-lois de référence.
- lois de Haldane,ect...

Statistique Bayésienne R.Messaci


3.2. LOIS A PRIORI NON INFORMATIVES 29

3.2.1 Lois impropres


Leur utilisation comme lois a priori est justifié par le fait que dans beaucoup de cas les
lois a posteriori, auxquelles elles conduisent sont propres.

Définition
R
3.3. On appelle loi impropre une mesure non finie. Si elle admet une densité
f , on a Θ f (θ)dθ = +∞

Exemple 3.2. 1. Θ = R , π(θ) = c ,c : constante réelle fixé.


1
2. Θ = R+ , π(θ) = .
θ
Exemple 3.3 (modèle gaussien). 1. On prend pour loi a priori la loi impropre sur
R : π(θ) = c.
On déduit :

 n 
(xi − θ)2 
 P
 
1 1  
π(θ | X = x) ∝ c. √ n
exp − i=1 2
( 2πσ)  2

 σ 


( )
1 1 (n − 1)S 2 + n(θ − x)2
= √ exp −
( 2πσ)n 2 σ2
=⇒
( )
1 1 n(θ − x)2
π(θ | X = x) ∝ c. √ exp −
( 2πσ)n 2 σ2
=⇒
σ2
π(θ | X = x) : N (x, ).
n
La loi a posteriori est donc une mesure de probabilité.
2. θ connu, σ 2 inconnu.
1
On prend pour loi a priori la loi impropre sur R+ : π(σ 2 ) = .
σ2
On tire :
 n 
(xi − θ)2 
 P
 
1 1  1 i=1 
π(σ 2 | X = x) = 2
√ exp −
σ ( 2πσ)n  2

 σ2 

=⇒  n 
(xi − θ)2
P
 n i=1
π(σ 2 | X = x) : IG 

2,

2 

La loi a posteriori est ici aussi une mesure de probabilité.

Statistique Bayésienne R.Messaci


30 CHAPITRE 3. LOIS A PRIORI

3.2.2 Lois invariantes par transformations


On se limitera ? deux types de transformations : les translations et les homothà ties c
(changement d’échelle). Soit Fθ la fonction de répartition de la loi Pθ (on notera fθ sa densit

Définition 3.4. θ est dit paramètre de position s’il existe une fonction de répartition
F telle que :

∀x Fθ (x) = F (x − θ) ⇐⇒ ∀x fθ (x) = f (x − θ)
Il sera dit paramètre d’échelle si :
x 1 x
∀x Fθ (x) = F ( ) ⇐⇒ ∀x fθ (x) = f ( )
θ θ θ

On peut vérifier que si X et Y sont deux variables aléatoires de lois respectives Fθ et


F, alors :
1. θ est un paramètre de position si X = Y + θ ( i.e la loi de X − θ est indépendante
de θ ).
X
2. θ est un paramètre d’échelle si : X = θY (i.e la loi de est indépendante de θ).
θ

Exemple 3.4. 1. Pour une loi normale N (m, σ 2 ) : m est un paramètre de position et
σ est un paramètre d’échelle.
2. Pour une loi uniforme U[0,θ] : θ est un paramètre d’échelle.

Si le paramètre θ est respectivement un paramètre de position ou d’échelle, il est na-


turel que la loi a priori non informative soit invariante par translation respectivement par
changement d’echelle (homothétie). Pour s’en convaincre, il suffit de considérer le cas où θ
est un poids, Il est logique que toute loi a priori soit invariante quelque soit l0 unité choi-
sie pour θ (gramme, kilogramme ect..). De même si θ est une température, elle peut être
exprimé soit en degrés Celsius ou en degrés Fahrenheit. La conversion se faisant suivant la
formule F ◦ = 1.8C ◦ + 32. Il est naturel que toute loi a priori pour θ soit invariante par
translation et changement d’échelle.

3.2.3 Lois dans Rn invariantes par translation


Soit π sa densité, elle doit vérifier :

∀θ, ∀θ0 : π(θ + θ0 ) = π(θ0 )

En particulier pour θ0 = 0, on déduit :

∀θ : π(θ) = π(0) = C

où C est une constante. Donc le seule loi sur Rn invariante par translation est la loi de
densité constante qui est une loi impropre.

Statistique Bayésienne R.Messaci


3.2. LOIS A PRIORI NON INFORMATIVES 31

3.2.4 Lois dans R invariantes par changement d’échelle

1 θ
 
∀θ ∈ R, ∀θ0 ∈ R : π(θ) = π(θ) = π
θ0 θ0
en particulier si θ = θ0 , on déduit

1 C 1
∀θ0 : π(θ0 ) = π (1) = ∝
θ0 θ0 θ0
où C est une constante. Donc c’est la seule loi sur R invariante par changement d’échelle.

3.2.5 Lois non informatives de JEFFREYS


Pour éviter les choix arbitraires, Jeffeys a proposé de choisir la loi a priori elle-même sur
la seule source d’information disponibles : les observations de X. Cette méthode conduit à
des lois a priori ayant en plus la propriété d’être invariantes par transformations bijectives.

Définition 3.5. Soit Θ ⊂ R , on appelle loi non informative au sens de Jeffreys une loi
de densité π définie par : q
π(θ) ∝ I(θ)

oÃ1 I(θ) est la quantité d’information de Fisher ramenée par une observation de X sur
θ.

Exemple 3.5 (Modèle poissonnien). On a :


θx
L(θ, x) = e−θ =⇒ log L(θ, x) = −θ + x log θ − log x!
x!     1
=⇒ I(θ) = −E ∂θ∂ 2 log L(θ, X) = E θX2 =
θ
Alors la loi non informative de Jeffreys pour θ est :
1
π(θ) ∝ θ− 2 .

On remarque que c’est une loi impropre qu’on peut interpréter (par extension) comme
une loi γ( 12 , 0).

Exemple 3.6 (Modèle gaussien). 1. θ paramètre et σ 2 connu


On vérifie que :
√  (x − θ)2   1

log L(θ, x) = − log 2πσ − 21 2
=⇒ I(θ) = −E ∂θ 2 log L(θ, X) = 2
σ σ
donc
π(θ) = c.

A nouveau la loi de Jeffreys est une loi impropre.


2. θ connu et σ 2 paramètre

√ − θ)2
1 (x

log L(σ 2 , x) = − log 2π − 12 log σ 2 −

2 σ2

Statistique Bayésienne R.Messaci


32 CHAPITRE 3. LOIS A PRIORI

 

=⇒ I(σ 2 ) = −E ∂(σ 2 )2
log L(σ 2 , X) =

1
π(σ 2 ) = .
σ2

Définition 3.6. Soit Θ ⊂ Rk , on appelle loi non informative au sens de Jeffreys une
loi de densité π définie par :
q
π(θ) ∝ det(I(θ))
où I(θ) est la matrice d’information de Fisher ramenée par une observation de X sur θ.

Exemple 3.7 (Modèle gaussien :θ et σ 2 paramètres.). On a :

∂2
 
∂ ∂
E( 2
log L(θ, σ 2 , X) E( 2
log L(θ, σ 2 , X) 
2

I(θ, σ ) = −  ∂θ ∂θ ∂σ
∂2
 
∂ ∂
log L(θ, σ 2 , X) 2

E( E( log L(θ, σ , X)
∂θ ∂σ 2 2
∂(σ )2

=⇒
1
 
 σ2 0
2
I(θ, σ ) =  1 ,

0
2σ 4

on déduit
1
π(θ, σ 2 ) = .
σ3

Théorème 3.2 (Invariance par reparamétrisation bijective). Soit π la loi non infor-
mative de Jeffreys pour θ et si φ = ϕ(θ) est une transformation bijective dérivable du
paramètre θ alors la densité π1 de φ vérifie
q
π1 (φ) ∝ I(φ)

Démonstration. On sait que


 0 ∂θ
π1 (φ) = π(ϕ−1 (φ)) ϕ−1 (φ) = π(θ) .
∂φ

D’autre part :

∂ ∂ ∂θ
log L(φ, x) = log L(θ, x) ×
∂φ ∂θ ∂φ
∂θ 2
 
=⇒ I(φ) = I(θ)
∂φ

Statistique Bayésienne R.Messaci


3.2. LOIS A PRIORI NON INFORMATIVES 33

On conclut que :
q q ∂θ
I(φ) = I(θ)
∂φ
∂θ
= π(θ)
∂φ

Ainsi si la loi de θ est une loi de Jeffreys, la loi de ϕ(θ) qui s’en déduit est encore une
loi de Jeffreys C’est la principale propriété de ces lois qui justifie leur utilisation.

Statistique Bayésienne R.Messaci


34 CHAPITRE 3. LOIS A PRIORI

Statistique Bayésienne R.Messaci


Annexe A

Lois de probabilités usuelles

A.1 Lois de probabilités univariées


A.1.1 Loi de Bernoulli
Définition A.1. Une variable aléatoire X est dite suivre une loi de Bernoulli de paramètre
p (0 < p < 1) si elle prend ses valeurs dans {0, 1} avec P (X = 0) = 1 − p = q et
P (X = 1) = p.
On note : X ∼ B(p).

Propriétés :
1. E(X) = p et V ar(X) = pq
2. Tout résultat d’une expérience aléatoire à deux issues possibles (succés, échec
ou encore 0,1) peut-être modélisée à l’aide d’une v.a de Bernoulli. Par exemple le
résultat d’un lancer d’une pièce de monnaie, en posant X = 1 si pile sort et X = 0
si face sort. p = P (X = 1) est la probabilité de pile et q = 1 − p celle de face.

A.1.2 Loi binomiale


Définition A.2. Une variable aléatoire X suit une loi binomiale de paramètres n et p
(n ∈ N , 0 < p < 1) si elle prend ses valeurs dans {0, 1, 2, .., n} avec

P (X = k) = Cnk pk (1 − p)n−k .

On note : X ∼ B(n, p).

Propriétés :
1. B(1, p) = B(p)
2. E(X) = np et V ar(X) = npq
n
3. Xi ∼ B(p), 1 ≤ i ≤ n i.i.d =⇒ Xi ∼ B(n, p)
P
i=1
4. Considérons, une expérience de type succés-échec répétée n fois dans des conditions
identiques et de manière indépendante telle que la probabilité d’avoir à chaque
répétition un succés est p. Soit X la v.a qui compte le nombre total de succès
obtenus, alors X ∼ B(n, p).

35
36 ANNEXE A. LOIS DE PROBABILITÉS USUELLES

A.1.3 Loi de Poisson


Définition A.3. Une variable aléatoire X suit une loi de Poisson de paramètre λ (λ ∈ R)
si elle prend ses valeurs dans N avec

λk
P (X = k) = e−λ .
k!
On note : X ∼ P (λ)

Propriétés :
1. E(X) = λ et V ar(X) = λ
2. X1 ∼ P (λ1 ), X2 ∼ P (λ2 ) indépendantes =⇒ X1 + X2 ∼ P (λ1 + λ2 )

A.1.4 Loi binomiale négative


Définition A.4. Une v.a entière X est de loi binomiale négative et on note X ∼ BN (n, θ)
si :
x−1 n
P [X = x] = Cn−1 θ (1 − θ)x−n x ∈ {n, n + 1, n + 2, .......},

avec le changement de paramètres y = x − n , l’expression précédente devient :


n−1
P [X = y] = Cn+y−1 θn (1 − θ)y y ∈ N.

Propriétés :
— la loi binomiale négative est la loi du nombre d’épreuves nécessaires pour obtenir n
succés, dans une suite d’épreuves du type succés-échec, .
— son espérance et sa variance sont données par :
1−θ 1−θ
E(X) = n , V ar(X) = n 2 .
θ θ
— Si n = 1 la loi est dite géométrique de paramètre θ et est noté G(θ).(G(θ) =
BN (1, θ)).
— la loi BN (n, θ) est stable par convolution sur le premier paramètre, en particulier
elle peut s’écrire comme la somme de n v.a indépendantes de loi G(θ).
— Elle s’obtient comme mixture de lois de Poisson et de lois Gamma.

A.1.5 Loi gamma


Définition A.5. Une variable aléatoire réelle X est dite suivre une loi gamma si elle admet
la densité :
ba a−1 −bx (x)
f (x) = x e 1R+
Γ(a)
a et b paramètres réels strictement positifs

Notation. X ∼ γ(a, b)

Cas particuliers :
1. γ(1, b) = Exp(b) : loi exponentielle de paramètre b

Statistique Bayésienne R.Messaci


A.1. LOIS DE PROBABILITÉS UNIVARIÉES 37

1.0

gamma(1,1)
0.8

gamma(3,2))
gamma(4,2)
gamma(10,2)
0.6
f(x)

0.4
0.2
0.0

0 2 4 6 8 10

Figure A.1 – Densités de lois gamma

n 1
2. γ( , ) = χ2n : loi du khi-deux à n degrés de liberté (loi fondamentale en statistique)
2 2
Propriété :
+∞
R a−1 −bx Γ(a)
1. x e dx = a ( intégrale utile à connaitre)
0 b
a a
2. E(X) = , V ar(X) = 2 ( démonstration directe ou en utilisant les fonctions
b b
génératrices)
3. X1 ∼ γ(a1 , b), X2 ∼ γ(a2 , b) =⇒ X1 + X2 ∼ γ(a1 + a2 , b)
propriété de stabilité par convolution sur le premier paramètre

A.1.6 Loi inverse gamma


Définition A.6. Une variable aléatoire X est de loi inverse gamma IG(a, b), où a > 0 et
b > 0, si elle admet la densité :
b
ba e− x (x)
f (x) = 1
Γ(a) xa+1 R+
n m n m
 
Si a = et b = , la loi est dite inverse chi-deux et noté IX 2 , .
2 2 2 2
Propriétés :
1. X ∼ G(a, b) ⇒ 1/X ∼ IG(a, b).
b b2
2. On a E(X) = , si a > 1 et V ar(X) = , si a > 2.
a−1 (a − 1)2 (a − 2)

A.1.7 Loi beta sur [0, 1]


Définition A.7. Une variable aléatoire réelle X est dite de loi Béta sur [0, 1] (ou loi Béta
de première espèce) si elle admet la densité

Statistique Bayésienne R.Messaci


38 ANNEXE A. LOIS DE PROBABILITÉS USUELLES

1 (x)
f (x) = xa−1 (1 − x)b−1 1[0,1]
B(a, b)
On note : X ∼ B[0,1] (a, b).
3.0

beta(1,1)
beta(1.5,1.5))
2.5

beta(2,5)
beta(1,3)
beta(0.5,0.5)
2.0
f(x)

1.5
1.0
0.5
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Figure A.2 – Densités de lois beta

Propriétés :
1. La loi uniforme sur [0, 1] correspond à la loi B[0,1] (1, 1).
2. son espérance et sa variance sont données par :
a ab
E(X) = , V ar(X) = 2 .
a+b (a + b) (a + b + 1)

A.1.8 Loi de Pareto


Définition A.8. Une variable aléatoire X est dite suivre une loi de Pareto de paramètres
∗ , c ∈ R∗ ) et on note X ∼ P(a, c) si elle admet la densité :
a et c (a ∈ R+ +

ca
fX (x) = a 1 (x)
xa+1 [c,+∞[
Propriétés :
a
1. E(X) = c si a > 1.
a−1
2
c a

2. V ar(X) = si a > 2.
a−1 a−2

A.1.9 Loi normale


Définition A.9. Une variable aléatoire réelle X est dite suivre une loi normale si elle
admet la densité :
(x − µ)2
1 − 12
fX (x) = √ e σ2
2πσ

Statistique Bayésienne R.Messaci


A.1. LOIS DE PROBABILITÉS UNIVARIÉES 39

µ, σ 2 paramètres réels respectivement quelconque et strictement positif.


On note : X ∼ N (µ, σ 2 )

Cas particulier : N(0,1), loi normale centrée et réduite.


0.8

N(0,1)
N(0,0.25)
0.6

N(0,4)
0.4
f(x)

0.2
0.0

−4 −2 0 2 4

Figure A.3 – Densités de lois normales

Propriétés :
X −µ
1. X ∼ N (µ, σ 2 ) =⇒ Y = ∼ N (0, 1) (centrage et réduction)
σ
2. Y ∼ N (0, 1) =⇒ X = σY + µ ∼ N (µ, σ 2 )
3. E(X) = µ, V ar(X) = σ 2
4. X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ) indépendantes =⇒ X1 +X2 ∼ N (µ1 +µ2 , σ12 +σ22 )
n n n
5. Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n indépendantes =⇒ Xi ∼ N ( σi2 )
P P P
µi ,
i=1 i=1 i=1
6. X ∼ N (0, 1) =⇒ X 2 ∼ χ21 (khi-deux à un ddl)
n
7. Xi ∼ N (0, 1), 1 ≤ i ≤ n i.i.d =⇒ Xi2 ∼ χ2n (khi-deux à n ddl)
P
i=1
n Xi − µi
8. Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n indépendantes =⇒ )2 ∼ χ2n
P
(
i=1 σ i

A.1.10 Loi de Student


Il s’agit d’une généralisation de la loi de Student connu avec l’intoduction d’un para-
mètre de position et d’un paramètre d’échelle.

Statistique Bayésienne R.Messaci


40 ANNEXE A. LOIS DE PROBABILITÉS USUELLES

Définition A.10. Une v.a réeelle X est dite de loi de Student à ν degrés de liberté et de
paramètres µ et σ 2 si elle admet pour densité :
1
fX (x) =
(x − µ)2 ν+1
(1 + ) 2
νσ 2
et on note : X ∼ St(µ, σ 2 , ν)
On remarque que :
— si µ = 0 et σ 2 = 1 on retrouve la loi de Student connu,qui sera donc notée : St(0, 1, ν)
X −µ
— X ∼ St(µ, σ 2 , ν) =⇒ ∼ St(0, 1, ν)
σ
n
— E(X) = µ et V ar(X) = σ2.
n−2
σ2 a b b
Proposition A.1. Si (θ, σ 2 ) est de loi N (µ, )IG( , ) , alors θ ∼ St(µ, , a).
τ 2 2 τa
2 2
Démonstration. Notons π(θ, σ ) la densité de (θ, σ ) . On a
Z
π(θ) = π(θ, σ 2 )dσ 2
a
b
( )2 √
2 τ
Z
− 12 (
τ (θ−µ)2 +b
) 1
= a √ e σ2
a+1 dσ 2
2 +1
Γ( ) 2π (σ ) 2
2
b a a+1
( )2 √
2 τ Γ( )
= 2
a √ a+1 a+1
Γ( ) 2π.( 12 ) 2 (τ (θ − µ)2 + b) 2
2
a+1
Γ( ). 1
= 2
a 1 1 b 1 (θ − µ)2 a+1
Γ( )Γ( )a 2 ( ) 2 (1 + ) 2
2 2 aτ a( aτb
)
1 1
=
1 a √ qb 2 a+1
B( , ) a aτ (1 + (θ − µ) ) 2
2 2 b
a( aτ )

A.2 Lois de probabilités multivariées


A.2.1 Loi multinomiale
Définition A.11. Un vecteur aléatoire X = (X1 , X2 , .., Xk ) est dit de loi multinomiale
k
M(n, p1 , p2 , .., pk ) s’il prend ses valeurs dans D = {(n1 , n2 , ..., nk )/ni ∈ N et
P
ni = n}
i=1
avec
n!
P (X1 = x1 , X2 = x2 , .., Xk = xk ) = pn1 pn2 , .., pnk k
n1 !n2 !...nk ! 1 2
On note : X = (X1 , X2 , .., Xk ) ∼ M(n, p1 , p2 , .., pk ).

Statistique Bayésienne R.Messaci


A.2. LOIS DE PROBABILITÉS MULTIVARIÉES 41

Propriétés :
1. Xi ∼ B(n, pi )
2. E(Xi ) = npi et V ar(Xi ) = npi (1 − pi )
3. Cov(Xi , Xj ) = −npi pj

Exemple A.1. Soit une urne contenant des boules de k couleurs différenres : C1 , C2 , ...Ck
en proportions respectives p1 , p2 , .., pk . On fait n tirages avec remise, et soit X1 , X2 , .., Xk
le nombre de boules des différentes couleurs obtenues. Alors X = (X1 , X2 , .., Xk )t ∼
M(n, p1 , p2 , .., pk ).

A.2.2 Loi de Dirichlet


La loi de Dirichlet est l’équivalent multidimensionnel de la loi bêta .

Définition A.12. Un vecteur aléatoire X à valeurs dans Rp est dit de loi de Dirichlet
D(α1 , α2 , ...., αp , αp+1 ) , αi > 0 ∀1 ≤ i ≤ p + 1 s’il admet la densité :

p
fX (x1 , x2 , ..., xp ) = C.xα1 1 −1 xα2 2 −1 .....xαp p −1 (1 − xi )αp+1 −1 .1D (x1, ...., xp )
X

i=1
p
P
Γ( αi ) p
i=1
X
p
avec C = et D = {(x1 , x2 , ..., xp ) ∈ R / xi < 1}
Γ(α1 )Γ(α2 )...Γ(αp ) i=1

On note X ∼ D(α1 , α2 , ...., αp , αp+1 )

Cas particuliers :
— Si p = 1 on retrouve la loi B[0,1] (α1 , α2 ) .
— Si α1 = α2 = ... = αp = αp+1 = 1 on a la loi uniforme sur D.

A.2.3 Loi normale multivariée


Définition A.13 (Loi normale multivariée). Un vecteur aléatoire X = (X1 , X2 , .., Xn )
à valeurs dans Rn est dit de loi normale s’il admet la densité :
1 1 t Σ−1 (x−m)
f (x) = n p e− 2 (x−m)
(2π) 2 det(Σ)

avec m ∈ Rn et Σ matrice (n,n) symétrique définie positive.


On note : X ∼ Nn (m, Σ).

Cas particulier : m = (0, 0, .., 0) et Σ = In


X ∼ Nn (0, In ) : loi normale centrée, réduite dans Rn
Propriétés :
1. Soit X ∼ Nn (m, Σ) et A une matrice (p, n) alors Y = AX ∼ Np (Am, AΣAt )
n
P
2. Toute combinaison linéaire ai Xi , pour tous réels a1 , ..., an , suit une loi normale
i=1
3. En particulier Xi ∼ N (mi , σi2 ) pour tout i

Statistique Bayésienne R.Messaci


42 ANNEXE A. LOIS DE PROBABILITÉS USUELLES

4. X = (X1 , X2 , .., Xn ) ∼ Nn (m, Σ). X1 , X2 , .., Xn sont indépendantes si et seulement


si Σ est diagonale.
5. Xi ∼ N (m, σ 2 ), 1 ≤ i ≤ n i.i.d, alors on a :
(a) Xn et Sn2 sont indépendantes
σ2
(b) Xn ∼ N (m, )
n
nSn2
(c) ∼ χ2n−1
σ2

Rho=0 Rho=0

4
2

0.04

0.08

0.12
zz

0.1
4
0

0.1

0.06
x
y

−2

0.02
−4

−4 −2 0 2 4

Figure A.4 – Graphe et courbe de niveaux de lois normales bivariées

Figure A.5 – Graphe et courbe de niveaux de lois normales bivariées

Figure A.6 – Graphe et courbe de niveaux de lois normales bivariées

A.2.4 Loi de Student multivariée


Soit µ un vecteur de Rp et Σ une matrice (p, p) symétrique définie positive.

Statistique Bayésienne R.Messaci


A.2. LOIS DE PROBABILITÉS MULTIVARIÉES 43

Définition A.14. Une v.a X à valeurs dans Rp est dite de loi de Student à ν degrés de
liberté et de paramètres µ et Σ si elle admet pour densité :
1
fX (x) =
(x − µ)t Σ−1 (x − µ) ν+p
(1 + ) 2
ν
et on note : X ∼ St(µ, Σ, ν)

Statistique Bayésienne R.Messaci


44 ANNEXE A. LOIS DE PROBABILITÉS USUELLES

Statistique Bayésienne R.Messaci


Bibliographie

Andrew Gelman, John B Carlin, Hal S Stern, David B Dunson, Aki Vehtari, and Donald B
Rubin. Bayesian data analysis. CRC press, 2013.

Simon Jackman. Bayesian analysis for the social sciences, volume 846. John Wiley &
Sons, 2009.

Christian Robert. Le choix bayésien : Principes et pratique. Springer Science & Business
Media, 2005.

45

Vous aimerez peut-être aussi