Rabah Messaci
NOVEMBRE 2020
2
R.Messaci.
3
4
3 Lois a priori 25
3.1 Lois a priori informatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Lois a priori non informatives . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1 Lois impropres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Lois invariantes par transformations . . . . . . . . . . . . . . . . . . 30
3.2.3 Lois dans Rn invariantes par translation . . . . . . . . . . . . . . . . 30
3.2.4 Lois dans R invariantes par changement d’échelle . . . . . . . . . . . 31
3.2.5 Lois non informatives de JEFFREYS . . . . . . . . . . . . . . . . . 31
5
6 TABLE DES MATIÈRES
1971 − 1975 1976 − 1980 1981 − 1985 1986 − 1990 1991 − 1995 1995 − 2000
4% 5% 5% 6% 11% 15%
Le nombre d’ouvrages qui lui sont consacrés soit spécifiquement soit aux domaines qui
lui sont liés, notamment les méthodes M.C.M.C (Monte Carlo par chaines de Markov)
augmente d’année en année.
7
8 TABLE DES MATIÈRES
L’approche bayésienne de la statistique peut être présenté soit dans le cadre de la théo-
rie de la décision statistique, soit hors de ce cadre. La première méthode présente l’avantage
de pouvoir la comparer avec d’autres approches, et de faire apparaitre les différences exis-
tantes. Nous allons brièvement donner quelques éléments de théorie de la décision, en
général, qui englobe aussi les problèmes de décision statistique comme la théorie des jeux.
Exemple 1.1. L’un des domaines d’application de la théorie de la décision est la théorie
des jeux. Considérons un jeu simple à trois états possibles de la nature et à trois actions
possibles, comme c’est le cas dans les jeux de pronostic d’un match de football. Une équipe
A joue contre une équipe B ; Il s’agit de prévoir le résultat du match : 1 si l’équipe A gagne,
2 si l’équipe B gagne et × si match nul. Un exemple de fonction perte est la suivante :
A\Θ 1 × 2
1 -20 10 5
× 5 -25 10
2 40 10 -40
Une perte négative est un gain. Les pertes ne sont pas toutes égales car il y a des
résultats plus difficiles à prévoir, généralement l’équipe qui reçoit a plus de chances de
gagner.
Exemple 1.2. Tous les problèmes classiques de statistique s’insèrent dans le cadre théo-
rique précédent :
9
10 CHAPITRE 1. ELÉMENTS DE THÉORIE DE LA DÉCISION STATISTIQUE
1. Estimation ponctuelle
Un problème de décision est dit estimation ponctuelle lorsque Θ = A. Les fonctions
pertes usuelles sont, par exemple, dans le cas d’un paramètre réel
— perte quadratique : L(θ, a) = (θ − a)2
— perte écart-absolu : L(θ, a) = |θ − a|
— L(θ, a) = 1{θ6=a} .
p p
(θi − ai )2 ou encore |θi − ai |.
P P
et dans le cas vectoriel L(θ, a) =
1=1 1=1
Dans le cas fonctionnel (Θ est l’ensemble des fonctions de répartition sur R par
exemple, ou ce qui revient au même l’ensemble des mesures de probabilités)
R
L(θ, a) = sup |θ(x) − a(x)| ou L(θ, a) = R |θ(x) − a(x)| d(x)
x∈R
2. Tests d’hypothèses :
Lorsque ak = {a0 , a1 }, le problème de décision est dit test d’hypothèses. Une hypo-
thèse est par définition une partie de Θ, il s’agit alors de décider à quelle partie (Θ0
ou Θ1 , deux parties disjointes de Θ ) appartient le vrai état de la nature. L’action
ai (1 ≤ i ≤ 2) consiste à décider qu’il appartient à Θi .
Une fonction perte usuelle est défini par :
L(θ, a0 ) = l01 1{θ∈Θ1 } et L(θ, a1 ) = l10 1{θ∈Θ0 }
A\Θ Θ0 Θ1
a0 0 l01
a1 10 0
Définition 1.3. On appelle fonction décision (ou règle de décision ) pure (ou détermi-
niste) toute application mesurable
d : X→ A
x → d(x)
Exemple 1.3. Estimation ponctuelle d’un paramètre réel avec fonction perte quadratique :
Si d(x) = d(x1, x2 , ....., xn ) = x, alors R(θ, d) = Eθ ((X − θ)2 ).
R(θ, d) est dit risque quadratique ou erreur moyenne quadratique.
R(θ, d1 ) ≤ R(θ, d2 ), ∀θ ∈ Θ
La règle d1 domine strictement la règle d2 et on note d1 d2 si :
Cette relation de dominance définit de manière évidente un ordre sur D, qui n’est
cependant pas total ({R(θ, d)/d ∈ D} est un ensemble de fonctions (voir figures ci-dessous)
Les éléments extrémaux de cette relation d’ordre sont donc les seuls interressants à
considérer.
@ d ∈ D/d d1
ou encore :
Estimateurs BLUE
Ce sont les estimateurs optimaux dans la sous-classe des estimateurs sans biais dépen-
dant linéairement des observations. On cherche donc l’optimum dans la sous-classe Dl , où
Dl = {d ∈ D0 /d(x) =ni=1 ci xi } .
Tests de Neymann-Pearson
Considérons le cas des tests d’une hypothèse simple ”θ = θ0 ”contre une alternative
simple ”θ = θ1 ”, avec la fonction perte symétrique (l01 = l10 = 1). La fonction risque d’un
test d prend deux valeurs : R(θ0 , d) et R(θ1 , d) et est donc assimilable à un point de R2 .On
montre que l’ensemble de tous ces points (lorsque d parcourt D ), dit ensemble risque est
convexe et a l’allure ci-dessous, comprenant les points (0, 1) et (1, 0) correspondants aux
deux règles de decision triviales, d0 : "choisir toujours l’action a0 ” et d1 :"choisir toujours
l’action a1 ” .
1.0
0.8
0.6
(α,β)
β
0.4
0.2
0.0
L’ensemble des tests admissibles est constitué par les points de la frontière inférieure (
en gras).
Il n’y a pas de test optimal (R(θ0 , d) et R(θ1 , d) varient dans le même sens lorsqu’on
est dans cet ensemble). NEYMANN et PEARSON ont proposé de se restreindre à la sous-
classe D1 des tests vérifiant R(θ0 , d) ≤ α où α est un réel fixé de [0, 1] dit seuil, et de
prendre le test optimal dans ce sous-ensemble, i.e celui minimisant R(θ1 , d). Ce test, qui
existe (ce qui peut se voir sur la figure précédente) est dit test le plus puissant au niveau
α.
R(θ0 , d) et R(θ1 , d) sont respectivement les erreurs de première et deuxième espèce et
1 − R(θ1 , d) la puissance du test.
Définition 1.6. Une règle de décision d1 est dite meilleure qu’une régle d2 au sens du
critère minimax si :
R(θ, d1)
R(θ, d2)
R(θ, d3)
3
R(θ, d)
2
1
0
−2 −1 0 1 2
Le critère de Bayes compare les règles de décision en comparant les risques moyens
relativement à la loi à priori.
Ce théorème sera décliné sous deux formes : pour évènements et pour variables aléa-
toires.
P (A | B0 )P (B0 )
P (B0 | A) = .
P (A)
P (A/B0 )P (B0 )
P (B0 /A) = +∞
.
P
P (A/Bn )P (Bn )
n=0
15
16 CHAPITRE 2. RÈGLES DE DÉCISIONS BAYÉSIENNES
P (X = xi | Y = yj )P (Y = yj ) P (X = xi | Y = yj )P (Y = yj )
P (Y = yj | X = xi ) = = +∞
P (X = xi )
P (X = xi | Y = yn )
P
n=0
(2.1)
X.
De ce point de vue, nous avons donc deux v.a X et θ. La loi Pθ ne s’interprète plus
comme la loi de X (approche non bayésienne ) mais comme la loi conditionnelle de X
sachant θ. Notons fθ (.) et π(.) les densités de Pθ et de Π relativement à des mesures
appropriées.
On a, en utilisant (2)
fθ (x)π(θ)
π(θ | X = x) = R
Θ fθ (x)π(θ)dθ
dite loi a posteriori de θ.
Le numérateur fθ (x)π(θ) qui aurait dû être noté, en toute rigueur f (x | θ)π(θ) est la
loi du couple (X, θ).Le dénominateur est la loi marginale de X, dite loi prédictive noté f
ou m. Z
fx (x) = fθ (x)π(θ)dθ
Θ
Lorsqu’on considère l’expression (1) comme fonction deR θ ,fθ (x) est la vraisemblance
de l’observation x et est notée L(θ, x), le dénominateur Θ fθ (x)π(θ)dθ est alors une
1
constante qui est interprétée comme la constante de normalisation C = R
Θ fθ (x)π(θ)dθ
afin que C L(θ, x)π(θ) soit une densité de probabilité. Le calcul de cette dernière est
souvent fastidieux, et dans beaucoup de cas on doit faire appel à des méthodes numériques
qui nous en donne une approximation. Sa connaissance n’est cependant pas indispensable
pour la détermination de la loi a posteriori.
On a
(le symbole ∝ signifiant égal à une constante près ou encore proportionnel). La constante
C se déduit souvent de la forme de L(θ, x).π(θ).
Exemple 2.1 (Modèle binomial). Soit X une v.a de loi B(n, θ), la loi a priori de θ est
une loi B[0,1] (a, b) de densité :
1 (θ)
π(θ) = θa−1 (1 − θ)b−1 1[a,b] .
B(a, b)
Z1
1
fX (x) = Cnx θx (1 − θ)n−x θa−1 (1 − θ)b−1 dθ
B(a, b)
0
Γ(x + a)Γ(n − x + b)Γ(n + 1)Γ(a + b)
= x ∈ {0, 1, 2, ..., n} .
Γ(x + 1)Γ(n − x + 1)Γ(a)Γ(b)Γ(n + a + b)
Exemple 2.2 (Modèle poissonnien). Soit X une v.a de loi P(θ), la loi a priori de θ est
une loi γ(a, b) de densité :
Γ(a) (θ)
π(θ) = a θa−1 e−bθ 1R+ .
b
La loi a posteriori est donnée par :
Γ(a) a−1 −bθ e−θ x
a
θ e . θ (b + 1)a+1 a+x−1 −(b+1)θ
π(θ | X = x) = 1 b x!
−θ
= θ e
R Γ(a)
a−1 −bθ
e x
Γ(a + x)
a
θ e . θ dθ
0 b x!
La loi a posteriori est la loi γ(a + x, b + 1).
loi a priori
vraisemblance
loi a posteriori
3
π(θ)
2
1
0
loi a priori
vraisemblance
loi a posteriori
0.4
0.3
π(θ)
0.2
0.1
0.0
0 2 4 6 8 10
La détermination pratique des règles de Bayes est fondée sur le théorème suivant :
Théorème 2.4. Soit un problème de décision statistique bayésien. Une règle est de
Bayes si et seulement si elle minimise la perte moyenne relativement à la loi a posteriori,
∀x ∈ X , i.e si :
ou encore :
Z Z
L(θ, dB (x))dπ|X=x (θ) = min L(θ, d(x))dπ|X=x (θ), ∀x ∈ X.
d∈D
Θ Θ
Démonstration. On a
On déduit
h0 (a) = FX (a) + afX (a) − afX (a) − afX (a) − (1 − FX (a)) + afX (a)
1
h0 (a1 ) = 0 ⇐⇒ 2FX (a1 ) = 1 ⇐⇒ FX (a1 ) =
2
.
La solution est donc : a1 = med(X).
Z Z
L(θ, a)π|X=x (θ)dθ = 1{|θ−a|>ε} π|X=x (θ)dθ
Θ Θ
= Π|X=x (|θ − a| > ε).
min Π|X=x (|θ − a| > ε) = min(1 − Π|X=x (|θ − a| ≤ ε)) = min(1 − Π|X=x (a − ε ≤ θ ≤
a∈R a∈R a∈R
a + ε))
⇐⇒ max Π|X=x (a − ε ≤ θ ≤ a + ε)
a∈R
Le maximum est atteint lorsque a est le centre de l’intervalle de longueur 2ε de proba-
bilité maximale.
Si ε −→ 0, l’estimateur précédent tend vers le "point de probabilité maximal", i.e le
mode. Donc :
θbB = arg max π|X=x (θ)
l10
a0 si π|X=x (θ0 ) ≥
a= l01 + l10 (2.3)
l10
a1 si π|X=x (θ0 ) <
l01 + l10
⇐⇒
π|X=x (θ0 )
l01
a0 si ≥
π|X=x (θ1 ) l10
a= (2.4)
π|X=x (θ0 ) l01
a1 si <
π|X=x (θ1 ) l10
Dans le cas symétrique (l01 = l10 ) le test bayésien choisit l’ hypothèse ayant la plus
1
grande probabilité a posteriori, i.e dire ”θ0 ” si π|X=x (θ0 ) ≥ et ”θ1 ” sinon. Le rapport
2
π|X=x (θ0 )
(odd ratio) B01 = est dit facteur de Bayes. Toujours dans le cas symétrique, la
π|X=x (θ1 )
décision ”θ = θ0 ” est choisie si B01 ≥ 1.
Définition 2.1. On appelle région de crédibilité de niveau 1 − α (0 < α < 1), toute
partie B ⊂ Θ telle que π|X=x (B) = 1 − α.
Définition 2.2. Une région B0 est dite HPD (High Probability Density) de niveau
1 − α si pour toute partie B1 de niveau 1 − α, on a :
2.4.4 Prédiction
Si on dispose de n observations x = (x1 , x2 , ...., xn ) d’une variable aléatoire X, le point
de vue bayésien permet de déterminer la loi d’une future observation et d’estimer la valeur
qu’elle peut prendre.
f (xn+1 , θ | x)
En utilisant on a : f (xn+1 | θ) = =⇒ f (xn+1 , θ | x) = f (xn+1 | θ)π(θ |
π(θ | x)
x)
On déduit :
1 −α
1 −α
Z
f (xn+1 | x) = fθ (xn+1 )π(θ | x)dθ.
Θ
On peut estimer la valeur d’une future observation par l’espérance de cette loi :
1 −α
Lois a priori
Le choix de la loi a priori est un point sensible et très controversé. Sur quelle base
faire ce choix sans qu’il ne soit arbitraire. Si dans le cas de grands échantillons d’observa-
tions, comme on le verra, l’importance de cette loi diminue, ce n’est pas le cas pour des
échantillons plus petits. On distingue deux types de situations :
1. Situations informatives où on dispose d’informations objectives sur l’état de la na-
ture, par exemple des estimations antérieures de θ, on peut alors de manière em-
pirique (histogramme ect.) ajuster une loi qui résumerait cette connaissance. Dans
d’autres cas une loi informative subjective peut-être choisie sur la base d’une exper-
tise qu’a le statisticien.
2. Pour les situations non informatives, la question de base est de déterminer les lois
capables de traduire cette absence de connaissances, puique toutes les lois, a l’ex-
ception de la loi uniforme, discriminent entre différentes valeurs du paramètre.
Un critère souhaitable dans le choix des lois a priori est qu’elles doivent conduire à des
lois a posteriori simples ou connues, pour pouvoir calculer leurs principales caractéristiques
(moyenne, mode, variance ect.) en vue de l’inférence statistique. C’est la propriété que
possède les lois conjugués naturelles qui sont souvent utilisées en situation informative.
Définition 3.1. La famille de lois F c sur Θ est dite conjuguée naturelle de la famille
de lois F sur X, si :
∀ Π ∈ F c , ∀ x ∈ X =⇒ Π|X=x ∈ F c .
25
26 CHAPITRE 3. LOIS A PRIORI
.
αi (θ) = ψi sont dits paramètres naturels. Ce changement de variables permet de
réecrire (3.1) sous la forme :
( k )
0 X
fψ (x) = c (ψ)h(x) exp ψi ti (x) ∀x ∈ Rp
i=1
est la famille des lois conjuguées naturelles de Ek (lois exponentielles d’ordre k).
Démonstration. Soit fθ ∈ F et Π ∈ F c . On a
X n
k X
π(θ | X = x) ∝ c(θ)β0 +n exp ( ti (xj ) + βi )αi (θ)
i=1 j=1
( k )
0 X 0
β0
= c(θ) exp βi αi (θ)
i=1
avec
n
0 0 X
β0 = β0 + n et βi = βi + ti (xj ) (3.2)
j=1
. Donc Π|X=x ∈ F c .
Exemple 3.1 (Lois normales). Soit n réalisations indépendantes d’une v.a X de loi
N (θ, σ 2 ).
1. θ inconnu, σ 2 connu.
n
(xi − θ)2
P
1 1
L(σ 2 , x
e) = √
n
exp − i=1 2
( 2πσ) 2
σ
n
(xi − θ)2
P
1 1
= √ n exp − i=1 2
n 2
( 2π) (σ ) 2 2
σ
n
(xi − x)2
( ) P
n(x − θ)2
1 − 21 1 1 i=1
∝ exp n−1 exp −
σ σ2 (σ 2 ) 2 2
σ2
1 b
∝ 2 a+1
exp −
(σ ) σ2
n
n 1
− 1 et b = (xi − θ)2 . La famille des lois conjuguées dans ce
P
en posant a = 2 2
i=1
cas est la famille des lois gamma-inverse.
3. θ inconnu, σ 2 inconnu.
n
(xi − θ)2
P
1 1
L(θ, σ 2 , x
e) = √
n
exp − i=1 2
( 2πσ)
2 σ
n
(xi − x)2 + n(x − θ)2
P
1 1
= √ n exp − i=1
n 2
( 2π) (σ ) 2 2
σ2
σ2
qui est le noyau d’une loi normale -gamma- inverse N (µ, )IG(a, b).
τ
Remarque 1. Les lois de la famille des lois exponentielles ne sont pas les seules à avoir des
lois conjuguées. Par exemple la loi uniforme U[0,θ] qui n’appartient pas à E1 admet les lois
de Pareto comme lois conjuguées.
=⇒
1 √ 1
fθ2 (x) = √ fθ ( x) = √ 1[0,1] (x).
2 x 2 x
Ainsi θ2 ne suit pas une loi uniforme, sa loi est dans un certain sens informative car elle
discrimine entre les différentes valeurs qu’elle peut prendre. On a par exemple,
√ pour deux
1 1 3 3
intervalles de meme longueur : P [θ2 < ] = 6= P [ < θ2 < 1] = 1 − .
4 2 4 2
La recherche de lois pouvant traduire la situation de non-information, ou de vague
information, a constitué l’un des sujets de recherche majeurs en statistique bayésienne et
a aboutit à plusieurs :
-utilisation de lois impropres.
-utilisation du principe d’invariance pour certaines transformations.
-lois non informatives au sens de Jeffreys.
-lois de référence.
- lois de Haldane,ect...
Définition
R
3.3. On appelle loi impropre une mesure non finie. Si elle admet une densité
f , on a Θ f (θ)dθ = +∞
n
(xi − θ)2
P
1 1
π(θ | X = x) ∝ c. √ n
exp − i=1 2
( 2πσ) 2
σ
( )
1 1 (n − 1)S 2 + n(θ − x)2
= √ exp −
( 2πσ)n 2 σ2
=⇒
( )
1 1 n(θ − x)2
π(θ | X = x) ∝ c. √ exp −
( 2πσ)n 2 σ2
=⇒
σ2
π(θ | X = x) : N (x, ).
n
La loi a posteriori est donc une mesure de probabilité.
2. θ connu, σ 2 inconnu.
1
On prend pour loi a priori la loi impropre sur R+ : π(σ 2 ) = .
σ2
On tire :
n
(xi − θ)2
P
1 1 1 i=1
π(σ 2 | X = x) = 2
√ exp −
σ ( 2πσ)n 2
σ2
=⇒ n
(xi − θ)2
P
n i=1
π(σ 2 | X = x) : IG
2,
2
Définition 3.4. θ est dit paramètre de position s’il existe une fonction de répartition
F telle que :
∀x Fθ (x) = F (x − θ) ⇐⇒ ∀x fθ (x) = f (x − θ)
Il sera dit paramètre d’échelle si :
x 1 x
∀x Fθ (x) = F ( ) ⇐⇒ ∀x fθ (x) = f ( )
θ θ θ
Exemple 3.4. 1. Pour une loi normale N (m, σ 2 ) : m est un paramètre de position et
σ est un paramètre d’échelle.
2. Pour une loi uniforme U[0,θ] : θ est un paramètre d’échelle.
∀θ : π(θ) = π(0) = C
où C est une constante. Donc le seule loi sur Rn invariante par translation est la loi de
densité constante qui est une loi impropre.
1 θ
∀θ ∈ R, ∀θ0 ∈ R : π(θ) = π(θ) = π
θ0 θ0
en particulier si θ = θ0 , on déduit
1 C 1
∀θ0 : π(θ0 ) = π (1) = ∝
θ0 θ0 θ0
où C est une constante. Donc c’est la seule loi sur R invariante par changement d’échelle.
Définition 3.5. Soit Θ ⊂ R , on appelle loi non informative au sens de Jeffreys une loi
de densité π définie par : q
π(θ) ∝ I(θ)
oÃ1 I(θ) est la quantité d’information de Fisher ramenée par une observation de X sur
θ.
On remarque que c’est une loi impropre qu’on peut interpréter (par extension) comme
une loi γ( 12 , 0).
√ − θ)2
1 (x
log L(σ 2 , x) = − log 2π − 12 log σ 2 −
2 σ2
∂
=⇒ I(σ 2 ) = −E ∂(σ 2 )2
log L(σ 2 , X) =
1
π(σ 2 ) = .
σ2
Définition 3.6. Soit Θ ⊂ Rk , on appelle loi non informative au sens de Jeffreys une
loi de densité π définie par :
q
π(θ) ∝ det(I(θ))
où I(θ) est la matrice d’information de Fisher ramenée par une observation de X sur θ.
∂2
∂ ∂
E( 2
log L(θ, σ 2 , X) E( 2
log L(θ, σ 2 , X)
2
I(θ, σ ) = − ∂θ ∂θ ∂σ
∂2
∂ ∂
log L(θ, σ 2 , X) 2
E( E( log L(θ, σ , X)
∂θ ∂σ 2 2
∂(σ )2
=⇒
1
σ2 0
2
I(θ, σ ) = 1 ,
0
2σ 4
on déduit
1
π(θ, σ 2 ) = .
σ3
Théorème 3.2 (Invariance par reparamétrisation bijective). Soit π la loi non infor-
mative de Jeffreys pour θ et si φ = ϕ(θ) est une transformation bijective dérivable du
paramètre θ alors la densité π1 de φ vérifie
q
π1 (φ) ∝ I(φ)
D’autre part :
∂ ∂ ∂θ
log L(φ, x) = log L(θ, x) ×
∂φ ∂θ ∂φ
∂θ 2
=⇒ I(φ) = I(θ)
∂φ
On conclut que :
q q ∂θ
I(φ) = I(θ)
∂φ
∂θ
= π(θ)
∂φ
Ainsi si la loi de θ est une loi de Jeffreys, la loi de ϕ(θ) qui s’en déduit est encore une
loi de Jeffreys C’est la principale propriété de ces lois qui justifie leur utilisation.
Propriétés :
1. E(X) = p et V ar(X) = pq
2. Tout résultat d’une expérience aléatoire à deux issues possibles (succés, échec
ou encore 0,1) peut-être modélisée à l’aide d’une v.a de Bernoulli. Par exemple le
résultat d’un lancer d’une pièce de monnaie, en posant X = 1 si pile sort et X = 0
si face sort. p = P (X = 1) est la probabilité de pile et q = 1 − p celle de face.
P (X = k) = Cnk pk (1 − p)n−k .
Propriétés :
1. B(1, p) = B(p)
2. E(X) = np et V ar(X) = npq
n
3. Xi ∼ B(p), 1 ≤ i ≤ n i.i.d =⇒ Xi ∼ B(n, p)
P
i=1
4. Considérons, une expérience de type succés-échec répétée n fois dans des conditions
identiques et de manière indépendante telle que la probabilité d’avoir à chaque
répétition un succés est p. Soit X la v.a qui compte le nombre total de succès
obtenus, alors X ∼ B(n, p).
35
36 ANNEXE A. LOIS DE PROBABILITÉS USUELLES
λk
P (X = k) = e−λ .
k!
On note : X ∼ P (λ)
Propriétés :
1. E(X) = λ et V ar(X) = λ
2. X1 ∼ P (λ1 ), X2 ∼ P (λ2 ) indépendantes =⇒ X1 + X2 ∼ P (λ1 + λ2 )
Propriétés :
— la loi binomiale négative est la loi du nombre d’épreuves nécessaires pour obtenir n
succés, dans une suite d’épreuves du type succés-échec, .
— son espérance et sa variance sont données par :
1−θ 1−θ
E(X) = n , V ar(X) = n 2 .
θ θ
— Si n = 1 la loi est dite géométrique de paramètre θ et est noté G(θ).(G(θ) =
BN (1, θ)).
— la loi BN (n, θ) est stable par convolution sur le premier paramètre, en particulier
elle peut s’écrire comme la somme de n v.a indépendantes de loi G(θ).
— Elle s’obtient comme mixture de lois de Poisson et de lois Gamma.
Notation. X ∼ γ(a, b)
Cas particuliers :
1. γ(1, b) = Exp(b) : loi exponentielle de paramètre b
1.0
gamma(1,1)
0.8
gamma(3,2))
gamma(4,2)
gamma(10,2)
0.6
f(x)
0.4
0.2
0.0
0 2 4 6 8 10
n 1
2. γ( , ) = χ2n : loi du khi-deux à n degrés de liberté (loi fondamentale en statistique)
2 2
Propriété :
+∞
R a−1 −bx Γ(a)
1. x e dx = a ( intégrale utile à connaitre)
0 b
a a
2. E(X) = , V ar(X) = 2 ( démonstration directe ou en utilisant les fonctions
b b
génératrices)
3. X1 ∼ γ(a1 , b), X2 ∼ γ(a2 , b) =⇒ X1 + X2 ∼ γ(a1 + a2 , b)
propriété de stabilité par convolution sur le premier paramètre
1 (x)
f (x) = xa−1 (1 − x)b−1 1[0,1]
B(a, b)
On note : X ∼ B[0,1] (a, b).
3.0
beta(1,1)
beta(1.5,1.5))
2.5
beta(2,5)
beta(1,3)
beta(0.5,0.5)
2.0
f(x)
1.5
1.0
0.5
0.0
Propriétés :
1. La loi uniforme sur [0, 1] correspond à la loi B[0,1] (1, 1).
2. son espérance et sa variance sont données par :
a ab
E(X) = , V ar(X) = 2 .
a+b (a + b) (a + b + 1)
ca
fX (x) = a 1 (x)
xa+1 [c,+∞[
Propriétés :
a
1. E(X) = c si a > 1.
a−1
2
c a
2. V ar(X) = si a > 2.
a−1 a−2
N(0,1)
N(0,0.25)
0.6
N(0,4)
0.4
f(x)
0.2
0.0
−4 −2 0 2 4
Propriétés :
X −µ
1. X ∼ N (µ, σ 2 ) =⇒ Y = ∼ N (0, 1) (centrage et réduction)
σ
2. Y ∼ N (0, 1) =⇒ X = σY + µ ∼ N (µ, σ 2 )
3. E(X) = µ, V ar(X) = σ 2
4. X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ) indépendantes =⇒ X1 +X2 ∼ N (µ1 +µ2 , σ12 +σ22 )
n n n
5. Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n indépendantes =⇒ Xi ∼ N ( σi2 )
P P P
µi ,
i=1 i=1 i=1
6. X ∼ N (0, 1) =⇒ X 2 ∼ χ21 (khi-deux à un ddl)
n
7. Xi ∼ N (0, 1), 1 ≤ i ≤ n i.i.d =⇒ Xi2 ∼ χ2n (khi-deux à n ddl)
P
i=1
n Xi − µi
8. Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n indépendantes =⇒ )2 ∼ χ2n
P
(
i=1 σ i
Définition A.10. Une v.a réeelle X est dite de loi de Student à ν degrés de liberté et de
paramètres µ et σ 2 si elle admet pour densité :
1
fX (x) =
(x − µ)2 ν+1
(1 + ) 2
νσ 2
et on note : X ∼ St(µ, σ 2 , ν)
On remarque que :
— si µ = 0 et σ 2 = 1 on retrouve la loi de Student connu,qui sera donc notée : St(0, 1, ν)
X −µ
— X ∼ St(µ, σ 2 , ν) =⇒ ∼ St(0, 1, ν)
σ
n
— E(X) = µ et V ar(X) = σ2.
n−2
σ2 a b b
Proposition A.1. Si (θ, σ 2 ) est de loi N (µ, )IG( , ) , alors θ ∼ St(µ, , a).
τ 2 2 τa
2 2
Démonstration. Notons π(θ, σ ) la densité de (θ, σ ) . On a
Z
π(θ) = π(θ, σ 2 )dσ 2
a
b
( )2 √
2 τ
Z
− 12 (
τ (θ−µ)2 +b
) 1
= a √ e σ2
a+1 dσ 2
2 +1
Γ( ) 2π (σ ) 2
2
b a a+1
( )2 √
2 τ Γ( )
= 2
a √ a+1 a+1
Γ( ) 2π.( 12 ) 2 (τ (θ − µ)2 + b) 2
2
a+1
Γ( ). 1
= 2
a 1 1 b 1 (θ − µ)2 a+1
Γ( )Γ( )a 2 ( ) 2 (1 + ) 2
2 2 aτ a( aτb
)
1 1
=
1 a √ qb 2 a+1
B( , ) a aτ (1 + (θ − µ) ) 2
2 2 b
a( aτ )
Propriétés :
1. Xi ∼ B(n, pi )
2. E(Xi ) = npi et V ar(Xi ) = npi (1 − pi )
3. Cov(Xi , Xj ) = −npi pj
Exemple A.1. Soit une urne contenant des boules de k couleurs différenres : C1 , C2 , ...Ck
en proportions respectives p1 , p2 , .., pk . On fait n tirages avec remise, et soit X1 , X2 , .., Xk
le nombre de boules des différentes couleurs obtenues. Alors X = (X1 , X2 , .., Xk )t ∼
M(n, p1 , p2 , .., pk ).
Définition A.12. Un vecteur aléatoire X à valeurs dans Rp est dit de loi de Dirichlet
D(α1 , α2 , ...., αp , αp+1 ) , αi > 0 ∀1 ≤ i ≤ p + 1 s’il admet la densité :
p
fX (x1 , x2 , ..., xp ) = C.xα1 1 −1 xα2 2 −1 .....xαp p −1 (1 − xi )αp+1 −1 .1D (x1, ...., xp )
X
i=1
p
P
Γ( αi ) p
i=1
X
p
avec C = et D = {(x1 , x2 , ..., xp ) ∈ R / xi < 1}
Γ(α1 )Γ(α2 )...Γ(αp ) i=1
Cas particuliers :
— Si p = 1 on retrouve la loi B[0,1] (α1 , α2 ) .
— Si α1 = α2 = ... = αp = αp+1 = 1 on a la loi uniforme sur D.
Rho=0 Rho=0
4
2
0.04
0.08
0.12
zz
0.1
4
0
0.1
0.06
x
y
−2
0.02
−4
−4 −2 0 2 4
Définition A.14. Une v.a X à valeurs dans Rp est dite de loi de Student à ν degrés de
liberté et de paramètres µ et Σ si elle admet pour densité :
1
fX (x) =
(x − µ)t Σ−1 (x − µ) ν+p
(1 + ) 2
ν
et on note : X ∼ St(µ, Σ, ν)
Andrew Gelman, John B Carlin, Hal S Stern, David B Dunson, Aki Vehtari, and Donald B
Rubin. Bayesian data analysis. CRC press, 2013.
Simon Jackman. Bayesian analysis for the social sciences, volume 846. John Wiley &
Sons, 2009.
Christian Robert. Le choix bayésien : Principes et pratique. Springer Science & Business
Media, 2005.
45