Vous êtes sur la page 1sur 66

Projet TER - Master 1 SITN

La statistique Baysienne
Artemis TOUMAZI
Encadr par Mme Anne Perrut
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
19 octobre 2013
ma mre et mon pre.
2
Table des matires
Introduction 6
1 Prliminaires 8
1.1 Probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2 Indpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.3 Variables alatoires indpendantes . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Thorme de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Esprances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Esprance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Distribution Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Distribution Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.3 Loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.4 Loi binomiale ngative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Statistique infrentielle 18
2.1 Principe dexhaustivit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Principe de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Approche baysienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Le paradigme baysien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.1 Extensions - Plusieurs paramtres . . . . . . . . . . . . . . . . . . . . . . 32
2.5.2 Familles fermes sous chantillonnage . . . . . . . . . . . . . . . . . . . . 33
2.6 Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.1 A posteriori dun a priori et dune vraisemblance normale . . . . . . . . . 38
2.6.2 Variance connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.3 Moyenne connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6.4 Moyenne et Variance inconnue . . . . . . . . . . . . . . . . . . . . . . . . 48
2.7 Mlange des a priori conjugus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.8 Le lois de Jereys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.8.1 Linformation de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.8.2 Linformation issue de plusieurs observations . . . . . . . . . . . . . . . . 52
2.8.3 A priori de Jereys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.9 Distributions prdictive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Conclusion 60
Annexe 62
Bibliographie 65
4
Introduction
Actuellement tudiante luniversit Claude Bernard Lyon1 en premire anne de Mas-
ter Statistiques, Informatique et Techniques Numriques, jai t amen eectuer un travail
dtude. Dsireux denrichir mes connaissances dans le domaine de Statistiques, jai choisi un
projet sur la Statistique Baysienne encadr par Mme Perrut Anne.
La Statistique Baysienne est un moyen alternatif de construire des tests hypothse et
des estimations par intervalles de conance. Son nom provient de M. Thomas Bayes, mort en
1761. Une publication de Bayes en 1763, avec Richard Price, contient une version dun tho-
rme, bas sur la thorie des probabilits, quil est connu aujourdhui comme le thorme de
Bayes.
L Infrence Statistique consiste entrainer des conclusions sur des populations par-
tir dun chantillon. Comme lchantillon nous fournit des informations partielles concernant
son population, les conclusions ont besoin dun degr de crdibilit. Cest sans surprise quon
observe plusieurs approches sur ce problme, vu quil peut introduire un raisonnement par d-
duction ainsi que par induction.
Dans ce projet on considrera lapproche Baysienne. Ce qui le direncie des autres
approches est que les paramtres sont considrs comme des variables alatoires mme sils
ont des valeurs xes. Dans ce cas la probabilit est interprte dans le sens dune croyance.
Concernant lapproche baysienne la seule base pour linfrence est la loi de probabilit de
sachant tout lensemble des donnes.
Ce projet est organis en 3 parties. Dans une premire partie, je procderai une tude
prliminaire qui nous servira pour la suite. Ensuite, dans une seconde partie, je prsenterai la
statistique Baysienne inferentielle et enn la dernire partie sera une conclusion concernant le
projet.
6
Chapitre 1
Prliminaires
1.1 Probabilits
1.1.1 Notation
La notation restera aussi simple que possible, par contre il est ncessaire de lexprimer dans
le langage de la thorie des ensembles.
x A ssi x est membre de A;
x / A ssi x nest pas membre de A;
A={x, y, z} ssi A est un ensemble dni par les membres x,y et z (idem pour les ensembles
plus petits ou plus grands) ;
A={x; S(x)} ssi A est un ensemble dlments dont lassertion S(x) est vraie ;
=x; x = x pour lensemble nulle, un ensemble sans lments ;
x / pour tout x;
A B (i.e. A est un sous-ensemble de B) ssi x A implique x B;
A B (i.e. A est un sur-ensemble B) ssi x A est impliqu par x B;
A, A A et A A pour tous A;
A B = {x; x A ou x B} (rfrence comme lunion A et B ou comme A union B) ;
AB=A B = {x; x A et x B} (rfrence comme lintersection de A et B ou comme A
intersecte B) ;
A et B sont disjoints ssi AB = ;
A \ B = {x;x A, mais x = B} (rfrence comme lensemble de dirence ou A moins B)
8
CHAPITRE 1. PRLIMINAIRES 1.1. PROBABILITS
1.1.2 Indpendance
Dnition 1.1. Deux vnements E et F sont indpendants sachant H si
P(EF | H)=P(E | H)P(F | H) .
partir de laxiome de probabilit : P(E | FH)P(F | H)=P(EF | H), cest--dire si P(F |
H) = 0 cette condition est quivalente
P(E | FH)=P(E | H)
donc si E est indpendant de F sachant H alors linformation que F est vraie ne change pas
la probabilit de E sachant H seulement. Cependant la restriction de cette interprtation dans
le cas de P(F | H)= 0 rend lquation original plus gnrale.
Dnition 1.2. En gnral, la suite (E
n
) dvnements est considre comme indpendante
par paires sachant H si
P(E
m
E
n
| H)=P(E
m
| H)P(E
n
| H) pour m = n .
et il consiste des vnements mutuellement indpendant sachant H si pour tous les sous-
ensembles propres
P(E
n
1
E
n
2
. . . E
n
k
| H) = P(E
n
1
| H)P(E
n
2
| H) . . . P(E
n
k
| H)
Remarque 1.3. Notons que lindpendance par paires nimplique pas lindpendance mutuel le
et que
P(E
1
E
2
. . . E
n
| H) = P(E
1
| H)P(E
2
| H) . . . P(E
n
| H)
il ne sut pas de sassurer que la suite nie E
1
,E
2
,. . . ,E
n
consiste des vnements mutuel lement
indpendant sachant H.
1.1.3 Variables alatoires indpendantes
Lide dindpendance stend partir de lindpendance dvnements lindpendance des
variables alatoires. Lide est que Y est indpendant de X si sachant les valeurs de X naecte
pas notre esprance pour les valeurs de Y . En raison des complications avec des vnements
avec probabilit nulle, il est prfrable dutiliser la forme suivante.
Dnition 1.4. X and Y sont indpendants si
p(x,y) = p(x)p(y) x y
Remarque 1.5. Cette dnition est valable dans le cas dune tude discrte aussi bien quune
tude continue. (En plus on peut lutiliser dans le cas dune variable alatoire discrte et dune
autre continue).
9
1.2. THORME DE BAYES CHAPITRE 1. PRLIMINAIRES
1.2 Thorme de Bayes
Ce thorme, d M. Thomas Bayes ("Un essai pour rsoudre un problme dans la thorie
des risques, 1763") est exprim de la faon suivante :
Dnition 1.6. Soit un espace et B
1
,B
2
,. . . B
k
des vnements 2 2 in compatibles et
exhaustifs dans (i.e. B
i
B
j
= , i = j ,
k
_
i=1
B
i
= ; B
i
forme une partition de .) Soit A
un vnement quelconque tel que P[A] > 0. Alors
P[B | A] =
P[B
i
]P[A | B
i
]
P[A]
(1.1)
=
P[B
i
]P[A | B
i
]
k

j=1
P[B
j
]P[A | B
j
(1.2)
La preuve est base sur le loi de multiplication et la simplication;
Remarque 1.7. Notons que pour donner une solution on a besoin aussi de P[B
i
] la probabilit
a priori de B
i
(avant lobservation de A). Les P[B
i
| A] sont appeles probabilits a posteriori.
Exemple 1.8. On a trois direntes communauts, que lon peut imaginer comme les popula-
tions B1, B2 et B3 et on aimerait trouver la population qui a gnr notre chantillon. Dans
B1, 30% de gens sont catholiques, dans B2 50% sont catholiques et dans B3 70%. On choisit
alatoirement une communaut en lanant un d. On choisit B1 si le d prends la valeur de 1
ou 2, B2 si le d prend la valeur de 3 ou 4 et B3 si le d prends la valeur de 5 ou 6. En utilisant
la communaut quon vient de choisir on prend un chantil lon alatoire dune personne. Sup-
posons que cette personne est catholique, donc notre chantil lon A contient un catholique. On
ne sait pas la communaut choisie ; juste lchantillon. Par la suite on est intress de trouver
les probabilits respectives pour que la personne choisie provient dune des trois communauts.
Solution. La probabilit de chaque communaut est de un tiers car le choix initial est fait dune
faon alatoire avec la mme probabilit.
Donc, P(B1) = P(B2) = P(B3)=
1
3
= 0.333. Ces probabilits sont les probabilits a priori,
comme ils donnent les probabilits des trois populations sans savoir lchantillon.
Il nous reste calculer les probabilits P(A | B
i
) i = 1, 2, 3 pour pouvoir utiliser le thorme
de Bayes. Si la personne provient de B1, o il y a 30% catholiques, la probabilit P(catholique
| communaut 1) gale 0.3. Si la personne provient de B2, o il y a 50% catholiques, la pro-
babilit P(catholique | communaut 2) gale 0.5. Si la personne provient de B3, o il y a 70%
catholiques, la probabilit P(catholique | communaut 3) gale 0.7.
Alors, on a les trois probabilits :
P(A | B1)=0.3 P(A | B2)=0.5 P(A | B3)=0.7
10
CHAPITRE 1. PRLIMINAIRES 1.2. THORME DE BAYES
Selon le thorme de Bayes on obtient
P(B1 | A) =
0.3(0.333)
0.3(0.333) + 0.5(0.333) + 0.7(0.333)
=
0.0999
0.4995
= 0.20
P(B2 | A) =
0.5(0.333)
0.3(0.333) + 0.5(0.333) + 0.7(0.333)
=
0.1665
0.4995
= 0.33
P(B3 | A) =
0.7(0.333)
0.3(0.333) + 0.5(0.333) + 0.7(0.333)
=
0.2331
0.4995
= 0.47
Ces probabilits probabilits a posteriori.
Elles expriment la probabilit quune personne catholique provient par la communaut B1 est
0.2, la probabilit quune personne catholique provient par la communaut B2 est 0.33, et la
probabilit quune personne catholique provient par la communaut 31 est 0.47.
11
1.3. ESPRANCES CHAPITRE 1. PRLIMINAIRES
1.3 Esprances
Dnition 1.9. Esprance dune variable discrte alatoire
Si g(x) est une fonction de la variable alatoire et

g(x)p(x) est absolument convergent, alors
E[g(X)] =

g(x)p(x)
sa somme est lesprance de g(X).
Remarque 1.10. De la mme manire, si h(x,y) est la fonction de deux variables alatoires x
et y et la serie

h(x, y)p(x, y) est absolument convergent, alors sa somme est lesprance
de h(x,y).
Dnition 1.11. Esprance dune variable alatoire continue
Dans le cas dune tude continue, on dnie lesprance dune variable x par
E[X] =
_
xp(x)dx
sous la contrainte que lintgrale est absolument convergent, et plus gnralement on dnie
lesprance dune fonction g(x) de x par
E[g(X)] =
_
g(x)p(x)dx
sous la contrainte que lintgral est absolument convergent.
1.3.1 Variances
Dnition 1.12. Plusieurs fois on est amen dans le besoin de caractriser le loi de notre
distribution, et pour la plupart de cas on utilise la Variance Var(x) de x, dnie par
Var(x) = E[xE[x]]
2
Il est utile aussi que
V ar(x) = E[x E[x]]
2
= E[x
2
2(E[x])x + (E[x])
2
]
= E[x
2
] (E[x])
2
1.3.2 Esprance conditionnelle
Dnition 1.13. Lesprance conditionnel le de y sachant x est dnie par
E[y | x] =
_
yp(y | x)dy
dans le cas continue et par la somme correspondante pour le cas discrte
En gnral, lesprance conditionnelle de la fonction g(y) de y sachant x est
E[g(y) | x] =
_
g(y)p(y | x)dy
Dnition 1.14. La variance conditionnelle est dnie par
V ar(y | x) = E[y E[y | x]
2
| x]
= E[y
2
| x] E[y | x]
2
.
12
CHAPITRE 1. PRLIMINAIRES 1.4. DISTRIBUTIONS
1.4 Distributions
1.4.1 Distribution Beta
Dans le domaine de la probabilit et de statistiques, la distribution Beta est une famille de
distributions de probabilits continues dnies sur lintervalle [0, 1] avec deux paramtres posi-
tives et , qui apparaissent comme exposants lors dune variable alatoire et ils inuencent
lallure de la distribution.
Quant linfrence baysienne, la distribution Beta est la distribution a priori conjugu pour
les distributions binomial, gomtrique et de Bernoulli. Par exemple, la distribution Beta est
utile dans lanalyse bayesienne quand on dcrit la connaissance initiale concernant une proba-
bilit de succs comme une probabilit dun vaisseau spatial damener avec succs une mission
spcique. La distribution Beta est un modle convenable des comportements alatoires pour
de pourcentages et de proportions.
1. Densit de probabilit
La densit de probabilit dune distribution Beta, pour 0 x 1, ayant comme para-
mtres > 0 et > 0, est en fonction de la variable x et de sa rexion (1 x) prsent
ci dessous :
f(x) =
( +)
(a)()
x
1
(1 x)
1
=
1
B(, )
x
1
(1 x)
1
o (z) la fonction Gamma. Dans les equations ci dessus x est une valeur observe qui
est survenue lors dune processus alatoire X.
2. Moyenne
Lesprance (crite comme ) dune variable alatoire de la distribution Beta X avec deux
paramtres et est
E(X) =
_
1
0
xf(x; , )dx
=
_
1
0
x
x
1
(1 x)
1
B(, )
dx
=

+
3. Variance
La variance dune variable aleatoire dune distribution Beta X ayant comme paramtres
et est :
V ar(X) = E[(X )
2
] =

( +)
2
( + + 1)
4. Formes spciales
La densit de la loi bta peut prendre direntes formes selon les valeurs des deux para-
mtres :
(a) < 1 & < 1 est une forme de U(graphe blue) ;
(b) < 1 & 1 ou = 1 & > 1 est strictement dcroissant (graphe rouge) ;
(c) = 1 & = 1 est la loi uniforme continue ;
(d) = 1 & < 1 ou > 1 & 1 est strictement croissant (graphe vert) ;
13
1.4. DISTRIBUTIONS CHAPITRE 1. PRLIMINAIRES
(e) > 1 & > 1 est uni-modal (graphes noir et violet).
Remarque 1.15. En plus, si = alors la densit est symtrique autour de 1/2
(graphes blue et violet).
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
Le graphique de densite pour la loi Beta(alpha,beta)
x
D
e
n
s
i
t
e
_
_
_
_
_
alpha=beta=0.5
alpha=5,beta=1
alpha=1,beta=3
alpha=beta=2
alpha=2,beta=5
1.4.2 Distribution Gamma
Dans le domaine de la probabilit et de statistiques, la distribution Gamma est une famille
de distributions de probabilits continues.
La paramtrisation avec et est plus connue dans la statistique baysienne,ou la distribution
gamma est utilise comme une distribution a priori conjugue pour des dirents types comme
la distribution exponentielle ou bien de Poisson.
1. Densit de probabilit
La densit de probabilit de la distribution Gamma (, ) est dnie par
f(x) =

x
1
e
x
()
, x > 0, > 0, > 0
2. Moyenne
La moyenne (crite ) dune variable alatoire dune distribution Gamma X avec deux
paramtres et est
E[X] =

3. Variance
La variance dune variable alatoire dune distribution Gamma X ayant comme paramtres
et est :
V ar(X) =

2
14
CHAPITRE 1. PRLIMINAIRES 1.4. DISTRIBUTIONS
4. Cas spciales
(a) Si X Gamma( = 1, = 1) , alors X a une distribution exponentielle avec
la paramtre .
(b) Si X Gamma( = /2, = 2) donc X est identique
2
(), la distribution
khi-deux avec degrs de libert.
0 5 10 15 20 25 30
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
Le graphique de densite pour la loi Gamma(alpha,beta)
x
D
e
n
s
i
t
e
_
_
_
_
_
alpha=1,beta=2
alpha=2,beta=2
alpha=3,beta=2
alpha=5,beta=1
alpha=9,beta=0.5
1.4.3 Loi de Pareto
La distribution de Pareto est un type particulier de loi de puissance qui a des applications
en sciences physiques et sociales.
1. Densit de probabilit
La densit de probabilit de la loi de Pareto avec les paramtres > 0 et > 0 est :
f(x) =

_
1 +
x

_
2. Fonction de distribution
La fonction de distribution est la suivante :
F(x) = 1
_
1 +
x

3. Moyenne
La moyenne(note ) dune variable alatoire X dune distribution Pareto(, ) est
=

1
for > 1
4. Variance
La variance(note par
2
) est

2
=

2
{( 1)
2
( 2)}
for > 2
15
1.4. DISTRIBUTIONS CHAPITRE 1. PRLIMINAIRES
1.4.4 Loi binomiale ngative
1. Densit de probabilit
La densit de probabilit de la loi binomiale ngative avec les paramtres n et p est :
f(k; n, p) = P(X = k) =
_
k +n 1
n 1
_
(1 p)
n
p
k
k = 0, 1, 2, . . .
2. Moyenne
La moyenne(note ) dune variable alatoire X dune distribution binomiale ngative
(n, p) est
=
pn
1 p
3. Variance
La variance(note
2
) est

2
= =
pn
(1 p)
2
16
Chapitre 2
Statistique infrentielle
Dans ce chapitre, un cadre gnral de statistique baysienne infrentielle sera fourni. Dans
les grandes lignes, on prend des croyances antrieures pour plusieurs hypothses et ensuite
on les modie par rapport aux chantillons recueillis pour arriver nalement aux croyances
postrieures.
2.1 Principe dexhaustivit
La statistique classique peut tre dcrite comme tant guide par des principes souvent
justies par le "bon sens" ou par des axiomes supplmentaires. Lapproche baysienne permet
dincorporer naturellement une majorit de ces principes sans imposer de restrictions suppl-
mentaires sur les procdures de dcision, et den rejeter dautres de faon tout aussi systma-
tique, comme la notion destimation sans biais.
Dnition 2.1. Soit (X, (p

) un modle statistique et soit g une fonction de dans une


partie G de R
p
.Soit T
n
un estimateur de g() dont lesprance E

[T
n
] existe, pour tout .
On appel le biais lestimateur T
n
, la quantit : B(T
n
, ) = E(T
n
) - g() .
Un estimateur T
n
est dit sans biais si
B(T
n
, ) = 0
E

[T
n
] = g()
Un estimateur T
n
est dit asymptotiquement sans biais si
lim
n
E

[T
n
] = g()
Deux principes fondamentaux sont respects par le paradigme baysien :
1. Le principe dexhaustivit
2. Le principe de vraisemblance
Dnition 2.2. Quand X f(x | ), une fonction (statistique) T de X est exhaustive si la
distribution de X conditionnellement T(X) ne dpend pas de
Thorme 2.3. Thorme de factorisation
Considrons une statistique T(X), contient toute linformation apporte par X sur . Selon le
thorme de factorisation, sous certaines conditions de rgularit la densit de X scrit alors
f(x | ) = g(T(x) | )h(x | T(x)) (2.1)
si g est la densit de T(X). Le concept dexhaustivit a t dvelopp par M. Fisher et conduit
au principe suivant.
18
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.1. PRINCIPE DEXHAUSTIVIT
Dnition 2.4. Principe dexhaustivit
Deux observations x et y donnant la mme valeur dune statistique exhaustive T, cest--dire
tel les que T(x)=T(y), doivent conduire la mme infrence sur
Exemple 2.5. Supposons disposer dun chantil lon i.i.d. de taille n de la loi gaussienne
N(,
2
) o seule la moyenne est inconnue.Utilisons le critre du rapport de vraisemblance
pour monter que la statistique moyenne empirique

X : (x
1
, . . . , x
n
) x =
1
n
n

i=1
x
i
est exhaus-
tive.
Une vraisemblance f de ce modle peut scrire, pour tout x = (x
1
, . . . , x
n
) R
n
et tout R.
f(x, ) =
n

i=1
1

2
exp
_

(x
i
)
2
2
2
_
= (2
2
)
n/2
exp
_

1
2
2
n

i=1
(x
i
)
2
_
= (2
2
)
n/2
exp
_

1
2
2
n

i=1
(x
i
x + x )
2
_
= (2
2
)
n/2
exp
_

1
2
2
_
n

i=1
(x
i
x)
2
+n( x )
2
__
puisque le terme crois

n
i=1
(x
i
x)( x) scrit ( x)

n
i=1
(x
i
x) et que

n
i=1
(x
i
x) = 0.
Or la moyenne empirique

X suit la loi gaussienne N(,
2
/n).Ainsi une vraisemblance g du
modle image est donne, pour tout (y, ) R R, par
g(y, ) =
1

n
exp
_

n
2
2
(y )
2
_
Donc le rapport de vraisemblance scrit
f(x, )
g(x, )
=
(2
2
)
n/2
exp
_

1
2
2
(

n
i=1
(x
i
x)
2
+n( x )
2
)
_
_
2

2
n
_
1/2
exp
_

n
2
2
( x )
2
_
= n
1/2
(2
2
)
(n1)/2
exp
_

1
2
2
n

i=1
(x
i
x)
2
_
Comme il ne dpend pas de ,

X est une statistique exhaustive .
Exemple 2.6. Soient X
1
B(n
1
, p) , X
2
B(n
2
, p) et X
3
B(n
3
, p), trois observations
binomiales indpendantes o et leur tailles n
1
, n
2
, n
3
connues. Alors la fonction de vraisemblance
est
f(x
1
, x
2
, x
3
) =
_
n
1
x
1
__
n
2
x
2
__
n
3
x
3
_
p
x
1
+x
2
+x
3
(1 p)
n
1
+n
2
+n
3
x
1
x
2
x
3
et les statistiques
T
1
(x
1
, x
2
, x
3
) = x
1
+x
2
+x
3
ou T
2
(x
1
, x
2
, x
3
) = n
1
+n
2
+n
3
x
1
x
2
x
3
sont exhaustives.
19
2.2. PRINCIPE DE VRAISEMBLANCE CHAPITRE 2. STATISTIQUE INFRENTIELLE
2.2 Principe de vraisemblance
Le deuxime principe est en eet une consquence du principe dexhaustivit. Il peut tre
attribu M. Fisher(1959) ou mme M. Barnard (1949), mais il a t formalise par M.
Birnbaum (1962). Il est fortement dfendu par Berger et Wolpert (1988) qui ont fourni une
tude approfondie du sujet.
Dnition 2.7. Soit X P

et f

sa fonction de densit si X est continue, sinon sa


fonction de frquence, si X est discrte.
Linformation de Fisher pour la variable alatoire X est dnie par : I() = E[

log f

(X)]
2
Soit (X
1
, X
2
, . . . , X
n
) un chantillon de loi P

. La vraisemblance de (X
1
, X
2
, . . . , X
n
) est :
L
n
(; x
1
, . . . , x
n
) =
n

i=1
f

(x
i
)
Dnition 2.8. Principe de vraisemblance
Linformation obtenue suite une observation de X sur est entirement contenue dans la
fonction de vraisemblance L
n
( | x). En plus si x
1
etx
2
sont deux observations qui dpendent du
mme paramtre , et telles quil existe une constante c satisfaisant le suivant :
L
1
( | x
1
) = cL
2
( | x
2
)
pour tout , elles apportent la mme information sur et el les doivent conduire la mme
infrence.
Le principe de vraisemblance est lui-mme distinct de lapproche de lestimation par maxi-
mum de vraisemblance, qui est une manire parmi dautres de mettre en uvre ce principe.
Lorsquon observe x f(x | ), lapproche par maximum de vraisemblance considre l estima-
teur suivant de ,

= arg sup

L( | x) (2.2)
qui corresponde la valeur de qui maximise la densit en x, f(x | ). La maximisation nest
pas toujours possible ou bien elle peut mener plusieurs maxima globaux quivalents.
2.3 Approche baysienne
Supposons quon est intress par les valeurs de k quantits inconnues
=(
1
,
2
, . . . ,
k
)
et quon a quelques croyances a priori concernant ces valeurs que lon peut exprimer en fonction
de densit de probabilit
p()
Maintenant on suppose quon obtiendra des donnes en lien avec ses valeurs. Plus prcisment
on suppose quon a n observations
X = (X
1
, X
2
, . . . , X
n
)
qui ont une probabilit de distribution qui dpende de ces k quantits inconnues, dune manire
que la fonction de densit de probabilit (continue ou bien discrte) du vecteur X dpende du
vecteur dune faon connue. Ordinairement les composantes de et X seront des entiers ou
des nombres rels, dune manire que X sont des variables alatoires, et que la dpendance de
X peux sexprimer en termes de la fonction de densit de probabilit
p(X|)
20
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.3. APPROCHE BAYSIENNE
Dnition 2.9. Quand on pense p(X|) comme une fonction de , on appel le ceci fonction
de Vraisemblance dnie par
p(X | ) =
n

i=1
p(X
i
| ) (2.3)
Ensuite on doit chercher une faon pour exprimer les croyances concernant prenant en mesure
les croyances a priori et les donnes.
Loutil dont on a besoin est le thorme de Bayes pour les variables alatoires. Daprs le
thorme (2.1) on connait que
p( | X) =
p()p(X | )
p(X)
(2.4)
Or traitons X comme une constante,
p(|X) p()p(X|).
Daprs la dnition de p(X | ) comme la fonction de vraisemblance, la dnition de p()
comme la fonction de densit de probabilit a priori et p( | X) comme la fonction de densit
de probabilit a posteriori pour sachant X, on peut imaginer le thorme de Bayes sous
la forme :
A posteriori A priori Vraisemblance
21
2.4. LE PARADIGME BAYSIEN CHAPITRE 2. STATISTIQUE INFRENTIELLE
2.4 Le paradigme baysien
Classique :
Supposons quon lance une pice 12 fois et on obtient 9 fois pile et 3 fois face. Notons pile
par P et face par F. Est-il cette pice sans biais.
Normalement on aurait tester H
0
: p =
1
2
contre H
1
: p >
1
2
o p = P[pile].
La probabilit du rsultat obtenu, si H
0
est vraie, est
A = X 9 = {(9P, 3F), (10P, 2F), (11P, 1F), (12P)}
La distribution est une distribution Binomiale avec les probabilits respectives
P[A] = P[X 9] =
_
12
3
_
_
1
2
_
9
_
1
2
_
3
+
_
12
2
_
_
1
2
_
10
_
1
2
_
2
+
_
12
1
_
_
1
2
_
11
_
1
2
_
1
+
_
12
0
_
_
1
2
_
12
_
1
2
_
0
=
299
4096
7.3%
Or, comme la valeur de p =
299
4096
= 0.073 dpasse 0.05, (i.e, 5% risque) on ne peux pas rejeter
lhypothse nulle au niveau de conance 95% .
Quest ce qui va se passer si on dcide de lancer la pice jusque lobtention de 3 F? La
probabilit du rsultat si H
0
est vraie est
P[Y 12] = P(9P, 3F) +P(10P, 3F) +P(11P, 3F) +P(12P, 3F) +. . .
On peut trouver cette probabilit en utilisant la probabilit du complement par :
P[Y 12] = 1 P[Y 11]
Comment calculer la probabilit du complement ?
P[Y 11] = P(8P, 3F) +P(7P, 3F) +. . . +P(0P, 3F)
=
_
10
2
_
_
1
2
_
11
+
_
9
2
_
_
1
2
_
10
+. . . +
_
2
2
_
_
1
2
_
3
=
1981
2048
Il conduit que la valeur de p est P[Y 12] = 1 P[Y 11] =
67
2048
3.27%
Rsultat : Comme la valeur de p < 0.05, on peut rejeter H
0
avec 95% niveau de conance.
An de simuler un test de conance il est ncessaire de spcier lespace de lchantillon i.e
lespace de tous rsultats possibles. Les possibilits de la pice sont :
1. {(P, F) : P +F = 12}
2. {(P, F) : F = 3}
22
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.4. LE PARADIGME BAYSIEN
Intervalle de conance au niveau de conance 95%
Puisquon a un chantillon dune distribution Binomiale, lintervalle de conance est le suivante :
IC =
_
_
1.96 <

n
p
_
p(1 p)
< 1.96
_
_
= 0.95
=
_
_
1.96 <

12

1
2
_
1
2

1
2
< 1.96
_
_
= 0.95
=
_
1.96
1
2
<

12(
1
2
) < 1.96
1
2
_
= 0.95
=
_

0.98

12
<
1
2
<
0.98

12
_
= 0.95
=
_
1
2

0.98

12
< <
1
2
+
0.98

12
_
= 0.95
= [0.2171 < < 0.7829] = 0.95
Alors ayant cet intervalle de conance classique, on peut dire que la valeur de se trouve
entre 0.2171 et 0.7829.
Lapproche baysienne :
Lanalyse Baysienne de ce problme est dirente. Soit la chance que la pice sera de face
P. Ainsi est la "frquence" de P. Ceci est proprit objective de la pice. Il ne dpende pas de
nous. On a des croyances pour que lon exprime dans la forme dune fonction de densit de
probabilit p(). En utilisant le thorme de Bayes on peut mettre jour nos croyances
p( | data) p(data | )p() (2.5)

9
(1 )
3
p() (2.6)
On a besoin de la distribution a priori pour . Supposons prendre une distribution Beta
p() =
(a +b)
(a)(b)

a1
(1 )
b1
a, b > 0 (2.7)
avec la moyenne
a
a +b
et la variance
a
(a +b)
b
(a +b)
1
(a +b + 1)
Ils existent deux mthodes que lon peut utiliser pour trouver cette a priori distribution Beta,
an de trouver les deux constants et qui dtermine cette distribution. La premire est celle
par ttonnements, en prfrence laide dun ordinateur, en traant la distribution Beta pour
dirents valeurs de et et en choisissant celle qui approche le plus a celle de la connais-
sance a priori. Les courbes pour les valeurs proches de et ne seront pas si direntes, et
il est possible davoir dautres courbes qui approche notre connaissance aussi proche que lautre.
1. Le chois a = b = 1 nous donne un a priori uniform, i.e on estime que toutes valeurs de
est aussi probable.
23
2.4. LE PARADIGME BAYSIEN CHAPITRE 2. STATISTIQUE INFRENTIELLE
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Le graphique de densite pour la loi beta avec a = b = 1
theta
D
e
n
s
i
t
e
Figure 2.1 Distribution Beta avec a = b = 1
2. De faon plus raliste pour une pice on pourra prendre a = b = 2, qui montre notre
croyance que est plus probable qui soit proche de 0.5 au lieu de 0 ou 1 mais sans tre
trs sure.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
1
.
4
Le graphique de densite pour la loi beta avec a = b = 2
theta
D
e
n
s
i
t
e
Figure 2.2 Distribution Beta avec a = b = 2
24
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.4. LE PARADIGME BAYSIEN
Par consquent on choisit a = 2 et b = 2.
La deuxime mthode consiste premirement par spcier lesprance et lcart type pour
la variable alatoire .Lesprance de est le centre de gravite de la distribution, et on peut se
mettre daccord que la distribution se balance quand = 0.5. Puisque la plus de probabilit est
entre 0.15 et 0.95, il parait raisonnable que il existe des carts types de la moyenne entre 0.50
et 0.95, donc dune distance de 0.45. Si on a deux ecarts types alors chacun est gale 0.225.
Une proprit de la distribution Beta est que la moyenne et la variance sont facilement trou-
vables partir de a et b. Soit la moyenne de note comme et lcart type not par . Quand
la distribution de est une distribution Beta de paramtres a et b, on a les relations suivantes
entre la moyenne la variance et les constantes a et b,
=
a
a +b
et
2
=
(1 )
(a +b + 1)
On rsout pour trouver a et b
a =
_
(1 )

2
1
_
et b = [1 ]
_
(1 )

2
1
_
Sachant la moyenne et la variance, ces deux expressions pourront tre utiliser pour trouver a
et b.
Comme on a dj dtermin que = 0.50 et = 0.225, on obtient
a = 0.5
_
0.5
2
0.225
2
1
_
2
b = 0.5
_
0.5
2
0.225
2
1
_
2
Ces valeurs donnent lexpression de lquation (2.7),et cette fonction peut sutiliser pour tracer
la courbe de la Figure 3.2.
La distribution a priori est maintenant prsent compltement, comme une courbe et comme
expression mathmatique, et il faut utiliser lautre source dinformation pour la variable , nos
donnes.
Par consquent on peut crire la distribution (2.7) comme Be(2, 2). Il suit alors
p() =
(4)
(2)(2)
(1 )
Donc la distribution a posteriori de deviens :
p( | data)
9+a1
(1 )
3+b1

10
(1 )
4
(2.8)
Conclusion : La distribution de (2.8) est Be(11,5) et alors si on prends un beta a priori
pour on obtiendra un beta a posteriori.
Car la distribution a posteriori de est une distribution beta, on peut trouver la moyenne a
posteriori de ainsi que la variance a posteriori qui sont gales :
moyenne a posteriori =
11
16
= 0.6875
et
variance a posteriori =
55
4352
0.0126
Le graphe de la distribution a posteriori est prsente sur le prochain gure.
25
2.4. LE PARADIGME BAYSIEN CHAPITRE 2. STATISTIQUE INFRENTIELLE
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
3
.
5
Le graphique de densite pour la loi a posteriori avec a=11 et b=5
theta
D
e
n
s
i
t
e
Figure 2.3 Distribution a posteriori
La plupart de la probabilit totale est maintenant concentre entre 0.50 et 0.90 et par cons-
quent on est srs que est entre ces deux valeurs. Plus spciquement, mme si la courbe du
Figure 2.3 reprsente une distribution beta, elle est assez symtrique pour faire lapproximation
par une distribution normale. Comme lcart type de gale 0.1122, 1.96 dcart type gale
0.2199. Ajoutons et soustrairons Additionnant et soustrayant de nombre de la moyenne on
obtient 0.9074 et 0.4676 respectivement. La probabilit gale :
P(0.4676 < < 0.9074) = 0.95
La probabilit 0.95 proviens de la distribution normale, ou la probabilit vaut 0.95 et la variable
standard Z est entre -1.96 et 1.96. Cette probabilit nous dit que nous sommes 95% certain que
est entre 0.4676 et 0.9074.
Pour comparer la distribution a priori et la distribution a posteriori est plus facile de tracer les
deux courbes sur une mme graphique, illustrer ci dessous :
La moyenne a posteriori de et les courbes de la Figure 2.4 nous donne la connaissance de
linuence de la distribution a priori.
La distribution a posteriori peut se mettre sous la forme
11
16
=
9 + 2
12 + 4
=
Nbr de pile + Constant de priori()
Nbr dobservations + Constant de priori( +)
La valeur estime de dun chantillon est gale la proportion
9
12
= 0.75. Si on prend la
moyenne a posteriori de comme lestimateur de de lanalyse baysienne, on peut
observer que le numrateur augmente par 2 et le dnominateur augmente par 4 en comparaison
avec la proportion de lchantillon. Leet de la distribution a priori peut donc sobserver comme
une augmentation de la taille de lchantillon par 4, dont 2 sont piles.
26
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.4. LE PARADIGME BAYSIEN
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
3
.
5
theta
D
e
n
s
i
t
e
_
_
a posteriori
a priori
Figure 2.4 Distribution a posteriori et distribution a priori
Conclusion : Quand est ce quon utilise comme estimateur de lchantillon et quand la
moyenne a posteriori ?
Si on veut comparer les deux estimateurs ( celui de lchantillon et lestimateur baysienne)
on doit regarder les variances respectives. En gnral le meilleur estimateur est celui avec la
variance infrieure. Dans ce cas la variance de lestimateur classique est
V ar(F) =
1
4 12
0.02 (2.9)
et la variance a posteriori est 0.0126. En comparant ces valeurs on peut voir que la variance a
posteriori est. Alors on peut conclure que le meilleur estimateur est la moyenne a posteriori, i.e
11
16
= 0.6875.
Que est-ce qui va se passer si on change le a priori ?
Supposons avoir dans ce cas, un a priori Be(4, 6) donc on a
p() =
3
(1 )
5
Alors la distribution a posteriori est dnit par
p( | x)
9
(1 )
3

3
(1 )
5

12
(1 )
8
(2.10)
De lquation (2.10) on trouve que la distribution a posteriori est maintenant Be(13,9) avec
Moyenne =
13
13 + 9
=
13
22
0.5909
et
V ariance =
117
11132
0.0105
Verrons maintenant graphiquement la distribution a posteriori
27
2.4. LE PARADIGME BAYSIEN CHAPITRE 2. STATISTIQUE INFRENTIELLE
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
theta
D
e
n
s
i
t
e
_
a posteriori
Figure 2.5 Distribution a posteriori avec a priori Beta(4,6)
A partir du graphe on trouve approximativement lintervalle de . Plus prcisment cest
lintervalle de conance.
Intervalle de conance au niveau de conance 0.95
IC =
_
1.96 <
moyenne a posteriori

variance a posteriori
< 1.96
_
=
_
_
1.96 <

13
22
_
117
11132
< 1.96
_
_
=
_
_
1.96

117
11132
<
13
22
< 1.96

117
11132
_
_
= [0.3900 < < 0.7918]
Donc on peut trouver que est entre 0.3900 et 0.7918.
28
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.4. LE PARADIGME BAYSIEN
Il est plus facile de comparer le a priori et le a posteriori si on fait un graph.
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
theta
D
e
n
s
i
t
e
_
_
a posteriori
a priori
Figure 2.6 Distribution a posteriori et distribution a priori Beta(4,6)
Valeur estime de :
Lestimateur de lchantillon est le mme comme dans lexemple prcdent, i.e
9
12
= 0.75. Mais
lestimateur baysien de nest plus le mme comme la moyenne a posteriori a chang . Donc
le estimateur baysien est
13
22
= 0.5909.
Comparaison de deux approche baysienne :
Suite aux deux exemples on peut se demander quelle est la meilleure approche. An de r-
pondre cette question il faut comparer les deux intervalle de conance de deux estimateurs de
. En les comparant on peut dire que lintervalle de conance pour le a priori Be(2, 2) est plus
grand que lintervalle de conance de avec un a priori Be(4, 6). En plus on peut voir que la
valeur de lestimateur dans le premier exemple est
11
16
= 0.6875 qui est de nouveau plus grand
du deuxime estimateur qui est
13
22
= 0.5909. Alors on peut conclure que lapproche baysienne
avec un a priori Be(4, 6) est meilleure et elle nous donne un plus able.
29
2.4. LE PARADIGME BAYSIEN CHAPITRE 2. STATISTIQUE INFRENTIELLE
Comparaison des direntes mthodes :
Valeur estime de Intervalle de conance
Classique 0.75 [0.2171 < < 0.7829]
Baysienne avec a priori Be(2,2) 0.6875 [0.4676 < < 0.9074]
Baysienne avec a priori Be(4,6) 0.5909 [0.3900 < < 0.7918]
Table 2.1 Tableau Comparatif des direntes mthodes et valeurs estime de
Conclusion :
Daprs le tableau ci dessus on peut voir que toutes les mthodes nous donne une valeur estime
de dans lintervalle de conance. An de trouver la meilleure mthode on va comparer les
intervalles de conance et on choisira lintervalle le plus petit. Alors dans ce cas la meilleure
mthode est la Baysienne avec a priori Be(4,6), qui nous donnera la meilleure valeur estime
de .
30
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.5. FAMILLE EXPONENTIELLE
2.5 Famille exponentielle
Considrons les donnes x et la vraisemblance p(x | ).
Soit t(x) une fonction avec des valeurs rels de x, appele statistique et soit p(t(x) | ) la
densit de t(x). Alors
p(x | ) = p (x, t(x | ))
= p (t(x) | )) p (x | t(x), ) (2.11)
Supposons que le terme nal de (2.11) ne dpende pas de i.e.
p(x | ) = p (t(x) | )) p (x | t(x)) (2.12)
alors t(x) est exhaustive pour ,(ou exhaustive pour la famille p(x | )). Lide est que, sachant
t, le reste dinformations des nos donnes ne peut pas donner plus dinformations concernant
.
Thorme 2.10. Si t(x) est exhaustive pour la famil le p(x | ) alors toutes distributions a
priori les distributions a posteriori sachant, x et t(x) sont identiques.
Preuve.
p( | x) p()p(x | )
p()p(t(x) | )p(x | t(x)) par exhaustivit

p()p(t(x) | )

p( | t(x)) par le thorme de Bayes


Dnition 2.11. Si p(x | ) dpende de = (
1
,
2
, . . . ,
s
) et t(x) = (t
1
(x), t
2
(x), . . . , t
r
(x))
est un ensemble r des fonctions valeurs rels tel que
p(x | ) = p (t(x) | )) p (x | t(x))
donc t
1
(x), t
2
(x), . . . , t
r
(x) sont exhaustives pour la famil le p(x | )
Remarque 2.12. Il existe un famille spciale, appele famille exponentielle, qui comprend
plusieurs distributions communs comme membres.
Dnition 2.13. Considrons une densit p(x | ) scrit sous la forme
p(x | ) = exp{t(x)()}G()H(x) (2.13)
o
G()
1
=
_
X
exp{t(x)()}H(x)dx
p(x | ) est appel famille exponentielle. La fonction () est appele paramtre naturel le.
Cette famille comprends plusieurs distributions standards(e.g normale, binomiale, Poisson, ex-
ponentielle, Gamma).
On observe que la forme de la vraisemblance devient
p(x
1
, . . . , x
n
| ) = exp{()
n

1
t(x
i
)}G()
n
. .
f(t,)
n

1
H(x
i
)
. .
g(x)
31
2.5. FAMILLE EXPONENTIELLE CHAPITRE 2. STATISTIQUE INFRENTIELLE
donc
t(x
1
, . . . , x
n
) =

t(x
i
)
est exhaustive pour . Donc une famille exponentiel le a une exhaustivit unidimensionnel le pour
toutes valeurs de n.
Exemple 2.14. 1. preuve de Bernoul li : x=0,1 ; p(x=1 | )= ; p(x=0 | )=1-, so
p(x | ) =
x
(i )
1x
=
_

1
_
x
. .
terme contenant x and
(1 )
. .
terme contenant juste
= exp
_
x log
_

1
__
(1 )
En comparant la dnition de la famille exponentiel le on obtient t(x)=x, ()=log
_

1
_
, G() =
1 , H(x) = 1 avec
n

i=1
x
i
= nombre de succs
est exhaustive.
2. Supposons avoir la loi Normale avec la moyenne ,variance 1, crit x N(, 1)
p(x | ) =
1

2
exp
_

1
2
(x )
2
_
=
1

2
exp
_

1
2
(x
2
2x +
2
)
_
= exp {x} exp
_

1
2

2
_
exp
_

1
2
x
2
_
1

2
(2.14)
Si on compare lquation (2.14) avec la dnition dune famille exponentiel le on peut
conclure que :
t(x)=x, () = , G() = exp
_

1
2

2
_
et H(x) = exp
_

1
2
x
2
_
.

t(x
i
) =

x
i
est exhaustive.
Remarque 2.15. Toutes fonctions injectives exhaustives est aussi exhaustive tel que

X =
1
n

n
i=1
X
i
est exhaustive.
2.5.1 Extensions - Plusieurs paramtres
Supposons avoir p(x | ) dpendant de = (
1
,
2
, . . . ,
s
) et t(x) = (t
1
(x), t(x
2
), . . . , t
r
(x))
est tel que p(x | ) = p( t(x) | )p(x | t(x) alors t
1
(x), . . . , t
r
(x) ils sont exhaustives pour .
Forme de famille exponentielle :
p(x | ) = exp
_
_
_
k

j=1
t
j
(x)()
_
_
_
G()H(x) (2.15)
alors t
1
(x), . . . , t
r
(x) sont exhaustives pour .
32
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.5. FAMILLE EXPONENTIELLE
Exemple 2.16. Soit x N(,
2
) et = (,
2
)
donc :
p(x | ) =
1

2
exp
_

1
2
(x )
2
_
=
1

2
exp
_

1
2
(x
2
2x +
2
)
_
=
1

2
1

exp
_


2
_
exp
_

1
2
_
x
2

2

2x

2
__
(2.16)
Donc de (3.9) et (3.10) on a :
t
1
(x) = x
2
,
1
() =
1
2
2
t
2
(x) = x,
2
() =

2
_
n

i=1
x
2
i
,
n

i=1
x
i
_
exhaustives pour = (,
2
)
2.5.2 Familles fermes sous chantillonnage
Prenons lexemple des preuves de Bernoulli, les pertinentes informations a priori pourront se
reprsenter par une a priori distribution plus incline. Il est mathmatiquement plus intressant
de choisir une a priori de la mme famille que la fonction de vraisemblance gnr par nos
donnes.
Considrons un chantillon alatoire dune densit xe p(x | ). La famille F de distributions
de est dite ferme sous chantillonnage en lien avec p(x | ) si et seulement si pour tous
chantillonnages.
p() F p( | x) F
Exemple 2.17. preuve de Bernoulli : x=0,1 ; p(x=1 | )= ; p(x=0 | )=1-, donc
p(x | ) =
r
(i )
nr
qui est la vraisemblance et o r=

x
i
Famille F : p() =
(a +b)
(a)(b)

a1
(1 )
b1
a, b > 0 est ferme sous chantil lonnage.
p( | x)
r
(1 )
nr

a1
(1 )
b1

r+a1
(1 )
n-r+b1
(2.17)
De (2.17) on en dduit que cest un lois Beta avec paramtres r+a et n-r+b, crit Be(r+a,n-r+b)
Remarque 2.18. Une famille de a priori distributions ferme sous chantil lonnage peut tre
appele aussi famille conjugue de distributions.
Alors, en se basant sur lexemple de dessus, on peut dire que le lois Beta est une a priori famil le
conjugue dpreuves de Bernoulli.
En gnral, comment peut-on trouver des a priori familles conjugues ?
33
2.5. FAMILLE EXPONENTIELLE CHAPITRE 2. STATISTIQUE INFRENTIELLE
Dnition 2.19. Supposons que p(x | ) est une famil le exponentielle
p(x | ) = exp {t(x)()} G()H(x)
Pour un chantillon alatoire x = x
1
, x
2
, . . . , x
n
la vraisemblance prends la forme suivante :
p(x
1
, x
2
, . . . , x
n
| ) = exp
_

t(x
i
)()
_
G()
n

H(x
i
) (2.18)
Alors si
p() exp {a()} G()
b
(2.19)
Daprs les equations (3.14) & (3.15)
p( | x
1
, . . . , x
n
) p(x
1
, x
2
, . . . , x
n
| ) p()
exp
_
()

t(x
i
)
_
G()
n

H(x
i
) exp {a()} G()
b
exp
_
()
_

t(x
i
) +a
__
G()
n+b
a

t(x
i
) + a et b n + b
Donc cest une famille ferme sous chantil lonnage. Par consquent on peut trouver un a priori
conjugu pour tout famille exponentiel les.
Dnition 2.20. Un a priori conjugu p() dune famil le exponentiel le est donn par
p() exp {a()} G()
b
(2.20)
Exemple 2.21. Supposons avoir des donnes dun loi de Poisson, que serait-il un a priori
conjugu ?
Pour le trouver on doit premirement prouver que la vraisemblance peut se mettre sous la forme
dune famille exponentielle.
Or, la vraisemblance est
p(x | ) =
e

x
x!
x = 0, 1, 2, . . .
= exp (x log ) e

1
x!
x = 0, 1, 2, . . .
Alors, t(x) = x, () = log , G() = e

, H(x) =
1
x!
On peut observer que la vraisemblance est une famille exponentielle donc on peut avancer
dans la recherche dun a priori conjugu en saidant de la dnition 20.
A priori conjugu :
p() exp {a()} G()
b
exp {a log } xe
b

a
e
b
Loi Gamma
Remarque 2.22. On nutilisera pas Ga(a+1,b). Daprs la priori conjugue on peut trouver
juste le nom du lois. Donc on utilise dans ce cas Gamma(a,).
34
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.5. FAMILLE EXPONENTIELLE
Donc la priori est dnie par
p() =

a

a1
e

(a)
On utilise une vraisemblance avec un chantil lon alatoire x = x
1
, x
2
, . . . , x
n
x | ) =
n

i=1
p(x
i
| )
=
n

i=1
_
e

x
i
x
i
!
_
=
e
n

n
i=1
x
i

n
i=1
x
i
!
Alors la posteriori est donn par
p( | x
1
, x
2
. . . , x
n
) p(x
1
, x
2
, . . . , x
n
| ) p()

exp {n}

x
i
. .
vraisemblance proportionnel le

a1
e

. .
a priori proportionnel le


(
a+

x
i
1
)
e
(n+)
Conclusion : | x Ga(a +

x
i
, n +) et a priori Gamma est un a priori conjugu !
Exemple 2.23. 1. Montrer que la distribution exponentiel le est membre dune famil le ex-
ponentielle. Quelle est le paramtre naturel le ?
2. En dduire que la distribution Gamma est le a priori conjugue.
3. 5 machines font des tests pour plus de 100 heures. Parmi les 5, 3 machines ont arrt
pendant les 65,89 et 95 heures. Les deux autres ont travail l pendant 100 heures. Supposons
que la dure de vie des machines suit une distribution exponentiel le avec une moyenne de

1
, trouvez la fonction de vraisemblance.
4. Si la distribution a priori de est une distribution Gamma distribution
p() = Ga(2, 180)
trouvez la distribution a posteriori de .
5. Trouvez la moyenne a posteriori et la variance de .
Solution :
1. La distribution exponentielle a comme fonction de densit
p(x | ) = exp(x) (2.21)
En comparant cette equation avec cel le de la dnition de la famil le exponentiel le (2.13)
on peut conclure que la distribution exponentielle est une famille exponentiel le avec
(x) = x, (x) = , G() = , H(x) = 1
Et la paramtre naturelle est (x) = .
35
2.5. FAMILLE EXPONENTIELLE CHAPITRE 2. STATISTIQUE INFRENTIELLE
2. Le a priori conjugu est donn par
p() exp {a()} G()
b
Donc on a
p() exp(a)
b
qui est une distribution Gamma. Alors la distribution Gamma est le a priori conjugu.
3. La fonction de vraisemblance est donne par
p(x | ) =
3

i=1
+P[x
4
> 100] +P[x
5
> 100] (2.22)
La probabilit quune machine travail le pour 100 heures est
P[x
j
> 100] =
_

100
exp(x)d = exp(100)
Donc la fonction de vraisemblance (2.22), se transforme
p(x | ) = exp(65) exp(89) exp(95) exp(100) exp(100)
=
3
exp(449)
4. Comme la distribution a priori de est Ga(2, 180) alors on a
p() exp(180)
La distribution a posteriori est
p( | x) p(x | ) p()

3
exp(449) exp(180)

4
exp(629) Ga(5, 629)
5. La moyenne a posteriori est
5
629
0.007949 et la variance a posteriori est
5
(629)
2

1.2638 10
5
.
36
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.5. FAMILLE EXPONENTIELLE
Solution Graphique :
0.00 0.01 0.02 0.03 0.04 0.05
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
theta
D
e
n
s
i
t
e
_
_
_
a posteriori
a priori
vraisemblance
Figure 2.7 Distribution a posteriori, Distribution a priori et distribution de vraisemblance
Remarque 2.24. Daprs le graphe on peut trouver que approximativement, linterval le o
se situe qui est 0 et 0.02.
37
2.6. LOI NORMALE CHAPITRE 2. STATISTIQUE INFRENTIELLE
2.6 Loi Normale
2.6.1 A posteriori dun a priori et dune vraisemblance normale
Dans cette section on utilisera les lois normales et on va dterminer les a priori conjugus
dans les trois cas suivants :
A. Moyenne inconnue et Variance connue
B. Moyenne connue et Variance inconnue
C. Moyenne et variance inconnues
2.6.2 Variance connue
Soit x N(,
2
). Il est plus simple dutiliser la precision h =
1

2
au lieu de la variance
2
.
Notons quun lois normale avec une moyenne et une precision h est donn par N
0
(, h)
Preuve : On va prouver que h =
1

2
.
Pour faire cela on doit comparer le lois normale ayant comme paramtres et
2
avec N
0
(, h).
Alors, la vraisemblance de N
0
(, h) est :
p(x | ) =
h
1/2

2
exp
_

1
2
h(x )
2
_
et la vraisemblance de N(,
2
) est :
p(x | ) =
1

2
exp
_

1
2
2
(x )
2
_
Or, en comparant ces deux equations on peut conclure que h
1/2
=
1

h =
1

Thorme 2.25. Si x N
0
(, h) et N
0
(
0
, h
0
) donc
| x N
0
_
hx +h
0

0
h +h
0
, h +h
0
_
On peut dire que la posteriori precision gale precision de donnes plus la priori precision
En outre, la posteriori moyenne est la moyenne pondre de la priori moyenne et de la
moyenne de donnes avec une pondration gale aux prcisions pour
h
h +h
0
x +
h
0
h +h
0

0
= wx + (1 +w)
0
o w =
h
h +h
0
Preuve : La vraisemblance est :
p(x | ) =
1

2
exp
_

1
2
2
(x )
2
_

exp {hx} exp


_

1
2
h
2
_
38
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.6. LOI NORMALE
On peut voir que cest une famille exponentiel le () = , G() = e

2
/2
, t(x) = x. Alors on
peut trouver la priori distribution en utilisant la priori conjugu.
p() exp {a()} G()

exp {a} exp


_

2
2
_
La conclusion est que la priori est une loi Normale donc on peut utiliser la forme gnrale du
lois Normale avec les paramtres
0
et h
0
. Donc
N
0
(
0
, h
0
)
p() =
h
1/2
0

2
exp
_

h
0
2
(
0
)
2
_

exp {h
0

0
} exp
_

2
h
0
2
_
Au nal on trouve l a posteriori
p( | x) p(x | ) p()

exp {(hx +h
0

0
)} exp
_

2
2
(h +h
0
)
_
Donc, | x N
0
_
hx +h
0

0
h +h
0
, h +h
0
_
et on peut voir que la posteriori precision est donne par h
..
Precision de donnes
+ h
0
..
A priori precision

Exemple Numrique 2.1. Un scientique utilise un appareil dune precision connue h


2
=
69.444 pour faire neuf mesures indpendants dune quantit. Les mesures sont supposes de
suivre le loi normale avec une moyenne inconnue et lcart type
1
h
. La moyenne de lchantil lon
obtenue est x = 17.653.
1. Si le scientique est prt de prendre une vague distribution a priori sur calculer la
distribution a posteriori de .
2. Trouver les 99% et 95% intervalles HPD pour . Conclure.
3. Si la distribution a priori du scientique de suit le loi normale avec une moyenne de
17.5 et une precision de 100, trouver la distribution a posteriori de .
4. Trouver les 99% et 95% intervalles HPD pour dun a posteriori avec un a priori infor-
mative. Conclure.
5. Comparer les deux a posteriori, qui est le meil leur ?
6. Si la distribution a priori de suit la loi normale avec une moyenne de 20 et une precision
de 25,trouver la distribution a posteriori de .
7. Trouver le 95% intervalle HPD pour dun a posteriori avec le prcdent a priori.
8. Comparer les deux 95% intervalles HPD pour de deux approches baysiennes.
9. Comparer le 95% intervalle HPD classique avec les deux baysiennes.
39
2.6. LOI NORMALE CHAPITRE 2. STATISTIQUE INFRENTIELLE
Solution :
1. Soit x = {x
i
, i = 1, . . . , 9} la neuvime mesure indpendant, alors x
i
| N
o
(, h
2
) La
vraisemblance est donne par :
p(x | ) =
9

i=1
p(x
i
| )
=
9

i=1
h

2
exp
_

h
2
2
(x
i
)
2
_
=
h
9
(2)
9/2
exp
_

h
2
2
9

i=1
(x
i
)
2
_
(2.23)
Comme on na pas des informations sur le a priori on suppose que p() constante. Donc
le a posteriori
p( | x) p(x | )p()
exp
_

h
2
2

(x
i
)
2
_
constante
exp
_

h
2
2
_

x
2
i
2

x
i
+n
2
_
_
exp
_

h
2
2
_

x
2
i
2n x +n
2
_
_

exp
_

h
2
2
_
2n x +n
2
_
_

exp
_

h
2
2
n( x)
2
_
(2.24)
Alors on obtient | x N
o
( x, nh
2
)puisque x = 17.653 et nh
2
= 9(69.444) = 624.996 alors
| x N
o
(17.653, 624.996)
40
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.6. LOI NORMALE
Solution graphique :
Sur le graphe ci dessous, on peut voir la distribution a posteriori normale avec un a priori
constant. On peut supposer que aura des valeurs entre 17.5 et 17.8, mais jusqu prsent
on nest pas sur. On peut le vrier en utilisant les interval les HPD.
17.0 17.2 17.4 17.6 17.8 18.0
0
2
4
6
8
1
0
Distribution a posteriori Normale avec constante a priori
theta
D
e
n
s
i
t
e
_
a posteriori
Figure 2.8 Distribution a posteriori avec une constante a priori
Rappel HPD intervalles :
En utilisant les intervalles HPD on peut trouver un interval le de conance pour les va-
leurs de . En plus en comparant les deux intervalles HPD on peut trouver lequel il est le
meilleur en choisissant le plus petit. Lobjectif des interval les HPD est de comparer lap-
proche classique avec lapproche baysienne, ou bien deux approches baysiennes. Dans ce
projet on sintresse plutt de la comparaison de la classique avec la baysienne.
2. Intervalles classiques
Dans ce cas on on prend un a posteriori avec un a priori constant. Alors on a
| x N( x,
2
)
avec une moyenne x = 17.653 and variance
2
=
1

624.996
(a) 99% intervalle HPD veut dire que
_
b
a
p( | X)d = 0.99. Dans lanalyse Baysienne
on peut trouver lintervalle en faisant :
IC=
_
Moyenne a posteriori Z
0.005

Variance a posteriori
_
o Z
0.005
est le quartile dordre 0.005 de la loi Normale(0,1).
41
2.6. LOI NORMALE CHAPITRE 2. STATISTIQUE INFRENTIELLE
Comme P(Z < 2.5758) = 0.995
P
_
2.5758 <
moyenne a posteriori

variance a posteriori
< 2.5758
_
= 0.99
P
_
2.5758 <
moyenne a posteriori

variance a posteriori
< 2.5758
_
= 0.99
P
_
17.653 2.5758
_
(9 69.444)
1
< < 17.653 + 2.5758
_
(9 69.444)
1
_
= 0.99
P[17.55 < < 17.7560] = 0.99
Cet intervalle nous dit que on est 99% sur que la valeur de se trouve entre 17.55
et 17.7560.
(b) 95% HPD intervalle
Dans ce cas on a :
IC=
_
Moyenne a posteriori Z
0.025

Variance a posteriori
_
o Z
0.025
est le quartile dordre 0.025 de la loi Normale(0,1).
Comme P(Z < 1.96) = 0.975 alors :
P
_
1.96 <
moyenne a posteriori

variance a posteriori
< 1.96
_
= 0.95
P
_
1.96 <
moyenne a posteriori

variance a posteriori
< 1.96
_
= 0.975
P
_
17.653 1.96(
_
(9 69.444)
1
)) < < 17.653 + 1.96(
_
(9 69.444)
1
)
_
= 0.95
P[17.5746 < < 17.7314] = 0.95
Cet intervalle nous exprime quon est 95% sur que la valeur de est entre 17.5746
et 17.7314.
Comparaison : Lequel de deux classiques interval les est le meilleur ?
En comparant les intervalles on peut dire que le meil leur est le deuxime, avec 95% car
il nous donne lintervalle le plus petit et crdible pour les valeurs de . Puisque on a un
intervalle plus petit on serait plus proche de notre solution de .
3. Approche baysienne
Maintenant on connait que le a priori suit le loi normale avec une moyenne de 17.5 et
une precision de 100 alors, N
o
(17.5, 100).
p() =

100

2
exp
_

100
2
( 17.5)
2
_
(2.25)
Donc le a posteriori est donn par :
p( | x)

exp
_

h
2
2

(x
i
)
2
_
exp
_

100
2
( 17.5)
2
_

exp
_

1
2
_
h
2
2n x +n
2
h
2
+ 100
2
35 100
_
_

exp
_

1
2
__
nh
2
+ 100
_

2
2 (nh x + 17.5 100)
_
_

exp
_
_

1
2
_
nh
2
+ 100
_
_

(n xh
2
+ 17.5 100)
nh
2
+ 100
_
2
_
_
42
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.6. LOI NORMALE
So
| x N
o
_
(n xh
2
+ 17.5 100)
nh
2
+ 100
, nh
2
+ 100
_
(2.26)
o h
2
= 69.444, x = 17.653 et n=9. Donc
| x N
o
(17.6319, 724.996) (2.27)
Alors la moyenne a posteriori est 17.6319 et la variance a posteriori est
1
724.996
car
h
posterior
=
1

2
.
Solution graphique
Sur le gure ci contre on peut voir la distribution a posteriori normale et la distribution a
priori normale. On peut dire que le a priori prend des valeurs entre 17.3 et 17.8 ayant une
moyenne de 17.5 et le a posteriori prend ses valeurs entre 17.6 et 17.8. En comparant ce
graphe avec le graphe de dessus, (Figure 2.8) on peut dire que ce a posteriori est meil leur
car il nous donne un intervalle plus petit pour les valeurs de theta. Mais de nouveau il est
plus able de vrier avec les intervalles HPD aussi dans ce cas.
17.0 17.5 18.0 18.5 19.0
0
2
4
6
8
1
0
Distribution a posteriori Normale et distribution a priori Normale
theta
D
e
n
s
i
t
e
_
_
a priori
a posteriori
Figure 2.9 Distribution a posteriori et distribution a priori
43
2.6. LOI NORMALE CHAPITRE 2. STATISTIQUE INFRENTIELLE
4. HPD pour un a posteriori avec un a priori informative
(a) 99% HPD intervalle
IC=
_
Moyenne a posteriori Z
0.005

Variance a posteriori
_
o Z
0.005
est le quartile dordre 0.005 de la loi Normale(0,1).
Comme P(Z < 2.5758) = 0.995
P
_
2.5758 <
moyenne a posteriori

variance a posteriori
< 2.5758
_
= 0.99
P
_
2.5758 <
moyenne a posteriori

variance a posteriori
< 2.5758
_
= 0.99
P
_
17.6319 2.5758(
_
(724.996)
1
) < < 17.6319 + 2.5758(
_
(724.996)
1
_
= 0.99
P[17.5362 < < 17.7276] = 0.99
Lintervalle nous dit quon est 99% sur que la valeur de est entre 17.5362 et 17.7276.
(b) 95% HPD intervalle
Dans ce cas on a :
IC=
_
Moyenne a posteriori Z
0.025

Variance a posteriori
_
o Z
0.025
est le quartile dordre 0.025 de la loi Normale(0,1).
Comme P(Z < 1.96) = 0.975 alors :
P
_
1.96 <
moyenne a posteriori

variance a posteriori
< 1.96
_
= 0.95
P
_
17.6319 1.96(
_
(724.996)
1
) < < 17.6319 + 1.96(
_
(724.996)
1
_
= 0.95
P[17.5591 < < 17.7047] = 0.95
Lintervalle nous dit quon est 95% sur que la valeur de est entre 17.5567 et 17.7071.
Comparaison : Lequel de deux interval les est le meil leur ?
En comparant ces deux intervalles on peut dire que celui avec 95% est le meil leur
parce quil nous donne le plus petit et crdible intervalle pour les valeurs de . Plus
lintervalle est petit plus on est proche de la solution pour .
5. Comparer le a posteriori avec un a priori non-informative et un a posteriori avec un a
priori informative.
En regardant lintervalle de conance de deux a posteriori on peut dire que linterval le
avec le a priori informative est meilleur de lautre. Ceci arrive parce que linterval le avec
le a priori normale est plus petit par rapport linterval le avec un a priori constant. Ce
la veut dire quon choisira celui avec un a priori normale !
6. Si on a un a priori qui suit la loi normale avec une moyenne de 20 et une precision de 25
alors, N
o
(20, 25).
p() =

25

2
exp
_

25
2
( 20)
2
_
(2.28)
44
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.6. LOI NORMALE
Donc le a posteriori est donn par :
p( | x)

exp
_

h
2
2

(x
i
)
2
_
exp
_

25
2
( 20)
2
_

exp
_

1
2
_
h
2
2n x +n
2
h
2
+ 25
2
40 25
_
_

exp
_

1
2
__
nh
2
+ 25
_

2
2 (nh x + 20 25)
_
_

exp
_
_

1
2
_
nh
2
+ 25
_
_

(n xh
2
+ 20 25)
nh
2
+ 25
_
2
_
_
Donc
| x N
o
_
(n xh
2
+ 20 25)
nh
2
+ 25
, nh
2
+ 25
_
(2.29)
o h
2
= 69.444, x = 17.653 et n=9. Donc
| x N
o
(17.7433, 649.996) (2.30)
Alors la moyenne a posteriori est 17.7433 et la variance a posteriori est
1
649.996
.
Solution graphique :
17 18 19 20 21
0
2
4
6
8
1
0
Distribution a posteriori Normale et distribution a priori Normale
theta
D
e
n
s
i
t
e
_
_
a priori
a posteriori
Figure 2.10 Distribution a posteriori et distribution a priori
45
2.6. LOI NORMALE CHAPITRE 2. STATISTIQUE INFRENTIELLE
7. 95% HPD intervalle
Donc on a :
IC=
_
Moyenne a posteriori Z
0.025

Variance a posteriori
_
o Z
0.025
est le quartile dordre 0.025 de la loi Normale(0,1).
Comme P(Z < 1.96) = 0.975 alors :
P
_
1.96 <
moyenne a posteriori

variance a posteriori
< 1.96
_
= 0.95
P
_
17.7433 1.96(
_
(649.996)
1
) < < 17.7433 + 1.96(
_
(649.996)
1
)
_
= 0.95
P[17.6664 < < 17.8202] = 0.95
8. Conclusion
Entre les deux intervalles 95% HPD, le meil leur est le premier avec un a priori N
0
(17.5, 100)
comme il donne un intervalle plus petit pour .
9. Comparaison des direntes mthodes
Intervalles 95% HPD
Classique [17.5746 < < 17.7314]
Baysienne avec a priori N
0
(17.5, 100) [17.5591 < < 17.7047]
Baysienne avec a priori N
0
(20, 25) [17.6664 < < 17.8202]
Table 2.2 Tableau Comparatif des direntes mthodes et intervalles HPD de
Conclusion :
En comparant les 95% intervalles HPD du tableau ci dessus on peut voir que les mthodes
Baysienne nous donne un interval le HPD plus petit par rapport au classique. Donc les
mthodes Baysiennes sont prfrables. Regardons maintenant les deux mthodes Bay-
siennes on peut dire que la mthode Baysienne avec a priori N
0
(17.5, 100) est la meil leure
mthode.
46
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.6. LOI NORMALE
2.6.3 Moyenne connue
Supposons que la moyenne est gale zero. Si cest on remplace x par y dans le
rsultat. Encore une fois il est prfrable de travailler avec la precision au lieu de la variance.
Soit la precision inconnue
p(x | ) =
1

1
2
exp
_

1
2
x
2
_
Ceci est une famille exponentielle avec () = (1/2) et G() =
1/2
. Donc la priori conjugu
est proportionnelle
a/2
exp ((1/2)b). Ceci est un loi Gamma. On utilise de nouveau une
forme dirente du loi Gamma. On obtient le rsultat suivant .
Thorme 2.26. Si x
i
N
0
(0, ) et Ga(a/2, /2) donc | x Ga((a + n)/2, ( +

x
i
2
)/2).
Preuve :
La vraisemblance est :
p(x | ) =
n

i=1
p(x
i
| )

i=1

1/2
exp
_

2
x
2
i
_

n/2
exp
_

2
n

i=1
x
2
i
_
On connait que Ga(a/2, /2) donc p()


a
2
1
e

Alors la posteriori est :


p( | x) p(x | ) p()

n/2
exp
_

2
n

i=1
x
2
i
_

a
2
1
e


n+a
2
1
exp
_

2
_
+

x
2
i
_
_
Or, | x Ga
_
n+a
2
,
+

x
2
i
2
_
avec la posteriori moyenne
n+a
+

x
2
i
.
Dune autre manire, si on crit la priori comme b
2
n
donc la posteriori est (+

x
2
i
)

2
a+n
. Or pour un n grand on aura approximativement (

x
2
i
)
2
n
.
Thorme 2.27. Si Ga(a, ) alors 2
2
2a
.
Preuve :
Comme Ga(a, ) donc la priori est p() =

a

a1
e

(a)
. Soit u = 2 so =
u
2
. Donc la
Jacobienne est
d
du
=
1
2
d =
du
2
.
En utilisant la substitution, on obtient
p(u) =

a
_
u
2
_
a1
e
u/2

(a)
1
2
..
=
d
du
=
e
u/2
_
u
2
_
a1
(a)
Ga
_
a,
1
2
_
47
2.6. LOI NORMALE CHAPITRE 2. STATISTIQUE INFRENTIELLE
On connait que Ga
_

2
,
1
2
_

2

donc Ga
_
a,
1
2
_

2
2a
.
Alors on a prouvait que 2
2
2a
.
2.6.4 Moyenne et Variance inconnue
Dnition 2.28. Soit y une variable alatoire avec une densit
g
1/2
((a + 1) /2)
_
(a)(a/2)
_
1 +
g
a
(y m)
2
_
(a+1)/2
a une distribution t avec a degrees de libert, location m et precision g. On peut lcrire sous la
formet
a
(m, g). La variable

g(y m) a un loi de Student t avec a dgres de libert, t
a
(0, 1).
Suppose x N
0
(, h) donc
p(x | , h) =

h
2
exp
_

1
2
h(x )
2
_
On doit trouver un a priori pour et h, p(, h) dans la forme p(, h)p(h).
Comme pour un h connue le loi normale est en lui mme conjugu on utilisera un a priori nor-
male pour | h et un loi Gamma pour h. Comme ils sont conjugus on prends | h N
0
(
0
, ch)
et h Ga(a/2, b/2).
qui donne
h | x Ga(a

/2, b

/2)
o a

= a +n et b

= b +
1
n +c
_
n
n

i=1
(x
i
x)
2
+c
n

i=1
(x
i

0
)
2
_
. Si on crit la posteriori
distribution de | x, h, h as N
0
(

0
, c

h) o

0
= (c
0
+n x)/(c +n) et c

= c +n il conduit
que la posteriori distribution de est donne par
| x t
a
(

0
, (a

/b

).
48
CHAPITRE 2. STATISTIQUE INFRENTIELLE2.7. MLANGE DES A PRIORI CONJUGUS
2.7 Mlange des a priori conjugus
Une autre possibilit qui facilite les calculs mais qui autorise plusieurs a priori pour exprimer
nos croyances est dutiliser un mlange des a priori conjugus.
Supposons avoir des observations provenant dune famille exponentielle avec une densit p(x |
). On exprime notre a priori comme
p() = p
1
() +p
2
()
o p
1
() et p
2
() sont des a priori conjugus et + = 1. Le a posteriori est :
p( | x) p(x | ) p()
p(x | )p
1
() +p(x | )p
2
()
p
1
()p
1
( | x) +p
2
()p
2
( | x)

p
1
( | x) +

p
2
( | x)
o a

=
p
1
(x)
ap
1
(x) +p
2
(x)
,

= 1 et
p
i
( | x) =
p(x | )p
i
()
p
i
(x)
Exemple 2.29. Considrons le rsultat quand une pice tourne sur une surface. Des expriences
ont montr que la proportion des arrives piles est 1/3 ou bien 2/3 au lieu de 1/2. Alors un
a priori apparait convenable. Comme les pices tournant sont des preuves de Bernoul li le loi
Beta sera le conjugu.
Solution :
Donc notre a priori est le suivante :
p() =
1
2
Be(10, 20) +
1
2
Be(20, 10)
=
1
2
(30)
(10)(20)

101
(1 )
201
+
1
2
(30)
(20)(10)

201
(1 )
101
=
1
2
p
1
() +
1
2
p
2
()
On obtient 3 piles et 7 faces donc la vraisemblance est p(x | )
3
(1 )
7
.
Alors le a posteriori est
p( | x) p(x | ) p()

3
(1 )
7

_
1
2
(30)
(10)(20)

101
(1 )
201
+
1
2
(30)
(20)(10)

201
(1 )
101
_

p
1
( | x) +

p
2
( | x)
o p
1
( | x) = Be(13, 27) et p
2
( | x) = Be(23, 17) et

= 1.
Maintenant on doit trouver les coecients

et

=
1
2
p
1
(x)
1
2
p
1
(x) +
1
2
p
2
(x)
49
2.7. MLANGE DES A PRIORI CONJUGUSCHAPITRE 2. STATISTIQUE INFRENTIELLE
avec,
p
1
(x) =
p(x | )p()
p( | x)
=
(30)
(10)(20)
(40)
(13)(27)
(On ne prends pas en compte les termes en )
Idem
p
2
(x) =
(30)
(20)(10)
(40)
(23)(27)
(On ne prends pas en compte les termes en )
Or,

=
p
1
(x)
p
1
(x) +p
2
(x)
=
(13)(27)
(13)(27) + (23)(17)
= 0.89 (2.31)
Alors par lquation (2.31) on a,

= 0.89

= 0.11
Solution graphique :
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
Melange des a priori conjugues
probabilite des piles
_
_
_
A Priori
Vraisemblance
A Posteriori
50
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.8. LE LOIS DE JEFFREYS
2.8 Le lois de Jereys
2.8.1 Linformation de Fisher
Dans cette partie on utilise le log-vraisemblance qui est dnie par
L( | x) = log l( | x) (2.32)
Comme la vraisemblance peut se multiplier par nimporte quelle constante la log-vraisemblance
contiens une constante arbitraire daddition.
laide de Cramr-Rao, linformation de Fisher est dnie comme
I( | x) = E
_

2
(log p(x | ))

2
_
(2.33)
Il est pertinente de noter que linformation dpende plus au loi des donnes que ses valeurs
particuliers.
Lemme 1. E
L( | x)

= 0
Preuve :
De la dnition
E
_
L( | x)

_
=
_
(log l( | x))

p(x | )
=
_
(log p(x | ))

p(x | )
=
_
(log p(x | ))

dx
=
d
d
_
p(x | )dx
=
d
d
1
= 0
comme il ny a pas dimportance si la driv par rapport est dedans ou dehors de lintgral
par rapport x.
51
2.8. LE LOIS DE JEFFREYS CHAPITRE 2. STATISTIQUE INFRENTIELLE
Lemme 2. I( | x) = E
_
L( | x)

_
2
Preuve :
De nouveau une driv sous un intgral
I( | x) = E
_

2
(log l( | x))

2
_
=
_
_

2
(log p(x | ))

2
_
p(x | )dx
=
_

_
p(x | )/
p(x | )
_
p(x | )dx
=
_
_

2
p(x | )/
2
p(x | )
_
pdx +
_
_
(p(x | )/)
2
p
2
_
p(x | )dx
=
_
_

2
p(x | )

2
_
dx +
_
log p(x | )

2
p(x | )dx
=
d
2
d
2
(1) +
_
_
L( | x)

_
2
p(x | )dx
= E
_
L( | x)

_
2
2.8.2 Linformation issue de plusieurs observations
Si lon a n indpendants observations x = (x
1
, x
2
, . . . , x
n
), alors la probabilit de densit se
multiplient, et donc les log-vraisemblances sajoutent. Par consquent, si on dnie
I( | x) = E
_

2
(log p(x | ))

2
_
donc par la linarit desprance
I( | x) = nI( | x)
avec x un des x
i
. Ceci est en accord avec lide que avec n fois observations on aura n fois
informations concernant la valeur de la paramtre inconnue.
2.8.3 A priori de Jereys
La mthode suivante, propos par Sir Harold Jereys, nous aide choisir un a priori non -
informative pour une vraisemblance connue.
Supposons avoir un chantillon alatoire dun lois de densit p(x | ) ensuite on choisit un
a priori () I( | x)
1/2
o
I( | x) =
_
X
p(x | )

2

2
log p(x | )dx
Cette mthode nous lle une solution satisfaisante pour un problme unidimensionnelle mais
une plus problmatique dans le cas dun problme multivarie.
52
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.8. LE LOIS DE JEFFREYS
Exemple 2.30. Supposons avoir un chantil lon alatoire dun lois exponentiel le ayant comme
moyenne
1
. Donc p(x | ) = exp(x) x > 0.
Solution :
Pour utiliser le a priori de Jerey on dois trouver une driv partielle dordre deux de log p(x |
) = log [exp(x)] = x + log x > 0.
Alors,

log p(x | )dx =


{x + log } dx = x +
1

et

2

2
log p(x | )dx =
1

2
Or,
h() =
_
+
0
p(x | )

2

2
log p(x | )dx
=
_
+
0
1

2
exp (x) dx
=
1

_
+
0
exp (x) dx
=
1

2
[exp (x)]
+
0
=
1

2
(2.34)
Donc le a priori de Jerey est dnie par,
() h()
1/2
()
1

Avec cet a priori, le a posteriori dun chantil lon alatoire de tail le n est proportionnel le

n1
exp (

x
i
) quon peut aussi voir comme une Ga (n,

x
i
) distribution. On peut rfren-
cer cet a posteriori pour les comparer aprs avec dautres a posteriori bass sur des a priori
informatives.
53
2.9. DISTRIBUTIONS PRDICTIVE CHAPITRE 2. STATISTIQUE INFRENTIELLE
2.9 Distributions prdictive
Un objectif important de la statistique est de prdire des observations. Supposons que x =
(x
1
, . . . , x
n
) cest un chantillon alatoire dun loi de distribution avec une fonction de densit
de probabilit p(x
i
| ) et le a priori pour est p(). Maintenant on suppose que y est une autre
observation du mme loi. On veut trouver ce loi de y sachant les donnes x. On lcrit p(y | x)
et on appelle ceci comme distribution prdictive de y.
Par simplication de largument
p(y | x) =
_
p(y | , x)p( | x)d
=
_
p(y | )p( | x)d
comme y est indpendant de x sachant . Donc p(y | x) est en moyenne suprieur de l a
posteriori distribution de .
Exemple 2.31. Soit x
1
, . . . , x
n
un chantil lon alatoire dun loi exponentiel le avec une fonc-
tion de densit de probabilit p(x | ) = exp (x) et le a priori pour est Gamma p()

1
exp (). Maintenant on suppose que y est une autre observation du mme loi de distri-
bution. Trouver la distribution prdictive de p(y | x).
Solution :
Comme la vraisemblance est donne par p(x | ) = exp (x) alors pour lchantil lon alatoire
x = x
1
, . . . , x
n
on obtient la vraisemblance suivante
p(x | ) =
n

i=1
p(x
i
| )
=
n
exp
_

i=1
x
i
_
En utilisant le a priori p() on peut trouver le a posteriori p( | x)
p( | x) p(x | ) p()

n+1
exp
_

_
+

x
i
__
Donc, | x Ga (n +a, +

x
i
)
p( | x) =
( +

x
i
)
n+a

n+1
exp (( +

x
i
) )
(n +)
Pour les futurs observations de y on sait quils ont la mme fonction de vraisemblance
donc
p(y | ) = exp (y)
Alors la distribution prdictive est donne par
p(y | x) =
_
p(y | )p( | x)d
=
_
exp (y)
( +

x
i
)
n+a

n+1
exp (( +

x
i
) )
(n +)
=
( +

x
i
)
n+
(n +)
_

n+
exp
_

_
+

x
i
+y
__
. .
Noyau pour Ga(n + + 1, y + +

x
i
)
d
=
( +

x
i
)
n+
(n +)
(n + + 1)
(y + +

x
i
)
n++1
=
( +

x
i
)
n+
(n +)
(y + +

x
i
)
n++1
y > 0
54
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.9. DISTRIBUTIONS PRDICTIVE
Si on pose y + +

x
i
= z on obtiendra
( +

x
i
)
n+
(n +)
(z)
n++1
z > +

x
i
(2.35)
Qui est le loi de Pareto ayant comme paramtre z = y + +

x
i
Donc la distribution prdictive est Pareto(z).
Exemple 2.32. Supposons avoir un chantil lon alatoire x
1
, x
2
, . . . , x
n
Loi de Poisson avec
une moyenne et un a priori de est Ga(a,b). Maintenant on suppose que y est une autre
observation de la mme loi de Poisson. Trouvez la distribution prdictive p(y | x).
Solution :
Comme x
1
, x
2
, . . . , x
n
Poisson distribution avec une moyenne alors la vraisemblance est :
p(x | )
n

i=1

x
i
e

x
i
!

x
i
e
n
(2.36)
En plus a priori p() Ga(a, b) donc
p() =
a1
e
b
(2.37)
En utilisant les rsultats de (2.36) et (2.37) on peut trouver la distribution a posteriori qui est :
| x

x
i
e
n

a1
e
b

a+

x
i
1
e
(b+n)
(2.38)
Alors de lequation (2.38) on peut conclure que | x Ga(a +
n

i=1
xi, b +n)
Pour les futurs observations de y on sait quils ont la mme fonction de vraisemblance alors
y | Poisson()
p(y | ) =

y
e

y!
y = 0, 1, 2, . . . (2.39)
Alors la distribution prdictive est donne par
p(y | x) =
_
p(y | )p( | x)d
=
_

y
e

y!
(b +n)
a+

x
i

a+

x
i

e
(b+n)
(a +

x
i
)
d
=
(b +n)
a+

x
i
y!(a +

x
i
)
_

a+

x
i
+y1
e
(b+n+1)
. .
Noyau pour Ga(a +

x
i
+ y, b + n + 1)
d
=
(b +n)
a+

x
i
y!(a +

x
i
)

(a +

x
i
+y)
(b +n + 1)
a+

x
i
+y
y = 0, 1, 2, . . . (2.40)
conclusion : La distribution prdictive est :
y Distribution Binomiale ngative
avec paramtres n = a +

x
i
et p =
b+n
b+n+1
.
55
2.9. DISTRIBUTIONS PRDICTIVE CHAPITRE 2. STATISTIQUE INFRENTIELLE
Exemple Numrique 2.2. Soit x le nombre darrives dans une station dessence pendant 2
heures pour des priodes de 10 minutes. On les archives suivantes :
3 5 4 1 6 5 4 2 3 3 5 2
avec

x
i
= 43 and n = 12. On connait que x Poisson() et on suppose a priori p()
Ga(4, 1) avec la moyenne = 4 et la variance = 4. Alors la distribution a posteriori est :
p( | x)
4+431
e
(4+12)
Donc, | x Ga(47, 13)
0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
La distribution a posteriori
theta
D
e
n
s
i
t
e
Gamma(47,13)
Figure 2.11 La distribution a posteriori
La distribution prdictive est dnit par :
p(y | x) =
_
e

y
y!
13
47

46
e
13
(47)
d
=
13
47
(47)y!
_

46+y
e
14
d
=
13
47
(47)y!

(47 +y)
14
47+y
=
(47 +y 1)!
(47 1)!y!
_
13
14
_
47
_
1
14
_
y
y = 0, 1, 2, . . . (2.41)
Daprs (2.41) on peut conclure que y Binomiale Ngative(n = 47,p =
13
14
= 0.9286) avec
Moyenne =
47
13
= 3.6154 et V ariance =
658
169
= 3.8935
56
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.9. DISTRIBUTIONS PRDICTIVE
Distribution predictive
D
e
n
s
i
t
e
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
Binomiale negative(47,13/14)
Figure 2.12 La distribution prdictive
Exemple 2.33. La dure de vie, x, des produits suit un distribution exponentiel le avec une
densit exp(x). La distribution a priori de est Gamma avec densit 16 exp(4). Un
produit est test et son dure de vie est 3.0.
1. Trouvez la distribution a posteriori de .
2. Trouvez la distribution prdictive dune dure de vie , y, dun autre produit.
3. Trouvez la probabilit que y < 3.5.
Solution :
1. On connait que le a priori a comme densit
p() = 16 exp(4) (2.42)
La vraisemblance est p(x | ) = exp(x) et comme un produit est test avec une dure
de vie de 3.0 alors,
p(x | ) = exp(3) (2.43)
Donc la distribution a posteriori est
p( | x) p(x | ) p()
exp(3) exp(4)

2
exp(7) (2.44)
De (2.44) on peut dire que | x Gamma(3, 7).
2. La distribution prdictive de y est donn par
p(y | x) =
_
p(y | ) p( | x)d
Dans ce cas on connait que y a une vraisemblance de p(y | ) = exp(y) et un a pos-
teriori de | x Gamma(3, 7). Donc on a
57
2.9. DISTRIBUTIONS PRDICTIVE CHAPITRE 2. STATISTIQUE INFRENTIELLE
p(y | x) =
_
exp(y)
7
3

2
exp(7)
(3)
d
=
7
3
(3)
_

3
exp((y + 7))d
=
7
3
(3)
(4)
(y + 7)
4
=
3 7
3
(y + 7)
4
=
3 7
3
z
4
soit y+7 = z (2.45)
Du rsultat (2.45) on peut dire que la distribution prdictive est Pareto distribution(3,7),
avec z > 7.
3. La probabilit que P[y < 3.5] = P[y + 7 < 10.5] = P[z < 10.5] . Donc
P[z < 10.5] =
_
10.5
7
3 7
3
z
4
dz
= 3 7
3
_
10.5
7
z
4
dz
= 3 7
3
_

z
3
3
_
10.5
7
= 7
3
_
z
3
_
10.5
7
= 7
3
_
19
9261
_
= 0.7037
Exemple 2.34. Soit x
1
, . . . , x
n
un chantil lon alatoire de N(,
2
) o
2
est connue et le a
priori de est N(,
2
). Alors on connait que le a posteriori est normale avec une moyenne m
et variance v
2
o
m =
n x
2
+
2
n
2
+
2
v
2
=
_
n
2
+
2
_
1
Supposons y une autre observation de N(,
2
) Qui est la distribution prdictive de y ?
Solution :
On connait que
| x N(m, v
2
)
_
n x
2
+
2
n
2
+
2
,
1
(n
2
+
2
)
_
En plus y N(,
2
) alors y | N(,
2
)
Supposons que,
_
y = +u o u N(0,
2
)
= m+w o w N(0, v
2
)
o u et w sont indpendants et y=m + w +u avec E(y) = m et V ar(y) =
2
+v
2
par indpen-
dance.
Or on peut facilement montrer que
y | x N(m,
2
+v
2
)
58
Conclusion
Ce projet fut une premire exprience personnelle dans le domaine de Statistiques.
tant donn que le domaine de statistique Baysienne est assez vaste, je ne prtends pas
davoir maitrise tout le domaine. Par contre ce projet ma permis denrichir mes connaissances
des statistiques et dcouvrir des nouvelles techniques, plus puissantes, pour tirer des conclusions
sur des chantillons et de construire des tests hypothse.
Je tiens aussi encore remercier Mme Perrut Anne, mon encadrant de projet, de mavoir
oert lopportunit de travailler sur ce thme, ainsi que pour des nombreuses indications ap-
portes durant ltude de ce projet.
60
Annexe
########################## 1 Pr e l i mi nai r e s
######## 2. 4 Di s t r i but i ons
##### Di s t r i but i on Beta
curve ( dbeta ( x , 0 . 5 , 0 . 5 ) , c ol =" bl ue " , xl i m=c ( 0 , 1) , yl i m=c ( 0 , 2 . 7 ) ,
yl ab=" Densi te " , xl ab="x " , main="Le graphi que de de ns i t e pour
l a l o i Beta ( al pha , beta ) " )
curve ( dbeta ( x , 5 , 1 ) , c ol =" green " , add=TRUE, yl ab=" Densi te " )
curve ( dbeta ( x , 1 , 3 ) , add=TRUE, c ol =" red " , yl ab=" Densi te " )
curve ( dbeta ( x , 2 , 2 ) , add=TRUE, c ol =" v i o l e t " , yl ab=" Densi te " )
curve ( dbeta ( x , 2 , 5 ) , add=TRUE, c ol =" bl ack " , yl ab=" Densi te " )
l egend ( l i s t ( x=0. 4 , y=2. 7) , c ( " al pha=beta =0. 5" , " al pha =5,
beta =1" , " al pha =1, beta =3" , " al pha=beta =2" , " al pha =2, beta =5") ,
pch="_" , c ol=c ( " bl ue " , " green " , " red " , " v i o l e t " , " bl ack " ) )
##### Di s t r i but i on Gamma
curve (dgamma( x , 1 , 2 ) , c ol =" red " , from=0, to =30,
yl i m=c ( 0 , 0 . 9 ) , yl ab=" Densi te " , main="Le graphi que de de ns i t e
pour l a l o i Gamma( al pha , beta ) " )
curve (dgamma( x , 2 , 2 ) , c ol =" green " , add=TRUE, yl ab=" Densi te " )
curve (dgamma( x , 3 , 2 ) , add=TRUE, c ol =" bl ue " , yl ab=" Densi te " )
curve (dgamma( x , 5 , 1 ) , add=TRUE, c ol =" v i o l e t " , yl ab=" Densi te " )
curve (dgamma( x , 9 , 0 . 5 ) , add=TRUE, c ol =" orange " , yl ab=" Densi te " )
l egend ( " t opr i ght " , c ( " al pha=1, beta =2" ,
" al pha =2, beta =2" , " al pha=3, beta =2" , " al pha=5, beta =1" ,
" al pha =9, beta =0. 5" ) , pch="_" ,
c ol=c ( " red " , " green " , " bl ue " , " v i o l e t " , " orange " ) )
############### 3. 4 Paradigme bayes i enne
## Premi ere exempl e
curve ( dbeta ( x , 1 , 1 ) , from=0.05, to =1. 05 , c ol =" bl ue " ,
yl ab=" Densi te " , main="Le graphi que de de ns i t e pour l a l o i beta
avec a = b = 1 " )
curve ( dbeta ( x , 2 , 2 ) , c ol =" red " , xl ab=" t het a " , yl ab=" Densi te " ,
main="Le graphi que de de ns i t e pour l a l o i beta
avec a = b = 2 " )
axi s ( 1 , c ( 0 . 5 ) )
curve ( dbeta ( x , 11 , 5) , c ol =" red " , xl ab=" t het a " , yl ab=" Densi te " )
curve ( dbeta ( x , 2 , 2 ) , add=TRUE, c ol =" bl ue " , yl ab=" Densi te " )
62
CHAPITRE 2. STATISTIQUE INFRENTIELLE 2.9. DISTRIBUTIONS PRDICTIVE
l egend ( " t opr i ght " , c ( " a p o s t e r i o r i " , " a p r i o r i " ) , pch="_" , c ol=c ( " red " , " bl ue " ) )
## Deuxieme exempl e
### 1
curve ( dbeta ( x , 13 , 9) , c ol =" red " , xl ab=" t het a " , yl ab=" Densi te " )
l egend ( " t opr i ght " , c ( " a p o s t e r i o r i " ) , pch="_" , c ol=c ( " red " ) )
### 2
curve ( dbeta ( x , 13 , 9) , c ol =" red " , xl ab=" t het a " , yl ab=" Densi te " )
curve ( dbeta ( x , 4 , 6 ) , add=TRUE, c ol =" bl ue " , yl ab=" Densi te " )
l egend ( " t opr i ght " , c ( " a p o s t e r i o r i " , " a p r i o r i " ) , pch="_" , c ol=c ( " red " , " bl ue " ) )
############### 3. 5 Fami l l e e xpone nt i e l l e
curve (dgamma( x , 5 , 629) , from=0, to =0. 05 , c ol =" red " ,
xl ab=" t het a " , yl ab=" Densi te " ) ## A p o s t e r i o r i
curve (dgamma( x , 2 , 180) , c ol =" green " , add=TRUE, yl ab=" Densi te " )
## A p r i o r i
curve (dgamma( x , 4 , 449) , c ol =" bl ue " , add=TRUE, yl ab=" Densi te " )
## Vrai sembl ance
l egend ( " t opr i ght " , c ( " a p o s t e r i o r i " , " a p r i o r i " , " vr ai s embl ance " ) ,
pch="_" , c ol=c ( " red " , " green " , " bl ue " ) )
############### 3. 6 Loi Normale
## exempl e 1
s=s qr t (1/100)
s2=s qr t ( 1/724. 996)
curve ( dnorm( x , 1 7 . 5 , s ) , from=17, to =19, yl i m=c ( 0 , 10) , c ol =" red " ,
xl ab=" t het a " , yl ab=" Densi te " , main=" Di s t r i but i on a p o s t e r i o r i
Normale et di s t r i but i o n a p r i o r i Normale " )
curve ( dnorm( x , 17. 6319 , s2 ) , c ol =" bl ue " , add=TRUE)
l egend ( " t opr i ght " , c ( " a p r i o r i " , " a p o s t e r i o r i " ) , pch="_" , c ol=c ( " red " , " bl ue " ) )
s3=s qr t ( 1/624. 996)
curve ( dnorm( x , 17. 653 , s3 ) , c ol =" orange " , from=17, to =18,
xl ab=" t het a " , yl ab=" Densi te " , main=" Di s t r i but i on a p o s t e r i o r i
Normale avec cons t ant e a p r i o r i " )
l egend ( " t opr i ght " , c ( " a p o s t e r i o r i " ) , pch="_" , c ol=c ( " orange " ) )
## exempl e 2
s=s qr t ( 1/25)
s2=s qr t ( 1/649. 996)
curve ( dnorm( x , 20 , s ) , from=17, to =21, yl i m=c ( 0 , 10) , c ol =" red " ,
xl ab=" t het a " , yl ab=" Densi te " , main=" Di s t r i but i on a p o s t e r i o r i
Normale et di s t r i but i o n a p r i o r i Normale " )
curve ( dnorm( x , 17. 7433 , s2 ) , c ol =" bl ue " , add=TRUE)
l egend ( " t opr i ght " , c ( " a p r i o r i " , " a p o s t e r i o r i " ) , pch="_" , c ol=c ( " red " , " bl ue " ) )
s3=s qr t ( 1/624. 996)
curve ( dnorm( x , 17. 653 , s3 ) , c ol =" orange " , from=17, to =18,
xl ab=" t het a " , yl ab=" Densi te " , main=" Di s t r i but i on a p o s t e r i o r i
Normale avec cons t ant e a p r i o r i " )
l egend ( " t opr i ght " , c ( " a p o s t e r i o r i " ) , pch="_" , c ol=c ( " orange " ) )
63
2.9. DISTRIBUTIONS PRDICTIVE CHAPITRE 2. STATISTIQUE INFRENTIELLE
###### 3. 7 Melange des a p r i o r i conj ugues
t het a < seq ( 0 , 1 , l engt h = 100)
y=0.5 dbeta ( theta , 10 , 20)+0. 5 dbeta ( theta , 20 , 10)
z= t het a ^{3}(1t het a )^{7}
p=0.89 dbeta ( theta , 13 , 27) +0. 11 dbeta ( theta , 23 , 17)
pl ot ( theta , y , yl i m=c ( 0 , 2 . 5 ) , xl i m=c ( 0 , 1 . 2 ) , type=" l " , c ol =" bl ue " ,
xl ab=" pr o ba bi l i t e des p i l e s " , yl ab ="" , main="Melange des a
p r i o r i conj ugues " )
par ( new=TRUE)
pl ot ( theta , z , type=" l " , add=TRUE, c ol =" red " , axes=FALSE, xl ab ="" , yl ab ="")
par ( new=TRUE)
pl ot ( theta , p , type=" l " , add=TRUE, c ol =" orange " , axes=FALSE, xl ab ="" , yl ab ="")
l egend ( " t opr i ght " , c ( "A Pr i o r i " , " Vrai sembl ance " , "A Po s t e r i o r i " ) ,
pch="_" , c ol=c ( " bl ue " , " red " , " orange " ) )
################ 3. 9 Di s t r i but i on Pr e di c t i ve
################ A p o s t e r i o r i
curve (dgamma( x , 47 , 13) , c ol =" red " , from=0, to =10, xl ab=" t het a " ,
yl ab=" Densi te " , main="La di s t r i but i o n a p o s t e r i o r i " )
l egend ( " t opr i ght " , c ( "Gamma( 47 , 13) " ) , c ol=c ( " red " ) )
###### Di s t r i but i on pr e di c t i ve
#### > bi nomi al e negat i ve
bar pl ot ( dnbinom( 0: 10 , 47 , 13/14) , yl ab=" Densi te "
, main=" Di s t r i but i on pr e di c t i ve " )
l egend ( " t opr i ght " , c ( " Bi nomi al e negat i ve ( 47 , 13/14) " ) , c ol=c ( " bl ack " ) )
64
Bibliographie
[1] Christian P.Robert, Le choix baysien. Springer, Paris, 2006.
[2] Dominique Fourdrinier, Statistique Infrentiel le Dunod, Paris, 2002.
[3] Peter M. Lee, Bayesian Statistics Wiley,United Kingdom 4th Edition, 2012.
[4] Gudmund R. Iversen, Bayesian Statistical Inference Sage University Paper,USA.
[5] Karen Young, Bayesian Statistics University of Surrey, UK, 2010.
66