Vous êtes sur la page 1sur 54

1

Une introduction aux statistiques infrentielles


Christophe Lalanne
Sommaire
1 Quelques rappels utiles de probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Les axiomes fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Indpendance, probabilits conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Esprance mathmatique et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Fonctions gnratrices et fonctions caractristiques . . . . . . . . . . . . . . . . . . . . . 8
1.6 Lois de probabilits usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Mthode destimation de paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1 Maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Autres mthodes destimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Estimateurs de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Exemple dapplication : construction de direntes statistiques de test . . . 25
3 La mthode Expectation-Maximization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1 Construction de lalgorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Exemples dapplication de lalgorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Chanes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1 Matrice des probabilits de transition et graphe des transitions dtat . . . . 38
5.2 volution temporelle des distributions de probabilits dtats . . . . . . . . . . . 39
5.3 Classication des tats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.4 Ergodicit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5 Distribution stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.6 Chanes de Markov rversible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.7 Chanes de Markov temps continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6 Mthodes de Monte Carlo par Chanes de Markov (MCMC) . . . . . . . . . . . . . . 45
6.1 Rgle dacceptation-rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2 Applications de lalgorithme de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . 47
6.3 Recuit simul et MC3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7 Chanes de Markov caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.1 Probabilit doccurence dune squence de symboles . . . . . . . . . . . . . . . . . . . 48
7.2 Algorithme backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.3 Algorithme forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.4 Algorithme de Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.5 Algorithme de BaumWelch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2
1 Quelques rappels utiles de probabilits
Quelques-uns des concepts fondamentaux en statistique thorique ncessitent pour le lec-
teur de stre bien appropri certains lments de la Thorie des probabilits. Dans cette
perspective, on se contentera de rappeler les axiomes du calcul des probabilits, les notions
dindpendance et de probabilits conditionnelles, celles-ci nous amenant directement
exposer le principe de Bayes. Enn, nous dnirons les variables alatoires, valeurs dans
N
m
ou R
m
, avec les lois de probabilit usuelles et les rgles de manipulation qui leur sont
associes. Les distributions de probabilit les plus utiles en biologie sont prsentes dans
des ouvrages gnraux (Billingsley, 1995, Feller, 1968, Fisz, 1963, Johnson et al., 1994 and
Kendall et al., 2004).
1.1 Les axiomes fondamentaux
Une probabilit est une fonction qui associe un nombre appartenant lintervalle [0, 1]
un ensemble A. On dit que Pr(A) est la probabilit dun ensemble, ou dun vnement,
A. Gnralement, on considre que les vnements font partie dune famille A de sous-
ensembles dun espace probabilis, dnot . Si cette famille est close par rapport la
complmentation (A A A
c
A) ainsi qu la sommation dnombrable (A
i
A, i =
1, 2, . . . (

i=1
A
i
) A), et si elle contient lensemble vide (et donc =
c
), on parle
dune -algbre de sous-ensembles de .
Laxiomatique de Kolmogorov conduit dnir les proprits suivantes :
i. P(A) [0, 1], A A
ii. P() = 1 (Ax. de normalisation)
iii. P (

i=1
A
i
) =

i=1
P(A
i
), A
i
A, A
i
A
j
= , i, j = 1, 2, . . . (Ax. dadditivit)
Ladditivit nie est une consquence de (iii), et on retrouve le rsultat bien connu :
P(A B) = P(A) +P(B), A, B A, A B = .
La probabilit associe la runion de deux ensembles disjoints est la somme des proba-
bilits associes chacun de ces ensembles. On a galement
P() = P(A) +P(A
c
) = 1,
do galement
P(A
c
) = 1 P(A).
Enn, dans le cas plus gnral, o les vnements A et B ne sont pas ncessairement
mutuellement exclusifs, on a
P(A B) = P(A) +P(B) P(A B),
o A B dnote lintersection des ensembles A et B.
3
1.2 Indpendance, probabilits conditionnelles
prsent, les bases essentielles qui permettent de rendre une probabilit intuitivement
consistante ont t poses et lon peut dnir la notion dindpendance et de probabilit
conditionnelle. Mathmatiquement, deux vnements A et B sont dits indpendants si et
seulement si
P(A B) = P(A)P(B).
La probabilit de A sachant B (i.e. conditionnellement lobservation de lvnement B)
est dnie comme
P(A | B) =
P(A B)
P(B)
.
Si les vnements B
1
, B
2
, . . . sont mutuellement exclusifs (B
i
B
j
= ) et sont collecti-
vement exhaustifs (

k=1
B
k
= ), alors on peut dcomposer P(A) = P(A ) comme
suit :
P(A) =

k=1
P(A B
k
) =

k=1
P(A | B
k
)P(B
k
). (1)
Lexpression ci-dessus est appele loi des probabilits totales. La proprit dexhaustivit
de B
1
, B
2
, . . . nest toutefois pas indispensable et lon peut se contenter du fait que les
ensembles sont tous disjoints, avec A

k=1
B
k
.
La probabilit conditionnelle P(B
k
| A) se calcule aisment, comme :
P(B
k
| A) =
P(A B
k
)
P(A)
=
P(A | B
k
)P(B
k
)

i=1
P(A | B
k
)P(B
k
)
Dans ce cadre, P(B
k
| A) est appele probabilit a posteriori de B
k
, et lexpression ci-
dessus est connue comme tant la seconde formule de Bayes.
1.3 Variables alatoires
Contrairement un cadre purement dterministe dans lequel une variable se voit attribuer
une valeur unique, lunivers probabiliste repose sur des variables alatoires (v.a.) qui
peuvent prendre direntes valeurs alatoires. Plus formellement, on dnira une variable
alatoire comme une application de lespace vers lensemble R des rels.
4
Considrons dans un premier temps une v.a. discrte, X, valeurs dans un ensemble ni
(ou inni) dnombrable de R. Une telle variable prend des valeurs x
0
, x
1
, . . . , x
k
, . . . avec
probabilit p
0
, p
1
, . . . , p
k
, . . ., sous la condition (de normalisation)

k=0
p
k
= 1.
La srie (nie ou innie) {p
0
, p
1
, . . .} est appele la distribution de X.
Une v.a. continue, au contraire, prend ses valeurs dans un sous-intervalle de R, et cest
sa fonction de rpartition, note F
X
(x), qui joue le rle de distribution de probabilit.
Celle-ci se dnit comme
F
X
(x) = P(X x),
et exprime, pour un x donn, la probabilit de lvnement X x. Les proprits de F
X
()
sont : (i) F
X
() est croissante, (ii) F
X
() = 0 et (iii) F
X
(+) = 1. Les intervalles sur
lesquels F
X
(x) est constante correspondent aux intervalles pour lesquels la probabilit de
X nest pas dnie, tandis que les sauts de F
X
(x) concident avec les masses discrtes de
la distribution de probabilit de X.
Si F
X
(x) est direntiable, sa drive est appele la fonction de densit de probabilit et
on la note f
X
(x), avec
f
X
(x) = lim
x0
F(x < X x + x)
x
=
dF
X
(x)
dx
.
On notera que lingalit est stricte gauche. On a galement
_
x

f
X
()d = F
X
(x),
et comme F
X
(+) = 1, on obtient facilement la condition de normalisation pour la
distribution dune v.a. continue X :
_
+

f
X
(x)dx = lim
x+
F
X
(x) = 1.
Vecteurs alatoires
Lorsque lon est plac face plusieurs distributions de v.a. et que lon souhaite les analyser
conjointement, on est amen travailler avec des vecteurs alatoires. Dans le cas discret,
o X et Y prennent les valeurs x
0
, x
1
, . . . , x
k
, . . . et y
0
, y
1
, . . . , y
k
, . . ., respectivement, la
loi de probabilit conjointe est donne par
p
ij
= P(X = x
i
, Y = y
j
),
sous la condition
5

i=0

j=0
p
ij
= 1.
Dans le cas continu, la fonction de rpartition conjointe de (X, Y ) est
F
X,Y
(x, y) = P(X x, Y y),
et la densit de probabilit conjointe correspondante (F
X,Y
(x, y) est suppose uniform-
ment continue) est donne par
f
X,Y
(x, y) = lim
x0,y0
P(x < X x + x, y < Y y + y)
xy
=

2
F
X,Y
(x, y)
xy
sous la condition
_
+

_
+

f
X,Y
(x, y)dxdy = lim
x+, y+
F
X,Y
(x, y) = 1
Distributions marginales
Les distributions bi-dimensionnelles, et plus gnralement multi-dimensionnelles, peuvent
tre rduites des distributions uni-dimensionnelles en calculant leurs distributions mar-
ginales. Pour une v.a. discrte X, distribue de manire conjointe Y , on a
p
i
= P(X = x
i
) =

j=0
p
i
j,
tandis que pour une v.a. continue, la distribution marginale sexprime sous la forme
F
X
(x) = F
X,Y
(x, ),
avec pour fonction de densit
f
X
(x) =
_
+

f
X,Y
(x, y)dx.
On gnralisera aisment les formules ci-dessus aux dimensions suprieures.
Oprations sur les variables alatoires
Pour des v.a. X et Y indpendantes, leur loi de probabilit jointe satisfait
p
ij
= p
i
p
j
dans le cas discret, et
6
F
X,Y
(x, y) = F
X
(x)F
Y
(y) ou f
X,Y
(x, y) = f
X
(x)f
Y
(y)
dans le cas continu.
La distribution conditionnelle de X sachant Y = y est donne par une formule identique
celle expose prcdemment,
f
X|Y
(x | y) =
f
X,Y
(x, y)
f
Y
(y)
.
Lorsque lon travaille avec des distributions conditionnelles, la formule suivante ( rgle
de la chane ) se rvle trs utile :
f
X,Y |Z
(x, y | z) = f
X|Y,Z
(x | y, z)f
Y |Z
(y | z).
Les oprations algbriques les plus frquemment rencontres se rsument souvent au calcul
de la distribution dune v.a. dnie par une relation sur dautres v.a., indpendantes ou
non, ou laquelle on applique une transformation.
Soient X et Y deux v.a. dont la distribution conjointe est donne par f
X,Y
(x, y). On peut
dnir une nouvelle v.a., Z, telle que
Z = X +Y,
et la distribution de Z peut tre obtenue en intgrant sur la densit f
X,Y
(x, y), soit
f
Z
(z) =
_ _
x+y=z
f
X,Y
(x, y) =
_
+

f
X,Y
(x, z x)dx. (2)
Lorsque X et Y sont indpendants, lintgrale 2 devient une simple intgrale de convo-
lution :
f
Z
(z) =
_
+

f
X
(x)f
Y
(z x)dx.
On peut galement sintresser la transformation dune v.a. par une fonction g. Soit X
une v.a. dont la fonction de densit est donne par f
X
(x), et Y = g(X). On se demande
quelle est la loi de probabilit de Y ? Si lon suppose que g() est strictement monotone,
alors g() est inversible :
y = g(x) x = g
1
(y).
laide de cette fonction inverse, on peut reprsenter la fonction de rpartition de Y ,
F
Y
(y), en fonction des ralisations de X, et par consquent galement en termes de la
fonction de rpartition de X, F
X
(x). On a alors
F
Y
(y) = P(Y y) = P[g(X) y]
=
_
P[X g
1
(y)] = F
X
[g
1
(y)] pour g(x) croissante
P[X g
1
(y)] = 1 F
X
[g
1
(y)] pour g(x) decroissante.
En termes de densits, si elles existent, on a le rsultat suivant :
7
f
Y
(y) =

d
dy
g
1
(y)

f
X
_
g
1
(y)

.
1.4 Esprance mathmatique et moments
partir de maintenant, on se permettra dallger la notation, en considrant que si
X dsigne une v.a., ses ralisations possibles seront dnotes x, et sa loi de probabilit
indexe par x, f
X
(x), sera note simplement f(x) lorsque cela ne prte aucune confusion.
Lesprance dune fonction g(x) par rapport la distribution dune v.a. X discrte, telle
que dnie la page 3, est donne par
E[g(X)] =

k=1
p
k
g(x
k
).
Dans le cas dune v.a. x continue (i.e. par rapport sa distribution f
X
(x)), on a
E[g(X)] =
_
+

g(x)f
X
(x)dx. (3)
Lorsque g(x) = x, lexpression 3 devient lesprance de X, encore appele moment
dordre 1 de la v.a. X. On a alors
E(X) =

k=0
p
k
x
k
(cas discret)
et
E(X) =
_
+

xf
X
(x)dx (cas continu).
Les moments dordre suprieur de X se dnissent de manire analogue, en prenant
g(X) = X
n
pour le moment dordre n et g(X) = [X E(X)]
n
pour le moment cen-
tr dordre n de la v.a. X. Le second moment centr gure parmi les plus intressants
puisquil correspond ce que lon nomme la variance dune v.a. :
V(X) =

k=0
p
k
[x
k
E(X)]
2
, dans le cas discret,
V(X) =
_
+

[X E(X)]
2
f
X
(x)dx, dans le cas continu.
La variance permet de mesurer la dispersion de la v.a. autour de son esprance math-
matique. La racine carre de la variance sappelle lcart-type et on le note
(X) =
_
V(X).
Il correspond au facteur dchelle de la distribution de X E(X).
8
Lesprance ou les moments dune fonction dune v.a. nexistent que si la srie ou lintgrale
associe est convergente. Par exemple, dans lintgrale 3, si la fonction g(x) crot trop
rapidement par rapport x, celle-ci ne sera pas nie. De mme, si la distribution dune
v.a. possde des queues de distribution trop paisses, certains moments ne peuvent tre
dnis, comme cest le cas avec les distributions de Cauchy ou du t de Student.
Enn, mentionnons les deux proprits les plus importantes de ces oprateurs. Lesprance
de la somme de deux v.a. est la somme de leurs esprances,
E(X +Y ) = E(X) +E(Y )
(quelles que soient les lois de X et Y !), et la variance de la somme de deux v.a. indpen-
dantes est la somme de leur variance,
V(X +Y ) = V(X) +V(Y ).
Dans le cas o X et Y ne sont pas indpendantes, il faudra associer le terme (sign) de
covariance la somme prcdente.
1.5 Fonctions gnratrices et fonctions caractristiques
Les transformations vues aux paragraphes prcdents se rvlent souvent susantes pour
la plupart des situations que lon rencontre dans le domaine des sciences exprimentales
(Ditkin and Prudnikov, 1965 and Wilf, 1990). Elles servent calculer les lois de proba-
bilits, les moments et les fonctions de rpartition dune vaste gamme de v.a.. Elles sont
galement utilises pour dmontrer des proprits de convergence en loi. Toutefois, on
peut adopter une approche dirente pour retrouver la distribution dune v.a.
une v.a. discrte X prenant des valeurs (x
i
) avec probabilit p
i
, on associe une fonction
P
X
(z) dun argument complexe z telle que
P
X
(z) =

k=0
z
k
p
k
. (4)
La fonction P(z) ci-dessus est appele fonction gnratrice de X. En utilisant la proprit
de normalisation des distributions de probabilit discrtes, on vrie que P(z) est bien
dnie pour tout z dans le disque unit. De 4, on dduit P(1) = 1 et
d
dz
P
X
(z)

z=1
=

k=0
kp
k
= E(X),
de sorte que la direntielle de P
X
(z) (value au point z = 1) nous donne lesprance
de X. De mme, les drives successives permettent de calculer les moments dordre
suprieur. Si lon se donne deux v.a. indpendantes, X et Y , alors la fonction gnratrice
de leur somme est le produit de leurs fonctions gnratrices :
P
X+Y
(z) = P
X
(z)P
Y
(z). (5)
9
Pour une v.a. continue X, de fonction de densit f(x), on dnit sa fonction caractristique
associe F(j) par
F
X
() =
_
+

f(x) exp(jx)dx,
o j est le nombre imaginaire

1 et un rel. La fonction caractristique de X nest
autre que la transforme de Fourier de sa densit de probabilit et possde des proprits
similaires celles dmontres plus haut, dans le cas des fonctions gnratrices. Spcique-
ment, on a F
X
(j0) = 1 et
d
d
F
X
()

=0
=
_
+

jxf(x) = jE(X),
ainsi que
F
X+Y
() = F
X
()F
Y
(),
pour X et Y indpendantes.
En guise dillustration, considrons deux v.a. discrtes indpendantes, X et Y suivant
toutes les deux une loi gomtrique de paramtre p = 0.5 et p = 0.2, respectivement. On
cherche la loi suivie par la v.a. X +Y . On a
P
X
(z) =
0.5
1 0.5z
, P
Y
(z) =
0.2
1 0.8z
(cf. section 1.6), et
P
X+Y
(z) =
0.1
(1 0.5z)(1 0.8z)
daprs la proprit 5. Si lon dveloppe lexpression ci-dessus sous forme fractionnelle,
on a
0.1
(1 0.5z)(1 0.8z)
=
A
1 0.5z
+
B
1 0.8z
,
do lon dduit que A = 1/6 et B = 4/15. Ceci amne conclure que
P [(X = Y ) = k] =
4
15
0.8
k

1
6
0.2
k
, k = 0, 1, 2, . . . .

1.6 Lois de probabilits usuelles


Schma de Bernoulli et loi binomiale
Le schma de Bernoulli est sans doute lun des schmas dchantillonnage les plus cou-
rants en statistique. Un essai de Bernoulli est une exprience alatoire dans laquelle deux
10
issues sont possibles, et on les dnomme souvent succs/chec. La distribution binomiale
(Figure 1, a) dcrit les probabilits p
k
dobtenir k succs sur un ensemble de K essais
indpendants, sans considration de lordre des tirages,
p
k
=
_
K
k
_
p
k
(1 p)
Kk
, (6)
o p est la probabilit de succs dun essai. Dans lexpression ci-dessus,
_
K
k
_
dsigne le
nombre de combinaisons que lon peut former avec k lments pris parmi K ; il sagit du
nombre binomial dni comme
_
K
k
_
=
K!
k!(K k)!
.
La v.a. X peut tre reprsente comme une somme dvnements lmentaires, tous ind-
pendants :
X =
K

k=1
X
k
, (7)
o X
k
sont des v.a. de Bernoulli, avec P(X
k
= 1) = p et P(X
k
= 0) = q = 1p. Le nombre
de succs dans une srie dexpriences rptes (e.g. lancers dune pice ou dun d) est
gnralement modlis par une distribution binomiale. Qui plus est, la loi binomiale sert
de brique de base la construction dautres lois de probabilit discrte et possde des
proprits asymptotiques qui la relie aux distributions pour variables continues.
Les moments associs la distribution binomiale se dnissent comme suit :
E(X) = Kp, V(X) = Kp(1 p),
et sa fonction gnratrice est
P(z) = (q +pz)
K
(q = 1 p).
Loi gomtrique
Une v.a. discrte suit une loi gomtrique lorsquelle prend les valeurs 0, 1, . . . , k, . . . avec
probabilits
p
k
= (1 p)
k
p. (8)
La distribution gomtrique correspond typiquement une situation o lon rpte une
exprience de Bernoulli jusqu observer le premier succs. Lvnement X = k, dont la
probabilit est donne en 8, peut tre assimil la srie de k checs suivi dun succs.
Les moments dune v.a. X distribue gomtriquement sont
E(X) =
1 p
p
, V(X) =
1 p
p
2
,
11
et la fonction gnratrice correspondante est
P(z) =
p
1 (1 p)z
.
Loi binomiale ngative
Comme pour la loi gomtrique, on peut relier directement la loi binomiale ngative
(Figure 1, c) la loi binomiale expose plus haut. Ici, X vaut le nombre dessais nces-
saires pour observer r succs. La probabilit de lvnement X = k (le rime succs au
kime essai) est alors
p
k
=
_
k 1
r 1
_
p
r
(1 p)
kr
,
qui dcoule du fait que lvnement le rime succs au kime essai est lintersection
(ou le produit) de deux vnements indpendants : (a) r 1 succs en k 1 essais, soit
_
k1
r1
_
p
r1
(1 p)
kr
, et (b) un succs au kime essai.
Les moments dune v.a. X distribue selon cette loi sont
E(X) = r
1 p
p
, V(X) = r
1 p
p
2
,
et la fonction gnratrice correspondante est
P(z) =
_
pz
1 (1 p)z
_
r
.
Loi de Poisson
Les v.a. de Poisson sont souvent utilises pour modliser des expriences impliquant
lobservation du nombre doccurences dun vnement survenant alatoirement sur une
priode donne de temps. Par exemple, il peut sagir du nombre de clics dans un comp-
teur Geiger, du nombre dappels aux services des urgences ou du nombre daccidents de
voitures. Il est possible de driver des v.a. de Poisson partir dun mcanisme stochas-
tique pur que lon appelle le processus de Poisson (Kingman, 1993). Dans ce schma, des
vnements discrets interviennent sur un intervalle ni I tels que
1. les nombres dvnements survenant dans deux intervalles disjoints sont indpendants,
2. la probabilit quun vnement survienne dans lintervalle (t, t+t) vaut t+o(t),
o est un paramtre dintensit et lim
t0
o(t)/t = 0.
Une v.a. de Poisson prend les valeurs 0, 1, . . . , k, . . . avec probabilits
p
k
= P(X = k) = exp()

k
k!
, (9)
12
o est le paramtre caractristique de la loi, encore appel cadence. Il existe une relation
duale entre la loi de Poisson et la loi binomiale. Si (1) on a une squence innie de v.a.
binomiales
X
1
, X
2
, . . . , X
n
, . . . (10)
avec les paramtres p
n
et K
n
qui dcrivent les probabilits de succs et le nombre dessais
pour la distribution des X
n
, et si (2) la squence des paramtres obit aux proprits
suivantes : lim
n
p
n
= 0, lim
n
K
n
= et lim
n
p
n
K
n
= , alors la squence 10
se comporte asymptotiquement comme une v.a. de Poisson. La distribution de Poisson
est illustre dans la Figure 1 (b).
Les moments dune v.a. X distribue selon cette loi sont
E(X) = , V(X) = ,
et la fonction gnratrice correspondante est
P(z) = exp
_
(z 1)
_
.
Loi multinomiale
Il sagit dune gnralisation de la loi binomiale dans laquelle chaque exprience alatoire
(indpendante) possde M issues possibles, avec les probabilits
p
m
= P(rsultat de lexprience = m), m = 1, 2, . . . , M,
o
M

m=1
p
m
= 1. (11)
Un vecteur alatoire X = [X
1
, . . . , X
M
] suit une loi multinomiale avec les paramtres
p
1
, . . . , p
M
et K rptitions si les v.a. X
m
dcrivent le nombre dvnements m en K
essais. La distribution multinomiale est de la forme
P(k
1
, k
2
, . . . , k
M
) =
K!
k
1
!k
2
! . . . k
M
!
p
k
1
1
p
k
2
2
. . . p
k
M
M
,
o k
1
, k
2
, . . . , k
M
sont les nombres doccurences et

M
m=1
k
m
= K.
Loi hypergomtrique
La distribution hypergomtrique dcrit le nombre de succs dans un schma dchantillon-
nage alatoire sans remise, partir dune population nie avec deux types dindividus,
nots 1 et 0. Pour une v.a. X suivant la loi hypergomtrique de paramtres N, M, n,
lvnement X = k est interprt comme k caractres de type 1 dans un chantillon de
taille n, tirs alatoirement dans une population de N individus, parmi lesquels M sont
13
de type 1 et N M sont de type 0. La distribution hypergomtrique (Figure 1, d) a la
forme
p
k
= P(X = k) =
_
M
k
__
NM
nk
_
_
N
n
_ . (12)
Lquation 12 dcoule du fait que parmi lensemble des rsultats observables (au total,
il y en a
_
N
n
_
) ceux avec k succs sont obtenus en combinant k individus de type 1 tirs
dun ensemble de M individus avec n k individus de type 0 tirs parmi les N M
individus restants. La condition de normalisation pour la distribution hypergomtrique
devient ainsi
min(n,M)

k=0
_
M
k
__
NM
nk
_
_
N
n
_ = 1.
Les moments dune v.a. X dcrit par une loi hypergomtrique sont
E(X) = n
M
N
, V(X) = n
M(N M)(N n)
N
2
(N 1)
,
La fonction gnratrice peut tre obtenue partir dune srie hypergomtrique.
Loi normale (Laplace-Gauss)
La loi normale est sans doute la loi continue la plus importante. Son rle essentiel se
retrouve dans le thorme central limite (TCL) qui permet darmer que la somme de
plusieurs composantes alatoires indpendantes de variances nies se distribue approxi-
mativement selon une loi gaussienne. En consquence, les variables dcrivant les erreurs
de mesure, de mme que certains paramtres dcrivant des individus dune population,
comme les tailles, les poids ou les surfaces, sont modliss laide de ce type de loi.
De 7, on peut voir que la distribution binomiale, lorsque K est grand, converge vers la loi
normale. Les sommes de v.a. normales indpendantes sont galement gaussiennes.
La distribution gaussienne (Figure 2, a) prend pour support la droite relle, R, et la
fonction de densit dune v.a. X gaussienne est
f(x) =
1

2
exp
_

1
2
_
x

_
2
_
, (13)
o et sont les paramtres pour lesprance et lcart-type, respectivement.
Les moments dune v.a. X gaussienne sont
E(X) = , V(X) =
2
,
et la fonction caractristique correspondante est
14
0
5
10
15
20
25
30
35
(a)
Binomial B(100,1/2)
Event X=x
f
(
X
=
x
)
0 1 2 3 4 5 5 10 15 20
0.00
0.05
0.10
0.15
0.20
(b)
Poisson P(4)
Event X=x
f
(
X
=
x
)
(c)
Negative Binomial NB(500,4)
Event X=x
f
(
X
=
x
)
0 10 20 30 40 50
0
50
100
150
200
250
300
350
0 20 40 60 80 100
0.00
0.05
0.10
0.15
0.20
(d)
Hypergeometric H(30,70,15)
Event X=x
f
(
X
=
x
)
Figure 1 Quelques distributions de
probabilits pour des v.a. discrtes
F() = exp(j

2

2
2
).
Loi exponentielle
La distribution exponentielle est la loi duale de la distribution gomtrique dcrite pr-
cdemment. On lutilise gnralement pour modliser des intervalles de temps alatoires,
par exemple des temps dattente, le temps entre deux checs ou des dures de survie. Le
temps entre loccurence de deux vnements successifs dans un processus poissonien se
distribue galement selon une loi exponentielle. La distribution exonentielle est dnie sur
lintervalle [0, [ et la fonction de densit dune v.a. exponentielle prend la forme :
f(t) = a exp(at). (14)
Le paramtre a > 0 est appel la paramtre de cadence.
Les moments dune v.a. T exponentielle sont
15
E(T) =
1
a
, V(T) =
1
a
2
,
et la fonction caractristique correspondante est
F() =
a
a j
.
Loi Gamma
La distribution Gamma (Figure 2, b) est le pendant de la loi binomiale ngative, dans le
cas continu. Elle est dnie sur lintervalle [0, [ et peut tre interprte comme un temps
alatoire avec une structure composite ; par exemple, la somme de K v.a. exponentielle
indpendantes et identiquement distribues (i.i.d.) est une v.a. dont la loi est une loi
Gamma. La densit de probabilit associe une variable X qui suit une loi Gamma est
donnes par :
f(x) = x
k1
exp(x/)

k
(k)
. (15)
Dans lexpression ci-dessus, (k) est la fonction gamma eulrienne
(z) =
_

0
t
z1
exp(t)dt, (16)
et k > 0, > 0 sont les paramtres de la distribution Gamma, appels respectivement
paramtres de forme et dchelle. Lorsque k = 1, 15 reprsente une densit de probabilit
exponentielle. Si au contraire, k = n/2 et = 2, on obtient la fonction de desnit dune
distribution du
2
n degrs de libert.
Les moments dune v.a. X distribue selon une loi Gamma sont
E(X) = k, V(X) = k
2
,
et la fonction caractristique correspondante est
F() =
1
(1 j)
k
.
Loi Beta
La loi Beta (Figure 2, c) est dnie sur lintervalle [0, 1]. La densit de probabilit cor-
respondante est donne par
f(x) =
(a +b)
(a)(b)
x
a1
(1 x)
b1
(17)
o x ]0, 1[ et a > 0, b > 0 sont des paramtres, tandis que est toujours la fonction
eulrienne introduite dans le cas de la loi Gamma (Eq. 16). En modiant a et b, on fait
varier la forme du graphe de la fonction de densit ci-dessus. Lorsque a > 1, b > 1, la
16
densit de probabilit a une forme parabolique, alors que lorsque a < 1, b < 1, la fonction
de densit est en forme de U. Lorsque a = 1, b = 1, la densit de probabilit 17 dcrit
une distribution uniforme sur lintervalle [0, 1].
Les moments dune v.a. X distribue selon une loi Beta sont
E(X) =
a
a +b
, V(X) =
ab
(a +b)
2
(a +b + 1)
.
La fonction caractristique associe une loi Beta est donne par une somme de sries
hypergomtriques.
3 2 1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
(a)
Gaussian N(0,1)
x
f
(
x
)
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
(b)
Gamma
x
f
(
x
)
G(1,1)
G(2,1/2)
G(3,4)
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.5
1.0
1.5
(c)
Beta
x
f
(
x
)
B(1,1)
B(1/2,1/2)
B(3,4)
Figure 2 Quelques fonctions de densit
de probabilits pour des v.a. continues
2 Mthode destimation de paramtres
2.1 Maximisation de la vraisemblance
Il est assez frquent de chercher dterminer de quelle distribution les observations dont
nous disposons ont t chantillonnes. Il sagit dun problme destimation. La thorie
17
de lestimation constitue une partie importante des statistiques, et plusieurs mthodes
permettent destimer les paramtres dune loi. En pratique, la mthode du maximum de
vraisemblance (MV) est celle qui est le plus souvent utilise. Nous en prsentons ici le
principe gnral. Dans sa forme paramtrique, on suppose que les observations ont t
tires dune distribution appartenant une famille de lois paramtriques. En dautres
termes, les observations x
1
, x
2
, . . . , x
N
sont des ralisations i.i.d. dune variable alatoire
X de distribution f(x, p), o f(, ) peut tre une loi discrte, continue ou une fonction
de rpartition. Lorsque lon traite la fonction f(x
n
, p) comme une fonction du paramtre
p pour un x
n
x, elle est appele la vraisemblance de lobservation x
n
. La fonctionnelle
f(, ) est connue mais pas la valeur du ou des paramtres p.
Pour estimer les paramtres p dune distribution de probabilit partir des ralisations
observes dune v.a. ou dun vecteur alatoire X, on utilisera le principe du MV qui
repose sur lide que puisque les vnements avec une probabilit leve surviennent plus
frquemment que ceux pour qui la probabilit de survenue est faible, alors il est naturel
de considrer que ce qui est arriv tait le plus probable. Par consquent, le meilleur
estimateur de p est la valeur p qui maximise la vraisemblance de lchantillon, i.e.
L(p, x) = L(p) = f(x
1
, x
2
, . . . , x
N
, p) =
N

n=1
f(x
n
, p),
o x = x
1
, x
2
, . . . , x
N
et le produit des fonctions de densit individuelles dcoule de
lindpendance des observations. Mathmatiquement,
p = arg max
N

n=1
f(x
n
, p).
Il est plus facile de travailler avec le log de la fonction de vraisemblance, et on parle alors
de la log-vraisemblance (x
1
, x
2
, . . . , x
N
, p),
(x
1
, x
2
, . . . , x
N
, p) = ln
_
L(x
1
, x
2
, . . . , x
N
, p)
_
=
N

n=1
ln
_
f(x
n
, p)
_
,
qui transforme les produits en sommes, et grce la monotonicit de la fonction logarithme
donne le mme p que lorsquon travaille directement avec L(x
1
, x
2
, . . . , x
N
, p). Ce principe
dapplique dans le cas discret comme dans le cas continu.
Les exemples suivants permettront sans doute de mieux comprendre le principe gnral
de lestimation par MV.
Distribution binomiale
Pour une v.a. X distribue selon une loi binomiale comme en 6, en supposant que la
ralisation observe inclut k succs parmi K essais, on peut maximiser la vraisemblance
par rapport p, on obtient lEMV
18
p =
k
K
.
De manire plus gnrale, on peut considrer une exprience avec K expriences de Ber-
noulli, rptes N fois, sachant quon enregistre les nombres de succs k
1
, k
2
, . . . , k
N
. Cela
amne la log-vraisemblance suivante :
(k
1
, k
2
, . . . , k
N
, p) =
N

n=1
_
k
n
ln p + (K k
n
) ln(1 p) + ln
_
K
k
n
__
. (18)
En maximisant lexpression 18 par rapport p, on obtient lestimateur
p =

N
n=1
k
n
NK
.
Distribution multinomiale
On montre aisment que la log-vraisemblance correspondant la distribution multinomiale
prend la forme :
(k
1
, k
2
, . . . , k
M
, p
1
, p
2
, . . . , p
M
) = ln
K!
k
1
!k
2
! . . . k
M
!
+
M

m=1
k
m
ln p
m
.
La maximisation de cette expression par rapport aux paramtres ne peut se faire quen
prenant en considration la contrainte 11, ce qui amne construire la fonction de La-
grange suivante :
L = (k
1
, k
2
, . . . , k
M
, p
1
, p
2
, . . . , p
M
, )
= ln
K!
k
1
!, k
2
!, . . . , k
M
!
+
M

m=1
k
m
ln p
m

_
M

m=1
p
m
1
_
o dsigne le coecient de Lagrange, et lEMV est alors :
p
m
=
k
m
K
.
Distribution de Poisson
Soit X une v.a. de Poisson dont la distribution est donne en 9. Pour N ralisations
indpendantes k
1
, k
2
, . . . , k
N
de X, on a la fonction de log-vraisemblance suivante :
(k
1
, k
2
, . . . , k
N
, ) =
N

i=1
_
+k
i
ln() ln(k
i
!)
_
,
qui prend son maximum en
19

N
i=1
k
i
N
.
Distribution gomtrique
Si lon considre une v.a. X suivant une loi gomtrique, le paramtre estimer est p
[0, 1]. Soient N ralisations indpendantes, k
1
, k
2
, . . . , k
N
, de X. Alors la log-vraisemblance
prend la forme :
(k
1
, k
2
, . . . , k
N
, p) =
N

n=1
_
(k
n
1) ln(1 p) + ln p
_
,
et lEMV, p, est
p =
_
N

N
n=1
k
n
si

N
n=1
k
n
1
1 si

N
n=1
k
n
= 0.
Distribution gaussienne
La fonction de densit de probabilit dune loi normale est fournie en 13. La fonction de
log-vraisemblance rsultant de lobservation de N ralisations indpendantes x
1
, x
2
, . . . , x
N
de X est alors
(x
1
, x
2
, . . . , x
N
, , ) =
N

n=1
_

1
2
ln(2) ln
(x
n
)
2
2
2
_
.
Le maximum de (x
1
, x
2
, . . . , x
N
, , ) est atteint pour les valeurs et donnes par la
moyenne et la variance empiriques, soient :
=
1
N
N

i=1
x
i
et
2
=
1
N
N

i=1
(x
i
)
2
. (19)
Distribution exponentielle
Soient N ralisations t
1
, t
2
, . . . , t
N
dune v.a. exponentielle T. La log-vraismeblance cor-
respondant lchantillon observ est
(t
1
, t
2
, . . . , t
N
, a) =
N

n=1
(at
n
+ ln a),
qui donne, aprs maximisation, lEMV suivant :
a =

N
n=1
t
n
N
.
20
2.2 Autres mthodes destimation
Si lon considre souvent la mthode MV comme une mthode pratique et ecace, il
existe dautres mthodes destimation qui peuvent tre employes, justement la mthode
par MV atteint ses limites (e.g. problmes de grande complexit, cot en temps de calcul
lev, existence de maxima locaux multiples). Dautre part, les estimateurs obtenus par
la mthode MV, i.e. les EMV, ne sont quasymptotiquement sans biais.
Lune des mthodes alternatives lEMV est la mthode des moments. Celle-ci repose
sur la loi des grands nombres. Soit une v.a. X, dont la densit de probabilit est donne
par f
X
(x, p) et dpend dun paramtre p. Lesprance de X, E(X, p) =
_
xf
X
(x, p)dx,
dpend de la valeur de p et peut tre estime par la moyenne empirique. La loi des
grands nombres nous assure, sous certaines conditions de rgularit, que pour de grands
chantillons la moyenne empirique sera proche de lesprance de X. Par consquent, le
moment de lestimateur p peut tre obtenu en rsolvant lquation suivante par rapport
p :
1
N
N

n=1
x
n
=
_
+

xf
X
(x, p)dx.
Dans tous les eemples exposs prcdement, lestimateur obtenu par la mthode des mo-
ments concide avec lEMV. Toutefois, ce nest pas toujours le cas. Les exemples suivants
devraient permettre de mettre en vidence les dirences entre ces deux approches.
Distribution uniforme
On considre une distribution uniforme, reprsente dans la Figure ??. Lintervalle sur
lequel est dnie la fonction de densit stend de 0 a. On calcule dans un premier temps
lEMV de a, que lon notera a
ML
. Dans la Figure ??, les valeurs x
1
, x
2
, . . . , x
N
(N = 6)
sont indiques par un trait coupant laxe des abscisses, et on suppose 3 valeurs a
1
, a
2
et
a
3
du paramtre a, avec a
1
< max
1nN
x
n
, a
2
= max
1nN
x
n
et a
3
> max
1nN
x
n
.
Les log-vraisemblances correspondantes sont dans chaque cas
(x
1
, x
2
, . . . , x
N
, a
1
) =
puisque deux observations sont impossibles ds lors que a = a
1
, et
(x
1
, x
2
, . . . , x
N
, a
i
) = N ln a
i
, i = 2, 3.
On en dduit que lEMV de a est gal a
2
, et donc
a
ML
= max
1nN
x
n
.
Puisque E(X) = a/2, lestimateur par la mthode des moments est
a
mom
=
2
N
N

n=1
x
n
.
21
Si lon souhaite comparer ces deux estimateurs, il est ncessaire de faire quelques cacul
desprance et de variance. Pour les esprances, on a
E( a
ML
) = E
_
max
1nN
X
n
_
= a
N
N + 1
et
E( a
mom
) = E
_
2
N
N

n=1
X
n
_
= a.
Pour les variances, les calculs donnent
V( a
ML
) = V
_
max
1nN
X
n
_
=
Na
2
(N + 1)
2
(N + 2)
et
V( a
mom
) = V
_
2
N
N

n=1
X
n
_
=
a
2
3N
2
.
On en dduit que la variance de lEMV est infrieure celle de lestimateur par la mthode
des moments. Leur rapport est approximativement proportionnel la taille de lchantillon
N. Nanmoins, contrairement lestimateur des moments, lEMV est biais puisque son
esprance nest pas gale a.
On remarquera que lon peut tout fait baser lestimation de a sur des moments dordre
2. Pour le kime moment dune v.a. X distribue uniformment, on a
E(X
k
) =
a
k+1
k + 1
,
ce qui donne lestimateur du kime moment de a :
a
mom,k
=
_
k + 1
N
N

n=1
x
k
n
_
1
k+1
.
On pourra vrier que la statistique ci-dessus converge vers lEMV de a lorsque k .
Distribution de Cauchy
On considre une v.a. X qui suit une loi de Cauchy, dont la fonction de densit est dnie
comme
f(x, a) =
1

_
1 + (x a)
2
_,
avec un paramtre inconnu de position, a, estimer. La distribution de Cauchy dire des
autres distributions vues jusqualors dans la mesure o elle ne possde pas de moments
22
nis. Ceci rsulte de ce que pour tout k 1, E(|X
k
|) devient une intgrale impropre, non
convergente :
_
+

|x|

_
1 + (x a)
2
_dx = . (20)
Par consquent, les estimateurs des moments nont aucun sens.
2 0 2 4 6
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
x
f
(
x
,
a
)
Figure 3 Graphe de la fonction de densit de probabilit
de la distribution de Cauchy de paramtre a = 2.
La fonction de densit est reprsente dans la Figure 3. la lecture de ce graphique, on
pourrait penser que si N ralisations, x
1
, x
2
, . . . , x
N
dune v.a. X tire de cette loi taient
observes, la moyenne empirique (1/N)

N
i=1
x
i
semble un bon estimateur de a. Cela nest
toutefois pas le cas puisque, daprs 20, la variance de (1/N)

N
i=1
x
i
est innie pour tout
N.
Si lon drive la log-vraisemblance par rapport a et si lon cherche lannuler, on a
(x
1
, x
2
, . . . , x
N
, a) =
N

n=1
ln ln
_
1 + (x
n
a)
2
_
ce qui entrane la relation suivante pour lEMV de a :
N

n=1
x
n
a
1 + (x
n
a)
2
= 0.
23
Sauf pour N = 1 et N = 2, cette quation ne peut tre rsolue que numriquement
pour obtenir a. Mais on peut montrer que, partir de N = 3 (Hanson and Wolf, 1996),
lestimateur rsultant est sans biais et de variance nie. Un autre estimateur de a, plus
simple que lEMV, est la mdiane empirique (Hanson and Wolf, 1996), qui est galement
sans biais et de variance nie.
2.3 Estimateurs de variance minimale
On a vu que lon peut construire des estimateurs de direntes manires (e.g. MV, m-
thode des moments). Une question que lon peut se poser est naturellement : existe-t-il un
estimateur de variance minimale, ou du moins de variance plus petite que celle de lEMV?
On peut montrer que dans de nombreux cas, lEMV est lestimateur de variance minimale
lorsque n . Toutefois, pour des chantillons de taille nie, il existe souvent des sta-
tistiques possdant une variance plus petite. Par exemple, dans le cas de la distribution
de Cauchy vue la section prcdente, on peut trouver numriquement un estimateur de
variance minimale a (Hanson and Wolf, 1996). Nous prsentons dans les lignes suivantes
les outils techniques utiles pour driver de tels estimateurs.
Information de Fisher
Linformation de Fisher, I(p), o p est le paramtre dune distribution de probabilit
f(x, p) se dnit comme
I(p) = E
_
_

p
log f(x, p)
_
2
_
= E
_

2
p
2
log f(x, p)
_
. (21)
Il sagit donc de lesprance de la drive de la log-vraisemblance, ou encore de lesprance,
au signe prs, de la drive seconde (le hessien dans le cas o plusieurs paramtres entrent
en jeu). De cette dnition, on en dduit que linformation de Fisher est additive par
rapport des mesures indpendantes rptes, cest--dire que
I
X
1
,X
2
(p) = I
X
1
(p) +I
X
2
(p) = 2I
X
1
(p), (22)
o les indices {1, 2} dnotent des mesures direntes. Lgalit 22 est valide pour deux
sries i.i.d..
Thorme de Cramer-Rao
Le thorme, ou la borne, de Cramer-Rao dit que tout estimateur sans biais a dun
paramtre a doit vrier
V( p)
1
I(p)
. (23)
Avec 23, il est possible de calculer la limite infrieure de la variance de nimporte quel
estimateur sans biais.
24
Concernant le paramtre de position dune distribution normale, on obtient partir de
21 linformation de Fisher :
I
X
1
,X
2
,...,X
N
() =
N

2
.
Pour lestimateur donn en 19, on peut calculer V( ) =
2
/N qui, en vertu du thorme
de Cramer-Rao, prouve que est de variance minimale et aucun estimateur de meilleure
qualit ne peut tre trouv.
Considrons de nouveau la distribution de Cauchy et son paramtre de position, a.
Lexpression 21 nous permet de calculer linformation de Fisher correspondant aux ob-
servations X
1
, X
2
, . . . , X
N
,
I
X
1
,X
2
,...,X
N
(a) =
N
2
.
Ceci donne comme borne infrieure pour la variance de nimporte quel estimateur sans
biais a,
V( a)
2
N
.
On peut montrer numriquement que lestimateur de a prsent page 21 natteint pas
cette borne.
La borne de Cramer-Rao comme estimateur de la variance
Si lon considre que dans de nombreuses applications, lexpression 23 est assez prcise,
on lutilise comme approximation pour les estimateurs de variance, soit
V( p)
1
I(p)
.
Les estims des paramtres dune distribution sont souvent obtenus en maximisant numri-
quement la fonction de vraisemblance de lchantillon. Lorsquil nexiste aucune forme ana-
lytique, linformation de Fisher, (/p) log f(x, p), peut tre obtenue numriquement par
r-chantillonnage. Par r-chantillonnage on entend le moyennage de
_
(/p) log f(x, p)
_
2
partir de simulations numriques bases sur une variante de la mthode MCMC (voir
plus loin).
Exhaustivit
Une statistique dite exhaustive possde la proprit de fournir la mme information que
lchantillon complet. Lexhaustivit dune statistique peut tre vrie grce au critre de
factorisation de Fisher, selon lequel t(x
1
, x
2
, . . . , x
N
) est une statistique exhaustive pour
les observations x
1
, x
2
, . . . , x
N
si
f(x
1
, x
2
, . . . , x
N
, p) = g(t, p)h(x
1
, x
2
, . . . , x
N
), (24)
25
pour g et h deux fonctions donnes. En introduisant 24 dans 21, on peut vrier que
I
X
1
,X
2
,...,X
N
(p) = I
t(X
1
,X
2
,...,X
N
)
(p).
Thorme de Rao-Blackwell
Le thorme de Rao-Blackwell montre comment il est possible damliorer les estimateurs
dun paramtre laide du principe dexhaustivit. Si lon note p un estimateur de p,
tant donnes les observations X
1
, X
2
, . . . , X
N
, on peut dnir un nouvel estimateur p
new
comme lesprance conditionnelle
p
new
= E( p | t(X
1
, X
2
, . . . , X
N
))
o t(X
1
, X
2
, . . . , X
N
) est une statistique susante pour p. Le thorme de Rao-Blackwell
dit alors que
E
_
( p
new
p)
2
_
E
_
( p p)
2
_
.
Si lon considre nouveau la distribution uniforme, sachant que t(x
1
, x
2
, . . . , x
N
) =
max(x
1
, x
2
, . . . , x
N
) est une statistique susante pour le paramtre a, on peut amliorer
lestimateur du moment a
mom
en dnissant lestimateur RB suivant :
a
RB
= E
_
2
N
N

n=1
X
n
| max(X
1
, X
2
, . . . , X
N
)
_
.
2.4 Exemple dapplication : construction de direntes statistiques de test
Pour illustrer les notions vues la section prcdente, on va sintresser la mise en uvre
des trois statistiques de test les plus frquemment rencontres : le test de Wald, le test
du score et le test du rapport de vraisemblance. Pour cela, on considre une exprience
alatoire dans laquelle on lance successivement n fois la mme pice de monnaie. On note
= P( face ). On observe
_
Y
i
= 1 si le ie lancer amene

face

,
Y
i
= 0 sinon,
de sorte que Y
i
B(1, ).
Dans un premier temps, on peut calculer linformation de Fisher et lEMV

de . Pour
cela, nous avons besoin de dvelopper la fonction de vraisemblance pour une observation.
On a donc :

f(y
i
; ) =
y
i
(1 )
1y
i
do
26
log

f(y
i
; ) = y
i
log + (1 y
i
) log(1 )
log

f(y
i
; )

=
y
i


1 y
i
1
=
y
i

(1 )
On notera que le vecteur score est centr car E(Y
i
) = 1 +0(1) = . Linformation
de Fisher nest autre que la variance du vecteur score :

I() = V(
log

f(y
i
; )

)
= V(
Y
i

(1 )
)
=
1
_
(1 )
_
2
V(Y
i
)
=
1
(1 )
car V(Y
i
) = (1 )
prsent, on peut sintresser

. Pour cela, il nous faut lexpression de la log vraisem-
blance sur lensemble des observations. Elle se dduit aisment de lexpression prcdente :
L
n
() =
n

i=1
log

f(y
i
; )
=
n

i=1
y
i
log + (1 y
i
) log(1 )
On en dduit la drive premire de la log vraisemblance :
L
n
()

=
n

i=1

log

f(y
i
; )
=
n

i=1
y
i

(1 )
=
(

n
i=1
y
i
) n
(1 )
et on peut vrier que
L
n
()

= 0
avec

=

n
i=1
y
i
/n, qui est tout simplement la frquence empirique des pile .
Si lon pose lhypothse nulle H
0
: =
1
2
, on peut calculer les trois statistiques de test
considres plus haut. Notons que cette hypothse est quivalente H
0
:
1
2
= 0, et
lon peut se donner une fonction g() =
1
2
, valeurs dans R.
27
Le test de Wald est construit comme suit :

W
= n(


1
2
)

I
1
(


1
2
),
do lon en tire, aprs simplication,

W
=
_
_


1
2
_

(1

)
n
_
_
2
. ()
Sous H
0
,
W


2
(1), et la rgion critique ( 5 %) est de la forme ( une approximation
prs) :
W = {
W
4} = {() 2}
Pour le test du score, la statistique de test est de la forme :

S
=
1
n

L
n
(

o
)

I
1
(

o
)

L
n
(

o
).
Ici

signie que lon prend le vecteur transpos, pour dvidentes contraintes de confor-
mit dans le produit. On travaille galement avec

o
=
1
2
(cf. H
0
prcdente). On a donc

L
n
=
n

i=1
y
i

o
(1
o
)
.
La statistique recherche devient donc

S
=
1
n
_
_
i
y
i
_
n

o
(1

o
)
_
2

o
(1

o
)
= n
(

i
y
i

o
)
2

o
(1
o
)
=
_
_


1
2
_
1/2(11/2)
n
_
_
2
.
Sous H
0
, on a comme prcdemment
S


2
(1). la dirence du test de Wald, dans
lequel lvaluation se fait dans le modle gnral, ici on se place directement sous H
0
pour
lestimation.
Enn, le test du rapport de vraisemblance est peut-tre plus simple formuler puisque
lon a besoin que des log vraisemblances en

et

o
:
R
= 2
_
L
n
(

) L
n
(

o
)
_
. On a donc
28

R
= 2
_

i
(y
i
) log

+
_
n

i
y
i
_
log(1

i
y
i
_
log
1
2
+
_
n

i
y
i
_
log
_
1
1
2
_
_
= 2
_
_

i
y
i
_
log
_

1/2
_
+
_
n

i
y
i
_
log
_
1

1 1/2
__
.
On a les mmes proprits de convergence asymptotique vers la loi du
2
.
Une simple application numrique donne les rsultats suivants :

W
= 1.01,
S
= 1.00,
R
= 1.00.
Dans tous les cas, on ne rejette pas H
0
.
3 La mthode Expectation-Maximization
Dans la plupart des cas exposs plus haut, les estimateurs MV des paramtres tudis pou-
vaient tre drivs partir dune formule analytique. De mme, on pouvait gnralement
montrer directement quil nexistait quun unique maximum de la fonction de vraisem-
blance considre sur lespace des paramtres. Cependant, dans de nombreux problmes
danalyse de donnes, lapplication du principe de maximum de vraisemblance conduit
des problmes numriques dune grande complexit. De plus, la fonction de vraisemblance
tudie possde souvent plusieurs extrmums. Par consquent, dans de nombreux cas, les
EMV sont calculs grce des techniques doptimisation numrique, statique, dynamique
ou mlant les deux approches.
Un cas particulirement remarquable de calcul rcursif des EMV est la mthode appele
Expectation-Maximisation (EM) (Dempster et al., 1977 and McLachan and Krishnan,
1997). Cette approche est privilgie lorsque la dicult pour obtenir des EMV provient
de la prsence de valeurs manquantes (encore appeles variables caches ou latentes). Si
les variables manquantes avaient t observes, lestimation MV en aurait t largement
simplie. Dans ce contexte, la mthode EM opre de manire rcursive. Chaque rcursion
consiste en une tape E dans laquelle on calcule lesprance conditionnelle par rapport aux
donnes inconnues, tant donnes les variables observes, et une tape M dans laquelle on
maximise par rapport aux paramtres. La construction de lalgorithme est telle que lon
peut garantir qu chaque itration la valeur de la fonction de vraisemblance augmente. En
raison de sa simplicit et de sa robustesse, la mthode EM est trs largement employe,
et bien quelle converge de manire relativement lente, de nouvelles amliorations sont
publies rgulirement dans la littrature spcialise.
29
3.1 Construction de lalgorithme
Le principe de lalgoritme EM repose sur une ingalit portant sur lesprance condition-
nelle de la log-vraisemblance de variables manquantes. Ci-aprs, on montre deux mthodes
permettant dtablir cette ingalit : partir de lingalit de Jensen, et en utilisant la
mesure de distance de Kullback-Leibler. Avant cela, nous rappelons quelques lments
ncesaires la comprhension de lalgorithme EM.
f(x)
x
1
p
1
x
1
+p
2
x
2
x
2
x
Figure 4
Illustration de la convexit de f(x). La fonction f(x) est
dite convexe si, lorsque p
1
0, p
2
0 et p
1
+ p
2
= 1,
f(p
1
x
1
+p
2
x
2
) p
1
f(x
1
) +p
2
f(x
2
).
Ingalit de Jensen
La dnition de la convexit dune fonction g(x), comme illustr dans la gure 4, est la
suivante :
g(p
1
x
1
+p
2
x
2
) p
1
g(x
1
) +p
2
g(x
2
), p
1
0, p
2
0, p
1
+p
2
= 1.
Par induction, on peut montrer que cela implique une ingalit analogue pour tout n 2,
g(p
1
x
1
+p
2
x
2
+. . . +p
n
x
n
) p
1
g(x
1
) +p
2
g(x
2
) +. . . +p
n
g(x
n
), (25)
p
i
0, i = 1, 2, . . . , n, p
1
+ p
2
+ . . . + p
n
= 1. On peut galement passer dun espace de
paramtres x R une dimension un espace m-dimensionnel plus gnral, x R
m
,
et cette ingalit reste vrie. Toute fonction convexe g(x), R
m
R satisfait 25, et
lingalit 25 est appele lingalit nie et discrte de Jensen. On notera que lon peut
autoriser n et 25 est toujours vrie.
On peut galement remplacer la distribution discrte de probabilit contenant les masses
p
1
, p
2
, . . . , p
n
apparaissant dans lexpression 25 par une distribution continue f(x), o
_
+

f(x)dx = 1, et on a une ingalit analogue :


g
__
+

xf(x)
_

_
+

g(x)f(x)dx,
qui peut galement sexprimer, laide de loprateur esprance, comme
30
g
_
E(X)
_
E
_
g(X)
_
.
Dans lexpression ci-dessus, X dsigne une v.a. dont la densit de probabilit est f(x).
Les deux ingalits prcdentes restent valables pour toute fonction convexe g(x), et on
parle de lingalit de Jensen. Plus gnralement, celle-ci peut tre formule comme suit :
g
__
+

h(x)f(x)
_

_
+

g
_
h(x)
_
f(x)dx,
ou
g
_
E
_
h(X)
__
E
_
g
_
h(X)
__
,
o g(x) est convexe et h(x) dsigne nimporte quelle fonction mesurable. Si lon utilise la
transformation Y = h(X), on retrouve naturellement les deux expressions prcdentes.
Distance de Kullback-Leibler
Considrons deux v.a. nies discrtes X et Y , chacune prenant les valeurs 1, 2, . . . , n avec
probabilits p
1
, p
2
, . . . , p
n
, p
1
+p
2
+. . .+p
n
= 1, pour X et q
1
, q
2
, . . . , q
n
, q
1
+q
2
+. . .+q
n
= 1,
pour Y . La distance de Kullback-Leibler K
X,Y
entre les distributions de X et de Y se
dnit comme
K
X,Y
=
n

i=1
q
i
ln
p
i
q
i
.
On peut vrier que K
X,Y
0 et que
K
X,Y
= 0 p
i
= q
i
, i = 1, 2, . . . , n.
La distance de Kullback-Leibler est encore appele entropie de la distribution p
1
, p
2
, . . . , p
n
par rapport celle de q
1
, q
2
, . . . , q
n
.
Pour des v.a. continues X et Y , de densits de probabilits f
X
(z) et f
Y
(z), leur distance
de Kullback-Leibler est dnie comme
K
X,Y
=
_
+

f
Y
(z) ln
f
X
(z)
f
Y
(z)
dz,
et on a toujours
K
X,Y
0 (26)
et K
X,Y
= 0 f
X
(z) = f
Y
(z) ( lexception ventuellement dun ensemble de mesures
nulles).
Itrations EM
On supposera dans les paragraphes qui suivent que les observations disponibles peuvent
tre modlises par une v.a. (ou un vecteur alatoire) X et que lobjectif est destimer
31
un paramtre (ou un vecteur de paramtres) p. Par ailleurs, on supposera quil existe
un certain nombre de valeurs manquantes X
m
. En aggrgeant les deux sries de donnes
(observes et manquantes), on obtient un vecteur dobservations compltes
X
c
= (X
m
, X).
On va essayer de montrer comment lestimation de p partir de la fonction de log-
vraisemblance pour une observation x,
ln
_
f(x, p)
_
,
entrane des problmes computationnels alors que la maximisation de la log-vraisemblance
des observations compltes, ln
_
f(x
c
, p)
_
, est relativement directe.
Dans un premier temps, on cherche exprimer la distribution conditionnelle des obser-
vations manquantes tant donns les observations disponibles et les paramtres dintrt,
f(x
m
| x, p), partir de la formule de Bayes :
f(x
m
| x, p) =
f(x
m
, x, p)
f(x, p)
=
f(x
c
, p)
f(x, p)
.
Par simple substitution dans lexpression ci-dessus, on obtient
f(x, p) =
f(x
c
, p)
f(x
m
| x, p)
.
En passant au logarithme des deux cts de lquation, on a alors
ln f(x, p) = ln f(x
c
, p) ln f(x
m
| x, p). (27)
On a besoin de fournir une premire estimation a priori pour les paramtres, que lon
notera p
old
, et on rappelle que x est connu et x. La distribution de x
m
(inconnu) tant
donn les observations disponibles x est f(x
m
| x, p
old
). On moyenne 27 sur la distribution
des donnes inconnues, ou en dautres termes, on calcule lesprance des deux membres
de lquation 27 par rapport f(x
m
| x, p
old
). Puisque E
_
h(X) | X
_
= h(X) quelle que
soit h(X), on peut crire
ln f(x, p) = E
_
ln f(X
c
, p) | x, p
old
_
E
_
ln f(X
m
, p) | x, p
old
_
.
Si lon introduuit la notation suivante :
Q(p, p
old
) = E
_
ln f(X
c
, p) | x, p
old
_
=
_
f(x
m
| x, p
old
) ln f(x
c
, p)dx
m
(28)
et
H(p, p
old
) = E
_
ln f(X
m
, p) | x, p
old
_
=
_
f(x
m
| x, p
old
) ln f(x
m
| x, p)dx
m
,
on a alors
ln f(x, p) = Q(p, p
old
) H(p, p
old
). (29)
32
On en dduit que
H(p
old
, p
old
) H(p, p
old
) =
_
f(x
m
| x, p
old
) ln
f(x
m
| x, p)
f(x
m
| x, p
old
)
dx
m
.
On peut appliquer lingalit de Jensen au membre droit de lquation 29, en prenant
comme fonction convexe g(x
m
) = ln(x
m
) ainsi que h(x
m
) = f(x
m
| x, p)/f(x
m
| x, p
old
)
ou lingalit 26 pour la distance de Kullback-Leibler. Dans les deux cas, on arrive la
conclusion que
H(p
old
, p
old
) H(p, p
old
) 0. (30)
Si lon est capable un nouvel estim p
new
qui vrie Q(p
new
, p
old
) > Q(p
old
, p
old
), alors de
29 et 30 on peut conclure que
ln f(x, p
new
) > ln f(x, p
old
),
et donc on a russi augmenter la log-vraisemblance. Typiquement, p
new
sera choisi en
maximisant Q(p, p
old
) par rapport p.
En rsumant lensemble de la dmarche expose ci-dessus, on en arrive dnir la construc-
tion de lalgorithme EM comme suit :
tape E. Calculer Q(p, p
old
) comme dni en 28.
tape M. Calculer p
new
= arg max
p
Q(p, p
old
).
En rptant les tapes E et M, en mettant jour chaque fois p
old
= p
new
, on augmente,
itrativement, la valeur de la log-vraisemblance ln f(x, p
old
). Dans la plupart des cas, cette
approche itrative donne un maximum global unique. Toutefois, les itrations EM peuvent
galement se terminer sur des maxima locaux, voire ne pas converger du tout.
Avant de fournir des exemples dapplications concrets de lalgorithme sur des distributions
simples ou un peu plus complexes, une illustration de lalgorithme EM appliqu un lancer
de pices est propose dans la gure 5. Lexemple est tir de REF.
3.2 Exemples dapplication de lalgorithme EM
Les exemples suivants ont pour but dillustrer le principe de base de lalgorithme EM
expos la section prcdente, ainsi que dtudier sa convergence.
Distribution exponentielle avec donnes censures
Les donnes censures se rencontrent frquemment en pidmiologie, et plus particulire-
ment dans les tudes de survie (Cox and Oakes, 1984). On les retrouve galement avec
des instruments de mesure pour lesquels la gamme de mesure observables est trop limi-
te. Ici, on considrera une v.a. T exponentielle. Lobjectif est destimer le paramtre a
33
Figure 5 Principe de lalgorithme EM. Tir de ? ?
partir dun ensemble de N observations, en tenant compte du fait quil existe un mca-
nisme de censure de seuil constant C : si une mesure T est plus grande que C alors on ne
connat pas sa vraie valeur, mais on sait seulement que le seuil a t dpass. Supposons
que les observations t
1
, t
2
, . . . , t
k
nont pas excd le seuil et que t
k+1
, . . . , t
N
sont au-
dessus du seuil. Les informations disponibles sont donc t
1
, t
2
, . . . , t
k
et [t
k+1
, . . . , t
N
C].
Linformation complte est constitue par le vecteur t
c
= t
1
, t
2
, . . . , t
k
, t
k+1
, . . . , t
N
. An
dinitier lalgorithme EM, on dmarre avec des valeurs a priori pour le paramtre, a
old
.
Lexpression de Q(a, a
old
) avec f(t, a) dnie en 14 devient alors
Q(a, a
old
) = E
_
ln f(T
c
, a) | t
1
, t
2
, . . . , t
k
, [t
k+1
, . . . , t
N
C], a
old
_
=
k

i=1
ln
_
a exp(at
i
)
_
+
N

i=k+1
E
_
ln
_
a exp(at
i
)
_
| t
i
C, a
old
_
34
= N ln a a
k

i=1
t
i
a(N k)
_
+
C
ta
old
exp(a
old
t)dt
_
+
C
a
old
exp(a
old
t)dt
= N ln a a
_
k

i=1
t
i
+ (N k)
_
C +
1
a
old
_
_
.
Dans la transformation ci-dessus, on a utilis le fait que
E(at
i
| t
i
C, a
old
) = a
_
+
C
ta
old
exp(a
old
t)dt
_
+
C
a
old
exp(a
old
t)dt
= a
_
C +
1
a
old
_
.
Daprs la relation prcdente, la valeur a
new
qui maximise Q(a, a
old
) par rapport a est
a
new
=
N

k
i=1
t
i
+ (N k)(C + 1/a
old
)
. (31)
On peut indexer les itrations des estimations EM du paramtre a par une suite 1, 2, . . . , m, . . .,
et on peut ainsi crire a
m
= a
old
et a
m+1
= a
new
. En passant la limite dans la
relation 31, on obtient
a = lim
m
a
m
=
k

k
i=1
t
i
+ (N k)C
.
La limite lim
m
a
m
peut tre calcule analytiquement et on obtient ainsi lEMV de a.
On pourrait galement arriver au mme rsultat en crivant directement la fonction de
log-vraisemblance dune distribution exponentielle incluant des donnes censures.
Modle de mlange
Les mlanges de lois sont souvent utiliss pour tudier la structure des donnes expri-
mentales (McLachan and Peel, 2000). Les mlanges de distributions prennent la forme :
f
mix
(x,
1
, . . . ,
K
, p
1
, . . . , p
K
) =
K

k=1

k
f
k
(x, p
k
), (32)
o
1
, . . . ,
K
, p
1
, . . . , p
K
sont les paramtres de la loi compose. Les poids (probabilits)

1
, . . . ,
K
sont non ngatifs et somment 1, i.e.
K

k=1

k
= 1, (33)
et les f
k
(x, p
k
) sont des fonctions de densit de probabilits. On dira quune v.a. X suit
ce type de distribution si elle est gnre de la manire suivante :
1. on gnre un nombre entier k dans lintervalle 1, . . . , K avec probabilit
1
, . . . ,
K
,
2. on gnre un nombre (ou un vecteur) x partir de la distribution f
k
(x, p
k
).
35
La plupart du temps, les f
k
(x, p
k
) sont des distributions du mme type, par exemple
gaussienne ou poissonienne, avec des paramtres dirents, mais il est galement possible
de mlanger des distributions de dirent type. On appelle f
k
(x, p
k
), k = 1, 2, . . . , K la
composante de la distribution de mlange.
Supposons quun chantillon alatoire de taille N soit tir de la distribution 32. Le cal-
cul des EMV des paramtres
1
, . . . ,
K
, p
1
, . . . , p
K
pose typiquement des problmes
doptimisation numrique. Toutefois, lalgorithme EM fournit une approche naturelle
ce problme. En eet, on suppose que linformation complte est donne par x
c
=
k
1
, k
2
, . . . , k
N
, x
1
, x
2
, . . . , x
N
; en dautres termes, on fait lhypothse que lon connat
lindice k
n
de la composante f
k
(x, p
k
) qui a permis de gnrer lobservation x
n
. Avec cette
information complte, le problme de lestimation par MV peut tre divis en dirents
sous-problmes :
a. estimation des paramtres p
1
, . . . , p
M
des composantes de distribution,
b. estimation par MV des poids
1
, . . . ,
K
.
La dernire tape de calcul peut tre eectue partir des indices k
n
. Grce cette
dcomposition, la log-vraisemblance des donnes compltes est de la forme :
ln
_
f(x
c
, p)
_
=
N

n=1
ln
k
n
+
N

n=1
ln f
k
n
(x
n
, p
k
n
),
avec x
c
= k
1
, k
2
, . . . , k
N
, x
1
, x
2
, . . . , x
N
et p =
1
, . . . ,
K
, p
1
, . . . , p
K
.
tape E. On postule des valeurs a priori pour les paramtres p
old
=
old
1
, . . . ,
old
K
,
p
old
1
, . . . , p
old
K
et on crit lexpression de Q(p, p
old
) en considrant linformation disponible
x = x
1
, x
2
, . . . , x
N
et linformation manquante x
m
= k
1
, k
2
, . . . , k
N
:
Q(p, p
old
) = E
_
ln f(X
c
, p) | x, p
old
_
= E
_
N

n=1
ln
k
n
| x, p
old
_
+E
_
N

n=1
ln f
k
n
(x
n
, p
k
n
) | x, p
old
_
=
N

n=1
E(ln
k
n
| x, p
old
) +
N

n=1
E
_
ln f
k
n
(x
n
, p
k
n
) | x, p
old
_
=
N

n=1
K

k=1
p(k | x
n
, p
old
) ln
k
n
+
N

n=1
K

k=1
p(k | x
n
, p
old
) ln f
k
(x
n
, p
k
) (34)
.
La distribution p(k | x
n
, p
old
) des donnes manquantes conditionnellement aux donnes
observes et les paramtres spcis a priori sont obtenus en utilisant la formule de Bayes :
p(k | x
n
, p
old
) =

old
k
f
k
(x
n
, p
old
)

K
=1

old

(x
n
, p
old
)
. (35)
36
tape M. Lexpression de Q(p, p
old
) peut tre directement optimise par rapport aux
poids
1
, . . . ,
K
. En considrant la contrainte 33 et en utilisant un schma similare
celui expos pour la distribution multinomiale, on obtient ainsi :

new
k
=

N
n=1
p(k | x
n
, p
old
)
N
.
Les itrations ci-dessus pour les poids restent valides quelle que soit la forme des compo-
santes de la distribution de mlange. An de driver les itrations EM pour les estimations
des paramtres des composantes de la distribution p
new
1
, . . . , p
new
K
, on peut se pencher sur
deux cas particuliers.
Distribution de mlange de Poisson
Supposons que la kime composante de la distribution de mlange dans la nime exp-
rience, f
k
(x
n
, p
k
), soit une distribution de Poisson avec un paramtre dintensit p
k
=
k
:
f
k
(x
n
,
k
) = exp(
k
)

x
n
k
x
n
!
. (36)
prsent, p(k | x
n
, p
old
) est donn par 35 en remplaant la fonction de rpartition
f
k
(x
n
, p
old
) par une distribution de Poisson avec comme paramtre fourni a priori
old
k
,
k = 1, 2, . . . , K :
p(k | x
n
,
old
) =

old
k
exp(
old
k
)(
old
k
)
x
n

K
=1
_

old

exp(
old

)(
old

)
x
n

Dans lexpression ci-dessus,


old
=
old
1
, . . . ,
old
K
. En remplaant 36 dans 34 et en maxi-
misant par rapport
k
, on obtient la valeur mise jour
new
k
:

new
k
=

N
n=1
x
n
p(k | x
n
,
old
)

N
n=1
p(k | x
n
,
old
)
, k = 1, 2, . . . , K.
Distribution de mlange gaussienne
Ici, toutes les composantes de distribution sont gaussienne de paramtres
k
,
k
, k =
1, 2, . . . , K. Pour la nime observation, on a
f
k
(x
n
,
k
,
k
) =
1

2
exp
_

(x
n

k
)
2
2
2
k
_
. (37)
En supposant initialement
old
k
,
old
k
, k = 1, 2, . . . , K, lexpression pour les donnes man-
quantes conditionnellement aux donnes observes et aux paramtres initiaux est de la
forme :
p(k | x
n
, p
old
) =

old
k
exp
_
(x
n

old
k
)
2
/
_
2(
old
k
)
2
_

K
=1

old

exp
_
(x
n

old

)
2
/
_
2(
old

)
2
_.
37
Dans lexpression ci-dessus, on a utilis les notations p
old
=
old
1
, . . . ,
old
K
,
old
1
, . . . ,
old
K
,

old
1
, . . . ,
old
K
pour dsigner le vecteur compos de lensemble des paramtres estims.
Lorsque 37 est substitu dans 34, la maximisation par rapport
k
,
k
donne la rgle de
mise jour suivante pour la moyenne et le paramtre de dispersion :

new
k
=

N
n=1
x
n
p(k | x
n
, p
old
)

N
n=1
p(k | x
n
, p
old
)
, k = 1, 2, . . . , K,
et
(
new
k
)
2
=

N
n=1
(x
n

new
k
)
2
p(k | x
n
, p
old
)

N
n=1
p(k | x
n
, p
old
)
, k = 1, 2, . . . , K.
4 Tests statistiques
5 Chanes de Markov
Avant de prsenter le formalisme des chanes de Markov, on rappellera brivement quelques
notions sur les processus stochastiques.
Un processus stochastique est en fait une famille de fonctions dune variable t, {X(t, ), t
T, } (t sera gnralement assimil au temps), paramtre par des ralisations ala-
toires . Quel que soit , X(, ) est une fonction; quel que soit un instant x t, X(t, )
est une variable alatoire.
Les processus de Markov constituent lune des classes les plus utilises et les mieux connues
des processus stochastiques (Feller, 1968, Iosifescu, 1980 and Gikhman and Skorokhod,
1996). Un processus de Markov est un cas particulier dun processus stochastique dans la
mesure o il sagit dun processus mmoire limite. Ceci signie que pour un processus
X(t, ) qui sest droul dans le pass (t t
0
), le futur {X(t, ), t > t
0
} est caractris par
le prsent uniquement, i.e. X(t
0
, ). Cette proprit est connue sous le nom de proprit
de Markov.
Une chane de Markov est un processus markovien pour lequel X(t, ) S, o S est
un ensemble discret. Habituellement, lespace dtat S est un sous-ensemble de N. En
dautres termes, une chane de Markov (CM) prsente des transitions alatoires entre
dirents tats discrets. La thorie prsente dans cette section se concentre sur le cas
dun nombre de ni dtats N, indexs 1, 2, . . . , N. De mme, nous naborderons que le
cas des intervalles de temps discrets, 0, 1, 2, . . . , k, . . .. Toutefois, on voquera quelques
gnralits sur le cas continu. La plupart du temps, on notera la CM X(t, ) X
k
() ou
simplement X
k
.
Comme on vient de lnoncer, la proprit fondamentale dune CM est que les tats futurs
ne sont dtermins que par le prsent, X
k
, ce que lon peut exprimer de la manire
suivante :
P(X
k+1
= j | X
k
= i, X
k1
= i
1
, X
k2
= i
2
, . . .) = P(X
k+1
= j | X
k
= i). (38)
38
La probabilit conditionnelle P(X
k+1
= j | X
k
= i) est appele la probabilit de transition
de X
k
= i X
k+1
= j, et on la dnote p
ij
, avec donc
p
ij
= P(X
k+1
= j | X
k
= i). (39)
Une proprit importante des CM considre ici est lhomognit dans le temps, qui
signie que les probabilits de transition p
ij
ne dpendent pas du temps.
La proprit 38 entrane les consquences les plus fondamentales pour lanalyse des
CM et permet de driver des relations de rcurrence pour les probabilits lies X
k
. En
particulier, la probabilit dobserver la squence dtats i
0
, i
1
, . . . , i
K
est donne par le
produit des probabilits de transition
P(i
0
, i
1
, . . . , i
K
) =
i
0
p
i
0
i
1
. . . p
i
K1
i
K
, (40)
o
i
0
= P(X
0
= i
0
). Lquation ci-dessus peut tre retrouve en utilisant la rgle de la
chane et la proprit 38.
5.1 Matrice des probabilits de transition et graphe des transitions dtat
Les probabilits de transition p
ij
donnes en 39 peuvent se reprsenter sous la forme dune
matrice N N, note P, que lon appelle la matrice des probabilits de transition de la
chane considre :
P =
_

_
p
11
p
12
. . . p
1N
p
21
p
22
. . . p
2N
. . . . . . . . . . . .
p
N1
p
N2
. . . p
NN
_

_
.
Les transitions dtat et leurs probabilits associes peuvent galement se reprsenter sous
la forme dun graphe de transition dtats, comme celui illustr dans la gure 6. Dans
ce schma, les cercles reprsentent les tats et les arcs reprsentent les transitions dtat.
Chaque arc est associ une probabilit de transition, et un arc nest reprsent que si
p
ij
= 0. Les reprsentations graphiques et matricielles sont strictement quivalentes. La
matrice des probabilits de transition illustr dans la gure 6 est :
P =
_

_
0.5 0.5 0 0
0 0 0.8 0.2
0 0 0.1 0.9
0 0 0 1
_

_
. (41)
On pourra vrier que les probabilits de transition de ltat i tous les autres tats
somment 1, i.e.
N

j=1
p
ij
= 1. (42)
39
1
0.5
2
0.5
3
0.8
4
0.2
0.1
0.9
1
Figure 6 Graphe de transitions dtats pour la chane
de Markov dcrite en 41.
Une matrice P qui possde la proprit 42 est appele une matrice stochastique. La
proprit du graphe de transition correspondant est alors : Les poids associs aux arcs
de transition sortant dun tat i somment 1 .
Il arrive frquemment que la matrice des probabilits de transition soit une matrice creuse,
dans laquelle de nombreuses transitions possdent des probabilits nulles, auquel cas le
graphe devient une reprsentation plus conomique et surtout plus lisible.
5.2 volution temporelle des distributions de probabilits dtats
Une fois que lon a spci la matrice ou le graphe des probabilits de transition ainsi que
la distribution initiale des tats, il est possible de calculer lvolution de cette distribution
de probabilit avec le temps. Si lon considre quau temps 0, la distribution de probabilit
des tats est
P(X
0
= i) =
i
(0),
on a bien

N
i=1

i
(0) = 1. En utilisant la loi des probabilits totales (1), on peut calculer
la distribution de probabilit des tats au temps suivant :
P(X
1
= j) =
j
(1) =
N

i=1

i
(0)p
ij
. (43)
Si lon introduit une notation vectorielle pour les probabilits de transition ltat k,
(k) = [
1
(k),
2
(k), . . . ,
N
(k)],
on peut alors reprsenter 43 laide du produit matriciel par
(1) = (0)P. (44)
En appliquant rcursivement 44, on a nalement
(k) = (0)P
k
.
40
5.3 Classication des tats
La classication des tats dune CM et plus gnralement des CM est importante pour
bien comprendre la thorie et les applications des CM. Nous prsentons ci-dessous cette
classication, illustre par quelques proprits des graphes de transition dtat.
Irrductibilit
Une CM est dite irrductible si et seulement si le graphe des transitions dtats possde
la proprit que tous les tats peuvent tre atteints depuis nimporte quel tat. La CM
dont le graphe associ est reprsent dans la gure 7 (gauche) est en ce sens irrductible.
Si une CM nest pas irrductible, comme cest le cas dans la gure 7 (droite), alors en
renumrotant ses tats, sa matrice de probabilits de transition peut tre rarrange sous
la forme dune matrice en blocs
P =
_
Q 0
U V
_
,
o le bloc suprieur droit ne contient que des 0 et Q est une matrice carre correspondant
une sous-chane de Markov irrductible.
La matrice de probabilits de transition P dune CM irrductible possde la proprit que
P
k
> 0 (toutes les entres sont strictement positives) pour un k.
1
2
3
4
5
1
2
4
3
5
Figure 7 Gauche. un graphe des transitions
dtat dune chane de Markov irrductible.
Droite. La chane de Markov reprsente par
ce graphe nest pas irrductible. Dans les deux
graphes, les arcs reprsentent des transitions avec
p
ij
= 0.
41
tats persistents et transients
Un tat i est persistent si une CM partant de ltat i retourne ce mme tat avec la
probabilit 1. En dautres termes, parmi la squence innie des tats dune CM dmarrant
en i, ltat i apparat un nombre inni de fois. Un tat qui nest pas persistent est dit
transient. Il napparat quun nombre ni de fois. Dans la CM illustre dans la gure 7
(gauche), tous les tats sont persistents, alors que pour celle illustre dans la mme gure
droite, les tats 3 et 5 sont transients et les tats 1, 2 et 4 sont persistents.
On dnit
f
(k)
i
= Pr(La chane dbutant en i retourne en i pour la premire fois aprs k tapes),
avec, par convention, f
(0)
i
= 0, et
f
i
=

k=1
f
(k)
i
.
Puisque les vnements f
(k)
i
sont exclusifs, la somme de leurs probabilits ne peut excder
1, i.e. f
i
1. partir de f
i
, on peut donner une autre condition pour la caractrisation
des tats transients et persistents : un tat i est transient si f
i
< 1 et persistent si f
i
= 1.
Les probabilits f
i
peuvent tre calcules partir des entres des matrices P, P
2
, . . . , P
k
, . . ..
On dnit
p
(k)
ii
= Pr(La chane dbutant en i retourne en i aprs k tapes)
et on xe par convention p
(0)
ii
= 1. Les vnements ci-dessus ne sont pas exclusifs. On
peut voir galement que p
(k)
ii
est la (i, i)me entre de la matrice P
k
. partir de la loi des
probabilits totales 1, on a
p
(k)
ii
= f
(1)
i
p
(k1)
ii
+f
(2)
i
p
(k2)
ii
+. . . +f
(k)
i
p
(0)
ii
.
En crivant lexpression ci-dessus pour k = 1, 2, . . ., on obtient un systme dquations
linaires qui permet de trouver f
(k)
i
.
En utilisant les probabilits p
(k)
ii
, on peut donc ajouter une condition supplmentaire. Si

k=0
p
(k)
ii
< , alors ltat i est transient. Cette dichotomie peut se dmontrer en utilisant
la mthode des fonctions gnratrices lquation prcdente.
Si ltat i est persistent, on peut se demander quel est le temps dattente espr
i
pour
la rcurrence de i. partir de la dnition de f
(k)
i
,
i
peut tre estim comme

i
=

k=1
kf
(k)
i
.
42
tats priodiques
Dans la gure 8, on peut voir un exemple dun graphe de transition correspondant
des tats pridioques. Les tats 1, 2 et 3 sont priodiques de priode 3. Gnralement, un
tat i dune CM est priodique si p
(k)
ii
= 0 seuement pour k = t, t = 0, 1, . . . et > 1
entier. Le plus grand vriant la relation prcdente est appel la priode de ltat i.
On rencontre rarement des phnomnes de priodicit dans les applications des CM. Il
sagit plutt dune possibilit thorique, dont on doit tenr compte dans les dnitions et
les dmonstrations de thorme. Un tat i est apriodique si aucun > 1 ne peut tre
trouv.
1
2
3
Figure 8 Graphe de transitions dtats
correspondant des tats priodiques.
5.4 Ergodicit
Un tat i est dit ergodique sil est apriodique et persistent. Une CM est dite ergodique
si tous ses tats sont ergodiques. Pour les CM avec un nombre ni dtats, lergodicit est
induite par lirrductibilit et lapriodicit.
5.5 Distribution stationnaire
La distribution stationnaire (ou invariante) dune CM est dnie comme les
S
(un vecteur
ligne) tels que

S
=
S
P,
lorsquils existent. En gnral, les
S
ne sont pas ncessairement uniques. Par exemple, si
P =
_
P
1
0
0 P
2
_
et
S1
=
S1
P
1
,
S2
=
S2
P
2
, alors pour tout [0, 1],
S
= [0
S1
] +(1)[
S2
0] est
une distribution stationnaire. Les distributions stationnaires sont lies aux distributions
limites, dnies par () = lim
k
(k). Si la distribution existe la limite, alors elle
est stationnaire. Si une CM est ergodique, alors la limite de (k) existe et ne dpend pas
de la distribution initiale (0), i.e.
43
lim
k
(k) =
S
.
Dans ce cas, la distribution stationnaire est unique. De plus, la limite de P
k
existe gale-
ment et
lim
k
P
k
= I
S
. (45)
Dans lexpression ci-dessus, I est un vecteur colonne de taille N ne contenant que des 1.
La ime colonne de la matrice limite dnie en 45 consiste en lments tous identiques et
gaux
Si
, le ime lement du vecteur
S
. On peut galement dmontrer que

Si
=
1

i
.
On appelle stationaire une CM si sa distribution initiale est une distribution stationnaire :
(0) =
S
. (46)
Dans une telle chane, par dnition de
S
, (k) =
S
pour chaque k. En dautres termes,
la CM volue selon sa distribution stationnaire.
5.6 Chanes de Markov rversible
Dans cette section, on considre une CM en ordre inverse, {X
k
, X
k1
, X
k2
, . . .}. On peut
montrer que le processus X
k
, X
k1
, X
k2
, . . . possde lui aussi la proprit de Markov. En
utilisant la rgle de Bayes, on peut calculer la probabilit de transition i j en temps
inverse,
p
rev
ij
= P(X
k1
= j | X
k
= i)
=
P(X
k1
= j)P(X
k
= i | X
k1
= j)
P(X
k
= i)
=

j
(k 1)p
ji

i
(k)
. (47)
Il y a toutefois une inconsistence dans la notation ci-dessus car p
rev
ij
dpend de linstant
k. Par simplicit de notation, on supprime lindice k. On retiendra quune CM en temps
invers devient inhomogne.
Dans la plupart des applications, il est important danalyser la CM inverse sous lhypothse
additionnelle de stationnarit 46. Dans ce cas la CM en temps invers devient homogne.
On a P(X
k1
= j) =
Sj
et P(X
k
= i) =
Si
, et 47 devient
p
rev
ij
=

Sj
p
ji

Si
. (48)
Une CM est dite inversible si elle satisfait la relation
p
rev
ij
= p
ij
. (49)
Il est intressant de remarquer que linversibilit implique la stationnarit de la CM directe
et inverse. En eet, si
44
p
ij
=

j
(k 1)p
ji

i
(k)
pour tout i, j, alors si on pose i = j on a
i
(k 1)/
i
(k) = 1.
De la dnition 49, on voit que lorsque lon observe les tats dune CM inverse, on
ne peut dire si elle progresse de manire directe ou inverse. En combinant 48 et 49, on
obtient la condition suivante pour linversibilit dune CM :
p
ij

Si
=
Sj
p
ji
. (50)
On appelle galement cette condition la condition dquilibre local, en raison de linterpr-
tation que lon en fait. Supposons que lon enregistre les vnements dune CM. Le nombre
moyen de transitions i j, pour chaque vnement enregistr, est p
ij

Si
. De manire
analogue, pour les transitions j i, le nombre moyen de transitions est
Sj
p
ji
. La
condition 50 stipule que ces deux quantits sont gales.
5.7 Chanes de Markov temps continu
Dans les sections prcdentes, on a considr que les transitions entre tats ne pouvaient
intervenir qu des instants discrets 0, 1, 2, . . . , k, . . .. prsent, on considre que les tran-
sitions entre les tats discrets 1, 2, . . . , N peuvent survenir nimporte quel instant t R.
On dnote par X(t) le processus stochastique qui en rsulte et on introduit la matrice de
transition P(t s), de taille N N et dont les lments sont donns par
p
ij
(t s) = P(X(t) = j | X(s) = i).
La proprit de Markov de X(t) est quivalente lquation de Chapman-Kolmogorov
p
ij
(s +t) =
N

n=1
p
in
(s)p
nj
(t).
En utilisant la notation matricielle P(t), on peut rcrire cette expression comme
P(s +t) = P(s)P(t). (51)
Dans ce cas, s 0, t 0 et
P(O) = I, (52)
o I dsigne la matrice identit. P(t) est direntiable, et en calculant sa drive, partir
de 51 on a
d
dt
P(t) = P

(t) = QP(t), (53)


o la matrice Q, appele matrice dintensit de la CM en temps continu X(t), est donne
en prenant la limite de la drive en 0,
45
Q = lim
t0
+
dP(t)
dt
.
La construction de processus markovien X(t) utiliss dans les applications pratiques,
comme par exemple les modles de substitution de nuclotides, se fait en dnissant tout
dabord la matrice dintensit Q. Il sagit de lapproche la plus naturelle. Une fois donnes
la matrice Q, la matrice de transitions P(t) sobtient en rsolvant 53 en prenant 52 comme
conditions initiales. La solution est
P(t) = exp(Qt) =

m=1
(Qt)
m
m!
.
Pour chaque t 0, P(t) est une matrice stochastique, et si lon se donne une distribution
de probabilits initiale (0) pour les tats 1, 2, . . . , N, on peut calculer la distribution au
temps t, partir de la relation
P
_
X(t + t) = j | X(t) = i
_
= q
ij
t +o(t).
Les lments diagonaux de la matrice dintensit Q sont dnis comme suit :
q
ii
=

j=i
q
ij
.
6 Mthodes de Monte Carlo par Chanes de Markov (MCMC)
Les mthodes de Monte Carlo, reposant sur les gnrateurs de nombres alatoires, per-
mettent de raliser une grande varit de tches, incluant les simulations stochastiques,
le calcul dintgrales dans des dimensions leves, ou loptimisation de fonctions et de
fonctionnelles. Lapproche de Monte Carlo par Chanes de Markov (MCMC) utilise les
CM pour raliser ce genre de tches. Un outil important dans les mthodes MCMC est
lalgorithme de Metropolis-Hastings (Metropolis et al., 1953 and Hastings, 1970). Celui-ci
a t initialement conu pour calculer des intgrales en plusieurs dimensions en physique
molculaire, mais a depuis trouv de nombreux autres domaines dapplication.
La mthode de Metropolis-Hastings permet de proposer une solution au problme suivant :
construire une CM ergodique avec les tats 1, 2, . . . , N et une distribution stationnaire
prdnie par un vecteur
S
. Par construire une CM, on entend dnir ses probabilits de
transition dtat. Il existe clairement une innit de CM avec une distribution stationnaire

S
. Si lon connat les probabilits de transition dtat, on peut calculer la distribution
stationnaire
S
, mais il nexiste pas de formule explicite pour la relation inverse. La
mthode de Metropolis-Hastings ore une solution ce problme en partant dune CM
ergodique avec les tats 1, 2, . . . , N et en modiant ses probabilits de transition de sorte
que la condition dquilibre local 50 soit renforce. Par consquent, la CM modie devient
inversible et possde bien la distribution stationnaire dsire
S
.
En utilisant cette ide, supposons que lon a dnit une CM irrductible et apriodique
avec les tats 1, 2, . . . , N et les probabilits de transition q
ij
. Ltape suivante consiste
46
modier ces probabilits en les multipliant par des facteurs a
ij
, ce qui amne une
nouvelle CM de probabilits de transition
p
ij
= a
ij
q
ij
. (54)
On cherche les a
ij
tels que les probabilits de transition p
ij
satisfassent la condition
dquilibre local 50. En substituant 54 dans 50, on obtient
a
ij
q
ij

Si
= a
ji
q
ji

Sj
.
On a ici deux variables et une seule quation, donc une innit de solutions possibles. La
solution la plus simple consiste supposer que lun des facteurs a
ij
et a
ji
est gal 1. Il
existe deux possibilits. Nanmoins, on doit tenir compte de la condition que les facteurs
multiplicatifs doivent satisfaire a
ij
1 pour tout i, j. Cette condition dcoule du fait que
la mise lchelle 54 ne doit pas produire des probabilits en dehors de lintervalle ]0, 1].
Cela amne nalement la solution
a
ij
= min
_
1,
q
ji

Sj
q
ij

Si
_
. (55)
Lquation 54 avec les a
ij
dnis ci-dessus permet de calculer les probabilits de transi-
tion p
ij
pour tout i = j. Pour les probabilits p
ii
, on utilise la formule
p
ii
= 1

j=i
p
ij
,
qui rsulte de la proprit 42.
Comme on le voit dans la rgle 55, lexpression des a
ij
ne dpend pas de la valeur absolue
des
Si
mais seulement de leur rapport. Cela signie quil sut de connatre
S
une
constante prs. Il sagit dun rsultat important qui permet de simuler des distributions
pour lesquelles il est dicile de trouver une constante de normalisation.
6.1 Rgle dacceptation-rejet
La mthode de Metropolis-Hastings permettant de modier les probabilits de transition
(54 et suivantes) peut tre formule sous la forme de la rge dacceptation-rejet, trs
utilise dans les applications pratiques. Supposons que lon ait dni une CM irrductible
et apriodique avec les tats 1, 2, . . . , N et les probabilits de transition q
ij
, et par ailleurs
que lon dispose dun programme permettant de simuler les transitions entre les tats.
La modication des probabilits de transition q
ij
dcrite dans les paragraphes prcdents
revient ajouter la rgle dacceptation-rejet suivante au programme de simulation des
transitions dtats. Lorsquune transition i j est rencontre, on calcule a
ij
selon 55. Si
a
ij
= 1, on change rien (on passe ltat j). Si a
ij
< 1, alors, avec probabilit a
ij
on passe
ltat j et avec probabilit 1 a
ij
, on supprime la transition i j (on reste dans ltat
i).
47
6.2 Applications de lalgorithme de Metropolis-Hastings
En utilisant lalgorithme de Metropolis-Hastings, on peut eectuer de lchantillonnage
alatoire dans nimporte quelle distribution. Cela se rvle trs utile, par exemple pour
estimer la forme ou les paramtres de distributions a posteriori compliques. Une autre
application importante de lalgorithme de Metropolis-Hastings est loptimisation stochas-
tique. Un exemple de ce type de problmatique est la recherche de larbre le plus probable
en fonction des donnes. Pour chaque arbre, on calcule la probabilit correspondante (vrai-
semblance), mais en raison du nombre important darbres possibles, on ne peut pas tous
les valuer et slectionner celui qui possde la probabilit la plus leve. Au contraire,
on peut construire une CM telle que les dirents arbres corerspondent ses tats. En
appliquant lalgorithme de Metropolis-Hastings, on visite (chantillonne) les arbres avec
une frquence correspondant leurs probabilits. Les arbres avec une probabilit leve
sont ainsi visits plus frquemment, alors que ceux possdant une probabilit plus faible
ne seront vraisembablement pas visits du tout. Par la suite, on peut limiter la recherche
des arbres les plus vraisemblables ceux visits lors de la procdure dchantillonnage par
lalgorithme de Metropolis-Hastings.
6.3 Recuit simul et MC3
Est-il galement possible dutiliser le principe de lalgorithme de Metropolis-Hastings pour
optimiser nimporte quelle fonction f(x), sur lespace des arguments ? Le challenge est
alors que f(x) peut prendre des valeurs la fois positives et ngatives et ne possde donc
pas dinterprtation probabiliste.
Considrons la transformation
p(x) = exp
_
f(x)
T
_
, (56)
reposant sur lide de la distribution dnergie de Boltzmann. La fonction p(x) est tou-
jours strictement positive et prend son maximum la mme valeur x
max
que f(x). Cette
fonction ne correspond pas ncessairement une distribution de probabilit puisque son
intgrale ne vaut gnralement pas 1. Toutefois, seules la positivit stricte est importante
dans notre cas puisque, comme on la dj mentionn, les relations 54 et suivantes ne
dpendent que du rapport des lments du vecteur
S
. Il est donc possible de construire
un algorithme de recherche du maximum de p(x) laide de la technique de Metropolis-
Hastings. Si lespace des arguments x est continu, on le discrtisera avant dappliquer
lalgorithme.
Lquation 56 contient un paramtre libre T. Par analogie avec la distribution dnergie
de Boltzmann, ce paramtre peut tre interprt comme la temprature . Le change-
ment de sa valeur inuence les proprits de lalgorithme dchantillonnage. Laugmen-
tation de la temprature entrane une recherche plus intensive dans lespace des arguments,
puisque les transitions dun p(x) lev un p(x) plus bas deviennent plus probables. La
diminution de la temprature revient au contraire rendre les transitions moins probables.
Dans la mthode du recuit simul (Kirkpatrick et al., 1983), la temprature est modie
48
en fonction dun certain chancier tout en se promenant dans lespace des arguments.
Les algorithmes de recuit simul dbute la recherche avec une temprature leve, pui
graduellement la temprature est diminue lorsque les itrations approchent du voisinage
du maximum.
Une autre ide assez intressante, dnomme MC3, consiste eectuer la recherche dans
lespace des arguments en utilisant plusieurs (gnralement 3) chantillonneurs de Metro-
polis-Hastings direntes tempratures (Madigan and York, 1995). Les algorithmes
oprent donc en parallle et peuvent changer leurs tats en fonction de la valeur des
vraisemblances.
7 Chanes de Markov caches
Dans la section prcdente, lorsque nous avons prsent les proprits des CM, on a
implicitement considr que les tats taient observables. Cependant, cette hypothse
nest souvent pas satisfaite dans les applications des modles de CM. Les chanes de
Markov caches (CMC) sont alors frquemment utilises dans ce contexte (Durbin et al.,
1999, Rabiner, 1989 and Koski and Koskinen, 2001). Un modle de Markov cach est une
CM dont les tats ne sont pas observables. Seule une squence de symboles mis par les
tats est enregistre.
Plus spciquement, considrons une CM avec les tats 1, 2, . . . , N sur un intervalle de
temps discret 0, 1, 2, . . . , k, k+1, . . . , K. Par ailleurs, on considre M symboles possible d-
nots o
1
, o
2
, . . . , o
m
, o
m+1
, . . . , o
M
et que lon appelera des missions. Chaque tat possde
une distribution de probabilit dmissions
b
im
= Pr(ltat i met o
m
). (57)
7.1 Probabilit doccurence dune squence de symboles
De 40 et 57, on conclut que la probabilit doccurence des tats i
0
, i
1
, . . . , i
K
et des
symboles o
j
0
, o
j
1
, . . . , o
j
K
est
P(i
0
, o
j
0
, i
1
, o
j
1
, . . . , i
K
, o
j
K
) =
i
0
b
i
0
j
0
p
i
0
i
1
b
i
1
j
1
. . . p
i
K1
i
K
b
i
K
j
K
. (58)
La probabilit denregistrer une squence de symboles o
j
0
, o
j
1
, . . . , o
j
K
est obtenue en
sommant 58 sur lensemble des squences i
0
, i
1
, . . . , i
K
possibles, ce qui donne
P(o
j
0
, o
j
1
, . . . , o
j
K
) =
N

i
0
=1

i
0
b
i
0
j
0
N

i
1
=1
p
i
0
i
1
b
i
1
j
1
. . .
N

i
K
=1
p
i
K1
i
K
b
i
K
j
K
. (59)
En pratique, lorsque lon utilise lexpression ci-dessus, on arrange la sommation de ma-
nire rcursive. Il y a alors deux possibilits auxquelles correspondent deux algorithmes
dirents : lagorithme dit backward et lalgorithme forward .
49
7.2 Algorithme backward
On peut organiser le calcul rcursif de 59 en partant de la dernire somme. On dnote
celle-ci par
B
K1
(i
K1
) =
N

i
K
=1
p
i
K1
i
K
b
i
K
j
K
et on voit que pour B
k
(i
k
), dni comme
B
k
(i
k
) =
N

i
k+1
=1
p
i
k
i
k+1
b
i
k+1
j
k+1
. . .
N

i
K
=1
p
i
K1
i
K
b
i
K
j
K
,
il existe une relation de rcurrence
B
k
(i
k
) =
N

i
k+1
=1
p
i
k
i
k+1
b
i
k+1
j
k+1
B
k+1
(i
k+1
),
valide pour k = 0, 1, . . . , K 2. Finalement,
P(o
j
0
, o
j
1
, . . . , o
j
K
) =
N

i
0
=1

i
0
b
i
0
j
0
B
0
(i
0
).
La rcurrence dnie ci-dessus implique de stocker des tableaux de taille N et des opra-
tions de sommation sur un index.
7.3 Algorithme forward
Une autre possibilit consiste partir de la premire somme de lexpression 59. En
dnissant
F
k
(i
k
) =
N

i
0
=1

i
0
b
i
0
j
0
. . .
N

i
k1
=1
p
i
k2
i
k1
b
i
k1
j
k1
p
i
k1
i
k
,
on constate que F
k
(i
k
), k = 1, . . . , K1 peut tre calcul en utilisant la rcursion suivante :
F
k+1
(i
k+1
) =
N

i
k
=1
F
k
(i
k
)b
i
k
j
k
p
i
k
i
k+1
.
prsent, P(o
j
0
, o
j
1
, . . . , o
j
K
) est donn par
P(o
j
0
, o
j
1
, . . . , o
j
K
) =
N

i
k
=1
F
K
(i
K
)b
i
K
j
K
.
Comme pour lalgorithme backward , cet algorithme ncessite le stockage de tableaux
de dimension N et des sommations sur un index.
50
7.4 Algorithme de Viterbi
Lalgorithme de Viterbi permet de rsoudre le problme suivant : tant donne une s-
quence de symboles o
j
0
, o
j
1
, . . . , o
j
K
, trouver la squence la plus probable pour les tats
i
0
, i
1
, . . . , i
K
. En dautres termes, on cherche calculer la squence des tats qui maximise
la probabilit conditionnelle
P(i
0
, i
1
, . . . , i
K
| o
j
0
, o
j
1
, . . . , o
j
K
) =
P(i
0
, o
j
0
, i
1
, o
j
1
, . . . , i
K
, o
j
K
)
P(o
j
0
, o
j
1
, . . . , o
j
K
)
.
Puisque P(o
j
0
, o
j
1
, . . . , o
j
K
) nest quun facteur de normalisation dans ce cas, maximiser la
probabilit conditionnelle revient maximiser la probabilit conjointe 58 sur lensemble
des squences des tats i
0
, i
1
, . . . , i
K
. En prenant le logarithme (naturel) de chaque membre
de 58 et en dnissant
L(i
0
, i
1
, . . . , i
K
) = ln P(i
0
, o
j
0
, i
1
, o
j
1
, . . . , i
K
, o
j
K
),
on obtient
L(i
0
, i
1
, . . . , i
K
) = ln
0
+
K1

k=0
(ln b
i
k
j
k
+ ln p
i
k
i
k+1
)
et le problme de maximisation devient
max
i
0
,i
1
,...,i
K
L(i
0
, i
1
, . . . , i
K
).
Ce problme de maximisation peut tre rsolu en utilisant les techniques de program-
mation dynamique puisque les dcisions devant tre prises chaque tape intervienne
squentiellement et il est possible de dnir des scores partiels pour chaque tape de ce
processus, plus prcisment
L
0
(i
0
, i
1
, . . . , i
K
) = L(i
0
, i
1
, . . . , i
K
) = ln
0
+
K1

k=0
(ln b
i
k
j
k
+ ln p
i
k
i
k+1
)
et
L
m
(i
m
, i
m+1
, . . . , i
K
) =
K1

k=m
(ln b
i
k
j
k
+ ln p
i
k
i
k+1
).
partir de ces deux expressions, on peut driver une quation de Bellman pour la mise
jour des matrices des scores partiels oprimaux,

L
K1
(i
K1
) = max
i
K
(ln b
i
K1
j
K1
+ ln p
i
K1
i
K
)
et

L
m
(i
m
) = max
i
m+1
_
ln b
i
m
j
m
+ ln p
i
m
i
m+1
+

L
m+1
(i
m+1
)
_
.
51
En rsolvant la rcursion de Bellman ci-dessus, on peut calculer la solution ce problme
de maximisation.
7.5 Algorithme de BaumWelch
Un autre problme souvent rencontr dans le domaine des CMC consiste en lestimation
des probabilits de transition dune CM, lorsque lon connat une squence de symboles
o
j
0
, o
j
1
, . . . , o
j
K
. La solution par maximum de vraisemblance consiste maximiser la pro-
babilit donne en 59 sur les entres p
ij
de la matrice des probabilits de transition de
la CM considre. Cependant, comme il sagit dun problme doptimisation de grande
dimension, il est ncessaire dadopter une approche spcique. Lune de ces approches
consiste utiliser lalgorithme de BaumWelch qui repose sur lide des itrations EM
prsentes plus haut (section 3). Les paramtres estimer sont les probabilits initiales
des tats,
i
, et les probabilits de transition, p
ij
. Les variables observes sont les symboles
o
j
0
, o
j
1
, . . . , o
j
K
. Les variables caches sont les tats i
0
, i
1
, . . . , i
K
. Avec ces hypothses et en
notant le vecteur incluant lensemble des paramtres estims p, on peut spcier Q(p, p
old
)
dni en 28 comme suit :
Q(p, p
old
) =
N

i
0
=1
. . .
N

i
K
=1
_
ln
i
0
+
K1

k=0
_
ln b
i
k
j
k
+ ln p
i
k
i
k+1
_
_

old
i
0
b
i
0
j
0
p
old
i
0
i
1
b
i
1
j
1
. . . p
old
i
K1
i
K
b
i
K
j
K
.
Lexpression ci-dessus constitue ltape E. Ltape M consiste en la maximisation de
Q(p, p
old
) sur les paramtres
i
, p
ij
, i, j = 1, . . . , N. Ce faisant, on nglige bien sr quelques
dtails de calcul. Le lecteur intress pourra se rfrer (Koski and Koskinen, 2001).
8 Exercices
Les exercices qui suivent sont tirs de (Hrdle and Hlvka, 2007). Certains dpassent
le cadre des notions voques dans ce document, en particulier en ce qui concerne les
applications du modle linaire. Les solutions aux exercices proposes sont disponibles
sur le site hbergeant le prsent doucument.
It is well known that for two normal random variables, zero covariance implies indepen-
dence. Why does this not apply to the following situation : X N(0, 1), Cov(X, X
2
) =
EX
3
EXEX
2
= 0 0 = 0 but obviously X
2
is totally independent on X ?
Trouver les valeurs et

qui minimisent la somme des carrs
n

i=1
(y
i
x
i
)
2
.
Soit X

= HXD
1/2
, avec X une matrice (n p), H une matrice de centrage et
D
1/2
= diag(s
1/2
11
, . . . , s
1/2
pp
). Montrer que X

est une matrice standardise, o x

=
0
p
et S
X

= R
X
, la matrice de corrlation de X.
52
Un modle linaire peut sexprimer sous la forme
Y = X +,
o X est de plein rang et symbolise les erreurs alatoires. Montrer que la solution
des moindres carrs

= arg min

(Y X)
T
(Y X) = arg min

T
,
peut sexprimer sous la forme

= (X
T
X)
1
X
T
Y . (voir aussi exercice 8)
Supposons un vecteur alatoire Y de distribution Y N
p
(0, I). Le transformer pour
crer le vecteur X N(, ) avec = (3, 2)
T
et =
_
1 1.5
1.5 4
_
. Comment
peut-on implmenter la formule rsultante sur un ordinateur ?
Montrer que si X N
p
(0, ), alors la variable U = (X )
T

1
(X ) suit une loi

2
p
.
Supposons que X soit de moyenne nulle et de covariance =
_
1 0
0 2
_
. Soit Y =
X
1
+X
2
. crire Y comme une transformation linaire, cest--dire trouver la matrice
de transformation A. Calculer ensuite V(Y ).
Calculer la moyenne et la variance de lestimateur

= (X
T
X)
1
X
T
Y dans le modle
linaire Y = X +, o E() = 0
n
et V() =
2
I
n
.
Calculer les moments conditionnels E(X
2
| x
1
) et E(X
1
| x
2
) pour la fonction de
densit bi-dimensionnelle suivante :
f(x
1
, x
2
) =
_
1
2
x
1
+
3
2
x
2
0 x
1
, x
2
1
0 sinon
Montrer que E(X
2
) = E{E(X
2
| X
1
)}, o E(X
2
| X
1
) dsigne lesprance conditionnelle
de X
2
connaissant X
1
.
Trouver la fonction de densit de probabilit associe au vecteur alatoire Y = AX o
A =
_
1 1
1 1
_
, sachant que X possde la fonction de densit dnie lexercice 9.
Montrer que la fonction
f
Y
(y) =
_
1
2
y
1
+
1
4
y
2
0 y
1
2, |y
2
| 1 |1 y
1
|
0 sinon
est bien une densit de probabilit.
Dterminer la distribution du vecteur alatoire Y = AX avec A =
_
1 1
1 1
_
, o
X = (X
1
, X
2
)
T
possde une distribution bi-normale.
53
Bibliographie
Billingsley, P. (1995). Probability and Measure. Wiley.
Feller, W. (1968). An Introduction to Probability Theory and its Applications, volume 1
and 2. Wiley.
Fisz, M. (1963). Probability Theory and Mathematical Statistics. Wiley.
Johnson, N. L., Kotz, S. and Balakrishnan, N. (1994). Continuous Univariate Distribu-
tions. Wiley.
Kendall, M. G., Stuart, A., Ord, J. K., Arnold, S. and OHagan, A. et al. (1991, 1999,
2004). Kendalls Advanced Theory of Statistics, volume 1, 2A, 2B. Oxford University
Press.
Ditkin, V. A. and Prudnikov, A. P. (1965). Integral Transforms and Operational Calculus.
Pergamon Press.
Wilf, H. S. (1990). Generating Functionology. Academic Press.
Kingman, J. F. C. (1993). Poisson Processes. Oxford University Press.
Hanson, K. M. and Wolf, D. R. (1996). In Heidbreder, G. R., editor, Maximum Entropy
and Bayesian Methods, chapter Estimators for the Cauchy distribution, pages 255-
263. Kluwer.
Dempster, A. P., Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood from in-
complete data via the em algorithm (with discussion). J. R. Statist. Soc., Ser. B,
39:1-38. http://www.aliquote.org/pub/EM.pdf.
McLachan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extensions. Wiley.
Cox, D. R. and Oakes, D. (1984). Analysis of Survival Data. Chapman and Hall, London.
McLachan, G. J. and Peel, W. (2000). Finite Mixture Distributions. Wiley.
Iosifescu, M. (1980). Finite Markov Processes and Their Applications. Wiley.
Gikhman, I. I. and Skorokhod, A. V. (1996). Introduction to the Theory of Random Pro-
cesses. Dover.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N. and Teller, A. H. (1953). Equations
of state calculations by fast computing machines. J. Chem. Phys., 21:1087-1092. http
://www.aliquote.org/pub/metropolis-et-al-1953.pdf.
Hastings, W. K. (1970). Monte carlo sampling method using markoc chains and their
applications. Biometrica, 57:1317-1340. http://www.aliquote.org/pub/Hastings1970
.pdf.
Kirkpatrick, S., Gelatt, C. D. and Vecchi, M. P. (1983). Optimization by simulated an-
nealing. Science, 220:671-680. http://www.aliquote.org/pub/kirkpatrick83SA.pdf.
Madigan, D. and York, J. (1995). Bayesian graphical models for discrete data. Internat.
Statist. Rev., 63:215-232. http://www.aliquote.org/pub/10.1.1.9.1911.pdf.
Durbin, R., Eddy, S. R., Krogh, A. and Mitchison, G. (1999). Biological Sequence Analy-
sis : Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press.
Rabiner, L. R. (1989). A tutorial on hidden markov models and selected applications
in speech recognition. Proc IEEE, 77:257-286. http://www.aliquote.org/pub/rabiner
.pdf.
Koski, T. and Koskinen, T. (2001). Hidden Markov Models for Bioinformatics. Kluwer
Academic.
54
Hrdle, W. and Hlvka, Z. (2007). Multivariate Statistics : Exercices and Solutions.
Springer.