Académique Documents
Professionnel Documents
Culture Documents
Cours
Cours
Introduction
au Filtrage en Temps Discret
Filtre de Kalman
Filtrage Particulaire
Modèles de Markov Cachés
François LeGland
IRISA / INRIA
2005–06
Table des matières
1 Introduction 1
1.1 Importance de l’information a priori . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Prise en compte de l’information a priori . . . . . . . . . . . . . . . . . . . 8
i
7 Equations forward / backward de Baum 43
7.1 Equation forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.2 Equation backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8 Algorithme de Viterbi 53
A Rappels de probabilités 59
Chapitre 1
Introduction
Yn = h(Xn ) + Vn ,
où Vn est un bruit, qui modélise l’erreur d’observation. Pour aller plus loin, il est nécessaire
de définir plus précisément la notion de bruit. On trouvera à l’Annexe A les rappels de
probabilités dont on aura besoin dans ce cours.
1
2 Master Recherche STI 05/06
À partir des quatre mesures de distance, la position du véhicule est déterminé de façon
unique (pourvu que les quatre transpondeurs ne soient pas situés dans un même plan)
par l’intersection de quatre sphères, centrées chacune à la position d’un transpondeur
différent, et de rayon égal à la distance entre le véhicule et ce transpondeur.
Dans la pratique, ces mesures de distance sont entachées d’erreur, et il peut se produire
que le problème d’intersection n’ait pas de solution. Il peut aussi arriver qu’un ou plusieurs
des transpondeurs soit défaillant, c’est–à–dire ne fournisse pas de mesure pendant quelque
temps, voire de façon définitive, ce qui rend la triangulation impossible. Enfin il peut
arriver que les mesures de distance fournies par les transpondeurs ne puissent pas être
considérées comme synchrones, c’est–à–dire que les distances mesurées entre le véhicule et
une paire de transpondeurs correspondent à deux dates légèrement différentes : le véhicule
s’étant déplacé entre ces deux dates, la procédure de triangulation elle–même est entachée
d’erreur.
Ces différents problèmes (erreurs de mesure, défaillance des capteurs, asynchronisme,
etc.) sont résolus en introduisant un modèle a priori pour l’évolution du véhicule.
Filtre de Kalman et Modèles de Markov Cachés 3
Tel qu’il est formulé, le problème de l’estimation de l’état inconnu Xn à partir des
observations Y1 , Y2 , · · · , Yn est en général mal–posé. Pour s’en convaincre, considérons le
cas très simple où il n’y a pas de dynamique dans l’évolution de l’état du système, c’est–à–
dire que Xn ≡ x, pour tout n = 1, 2, · · · , et x ∈ Rm est un paramètre inconnu. On désigne
par x0 la vraie valeur du paramètre. Pour simplifier encore la discussion, on suppose que
les observations d–dimensionnelles Y1 , Y2 , · · · , Yn dépendent linéairement du paramètre.
On a donc
Yn = H x + V n ,
n n n
−1 1 X −1 0 1 X 0 −1 1
X
x
bn = H ( Yk ) = H (H x + Vk ) = x + H ( Vk ) .
n k=1 n k=1 n k=1
Sous l’hypothèse
n
1 X
Vk −→ 0 , (1.1)
n k=1
n
X
© ª
minm 1
2
|Yk − H x|2 .
x∈R
k=1
n
X n
X n
X
1
2
|Yk − H x|2 = 1
2
|Yk |2 − x∗ H ∗ ( Yk ) + n 12 x∗ H ∗ H x ,
k=1 k=1 k=1
4 Master Recherche STI 05/06
s’écrivent
n
X
H∗ Yk = n H ∗ H x
k=1
n
∗ 1 X
=⇒ H ( Yk − H x) = 0
n k=1
n
1 X
∗
=⇒ HH ( Yk − H x) = 0
n k=1
n
1 X
=⇒ Hx= Yk .
n k=1
Dans le cas précédent, où m = d et la matrice H est inversible, on obtient la solution
unique
Xn
−1 1
x
bn = H ( Yk ) .
n k=1
Dans le cas considéré ici, il y a un nombre infini de solutions, et on peut seulement
affirmer que
n
© m 1 X ª
bn ∈ x ∈ R : H x =
x Yk .
n k=1
On vérifie que
n n
1 X 0 1 X
Hx
bn = Yk = H x + Vk ,
n k=1 n k=1
et à la limite quand le nombre n d’observations tend vers l’infini, on obtient sous
l’hypothèse (1.1)
Hx bn −→ H x0 ,
c’est–à–dire qu’asymptotiquement, lorsque le bruit d’observation a été éliminé par
moyennisation, on sait seulement que le paramètre inconnu x appartient au sous–
espace affine I(x0 ) de dimension (m − d) défini par
© ª
I(x0 ) = x ∈ Rm : H x = H x0 .
L’existence d’un nombre infini de solutions possibles n’est donc pas liée à la présence
du bruit d’observation. Elle existe même en absence de bruit d’observation, c’est–
à–dire même si Vn ≡ 0, pour tout n = 1, 2, · · · .
• Pour lever l’indétermination x ∈ I(x0 ), on essaye d’utiliser des informations supplé-
mentaires sur le paramètre inconnu x, par exemple : x est proche de µ, c’est–à–dire
qu’on introduit une information a priori. On peut formaliser la prise en compte de
cette information supplémentaire en considérant le problème d’optimisation suivant
n
© X ª
minm 21 |Yk − H x|2 + 12 (x − µ)∗ Σ−1 (x − µ) ,
x∈R
k=1
Filtre de Kalman et Modèles de Markov Cachés 5
où Σ est une matrice symétrique définie positive, de dimension m. Les conditions
d’optimalité du premier ordre pour la minimisation par rapport à x ∈ Rm du critère
n
X
1
2
|Yk − H x|2 + 21 (x − µ)∗ Σ−1 (x − µ)
k=1
n
X n
X
2 ∗ ∗
= 1
2
|Yk | − x H ( Yk ) + n 12 x∗ H ∗ H x
k=1 k=1
s’écrivent
n
X
∗
H ( Yk ) + Σ−1 µ = (n H ∗ H + Σ−1 ) x
k=1
Xn
1 −1
∗ ∗ 1 1
=⇒ (H H + Σ ) x = H ( Yk ) + Σ−1 µ .
n n k=1 n
On vérifie que
1 −1 1
bn = Σ H ∗ (H Σ H ∗ +
x I) H x0 + [ I − Σ H ∗ (H Σ H ∗ + I)−1 H ] µ
n n
n
∗ 1 −1 1 X ∗
+ Σ H (H Σ H + I) ( Vk ) ,
n n k=1
bn −→ x⊥ = Σ H ∗ (H Σ H ∗ )−1 H x0 + [ I − Σ H ∗ (H Σ H ∗ )−1 H ] µ ,
x
6 Master Recherche STI 05/06
H x⊥ = H x 0 ,
PH = Σ H ∗ (H Σ H ∗ )−1 H .
PH v = Σ H ∗ (H Σ H ∗ )−1 H Σ H ∗ λ = Σ H ∗ λ = v ,
PH u = Σ H ∗ (H Σ H ∗ )−1 H u = 0 .
x⊥ − x0 = (I − PH ) (µ − x0 ) ,
x⊥
x0
I(x0 )
h h∗ Q h h∗ Q
( + Q−1 )−1 = Q − .
r r + h∗ Q h
Lemme 1.3 Soit Σ une matrice symétrique définie positive, de dimension m, et soit H
une matrice d × m, avec d ≤ m, de rang plein égal à d. Alors la matrice H Σ H ∗ est
inversible.
u∗ (H Σ H ∗ ) u = (H ∗ u)∗ Σ (H ∗ u) = 0 .
Cas général
y ∈ Rd 7−→ ψ(y) ∈ Rm .
Par abus de langage, la variable aléatoire ψ(Y ) sera également notée ψ. Pour une réalisation
particulière Y = y de l’observation (y fixé), x
b = ψ(y) est appelée une estimation de X.
b tel que
L’estimateur du minimum de variance de X sachant Y est un estimateur X(·)
b )|2 ] + 2 E[ (X(Y
E[ |X − ψ(Y )|2 ] = E[ |X − X(Y b ) − ψ(Y ))∗ (X − X(Y
b )) ]
b ) − ψ(Y )|2 ] ,
+ E[ |X(Y
et on remarque que
Z Z
= b
(X(y) b
− ψ(y))∗ (x − X(y)) pX,Y (x, y) dx dy
Rm Rd
Z Z
© ª
= b
(X(y) − ψ(y)) ∗ b
(x − X(y)) pX|Y =y (x) dx pY (y) dy = 0 ,
Rd Rm
b
par définition de X(y) (on peut aussi utiliser directement le résultat de la Proposition A.4).
On a donc
Z
2 b )| ] +
E[ |X − ψ(Y )| ] = E[ |X − X(Y 2 b
|X(y) − ψ(y)|2 pY (y) dy ,
Rd
b
et le vecteur ψ(y) qui minimise cette expression est ψ(y) = X(y) 2
10 Master Recherche STI 05/06
Cas gaussien
Dans le cas particulier des vecteurs aléatoires gaussiens, le résultat général obtenu
ci–dessus peut être précisé de la façon suivante.
et de matrice de covariance
R = QX − QXY Q−1
Y QY X .
Preuve. On donne une première démonstration, dans le cas où la matrice QZ est in-
versible. Dans ce cas, les lois des vecteurs aléatoires gaussiens Y et Z ont chacune une
densité, et par définition
1 © ª
√ √ exp − 21 (z − Z̄)∗ Q−1
Z (z − Z̄)
pX,Y (x, y) ( 2π) m+d
det QZ
pX|Y =y (x) = = © 1 ª .
pY (y) 1 ∗ −1
√ √ exp − 2 (y − Ȳ ) QY (y − Ȳ )
( 2π)d det QY
c’est–à–dire
µ ¶µ ¶µ ¶
I 0 R−1 0 I −QXY Q−1
Q−1 = Y
.
Z −Q−1 ∗
Y QXY I 0 Q−1
Y 0 I
on obtient
et
1 © ª
pX|Y =y (x) = √ √ b
exp − 21 (x − X(y)) ∗ −1 b
R (x − X(y)) ,
( 2π)m det R
ce qui montre le résultat. 2
Preuve (cas général). Dans le cas où la matrice QZ n’est pas nécessairement inver-
sible, on montre que la fonction caractéristique de la loi conditionnelle du vecteur aléatoire
X sachant Y = y est égale à
© ª
b
exp i u∗ X(y) − 21 u∗ Ru ,
12 Master Recherche STI 05/06
c’est–à–dire que la loi conditionnelle du vecteur aléatoire X sachant Y = y est une loi
gaussienne de moyenne X(y)b et de matrice de covariance R. Par définition
ΦX,Y (u, v) = E[ e i u
∗ X+i v ∗ Y
] = E[ e i v
∗Y
E[ e i u
∗X
| Y ]]
Z
= E[ e i v
∗Y
e i v y ΦX|Y =y (u) pY (y) dy ,
∗
ΦX|Y (u) ] =
Rd
Conclusion
Il est donc important de disposer d’une information a priori sur l’état inconnu X n ,
par exemple de disposer d’une équation d’état décrivant l’évolution de Xn quand n varie.
On considérera deux types de modèles :
• les systèmes linéaires gaussiens,
• les chaı̂nes de Markov à espace d’état fini,
et dans chacun de ces deux cas, il sera possible de résoudre exactement le problème de
filtrage de façon optimale, par la mise en œuvre :
• du filtre de Kalman, dans le cas des systèmes linéaires gaussiens,
• des équations forward–backward de Baum, ou de l’algorithme de Viterbi, dans le
cas des chaı̂nes de Markov à état fini.
Ces deux cas peuvent être vus comme des cas particuliers de modèles beaucoup plus
généraux :
• les chaı̂nes de Markov à espace d’état quelconque (fini, dénombrable, continu, hy-
bride, etc.),
et dans ce cas il ne sera pas possible de résoudre exactement le problème de filtrage de
façon optimale, qui s’exprime pourtant très simplement en termes de flots de Feynman–
Kac, et il faudra avoir recours à la mise en œuvre de méthodes de résolution approchées,
en l’occurrence :
• de filtres particulaires, c’est–à–dire de méthodes de Monte Carlo avec interaction.
Chapitre 2
Xk = Fk Xk−1 + fk + Gk Wk (2.1)
où {Xk } et {Wk } prennent respectivement leurs valeurs dans Rm et Rp . On fait les hy-
pothèses suivantes sur les coefficients : Fk ∈ Rm×m , fk ∈ Rm , Gk ∈ Rm×p , pour tout
k ∈ N. On suppose que
• le bruit {Wk } est un bruit blanc gaussien de covariance QWk ,
• la condition initiale X0 est gaussienne, de moyenne X̄0 et de covariance QX 0 ,
• le bruit {Wk } et la condition initiale X0 sont mutuellement indépendants.
Proposition 2.1 La sortie {Xk } du système (2.1) est un processus gaussien à valeurs
dans Rm . En particulier, Xk est gaussien, de moyenne X̄k et de matrice de covariance
QXk , avec
X̄k = Fk X̄k−1 + fk ,
∗ ∗
QX X W
k = Fk Qk−1 Fk + Gk Qk Gk .
13
14 Master Recherche STI 05/06
Preuve. Comme sortie d’un système linéaire à entrées gaussiennes, {Xk } est un proces-
sus gaussien. En effet, pour tout n ∈ N, il existe une matrice A ∈ R((n+1) m)×(m+(n+1) p) et
un vecteur b ∈ R(n+1) m tels que
X0 X0
X1 W1
.. = A .. + b .
. .
Xn Wn
X̄k = E[Xk ]
= E[Fk Xk−1 + fk + Gk Wk ]
= Fk E[Xk−1 ] + fk + Gk E[Wk ]
= Fk X̄k−1 + fk ,
∗
QX
k = E[(Xk − X̄k ) (Xk − X̄k ) ]
= E[(Fk (Xk−1 − X̄k−1 ) + Gk Wk ) (Fk (Xk−1 − X̄k−1 ) + Gk Wk )∗ ]
= Fk E[(Xk−1 − X̄k−1 ) (Xk−1 − X̄k−1 )∗ ] Fk∗ + Gk E[Wk (Xk−1 − X̄k−1 )∗ ] Fk∗
+Fk E[(Xk−1 − X̄k−1 ) Wk∗ ] G∗k + Gk E[Wk Wk∗ ] G∗k
∗ ∗
= F k QX W
k−1 Fk + Gk Qk Gk .
Dans cette dernière égalité, on a utilisé le fait que (Xk−1 − X̄k−1 ) est indépendant de Wk ,
donc E[(Xk−1 − X̄k−1 ) Wk∗ ] = 0. 2
Xk = Fk Xk−1 + fk + Gk Wk , (2.2)
Y k = H k Xk + h k + V k , (2.3)
où {Xk }, {Yk }, {Wk } et {Vk } prennent respectivement leurs valeurs dans Rm , Rd , Rp et
Rd . On fait les hypothèses du paragraphe 2.1 sur les coefficients Fk , fk , Gk , et de plus
Hk ∈ Rd×m , hk ∈ Rd , pour tout k ∈ N. On suppose que
• le bruit {Wk } est un bruit blanc gaussien de covariance QWk ,
• la condition initiale X0 est gaussienne, de moyenne X̄0 et de covariance QX 0 ,
Filtre de Kalman et Modèles de Markov Cachés 15
respectivement, avec
X̄k = Fk X̄k−1 + fk ,
∗ ∗
QXk = F k QX W
k−1 Fk + Gk Qk Gk ,
Ȳk = Hk X̄k + hk ,
∗
QYk = H k QX V
k Hk + Q k ,
∗
QXY
k = QXk Hk .
Xk = Fk Xk−1 + fk + Gk Wk , (3.1)
Y k = H k Xk + h k + V k , (3.2)
17
18 Master Recherche STI 05/06
Supposons connue la loi conditionnelle du vecteur aléatoire Xk−1 sachant Y0:k−1 . Pour
calculer la loi conditionnelle du vecteur aléatoire Xk sachant Y0:k , on procède en deux
étapes.
• Dans l’étape de prédiction, on calcule la loi conditionnelle du vecteur aléatoire X k
sachant les observations passées Y0:k−1 , ce qui est facile à partir de l’équation (3.1).
• Dans l’étape de correction, on utilise la nouvelle observation Yk . En particulier, on
considère la composante de l’observation Yk qui apporte une information nouvelle
par rapport aux observations passées Y0:k−1 , c’est–à–dire
Ik = Yk − E[Yk | Y0:k−1 ] .
b − + hk ) ,
Ik = Yk − (Hk E[Xk | Y0:k−1 ] + hk + E[Vk | Y0:k−1 ]) = Yk − (Hk X k
Lemme 3.1 Le processus {Ik } est un processus gaussien à valeurs dans Rd , appelé pro-
cessus d’innovation. En particulier, Ik est un vecteur aléatoire gaussien de dimension d,
de moyenne nulle et de matrice de covariance
indépendant de Y0:k−1 .
Filtre de Kalman et Modèles de Markov Cachés 19
Preuve. D’après la Remarque 1.8, l’observation prédite E[Yk | Y0:k−1 ] dépend de façon
affine des observations passées (Y0 , Y1 , · · · , Yk−1 ), et donc l’innovation Ik dépend de façon
affine des observations (Y0 , Y1 , · · · , Yk ). On en déduit que (I0 , I1 , · · · , In ) est un vecteur
aléatoire gaussien (comme transformation affine d’un vecteur aléatoire gaussien).
D’après l’équation (3.2)
b − + hk ) = Hk (Xk − X
Ik = Yk − (Hk X b − ) + Vk .
k k
On en déduit que
et
bk = X
X b − + hk )] ,
b − + Kk [Yk − (Hk X (3.5)
k k
−
Pk = [I − Kk Hk ] Pk , (3.6)
où la matrice
Kk = Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 ,
est appelée gain de Kalman, et avec les initialisations
b0− = X̄0 = E[X0 ] ,
X P0− = QX
0 = cov(X0 ) .
20 Master Recherche STI 05/06
Remarque 3.4 La suite {Pk } ne dépend pas des observations {Yk }, ni des coefficients
{fk } et {hk }. Elle peut donc être pré–calculée, en particulier dans le cas simple où les
coefficients {Fk }, {Gk }, {Hk }, {QW V
k } et {Qk } sont constants, c’est–à–dire où
Fk = F , Gk = G , Hk = H , QW
k = Q
W
, QVk = QV ,
pour tout k ≥ 0.
b0 et P0 en fonction de X
X b0− et P0−
b − et P − en fonction de X
X bk−1 et Pk−1
k k
b − = E[Xk | Y0:k−1 ]
X k
= Fk E[Xk−1 | Y0:k−1 ] + fk + Gk E[Wk | Y0:k−1 ]
bk−1 + fk ,
= Fk X
b − = Fk (Xk−1 − X
Xk − X bk−1 ) + Gk Wk ,
k
Filtre de Kalman et Modèles de Markov Cachés 21
de sorte que
Pk− = E[(Xk − Xb − ) (Xk − X
b − )∗ ]
k k
b bk−1 ) + Gk Wk )∗ ]
= E[(Fk (Xk−1 − Xk−1 ) + Gk Wk ) (Fk (Xk−1 − X
bk−1 ) (Xk−1 − X
= Fk E[(Xk−1 − X bk−1 )∗ ] Fk∗ + Gk E[Wk (Xk−1 − X
bk−1 )∗ ] Fk∗
+Fk E[(Xk−1 − Xbk−1 ) Wk∗ ] G∗k + Gk E[Wk Wk∗ ] G∗k
= Fk Pk−1 Fk∗ + Gk QW ∗
k Gk .
bk−1 ) est indépendant de Wk ,
Dans cette dernière égalité, on a utilisé le fait que (Xk−1 − X
donc E[(Xk−1 − X bk−1 ) W ] = 0.
∗
2
k
bk et Pk en fonction de X
X b − et P −
k k
Par différence
bk = (Xk − X
Xk − X b − ) − (X
bk − X
b −)
k k
b b
= (Xk − Xk ) − E[Xk − Xk− | Ik ] ,
−
de sorte que
bk ) (Xk − X
Pk = E[ (Xk − X b k )∗ ]
b − ) − E[Xk − X
= E[ ((Xk − X b − | Ik ]) ((Xk − X
b − ) − E[Xk − X
b − | Ik ])∗ ] .
k k k k
L’hypothèse que QVk est inversible entraı̂ne que Hk Pk− Hk∗ + QVk est inversible. D’après
la Proposition 1.6, on a immédiatement
bk = X
X b − + P − Hk∗ [Hk P − Hk∗ + QVk ]−1 Ik ,
k k k
et
Pk = Pk− − Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 Hk Pk− ,
ce qui termine la démonstration. 2
22 Master Recherche STI 05/06
où {Xk }, {Yk }, {Wk }, {Vk } prennent respectivement leurs valeurs dans Rm , Rd , Rp et
Rd , et où les fonctions fk , gk et hk sont définies sur Rm , à valeurs dans Rm , Rm×p et Rd
respectivement. On suppose que les fonctions fk et hk sont dérivables. {Wk } et {Vk } sont
des bruits blancs gaussiens (de covariances respectives QW V
k et Qk ) indépendants entre eux
et indépendants de la condition initiale X0 de (3.8).
Pour le système (3.8), (3.9), la plupart des propriétés obtenues au chapitre 2 ne sont
plus vraies. En particulier le processus solution de (3.8), (3.9) n’est pas gaussien (ni même
conditionnellement gaussien), ses moments ne peuvent pas être calculés de manière simple.
bk = X
X b − + Kk [ Yk − [h0k (x̄k ) (X b − − x̄k ) + hk (x̄k )] ] ,
k k
Pk = [I − Kk h0k (x̄k )] Pk− ,
Kk = Pk− h0k (x̄k )∗ [ h0k (x̄k ) Pk− [h0k (x̄k )]∗ + QVk ]−1 .
Filtre de Kalman et Modèles de Markov Cachés 23
b − = f k (X
X bk−1 ) ,
k
−
Pk = Fk Pk−1 Fk∗ + Gk QW ∗
k Gk ,
bk = X
X b − + Kk [Yk − hk (Xb − )] ,
k k
−
Pk = [I − Kk Hk ] Pk ,
Kk = Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 ,
4 4 4
avec Fk = fk0 (x̄k−1 ), Gk = gk (x̄k−1 ), et Hk = h0k (x̄k ), où {x̄k } est une trajectoire nominale
donnée (une suite dans Rm ).
bk−1 ) + fk0 (X
fk (x) ' fk (X bk−1 ) (x − X
bk−1 ) et bk−1 ) ,
gk (x) ' gk (X
b − , c’est–à–dire
et à linéariser la fonction hk autour de X k
b − ) + h 0 (X
hk (x) ' hk (X b − ) (x − X
b −) .
k k k k
4 4 4 4 0 4
avec Fk = fk0 (X bk−1 ), fk = bk−1 ), Gk =
f k (X bk−1 ), Hk =
gk (X b − ) et hk =
h k (X b − ). On
h k (X
k k
applique alors le filtre de Kalman–Bucy à ce nouveau système, et on obtient exactement
le résultat suivant.
24 Master Recherche STI 05/06
b − = f k (X
X bk−1 ) ,
k
Pk− = Fk Pk−1 Fk∗ + Gk QW ∗
k Gk ,
bk = X
X b − + Kk [Yk − hk (Xb − )] ,
k k
Pk = [I − Kk Hk ] Pk− ,
Kk = Pk− Hk∗ [Hk Pk− Hk∗ + QVk ]−1 ,
4 4 4 0
bk−1 ), Gk =
avec Fk = fk0 (X bk−1 ), et Hk =
gk (X b − ).
h k (X k
Remarque 3.7
• On peut s’attendre à de bons résultats avec cette technique de filtrage lorsque l’on
est proche d’une situation “linéaire” ou lorsque le rapport signal/bruit est grand.
• Pour vérifier si le filtre de Kalman étendu se comporte bien, on peut, en sortie,
tester le processus de “pseudo–innovation”
4
b −)
Ik = Y k − h k ( X k
Systèmes non–linéaires
non–gaussiens, et extensions
25
26 Master Recherche STI 05/06
pour toute fonction φ mesurable bornée définie sur Rm . Clairement, le résultat ne dépend
que de Xk−1 , c’est–à–dire que
et Z
E[ φ(Xk ) | Xk−1 = x] = φ(fk (x, w)) pW
k (dw) . 2
Rp
Qk (x, dx0 ) = pW 0
k (x − bk (x)) dx
0
c’est–à–dire que le noyau Qk (x, dx0 ) admet une densité. En effet, le changement de variable
x0 = bk (x) + w donne immédiatement
Z Z
Qk φ(x) = W
φ(bk (x) + w) pk (w) dw = φ(x0 ) pW 0 0
k (x − bk (x)) dx ,
Rm Rm
Remarque 4.3 En général, le noyau Qk (x, dx0 ) n’admet pas de densité. En effet, condi-
tionnellement à Xk−1 = x, le vecteur aléatoire Xk appartient nécessairement au sous–
ensemble
M(x) = {x0 ∈ Rm : il existe w ∈ Rp tel que x0 = fk (x, w)} ,
et dans le cas où p < m ce sous ensemble M(x) est généralement, sous certaines hypothèses
de régularité, une sous–variété différentielle de dimension p dans l’espace Rm . Il ne peut
donc pas y avoir de densité pour la loi Qk (x, dx0 ) du vecteur aléatoire Xk .
n Z
Y
= gk (hk (Xk ) + v) qkV (v) dv
k=0 Rd
n Z
Y n
Y
= gk (y) qkV (y − hk (Xk )) dy = E[gk (Yk ) | Xk ] . 2
k=0 Rd | {z } k=0
P[Yk ∈ dy | Xk ]
et de loi initiale
P[X0 ∈ dx] = η0 (dx) ,
et où les observations {Yk } vérifient l’hypothèse de canal sans mémoire, c’est–à–dire que
• conditionnellement aux états cachés X0 , · · · , Xn les observations Y0 , · · · , Yn sont
mutuellement indépendantes,
• pour tout k = 0, · · · , n, la loi conditionnelle de Yk sachant X0 , · · · , Xn ne dépend
que de Xk , avec la probabilité d’émission
P[Yk ∈ dy | Xk = x] = gk (x, y) dy ,
Ψk (x) = gk (x, Yk ) ,
respectivement.
n
Y
= P[X0 ∈ dx0 , · · · , Xn ∈ dxn ] gk (xk , yk ) dy0 · · · dyn .
k=0
En intégrant par rapport aux variables x0 , · · · , xn , on obtient la loi jointe des observations
(Y0 , · · · , Yn ), c’est–à–dire
P[Y0 ∈ dy0 , · · · , Yn ∈ dyn ]
Z Z Y
n
= ··· gk (xk , yk ) P[X0 ∈ dx0 , · · · , Xn ∈ dxn ] dy0 · · · dyn
E E k=0
n
Y
= E[ gk (Xk , yk ) ] dy0 · · · dyn .
k=0
29
30 Master Recherche STI 05/06
n
Y
= P[X0 ∈ dx0 , · · · , Xn ∈ dxn ] gk (xk , yk ) dy0 · · · dyn
k=0
n
Y
= P[X0 ∈ dx0 , · · · , Xn ∈ dxn | Y0 = y0 , · · · , Yn = yn ] E[ gk (Xk , yk ) ] dy0 · · · dyn ,
k=0
et on obtient
n
Y
gk (xk , yk ) P[X0 ∈ dx0 , · · · , Xn ∈ dxn ]
k=0
n
Y
= P[X0 ∈ dx0 , · · · , Xn ∈ dxn | Y0 = y0 , · · · , Yn = yn ] E[ gk (Xk , yk ) ] ,
k=0
pour toute suite (y0 , · · · , yn ) d’observations. Pour toute fonction test fn définie sur l’espace
produit E n+1
n
Y
E[ fn (X0 , · · · , Xn ) gk (Xk , yk ) ]
k=0
Z Z n
Y
= ··· fn (x0 , · · · , xn ) gk (xk , yk ) P[X0 ∈ dx0 , · · · , Xn ∈ dxn ]
E E k=0
Z Z
= ··· fn (x0 , · · · , xn )
E E
n
Y
P[X0 ∈ dx0 , · · · , Xn ∈ dxn | Y0 = y0 , · · · , Yn = yn ] E[ gk (Xk , yk ) ]
k=0
n
Y
= E[ fn (X0 , · · · , Xn ) | Y0 = y0 , · · · , Yn = yn ] E[ gk (Xk , yk ) ] ,
k=0
et on en déduit que
n
Y
E[fn (X0 , · · · , Xn ) gk (Xk , yk ) ]
k=0
E[fn (X0 , · · · , Xn ) | Y0 = y0 , · · · , Yn = yn ] = n .
Y
E[ gk (Xk , yk ) ]
k=0
Filtre de Kalman et Modèles de Markov Cachés 31
Comme cette identité est vérifié pour toute suite (y0 , · · · , yn ) d’observations, on a finale-
ment
Yn
E[fn (X0 , · · · , Xn ) Ψk (Xk ) ]
k=0
E[fn (X0 , · · · , Xn ) | Y0 , · · · , Yn ] = n ,
Y
E[ Ψk (Xk ) ]
k=0
où l’espérance porte seulement sur les états cachés successifs (X0 , · · · , Xn ) : les fonctions de
vraisemblance Ψ0 (x), · · · , Ψn (x) dépendent implicitement des observations (Y0 , · · · , Yn ),
mais celles–ci sont considérées comme fixées dans l’expression ci–dessus. Si la fonction
test fn (x0 , · · · , xn ) ne dépend que de xn , c’est–à–dire si fn (x0 , · · · , xn ) = φ(xn ), alors
n
Y
E[φ(Xn ) Ψk (Xk ) ]
k=0 hγn , φi
hµn , φi = E[φ(Xn ) | Y0 , · · · , Yn ] = n = ,
Y hγn , 1i
E[ Ψk (Xk ) ]
k=0
De la même manière
n−1
Y
E[φ(Xn ) Ψk (Xk ) ]
k=0 hγn− , φi
hµ−
n , φi = E[φ(Xn ) | Y0 , · · · , Yn−1 ] = = ,
n−1
Y hγn− , 1i
E[ Ψk (Xk ) ]
k=0
Théorème 5.1 (Filtre bayésien optimal) La suite {µk } vérifie l’équation récurrente
suivante
prédiction correction
µk−1 −−−−−−−−−−−→ µ−
k = µk−1 Qk −−−−−−−−−−−→ µk = Ψk · µ−
k ,
désigne l’action du noyau markovien Qk (x, dx0 ) sur la distribution de probabilité µk−1 (dx),
et où
Ψk (x0 ) µ− 0
k (dx )
(Ψk · µ− )(dx 0
) = ,
k
hµ−k , Ψk i
µn en fonction de µ−
n
On a
n
Y
hγn , φi = E[φ(Xn ) Ψk (Xk ) ]
k=0
n−1
Y
= E[φ(Xn ) Ψn (Xn ) Ψk (Xk ) ] = hγn− , Ψn φi = hΨn γn− , φi ,
k=0
pour toute fonction test φ définie sur E, où la dernière égalité exprime simplement que
Z Z
hγn− , Ψn φi = [Ψn (x) φ(x)] γn− (dx) = φ(x) [Ψn (x) γn− (dx)] = hΨn γn− , φi .
E E
et en normalisant, on obtient
où la dernière égalité est obtenue en divisant numérateur et dénominateur par la constante
de normalisation hγn− , 1i.
Filtre de Kalman et Modèles de Markov Cachés 33
µ−
n en fonction de µn−1
pour toute fonction test φ définie sur E, où la dernière égalité exprime simplement que
Z
hγn−1 , Qn φi = (Qn φ)(x) γn−1 (dx)
E
Z Z Z Z
0 0
= [ Qn (x, dx ) φ(x ) ] γn−1 (dx) = [ γn−1 (dx) Qn (x, dx0 ) ] φ(x0 )
E E E E
Z
= (γn−1 Qn )(dx0 ) φ(x0 ) = hγn−1 Qn , φi .
E
et en normalisant, on obtient
L’équation du filtre bayésien optimal a été obtenue très simplement, mais il est en
général impossible de la résoudre, sauf dans le cas particulier des systèmes linéaires gaus-
siens, où elle se ramène aux équations du filtre de Kalman–Bucy, présentées au Cha-
pitre 3. Il faut donc avoir recours à une approximation numérique, et on présente ci–
dessous une approximation de type Monte Carlo, appelée filtre particulaire, qui a connu
un développement spectaculaire au cours des dernières années, et qui est maintenant large-
ment répendu, en particulier dans les applications en localisation, navigation ou poursuite
de mobiles, aussi bien dans le domaine militaire (aéronef, sous–marin, bâtiment de sur-
face, missile, drone, etc.), que dans le domaine civil, avec des applications en robotique
mobile ou en communications sans–fil.
où les positions {ξki , i = 1, · · · , N } des particules sont des éléments de l’espace d’état
E, et où les poids {wki , i = 1, · · · , N } des particules sont des nombres compris entre 0
et 1. Cette approximation est complètement caractérisée par la donnée du système de
particules Σk = {ξki , wki , i = 1, · · · , N }, et l’algorithme est complètement décrit par le
mécanisme qui permet de construire Σk à partir de Σk−1 . On rappelle que la suite {µk }
vérifie l’équation récurrente
prédiction correction
µk−1 −−−−−−−−−−−→ µ− −−−−−−−−−−→ µk = Ψk · µ−
k = µk−1 Qk − k ,
on obtient exactement
N
X
0
(µN
k−1 Qk )(dx ) = i
wk−1 i
Qk (ξk−1 , dx0 ) ,
i=1
qui est un mélange de lois, peu pratique à manipuler, et qu’on décide de remplacer par la
loi empirique
N
1 X
µ−,N = δ i ,
k
N ξk
i=1
Filtre de Kalman et Modèles de Markov Cachés 35
En résumé, cet algorithme, appelé filtre particulaire bootstrap, peut être décrit de la
façon suivante.
Il s’agit d’une approximation numérique, très simple à mettre en œuvre puisqu’il suffit
de savoir simuler des transitions indépendantes de la chaı̂ne de Markov, et qui converge
vers le filtre optimal lorsque le nombre N de particules utilisées pour les calculs tend vers
l’infini. L’étape essentielle dans l’algorithme est l’étape de rééchantillonage, qui sélectionne
les particules ayant une forte vraisemblance, et concentre ainsi automatiquement la puis-
sance de calcul disponible dans les régions d’intérêt de l’espace d’état E.
36 Master Recherche STI 05/06
Chapitre 6
Définition 6.1 Une probabilité sur E est un vecteur ν = (νi ) de dimension N , vérifiant
X
0 ≤ νi ≤ 1 , pour tout i ∈ E, et νi = 1 .
i∈E
Une matrice markovienne sur E est une matrice π = (πi,j ) de dimension N × N , vérifiant
X
0 ≤ πi,j ≤ 1 , pour tout i, j ∈ E, et πi,j = 1 , pour tout i ∈ E.
j∈E
Il résulte de la Proposition 6.2 ci–dessous qu’une chaı̂ne de Markov {Xk } est entièrement
caractérisée par la donnée
37
38 Master Recherche STI 05/06
Proposition 6.2 Soit ν une probabilité sur E, et π une matrice markovienne sur E. La
distribution de probabilité de la chaı̂ne de Markov {Xk }, de loi initiale ν et de matrice
de transition π, est donnée par
Exemple 6.3 Supposons que les observations {Yk } soient reliées aux états {Xk } de la
façon suivante
Yk = h(Xk ) + Vk ,
où la suite {Vk } est un bruit blanc gaussien de dimension d, de moyenne nulle et de
matrice de covariance R, indépendant de la chaı̂ne de Markov {Xk }.
La fonction h définie sur E à valeurs dans Rd est caractérisée par la donnée d’une
famille h = (hi ) de N vecteurs de Rd , et on a
1 © ª
P[Yk ∈ dy | Xk = i] = √ √ exp − 21 (y − hi )∗ R−1 (y − hi ) dy .
( 2π)d det R
Définition 6.4 Une matrice markovienne sur E × O est une matrice b = (b`i ) de dimen-
sion N × M , vérifiant
Un noyau markovien sur E × Rd est une famille ψ = (ψi ) de N fonctions définies sur Rd ,
vérifiant
ψi (y) ≥ 0 , pour tout i ∈ E et tout y ∈ Rd , et
Z
ψi (y) dy = 1 , pour tout i ∈ E.
Rd
40 Master Recherche STI 05/06
= νi0 πi0 ,i1 · · · πik−1 ,ik ψi0 (y0 ) · · · ψik (yk ) dy0 · · · dyk ,
pour tout instant k, tout i0 , · · · , ik ∈ E, et tout y0 , · · · , yk ∈ Rd .
= P[Y0 = `0 , · · · , Yk = `k | X0 = i0 , · · · , Xk = ik ] P[X0 = i0 , · · · , Xk = ik ]
On désigne par M = (ν, π, b) dans le cas fini, et par M = (ν, π, ψ) dans le cas continu,
les paramètres caractéristiques du modèle.
On s’intéresse aux deux problèmes suivants :
• Evaluer le modèle M : Il s’agit de calculer efficacement la distribution de probabi-
lité de la suite d’observations (Y0 , · · · , Yn ) (ou fonction de vraisemblance) en fonc-
tion des paramètres du modèle. La réponse à ce problème est fournie par l’équation
forward de Baum.
• Estimer l’état de la chaı̂ne : Etant donnée une suite d’observations (Y0 , · · · , Yn ), il
s’agit d’estimer de façon récursive l’etat présent Xn (problème de filtrage), ou bien
d’estimer un état intermédiaire Xk pour k = 0, · · · , n (problème de lissage), ou en-
core d’estimer globalement la suite d’états (X0 , · · · , Xn ), pour un modèle donné M .
La réponse aux deux premiers problèmes est fournie par les équations forward et
backward de Baum, qui permettent de calculer la distribution de probabilité condi-
tionnelle de l’état Xk sachant les observations (Y0 , · · · , Yn ). La réponse au dernier
problème est fournie par un algorithme de programmation dynamique, l’algorithme
de Viterbi, qui permet de maximiser la distribution de probabilité conditionnelle de
la suite d’états (X0 , X1 , · · · , Xn ).
42 Master Recherche STI 05/06
Chapitre 7
pour tout `0 , · · · , `n ∈ O,
• et dans le cas continu par
pour tout y0 , · · · , yn ∈ Rd .
Preuve. On considère d’abord le cas fini. On utilise la Proposition 6.5 pour calculer la
distribution de probabilité marginale
P[Y0 = `0 , · · · , Yn = `n ] =
X
= P[X0 = i0 , · · · , Xn = in , Y0 = `0 , · · · , Yn = `n ]
i0 ,··· ,in ∈E
X
= νi0 πi0 ,i1 · · · πin−1 ,in b`i00 · · · b`inn .
i0 ,··· ,in ∈E
43
44 Master Recherche STI 05/06
pour tout i ∈ E.
B ` = diag(b`1 , · · · , b`N ) .
Remarque 7.3 Pour tout i ∈ E, la fonction bi définie sur O à valeurs dans R, est
équivalente à la donnée du vecteur bi = (b`i ) de dimension M . De même, la fonction B
définie sur O et à valeurs dans l’espace des matrices N × N diagonales, est équivalente à
la donnée de la famille B = (B ` ) de M matrices diagonales N × N .
`
= bjk+1 πi,j αki [`0 , · · · , `k ] ,
d’où le résultat. 2
pour tout `0 , · · · , `n ∈ O,
• et dans le cas continu
©X ª
P[Y0 ∈ dy0 , · · · , Yn ∈ dyn ] = αni [y0 , · · · , yn ] dy0 · · · dyn ,
i∈E
pour tout y0 , · · · , yn ∈ Rd .
Filtre de Kalman et Modèles de Markov Cachés 47
Remarque 7.7 Le calcul récursif de la variable forward pn fait seulement intervenir des
produits matrice / vecteur, et permet de calculer plus efficacement la distribution de
probabilité des observations (Y0 , · · · , Yn ). Il suffit de N (2N + 1) opérations élémentaires
(additions et multiplications) pour passer de l’instant k à l’instant (k + 1). Le nombre
total d’opérations élémentaires à effectuer est donc de l’ordre de : n N (2N + 1) + (N − 1).
Ce nombre croı̂t de façon linéaire avec le nombre n d’observations.
pour tout i ∈ E.
Remarque 7.8 Conditionnellement à {Xk = i}, la suite Xk+1 , Xk+2 , · · · est une chaı̂ne
de Markov, de loi initiale πi,• (ligne i de la matrice π) — c’est–à–dire que
et de matrice de transition π.
vk = π B(Yk+1 ) vk+1 , vn ≡ 1 ,
vk = π Ψ(Yk+1 ) vk+1 , vn ≡ 1 .
Filtre de Kalman et Modèles de Markov Cachés 49
` j
= πi,j bjk+1 βk+1 [`k+2 , · · · , `n ] ,
pour tout i, j ∈ E, et tout `k+1 , · · · , `n ∈ O. En sommant pour tout j ∈ E, on obtient
X ` j
βki [`k+1 , · · · , `n ] = πi,j bjk+1 βk+1 [`k+2 , · · · , `n ] ,
j∈E
d’où le résultat. 2
Proposition 7.10 Les équations forward et backward sont duales l’une de l’autre :
X X X
pi0 v0i = pik vki = pin ,
i∈E i∈E i∈E
d’où le résultat. 2
50 Master Recherche STI 05/06
Preuve. On considère uniquement le cas fini. Fixer l’état à l’instant k permet d’effectuer
une coupure entre le passé jusqu’à l’instant (k − 1) et le futur à partir de l’instant (k + 1),
de la façon suivante :
P[Y0 = `0 , · · · , Yn = `n , Xk = i] =
X
= P[Y0 = `0 , · · · , Yn = `n ,
i0 ,··· ,ik−1 ∈E
ik+1 ,··· ,in ∈E
X0 = i0 , · · · , Xk−1 = ik−1 , Xk = i, Xk+1 = ik+1 , · · · , Xn = in ]
X ` `
= νi0 πi0 ,i1 · · · πik−1 ,i πi,ik+1 · · · πin−1 ,in b`i00 · · · bik−1
k−1
b`i k bik+1
k+1
· · · b`inn
i0 ,··· ,ik−1 ∈E
ik+1 ,··· ,in ∈E
X ` £ X
= νi0 πi0 ,i1 · · · πik−1 ,i b`i00 · · · bik−1
k−1
b`i k
i0 ,··· ,ik−1 ∈E ik+1 ,··· ,in ∈E
` ¤
πi,ik+1 · · · πin−1 ,in bik+1
k+1
· · · b`inn
d’où le résultat. 2
qi
P[Xk = i | Y0 , · · · , Yn ] = Xk ,
qkj
j∈E
Filtre de Kalman et Modèles de Markov Cachés 51
p0 = B(Y0 ) ν - pk
vk ¾ vn ≡ 1
k=0 k=n
Algorithme de Viterbi
Il résulte des Remarques 7.6 et 7.12 que les variables forward et backward étudiées
au Chapitre 7 permettent de calculer la distribution de probabilité conditionnelle de
l’état présent Xn , ou de l’état Xk à un instant intermédiaire, sachant les observations
(Y0 , · · · , Yn ) :
pi
P[Xn = i | Y0 , · · · , Yn ] = Xn ,
pjn
j∈E
et
qi
P[Xk = i | Y0 , · · · , Yn ] = Xk ,
qkj
j∈E
(en supposant que dans chacun des cas le maximum est atteint en un point unique). Cet
estimateur est appelé estimateur local du maximum a posteriori.
Cependant, il peut arriver que la suite (X0MAP, loc , · · · , XnMAP, loc ) ainsi générée soit in-
cohérente avec le modèle, dans le sens suivant : il peut arriver que l’on obtienne XkMAP, loc =
MAP, loc
i et Xk+1 = j pour deux instants successifs, alors que πi,j = 0 pour cette même paire
53
54 Master Recherche STI 05/06
(i, j), ce qui signifie que la transition de l’état i vers l’état j est impossible pour le modèle.
Pour cette raison, on utilise plutôt un autre estimateur, appelé estimateur global du maxi-
mum a posteriori, ou simplement estimateur du maximum a posteriori, défini par
Le calcul efficace de cet estimateur est fourni par un algorithme de programmation dyna-
mique, appelé algorithme de Viterbi.
Programmation dynamique
D’après la formule de Bayes, la trajectoire qui maximise la distribution de probabilité
conditionnelle de (X0 , · · · , Xn ) sachant les observations (Y0 , · · · , Yn ) maximise également
la distribution de probabilité jointe de (X0 , · · · , Xn ) et des observations (Y0 , · · · , Yn ),
c’est–à–dire que :
• dans le cas fini
argmax P[X0 = i0 , · · · , Xn = in , Y0 = `0 , · · · , Yn = `n ] =
i0 ,··· ,in ∈E
= argmax P[X0 = i0 , · · · , Xn = in | Y0 = `0 , · · · , Yn = `n ] ,
i0 ,··· ,in ∈E
pour tout `0 , · · · , `n ∈ O,
• et dans le cas continu
pour tout y0 , · · · , yn ∈ Rd .
Pour tout instant k, on définit :
• dans le cas fini
pour tout i ∈ I.
Y0 = `0 , · · · , Yk = `k , Yk+1 = `k+1 ] =
`
= νi0 πi0 ,i1 · · · πik−1 ,i πi,j b`i00 · · · b`i k bjk+1
Y0 = `0 , · · · , Yk = `k , Yk+1 = `k+1 ] =
Y0 = `0 , · · · , Yk = `k , Yk+1 = `k+1 ]
Y0 = `0 , · · · , Yk = `k , Yk+1 = `k+1 ]
£ ¤
= bj (`k ) max πi,j δki [`0 , · · · , `k ] ,
i∈E
d’où le résultat. 2
Remarque 8.2 Parmi toutes les trajectoires qui aboutissent dans l’état j à l’instant
(k + 1), la trajectoire de plus grande probabilité est passé dans l’état
Ik (j) = argmax [πi,j Vki ] ,
i∈E
à l’instant précédent k (en supposant que le maximum est atteint en un point unique).
En outre, on a nécessairement
πIk (j),j > 0 ,
ce qui garantit que la transition de l’état Ik (j) vers l’état j est possible pour le modèle.
© ª
= max δni [y0 , · · · , yn ] dy0 · · · dyn .
i∈E
Filtre de Kalman et Modèles de Markov Cachés 57
(en supposant que le maximum est atteint en un point unique), à l’instant final. De proche
en proche, on en déduit que la trajectoire optimale est passée dans l’état
XkMAP = Ik (Xk+1
MAP
),
à l’instant k.
Vk1
π1,j
Vki
πi,j
πN,j
VkN
Rappels de probabilités
Espace de probabilités
Un triplet (Ω, F, P) est appelé espace de probabilités si
• Ω est un ensemble de réalisations,
• F est un ensemble, appelé tribu, de parties de Ω, sont appelées évènements, vérifiant
(i) Ω ∈ F.
(ii) si A ∈ F, alors Ac ∈ F (où par définition Ac = Ω \ A),
[
(iii) si An ∈ F pour tout n ∈ N, alors An ∈ F.
n∈N
59
60 Master Recherche STI 05/06
• P est une application, appelée mesure de probabilité (ou probabilité), définie sur la
tribu F et vérifiant
(iv) pour tout A ∈ F, P (A) ≥ 0,
(v) P (Ω) = 1,
(vi) si An ∈ F pour tout n ∈ N, et An ∩ Am = ∅ pour tout n 6= m, alors
[ X
P( An ) = P(An ) .
n∈N n∈N
Si F0 ⊂ F, on appelle tribu engendrée par F0 la plus petite tribu contenant tous les
éléments de F0 . Par exemple, si Ω = R et F0 désigne l’ensemble des intervalles ouverts
de R, on appelle tribu borélienne la tribu B engendrée par F0 . De même, si Ω = Rn et
F0 désigne l’ensemble des parties ouvertes de Rn , on appelle tribu borélienne la tribu Bn
engendrée par F0 .
Variables aléatoires
On appelle variable aléatoire réelle sur (Ω, F), une application X définie sur Ω, à
valeurs dans R, telle que pour tout B ∈ B
{ω : X(ω) ∈ B} ∈ F ,
{ω : X(ω) ∈ B} ∈ F ,
{ω : X(ω) ∈ B} ∈ F .
Filtre de Kalman et Modèles de Markov Cachés 61
et
4
P(X ∈ B) = P({X ∈ B}) .
On vérifie que l’application µX définie sur la tribu E par la relation
4
µX (B) = P(X ∈ B) ,
pour tout B ∈ E, est une mesure de probabilité sur (E, E), appelée loi de X (on dit
également distribution de probabilité de X).
on dit que la loi de X est absolument continue, et que pX est la densité de X (on dit
également densité de probabilité de X).
1 © (x − µ)2 ª
pX (x) = √ exp − .
2π σ 2σ 2
P(X ∈ B) = P[(X, Y ) ∈ B × Rp ]
Z Z Z
© ª
= pX,Y (x, y) dx dy = pX,Y (x, y) dy dx ,
B×Rp B Rp
P(Y ∈ B) = P[(X, Y ) ∈ Rn × B]
Z Z Z
© ª
= pX,Y (x, y) dx dy = pX,Y (x, y) dx dy .
Rn ×B B Rn
Moyenne, covariance
L’espérance mathématique (ou la moyenne) de la variable aléatoire X, notée E[X], est
définie par Z
4
E[X] = x pX (x) dx .
Rn
Si Y = g(X) est une fonction (mesurable) réelle de la variable aléatoire X, alors Y a pour
espérance Z
E[Y ] = E[g(X)] = g(x) pX (x) dx .
R
La matrice de covariance (ou simplement la variance dans le cas réel) est définie par
Z
4 ∗
cov(X) = E[(X − X̄) (X − X̄) ] = (x − X̄) (x − X̄)∗ pX (x) dx ,
Rn
1 © (x − µ)2 ª
pX (x) = √ exp − .
2π σ 2σ 2
En effet
Z
E[α X + β Y ] = (α x + β y) pX,Y (x, y) dx dy
Rn ×Rn
Z Z Z Z
© ª © ª
=α x pX,Y (x, y) dy dx + β y pX,Y (x, y) dx dy
n Rn Rn Rn
ZR Z
=α x pX (x) dx + β y pY (y) dy = α E[X] + β E[Y ] .
Rn Rn
pourvu que P(B) > 0. On montre aussi que, si A1 , · · · , An est une partition de Ω, alors
n
X
P(B) = P(B | Ai ) · P(Ai ) ,
i=1
pour tout B ∈ F.
64 Master Recherche STI 05/06
et
Z Z Z
P(X ∈ A) · P(Y ∈ B) = pX (x) dx pY (y) dy = pX (x) pY (y) dx dy .
A B A×B
Soit f (resp. g) une fonction (mesurable) réelle définie sur Rn (resp. sur Rp ). On a
Z
E[f (X) g(Y )] = f (x) g(y) pX,Y (x, y) dx dy ,
Rn ×Rp
et
Z Z
© ª© ª
E[f (X)] · E[g(Y )] = f (x) pX (x) dx g(y) pY (y) dy
Rn Rp
Z
= f (x) g(y) pX (x) pY (y) dx dy .
Rn ×Rp
Filtre de Kalman et Modèles de Markov Cachés 65
On obtient ainsi un autre critère pour vérifier l’indépendance de deux vecteurs aléatoires :
les vecteurs aléatoires X et Y , de dimension n et p respectivement, sont indépendants si
et seulement si
E[f (X) g(Y )] = E[f (X)] · E[g(Y )] ,
pour toute paire f , g de fonctions (mesurables) réelles définies sur Rn et Rp respectivement.
Conditionnement par (Y = y)
Etant donnés deux vecteurs aléatoires X et Y définis sur (Ω, F, P), de dimension n et
p respectivement, qu’apporte le fait d’observer la réalisation Y = y sur la connaissance
que l’on a de X ?
On aimerait utiliser la formule (A.1), c’est–à–dire écrire
P(X ∈ A, Y = y)
P(X ∈ A | Y = y) = ,
P(Y = y)
mais en général P(Y = y) = 0. On introduit donc la définition suivante : s’il existe une
fonction (mesurable) ψ(·) définie sur Rp telle que
Z
P(X ∈ A, Y ∈ B) = ψ(y) pY (y) dy ,
B
n p
pour tout A ∈ B , B ∈ B , on dit que ψ(y) est (une version de) la probabilité condition-
nelle de l’évènement (X ∈ A) sachant Y = y, et on note P(X ∈ A | Y = y).
quand B ↓ {y}, c’est–à–dire quand l’ensemble B décroı̂t vers le point y, ce qui justifie
intuitivement la définition donnée plus haut.
Soit φ(·) une fonction (mesurable) réelle définie sur Rn . On définit la moyenne condi-
tionnelle de la variable aléatoire réelle φ(X) sachant Y = y par
Z
E[φ(X) | Y = y] = φ(x) pX|Y =y (x) dx .
Rn
Le calcul donne
Z
E[ φ(X) 1(Y ∈ B) ] = φ(x) pX,Y (x, y) dy dx
ZRn ×BZ
© pX,Y (x, y) ª
= φ(x) dx pY (y) dy
ZB ZRn pY (y) (A.2)
© ª
= φ(x) pX|Y =y (x) dx pY (y) dy
ZB Rn
= E[φ(X) | Y = y] pY (y) dy ,
B
Preuve. Prenons ψ(·) de la forme ψ(y) = 1(y ∈ B) , où B ∈ Bp . Alors, d’après (A.2)
Z Z
b
E[ φ(Y ) ψ(Y ) ] = b
φ(y) pY (y) dy = E[φ(X) | Y = y] pY (y) dy
B B
= E[ φ(X) 1(Y ∈ B) ] = E[ φ(X) ψ(Y ) ] . 2
Filtre de Kalman et Modèles de Markov Cachés 67
Remarque A.6 La première propriété (i) exprime que lorsque X dépend explicitement
de Y , l’observation de Y permet de connaı̂tre X exactement.
La seconde propriété (ii) exprime que dans la situation opposée où les vecteurs aléatoires
X et Y sont indépendants, l’observation de Y n’apprend rien de nouveau sur φ(X). La
dernière propriété (iii) est une généralisation de (ii).
Fonction caractéristique
Soit X un vecteur aléatoire de dimension n défini sur (Ω, F, P). On appelle fonction
caractéristique de X, la transformée de Fourier de la densité pX , définie par
Z
i u∗ X
e i u x pX (x) dx ,
∗
ΦX (u) = E[ e ]=
Rn
n
pour tout u ∈ R . Grace à la formule d’inversion, la donnée de la densité pX est équiavelente
à la donnée de la fonction caractéristique ΦX .
Exemple A.8 Soit X une variable aléatoire gaussienne réelle, de moyenne µ et de va-
riance σ 2 . On vérifie que
© ª
ΦX (u) = exp i uµ − 12 σ 2 u2 .
Proposition A.9 Soit X un vecteur aléatoire de dimension n défini sur (Ω, F, P). Soit
A une application linéaire de Rn dans Rp , c’est–à–dire une matrice p × n, et soit b un
vecteur de Rp . On définit Y = A X + b, et on vérifie qu’il s’agit d’un vecteur aléatoire de
dimension p, dont la fonction caractéristique vérifie
ΦY (u) = e i u b ΦX (A∗ u) ,
∗
pour tout u ∈ Rp .
= e i u b E[ e i u AX
] = e i u b E[ e i (A u)∗ X
] = e i u b ΦX (A∗ u) ,
∗ ∗ ∗ ∗ ∗
pour tout u ∈ Rp . 2
Filtre de Kalman et Modèles de Markov Cachés 69
Preuve. Comme la variable aléatoire réelle u∗ X est gaussienne, sa loi est complètement
caractérisée par sa moyenne
E[u∗ X] = u∗ E[X] = u∗ µ ,
et sa variance
E[ (u∗ (X − µ))2 ] = E[ u∗ (X − µ)(X − µ)∗ u ] = u∗ Qu ,
qui définissent respectivement une forme linéaire et une forme quadratique symétrique
semi–définie positive sur Rn . La fonction caractéristique de la variable aléatoire gaussienne
réelle u∗ X vérifie donc, d’après le résultat donné à l’Exemple A.8
© ª
Φu∗ X (λ) = E[ e i λ u X ] = exp i λ u∗ µ − 12 λ2 u∗ Qu = ΦX (λu) ,
∗
Remarque A.11 Par définition, les composantes d’un vecteur aléatoire gaussien sont
des variables aléatoires gaussiennes. Mais un vecteur aléatoire dont les composantes sont
des variables aléatoires gaussiennes n’est pas nécessairement gaussien.
© ª
= exp i u∗ (Aµ + b) − 12 u∗ (AQA∗ )u ,
pour tout u ∈ Rp . 2
Le résultat suivant montre que deux composantes d’un vecteur aléatoire gaussien sont
indépendantes, si et seulement si ces composantes sont non–corrélées (ou orthogonales).
Proposition A.14 Soit (X, Y ) un vecteur aléatoire gaussien de dimension (n+p). Alors
X ⊥ Y si et seulement si
QX,Y = E[(X − µX ) (Y − µY )∗ ] = 0 .
© ª © ª © ª
= exp i u∗ µX − 21 u∗ QX u exp i v ∗ µY − 21 v ∗ QY v exp − u∗ QX,Y v
© ª
= ΦX (u) ΦY (v) exp − u∗ QX,Y v .
c’est–à–dire que X ⊥ Y . 2
Filtre de Kalman et Modèles de Markov Cachés 71
Le résultat suivant montre que les deux projections coı̈ncident dans le cas particulier
des vecteurs aléatoires gaussiens.
X ⊥ = E[X | Y ] .
E[X − X ⊥ ] = 0 , (A.3)
E[ (X − X ⊥ ) Y ∗ ] = 0 . (A.4)
u∗ (X − X ⊥ ) + v ∗ Y = u∗ (X − α − A Y ) + v ∗ Y = u∗ X + (v − A∗ u)∗ Y .
pour toute fonction (mesurable) réelle ψ(·) définie sur Rp . Il suffit alors d’appliquer la
Proposition A.4 pour conclure. 2