Vous êtes sur la page 1sur 274

Processus stochastiques discrets

et filtrages optimaux
© LAVOISIER, 2005
LAVOISIER
11, rue Lavoisier
75008 Paris

www.hermes-science.com
www.lavoisier.fr

ISBN 2-7462-1201-3

Tous les noms de sociétés ou de produits cités dans cet ouvrage sont utilisés à des fins
d’identification et sont des marques de leurs détenteurs respectifs.

Le Code de la propriété intellectuelle n'autorisant, aux termes de l'article L. 122-5, d'une


part, que les "copies ou reproductions strictement réservées à l'usage privé du copiste et non
destinées à une utilisation collective" et, d'autre part, que les analyses et les courtes citations
dans un but d'exemple et d'illustration, "toute représentation ou reproduction intégrale, ou
partielle, faite sans le consentement de l'auteur ou de ses ayants droit ou ayants cause, est
illicite" (article L. 122-4). Cette représentation ou reproduction, par quelque procédé que ce
soit, constituerait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du
Code de la propriété intellectuelle.
Processus
stochastiques discrets
et filtrages optimaux

Jean-Claude Bertein
Roger Ceschi
A nos familles
TABLE DES MATIÈRES

Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Chapitre 1. Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15


1.1. Définitions et propriétés générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2. Les espaces L1(dP) et L2(dP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.2.1. Définitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.2.2. Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.3. Espérance mathématique et applications. . . . . . . . . . . . . . . . . . . . . . . . 35
1.3.1. Définitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.3.2. Fonctions caractéristiques d’un vecteur aléatoire. . . . . . . . . . . . . . 45
1.4. Variables et vecteurs aléatoires du second ordre . . . . . . . . . . . . . . . . . . 50
1.5. Indépendance linéaire des vecteurs de L2(dP) . . . . . . . . . . . . . . . . . . . . 57
1.6. Espérance conditionnelle (cas des vecteurs à densité) . . . . . . . . . . . . . . 61
1.7. Exercices du chapitre 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Chapitre 2. Vecteurs gaussiens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71


2.1. Quelques rappels sur les variables aléatoires gaussiennes . . . . . . . . . . . 71
2.2. Définition et caractérisation des vecteurs gaussiens. . . . . . . . . . . . . . . . 73
2.3. Résultats relatifs à l’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.4. Transformation affine d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . 79
2.5. Existence des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.6. Exercices du chapitre 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8 Processus stochastiques et filtrages optimaux

Chapitre 3. Généralités sur les processus à temps discret . . . . . . . . . . . . . . . 99


3.1. Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.2. Processus stationnaires du deuxième ordre et mesure spectrale. . . . . . . 111
3.2.1. Densité spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3. Représentation spectrale d’un processus stationnaire
du deuxième ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.3.1. Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.3.2. Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.2.1. Processus à accroissements orthogonaux
et mesure associée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.2.2. Intégrale stochastique de Wiener . . . . . . . . . . . . . . . . . . . . 117
3.3.2.3. Représentation spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.4. Généralités sur le filtrage numérique . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.5. Exemple important : processus autorégressif . . . . . . . . . . . . . . . . . . . 131
3.6. Exercices du chapitre 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Chapitre 4. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143


4.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.2. Estimation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.3. Meilleure estimation – Espérance conditionnelle. . . . . . . . . . . . . . . . . 156
4.4. Exemple : prédiction d’un processus autorégressif AR (1) . . . . . . . . . . 164
4.5. Processus multivariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
4.6. Exercices du chapitre 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

Chapitre 5. Le filtre de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179


5.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.1.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.2. Résolution et calcul du filtre Finite Impulse Response (FIR) . . . . . . . . 181
5.3. Evaluation de l’erreur minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.4. Résolution et calcul du filtre Infinite Impulse Response (IIR) . . . . . . . . 184
5.5. Evaluation de l’erreur minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
5.6. Exercices du chapitre 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

Chapitre 6. Filtrage adaptatif : algorithme du gradient et du LMS . . . . . . 193


6.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.2. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
6.3. Représentation des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
6.4. Minimisation de la fonction coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.4.1. Calcul du coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.5. Algorithme du gradient. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
Table des matières 9

6.6. Estimation du gradient et algorithme LMS . . . . . . . . . . . . . . . . . . . . . 205


6.7. Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.8. Stabilité et convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.8.1. Convergence de l’algorithme du LMS . . . . . . . . . . . . . . . . . . . . 215
6.9. Exemple d’application de l’algorithme LMS . . . . . . . . . . . . . . . . . . . 215
6.10. Exercice du chapitre 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

Chapitre 7. Le filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225


7.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
7.2. Approche de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
7.2.1. Cas scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
7.2.2. Cas multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
7.3. Filtrage de Kalman. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.3.1. Equation d’état. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.3.2. Equation d’observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
7.3.3. Processus d’innovation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.3.4. Matrice de covariance du processus d’innovation . . . . . . . . . . . . 235
7.3.5. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
7.3.6. Equation de Riccati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
7.3.7. Algorithme et résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.3.8. Equations du filtre de Kalman dans le cas non linéaire. . . . . . . . . 247
7.4. Exercices du chapitre 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

Table des symboles et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
AVANT-PROPOS

Le filtrage optimal discret appliqué aux signaux stationnaires et non stationnaires


permet de traiter de la manière la plus efficace possible, au sens du critère choisi,
tous les problèmes que l’on peut rencontrer dans les situations d’extraction de
signaux bruités.

Il constitue la brique élémentaire nécessaire dans les domaines les plus divers :
calcul des orbites ou de guidages d’aéronefs dans le domaine aérospatial ou
aéronautique, calcul de filtres dans le domaine des télécommunications ou dans le
domaine de la commande des systèmes ou encore dans celui des traitements de
signaux sismiques, la liste est non exhaustive.

De plus, l’étude et les résultats obtenus sur des signaux discrets permet une
implémentation très facile sur calculateur.

Dans leur ouvrage, les auteurs ont eu le souci permanent de la pédagogie et ils
l’ont souvent préférée à l’érudition ; tous les préliminaires mathématiques et
probabilistes utiles à la bonne compréhension du filtrage optimal ont été traités de
façon rigoureuse. Il ne sera pas toujours nécessaire d’avoir recours à d’autres
ouvrages pour acquérir une bonne connaissance des sujets étudiés.

Grâce à cet ouvrage, le lecteur pourra non seulement comprendre le filtrage


optimal discret mais pourra de plus approfondir aisément les différents aspects de ce
large domaine.
INTRODUCTION

Cet ouvrage a pour but de présenter les bases du filtrage optimal discret d’une
manière progressive et rigoureuse.

Le caractère optimal s’entend au sens où nous choisissons toujours le critère qui


minimise la norme –L2 de l’erreur.

Le premier chapitre aborde les vecteurs aléatoires, ses principales définitions et


propriétés.

Le second chapitre traite des vecteurs gaussiens. Etant donné l’importance


pratique de cette notion, les définitions et résultats sont accompagnés de nombreux
commentaires et schémas explicatifs.

Le troisième chapitre, « Généralités sur les processus à temps discrets », est de


nature plus physique que les précédents et peut être considéré comme une
introduction au filtrage numérique. Les résultats essentiels pour la suite seront
donnés.

Le chapitre 4, « Estimation », nous apporte les briques essentielles à la


construction des filtres optimaux. Les résultats obtenus sur les projections dans les
espaces de Hilbert constituent la clef de voûte des démonstrations à venir.

Le chapitre 5 traite du filtre de Wiener, dispositif électronique bien adapté au


traitement des signaux stationnaires du second ordre. Des calculs pratiques de tels
filtres, à réponse impulsionnelle finie ou infinie, seront développés.

Le filtrage adaptatif, qui est le sujet traité au chapitre 6, peut être considéré
comme une application assez directe de la méthode du gradient déterministe ou
stochastique. Au bout du processus d’adaptation ou de convergence, nous retrouvons
le filtre de Wiener.
14 Processus stochastiques et filtrages optimaux

L’ouvrage s’achève avec l’étude du filtrage de Kalman qui permet le traitement


des signaux stationnaires ou non stationnaires ; on peut dire que de ce point de vue,
il généralise le filtre optimal de Wiener.

Chaque chapitre est ponctué par une série d’exercices corrigés et des exemples
résolus sont également fournis en utilisant le logiciel Matlab bien adapté aux
problèmes de traitement de signaux.
CHAPITRE 1

Vecteurs aléatoires

1.1. Définitions et propriétés générales

{
On rappelle que ! n = x = ( x1 ,..., xn ) }
x j ∈ ! ; j = 1 a n , l’ensemble des
x, y → x + y et ( λ ,x ) → λ x
n -uples réels peut être muni de deux lois :
!n × !n !n ! × !n !n

qui en font un espace vectoriel de dimension n.

La base implicitement considérée sur !n sera la base canonique


e1 = (1, 0,..., 0 ) ,..., en = ( 0,..., 0,1) et x ∈ ! exprimé dans cette base sera noté :
n

⎛ x1 ⎞
⎜ ⎟
x = ⎜ " ⎟ (ou xT = ( x1 ,..., xn ) ).
⎜x ⎟
⎝ n⎠

Définition d’un vecteur aléatoire réel

⎛ X1 ⎞
⎜ ⎟
On dit que le vecteur réel X = ⎜ " ⎟ lié à un phénomène physique, biologique, etc.,
⎜X ⎟
⎝ n⎠
est aléatoire si la valeur prise par ce vecteur est inconnue, tant que le phénomène ne
s’est pas réalisé.
16 Processus stochastiques et filtrages optimaux

Pour des raisons typographiques, le vecteur sera plutôt écrit X T = ( X1 ,..., X n )


ou même X = ( X1 ,..., X n ) quand aucune confusion ne sera à craindre.

Autrement dit, étant donné un vecteur aléatoire X et Β ⊂ ! n on ne sait pas si


l’assertion (appelé événement) ( X ∈ Β ) est vraie ou fausse…

!n Β

.X

Par contre, on connaît en général la « chance » pour que X ∈ Β ; celle-ci est


notée Ρ ( X ∈ B ) et est appelée probabilité de l’événement ( X ∈ Β ).

Après la réalisation du phénomène, le résultat (appelé aussi réalisation) sera noté

⎛ x1 ⎞
⎜ ⎟
x = ⎜ " ⎟ ou xT = ( x1 ,..., xn ) ou même x = ( x1 ,..., xn )
⎜x ⎟
⎝ n⎠

quand aucune confusion ne sera à craindre.

Voici maintenant la définition rigoureuse d’un vecteur aléatoire réel de


dimension n . On se donne :
– Ω = espace fondamental. C’est l’ensemble de tous les résultats possibles
(ou épreuves) ω liés à un phénomène aléatoire ;
– a = une tribu (d’événements) sur Ω . On en rappelle les axiomes :
Vecteurs aléatoires 17

1) Ω ∈ a ,
2) si Α ∈ a alors le complémentaire Ac ∈ a ,

( )
3) si Α j , j ∈ J est une famille dénombrable d’événements ∪ A j est un
j∈J

événement, c’est-à-dire ∪ Aj ∈ a ;
j∈J
n
– ! = espace des observables ;

( )
– B ! n = tribu borélienne sur ! n ; c’est la plus petite tribu sur ! n qui

contient tous les ouverts de ! n.

DÉFINITION.– On dit que X est un vecteur aléatoire réel de dimension n défini sur
(Ω , a) si X est une application ( Ω , a ) → ! n ,B ! n ( ( )) mesurable, c’est-à-dire :
∀Β ∈ B ! n( ) Χ −1 ( Β ) ∈ a.

Quand n = 1 , on parlera de variable aléatoire ou plus rapidement de v.a.

Dans la suite l’événement Χ −1 ( Β ) est noté également {ω X (ω ) ∈ B et}


même plus simplement ( X ∈ B ) .

PROPOSITION.– Pour que X soit un vecteur aléatoire réel de dimension n (c’est-à-


dire une application (Ω , a) → ( ! ,B ( ! ) )
n n
mesurable), il faut et il suffit que
chaque composante Χ j j = 1 à n soit une v.a. réelle (c’est-à-dire soit une
application ( Ω , a ) → ( R,B ( R ) ) mesurable).

DÉMONSTRATION ABRÉGÉE.– Il suffit de considérer :

Χ −1 ( Β1 × ... × Β n ) où Β1 ,..., Β n ∈ B ( R )

( )
car on montre que B ! n = B ( R ) ⊗ ... ⊗ B ( R ) est égale à la tribu engendrée par
les pavés mesurables Β1 × ... × Β n .
18 Processus stochastiques et filtrages optimaux

Or X −1 ( Β1 × ... × Β n ) = X1−1 ( Β1 ) ∩ ... ∩ X n−1 ( Β n ) ,

qui appartient à a si et seulement si chaque terme appartient à a , c’est-à-dire si


chaque X j est une v.a. réelle.

DÉFINITION.– On dit que X = X1 + iX 2 est une variable aléatoire complexe définie


sur ( Ω , a ) si les parties réelles et imaginaires X1 et X 2 sont des variables réelles,
c’est-à-dire si les variables aléatoires X1 et X 2 sont des applications
( Ω, a ) → ( !, B ( ! ) ) mesurables.

PAR EXEMPLE.– A un vecteur aléatoire réel X = ( X1 ,..., X n ) et à un n-uple réel


u = ( u1 ,..., un ) ∈ ! n , on peut associer la v.a. complexe :

i∑ u j X j
e j
= cos ∑ u j X j + i sin∑ u j X j
j j

L’étude de cette variable aléatoire sera reprise quand nous définirons les
fonctions caractéristiques.

Loi

Loi Ρ X du vecteur aléatoire X .

On suppose d’abord que la tribu a est munie d’une mesure P , c’est-à-dire


d’une application P : a → [ 0,1] vérifiant :

1) P ( Ω ) = 1

( )
2) Pour toute famille A j , j ∈ J d’événements 2 à 2 disjoints :

⎛ ⎞
P ⎜ ∪ Aj ⎟ =
⎝ j∈J ⎠
∑ P ( Aj )
j∈J
Vecteurs aléatoires 19

DÉFINITION.– On appelle loi du vecteur aléatoire X, la « mesure image PX de P


par l’application X », c’est-à-dire la mesure définie sur B ( ! n ) de la façon

suivante : ∀Β ∈ B ! ( n)

(
PX ( Β ) = ∫ dPX ( x1 ,..., xn ) = P X −1 ( B )
Β ↑
)
Définition

= P ω ( )
X (ω ) ∈ Β = P ( X ∈ Β )

Les termes 1 et 2 d’une part et les termes 3, 4 et 5 d’autre part sont des notations
différentes de la même notion mathématique.

!n
X

X
−1
(B ) ∈ a B ∈B ( ! n )

Figure 1.1. Application mesurable X

Il faut bien noter que la mesure P étant donnée sur a, PX ( Β ) est calculable

( )
pour tout Β ∈ B ! n parce que X est mesurable.

( )
L’espace ! n muni de la tribu B ! n et ensuite de la loi PX est noté :

( ! ,B ( ! ) , P )
n n
X
20 Processus stochastiques et filtrages optimaux

REMARQUE.– Sur la définition naïve et sur la définition rigoureuse : la définition


naïve des vecteurs aléatoires est évidemment beaucoup plus simple et plus intuitive
et l’on peut s’en contenter dans les applications élémentaires du calcul des
probabilités.

Par contre dans les études plus théoriques ou plus sophistiquées et notamment
dans celles faisant intervenir plusieurs vecteurs aléatoires, X , Y , Z ,... , considérer ces
derniers comme des applications définies sur le même espace ( Ω, a ) ,

(soit X,Y,Z, ... : (Ω, a ) → ( ! ,B ( ! )))


n n

se révélera souvent utile voire même indispensable.

X (ω )

ω Y (ω )

Ω !n Z (ω )

Figure 1.2. Famille d’applications mesurables

En effet, via l’espace ( Ω, a,P ) , les expressions et calculs faisant intervenir


plusieurs (ou l’ensemble) de ces vecteurs s’écrivent sans ambiguïté. Précisément, les
événements liés à X , Y , Z ,... sont des éléments A de a (et les probabilités de ces
événements sont mesurés par P ).

Donnons deux exemples :

1) soit deux vecteurs aléatoires X , Y : ( Ω, a, P ) → ! , B !( n


( )) et soit
n

( )
B et B′ ∈ B ! n . L’événement ( X ∈ B ) ∩ (Y ∈ B′ ) (par exemple) se traduit
par X −1 ( B ) ∩ Y −1 ( B ′ ) ∈ a ;

( )
2) soit 3 v.a. X , Y , Z : ( Ω, a, P ) → !, B ( ! ) et soit a ∈ !*+ .
Vecteurs aléatoires 21

Cherchons à exprimer l’événement (Z ≥ a − X −Y ).

Posons U = ( X , Y , Z ) et B = {( x, y, z ) ∈ !3 x+y+z ≥ a }
B Borélien de !3, représente le demi espace délimité par le plan ( Π ) ne
contenant pas l’origine 0 et s’appuyant sur le triangle A B C .

C (a)

0
B (a)

A(a)

Figure 1.3. Exemple de Borélien de !3

(
U est ( Ω, a ) → !3 , B !3 ( ) ) mesurable et :
U ( Z ≥ a − X − Y ) = (U ∈ B ) = U −1 ( B ) ∈ a .
REMARQUE SUR L’ESPACE ( Ω, a, P ) .– On a dit que l’on se donnait Ω et puis a
sur Ω et puis P sur a et qu’ensuite, on considérait les vecteurs X , Y , Z ,...
comme des applications mesurables :

( Ω, a, P ) → ( ! n ,B ( ! n ) )
Cette façon d’introduire les différents concepts est la plus simple à appréhender,
mais elle correspond rarement aux problèmes probabilistes réels.
22 Processus stochastiques et filtrages optimaux

En général ( Ω, a, P ) n’est pas précisé ou bien donné antérieurement à


« X , Y , Z ,... applications mesurables ». Au contraire, étant données des grandeurs
n
aléatoires physiques, biologiques… X , Y , Z ,... de ! , c’est en partant de ces
dernières que l’on introduit simultanément ( Ω, a, P ) et X , Y , Z ,... applications
mesurables définies sur ( Ω, a, P ) . ( Ω, a, P ) est un espace artificiel destiné à
servir de lien entre X , Y , Z ,...

Ce qui vient d’être exposé peut sembler bien abstrait mais heureusement les
vecteurs aléatoires généraux comme ils viennent d’être définis sont rarement utilisés
dans la pratique.

En tout cas et en ce qui nous concerne, nous n’aurons dans la suite à manipuler
que la notion beaucoup plus particulière et plus concrète de « vecteur aléatoire à
densité ».

DÉFINITION.– On dit que la loi PX du vecteur aléatoire X est à densité si il existe


une application ( ( ) ) → ( !, B ( ! ) )
f X : ! n ,B ! n mesurable positive appelée

densité de PX telle que : ∀B ∈ B ( ! n ) .

P ( X ∈ B ) = PX ( B ) = ∫ dPX ( x1 ,..., xn ) = ∫ f X ( x1 ,..., xn ) dx1 ,..., dxn


B B

VOCABULAIRE.– On écrit parfois dPX ( x1 ,..., xn ) = f X ( x1 ,..., xn ) dx1 ,..., dxn


et on dit aussi que la mesure PX admet la densité f X par rapport à la mesure de
n
Lebesgue sur ! . On dit aussi que le vecteur aléatoire X admet la densité f X .

REMARQUE.– ∫B ( )
f X ( x1 ,...xn ) dx1 ,...dxn = P X ∈ ! n = 1 .

Soit par exemple le vecteur aléatoire X = ( X1 , X 2 , X 3 ) de densité


f X ( x1 , x2 , x3 ) = K x3 1∆ ( x1 , x2 , x3 ) où ∆ est la demi-sphère définie par
x12 + x22 + x32 ≤ R 2 avec x3 ≥ 0 .
Vecteurs aléatoires 23

On obtient facilement par un passage en coordonnées sphériques :

π R4 4
1= ∫∆ Kx3 dx1 dx2 dx3 = K
4
d’où K =
π R4
.

Marginales

⎛ X1 ⎞
⎜ ⎟
Soit le vecteur aléatoire X = ⎜ " ⎟ de loi PX et de densité de probabilité
⎜X ⎟
⎝ n⎠
fX .

DÉFINITION.– La v.a. X j , j ième composante de X , s’appelle j ième marginale de


ième
X et la loi PX j de X j s’appelle loi de la j marginale.

Si on connaît PX , on sait trouver les lois PX .


j

En effet ∀B ∈ B ( ! ) .

( ) (
P X j ∈ B = P ⎡⎣( X 1 ∈ ! ) ∩ ... ∩ X j ∈ B ∩ ... ∩ ( X n ∈ ! ) ⎤⎦ = )
∫ ( )
f X x1 ,..., x j ,..., xn dx1 ...dx2 ...dxn
! ×...× B ×...× !

par le théorème de Fubini :

= ∫ dx j ∫
B ! n−1
( $)
f X x1 ,..., x j ,..., xn dx1...dxn
%&% '
sauf dx j

L’égalité ayant lieu pour tout B , on obtient :

( )
fX j xj = ∫
! n−1
( )
f X x1 ,..., x j ,..., xn dx1...dxn .
$%&% '
sauf dx j
24 Processus stochastiques et filtrages optimaux

ATTENTION.– Réciproquement, sauf dans le cas des composantes indépendantes, la


connaissance des PX ⇒/ celle de PX .
j

EXEMPLE.– Considérons :

1) Un couple gaussien Z T = ( X , Y ) de densité de probabilité :

1 ⎛ x2 + y2 ⎞
f Z ( x, y ) = exp ⎜ − ⎟.
2π ⎜ 2 ⎟⎠

On obtient les densités des marginales :

+∞ 1 ⎛ x2 ⎞
f X ( x) = ∫ −∞ f z ( x, y ) dy =

exp ⎜ −
⎜ 2

⎟ et

+∞ 1 ⎛ y2 ⎞
fY ( y ) = ∫ −∞ f z ( x, y ) dx =

exp ⎜ −
⎜ 2 ⎟

⎟.

2) Un deuxième couple aléatoire (non gaussien) W T = (U , V ) dont la densité


de probabilité fW est définie par :

fW ( u, v ) = 2 f Z ( u, v ) si uv ≥ 0 fW ( u, v ) = 0 si uv < 0 .

Calculons les marginales

+∞ +∞
fU ( u ) = ∫ −∞ fW ( u , v ) dv = ∫ −∞ 2 f Z ( u, v ) dv si u ≤ 0

+∞
= ∫ −∞ 2 f Z ( u, v ) dv si u > 0

1 ⎛ u2 ⎞
D’où facilement fU ( u ) = exp ⎜ − ⎟ .
2π ⎜ 2 ⎟
⎝ ⎠
Vecteurs aléatoires 25

1 ⎛ v2 ⎞
Et symétriquement fV ( v ) = exp ⎜ − ⎟ .
2π ⎜ 2 ⎟
⎝ ⎠

CONCLUSION.– On voit bien sur cet exemple que les densités marginales (elles sont
identiques en 1 et 2) ne déterminent pas les densités des vecteurs (elles sont
différentes en 1 et 2).

Fonction de répartition

DÉFINITION.– On appelle fonction de répartition du vecteur aléatoire


X = ( X1 ,..., X n ) l’application :
T

FX : ( x1 ,..., xn ) → FX ( x1 ,..., xn )
!n [0,1]
définie par :

FX ( x1 ,..., xn ) = P ( ( X1 ≤ x1 ) ) ∩ ... ∩ ( X n ≤ xn )

et sous forme intégrale puisque X est un vecteur à densité :

x1 xn
FX ( x1 ,..., xn ) = ∫ ( ∫ f X ( u1 ,.., un ) du1.. dun .
−∞ −∞

Quelques propriétés usuelles :


– ∀j = 1 à n l’application x j → FX ( x1 ,..., xn ) est non décroissante ;

– FX ( x1 ,..., xn ) → ∞ quand toutes les variables x j → ∞ ;

– FX ( x1 ,..., xn ) → 0 si l’une au moins des variables x j → −∞ ;

∂ n FX
– si ( x1 ,..., xn ) → f X ( x1 ,..., xn ) est continue, alors = fX .
∂ xn ...∂ x1

EXERCICE.– Déterminer la fonction de répartition du couple ( X ,Y ) de densité


f ( x, y ) = K xy sur le rectangle ∆ = [1,3] × [ 2, 4] et préciser la valeur de K .
26 Processus stochastiques et filtrages optimaux

Indépendance

DÉFINITION.– On dit qu’une famille de v.a. : X 1 , ..., X n est une famille indépendante
si ∀ J ⊂ {1, 2,..., n} et pour toute famille de B j ∈ B ( ! ) :

⎛ ⎞
(
P⎜ ∩ X j ∈ Bj ⎟ = ) ∏ (
P X j ∈ Bj )
⎝ j∈J ⎠ j∈J

Comme ! ∈ B ( ! ) , il est aisé de vérifier en égalant certains boréliens à ! , que


la définition de l’indépendance est équivalente à la suivante :

⎛ n ⎞ n
∀B j ∈ B ( ! ) : P ⎜
⎜ ∩( X j ∈ Bj ) ∏ (
⎟=

P X j ∈ Bj )
⎝ j =1 ⎠ j =1

encore équivalente à :

n
∀B j ∈ B ( ! ) P ( X ∈ B1 × ... × Bn ) = ∏ P ( X j ∈ Bj )
j =1

C’est-à-dire en introduisant les lois de probabilités :

n
∀B j ∈ B ( ! ) PX ( B1 × ... × Bn ) = ∏ PX ( Bj ) . j
j =1

REMARQUE.– Cette dernière égalité est la définition de la loi de probabilité PX

(définie sur ( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! )) est le produit (tensoriel) des lois

de probabilités PX j (définies sur B ( ! ) ).

Ce qu’on écrit symboliquement PX = PX ⊗ ... ⊗ PX n .


1

ATTENTION.– Soit X 1 ,..., X n une famille de v.a. Si cette famille est indépendante,
les v.a. sont indépendantes 2 à 2, mais la réciproque est fausse.
Vecteurs aléatoires 27

PROPOSITION.– Soit X = ( X 1 ,..., X n ) un vecteur aléatoire réel admettant la


densité de probabilité f X et les composantes X 1 , ..., X n admettant les densités
f X ,..., f X n .
1

Pour que la famille des composantes soit une famille indépendante, il faut et il suffit
que :

n
f X ( x1 ,..., xn ) = ∏ fX (x j ) .
j
j =1

DÉMONSTRATION.– Dans le cas simplifié où f X est continue :


– si ( X1 ,..., X n ) est une famille indépendante :

⎛ n ⎞ n n
FX ( x1 ,..., xn ) = P ⎜
⎜ ∩(
X j ≤ xj ) ⎟⎟ = ∏ P ( X j ≤ x j ) = ∏ FX j ( x j )
⎝ j =1 ⎠ j =1 j =1

en dérivant les deux membres extrêmes :

∂ n FX ( x1 ,..., xn ) n
( )
∂FX j x j n
f X ( x1 ,..., xn ) =
∂xn ...∂x1
= ∏ ∂x j
= ∏
fX j x j ; ( )
j =1 j =1
n
– réciproquement si f X ( x1 ,..., xn ) = ∏ fX (x j ) : j
j =1
soit B j ∈ B ( ! ) pour j = 1 à n :

⎛ n ⎞ ⎛ n ⎞
(
P⎜ ∩ X j ∈ Bj ⎟ = P⎜ X ∈

) Bj ⎟ =
⎟ ∏ ∫ ∏n B j f X ( x1,..., xn ) dx1... dxn
⎝ j =1 ⎠ ⎝ J =1 ⎠ j =1
n n n
= n
∏ j ( x j ) dx j = ∏ ∫ B j f X j ( x j ) dx j = ∏ P ( X j ∈ B j )
∫ ∏ B j j =1 fX
j =1 j =1
j =1
28 Processus stochastiques et filtrages optimaux

n
REMARQUE.– L’égalité f X ( x1 ,..., xn ) = ∏ f X j ( x j ) est la définition de la fonction
j =1

de n variables f X est le produit tensoriel des fonctions d’une variable f X . On écrit


j

symboliquement f X = f X ⊗ ... ⊗ f X n . (A ne pas confondre avec le produit


1
ordinaire : f = f1 f 2 i(i f n défini par : f ( x ) = f1 ( x ) f 2 ( x )i(i f n ( x ) ).

EXEMPLE.– Soit le couple aléatoire X = ( X 1 , X 2 ) de densité :

1 ⎛ x 2 + x22 ⎞
exp ⎜ − 1 ⎟.
2π ⎜ 2 ⎟
⎝ ⎠

1 ⎛ x 2 + x22 ⎞ 1 ⎛ x2 ⎞ 1 ⎛ x22 ⎞
Comme exp ⎜ − 1 ⎟= exp ⎜ − ⎟ ⎜− ⎟
2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠

1 ⎛ x2 ⎞ 1 ⎛ x2 ⎞
et comme exp ⎜ − 1 ⎟ et exp ⎜ − 2 ⎟ sont les densités de X 1 et de X 2 ,
2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟
⎝ ⎠ ⎝ ⎠
ces deux composantes X 1 et X 2 sont indépendantes.

DÉFINITION.– On dit que deux vecteurs aléatoires :

X = ( X 1 ,..., X n ) et Y= (Y1 ,..., Yp )

sont indépendants si :

( )
∀B ∈ B ! n et B ' ∈ B ! p ( )
P ( ( X ∈ B ) ∩ (Y ∈ B ' ) ) = P ( X ∈ B ) P (Y ∈ B ' )

Somme de variables aléatoires indépendantes

REMARQUE.– On est souvent amené à calculer la probabilité P pour qu’une


fonction de n v.a. données X 1 ,..., X n vérifie une certaine inégalité. Notons
rapidement P (Inégalité) cette probabilité. Supposons que le vecteur aléatoire
Vecteurs aléatoires 29

X = ( X 1 ,..., X n ) possède une densité de probabilité f X ( x1 ,..., xn ). La


méthode pour obtenir P (Inégalité) consiste à déterminer B ∈ B ! ( n ) vérifiant
( X1,..., X n ) ∈ B .
On a alors : P (Inégalité) = ∫ B f X ( x1,..., xn ) dx1... dxn .
EXEMPLES.–

1) P ( X 1 + X 2 ≤ z ) = P ( ( X1, X 2 ) ∈ B ) = ∫ B f X ( x1, x2 ) dx1 dx2


où B = {( x, y ) ∈ ! 2
x+ y ≤ z }
y

0
z x

2) P ( X 1 + X 2 ≤ a − X 3 ) = P ( ( X1 , X 2 , X 3 ) ∈ B )
= ∫ f X ( x1 , x2 , x3 ) dx1 dx2 dx3
B

0 x
y
B
A
30 Processus stochastiques et filtrages optimaux

1
B est le espace contenant l’origine 0 et limité par le plan s’appuyant sur le
2
triangle A B C et d’équation x + y + z = a .

(
3) P Max ( X1 + X 2 ) ≤ z ) = P ( ( X1, X 2 ) ∈ B )
= ∫ f X ( x1 , x2 ) dx1 dx2
B

où B est le domaine non hachuré ci-contre.

z
0
x
z

En partant de l’exemple 1) nous allons montrer la :

PROPOSITION.– Soit X et Y deux v.a. réelles indépendantes de densités de


probabilités respectives f X et fY .

La v.a. Z = X + Y admet une densité de probabilité f Z définie par :

+∞
f Z ( z ) = ( f X ∗ fY )( z ) = ∫ f X ( x ) fY ( z − x ) dx .
−∞

DÉMONSTRATION.– Partons de la fonction de répartition de Z.

FZ ( z ) = P ( Z ≤ z ) = P ( X + Y ≤ z ) = P ( ( X , Y ) ∈ B )
(où B est défini dans l'exemple 1) ci-avant)

= ∫ f ( x, y ) dx dy = (Indépendance) ∫ f X ( x ) fY ( y ) dx dy
B B
Vecteurs aléatoires 31

z x+ y = z

z−x
0
x
x z

+∞ z−x
=∫ f X ( x ) dx ∫ fY ( y ) dy.
−∞ −∞

En posant y = u − x :

+∞ z z +∞
=∫ f X ( x ) dx ∫ fY ( u − x ) du = ∫ du ∫ f X ( x ) fY ( u − x ) dx.
−∞ −∞ −∞ −∞

+∞
L’application u → ∫ −∞ f X ( x ) fY ( u − x ) dx étant continue, FZ ( z ) en est
une primitive et :

+∞
FZ′ ( z ) = f Z ( z ) = ∫ f X ( x ) fY ( z − x ) dx .
−∞

+
REMARQUE.– Si (par exemple) f X et fY sont à support sur ! , c’est-à-dire si

f X ( x ) = f X ( x )1 [0,∞[ ( x ) et fY ( y ) = fY ( y ) 1 [0,∞[( y )

on a facilement :

z
f Z ( z ) = ∫ f X ( x ) fY ( z − x ) dx .
0

EXEMPLE.– X et Y sont deux v.a. exponentielles de paramètre λ et


indépendantes.
32 Processus stochastiques et filtrages optimaux

Posons Z = X + Y :

Pour z ≤ 0 fZ ( z ) = 0 .

Pour z ≥ 0

+∞
f X ( x ) fY ( z − x ) dx = ∫ λ e ( ) dx = λ 2 ze− λ z
z
fZ ( z ) = ∫
−λ z − x
−∞ 0

et f Z ( z ) = λ z e 1[0,∞[ ( z ) .
2 −λ z

1.2. Les espaces L ( dP ) et L ( dP )


1 2

1.2.1. Définitions

La famille des v.a. X : ω → X (ω )

( Ω, a,P ) ( !, B ( ! ) )

forme un espace vectoriel sur ! , noté ε.


Deux sous-espaces vectoriels de ε jouent un rôle particulièrement important ;
nous les définissons.

Les définitions seraient en fait l’aboutissement de la construction de l’intégrale


de Lebesgue des applications mesurables, mais cette construction ne sera pas donnée
ici… et on pourra sans inconvénient s’en passer dans la suite.

DÉFINITION.– On dit que deux variables aléatoires X et X ′ définies sur ( Ω, a )


sont égales presque sûrement et on écrit X = X ′ p.s. si X = X ' sauf
éventuellement sur un événement N ( N élément de a ) de probabilité nulle
( c'est-à-dire N ∈ a et P ( N ) = 0 ) .
On note :
– X+ = {classe (d’équivalence) des v.a. X ′ égales presque sûrement à X } ;
– O+ = {classe (d’équivalence) des v.a. égales presque sûrement à 0 }.
Vecteurs aléatoires 33

Nous pouvons maintenant donner la :


– définition de L ( dP ) espace vectoriel de variables aléatoires du premier
1

ordre ;
– et celle de L ( dP ) espace vectoriel de variables aléatoires du second
2

ordre :

{
L1 ( dP ) = v. a. X ∫ Ω X (ω ) dP (ω ) < ∞}
L ( dP ) = {
2
v. a. X ∫Ω X (ω ) dP (ω ) < ∞ }
2

où, dans ces expressions, les v.a. sont bien définies à un événement de probabilité
nulle près, ou bien : les v.a. X sont des représentants quelconques des classes X+ ,
car, par construction les intégrales des v.a. ne sont pas modifiées si on modifie ces
dernières sur des événements de probabilités nulles.

Remarque sur l’inégalité ∫ Ω X (ω ) dP (ω ) < ∞ .

Introduisant les deux variables aléatoires positives :

X + = Sup ( X , 0 ) et X − = Sup ( − X , 0 )

+
On peut écrire X = X − X − et X = X + + X − .

Soit X ∈ L ( dP ) , on a donc :
1

∫ Ω X (ω ) dP (ω ) < ∞ ⇔ ∫ Ω X (ω ) dP (ω ) < ∞
+
et

∫ Ω X (ω ) dP (ω ) < ∞.

Donc, si X ∈ L ( dP ) , l’intégrale :
1

∫ Ω X (ω ) dP (ω ) = ∫ Ω X (ω ) dP − ∫ Ω X (ω ) dP (ω )
+ −
34 Processus stochastiques et filtrages optimaux

est définie sans ambiguïté.

REMARQUE.– L
2
( dP ) ⊂ L1 ( dP )
En effet, soit X ∈ L
2
( dP ) , d’après l’inégalité de Schwarz :

(∫ ) ≤∫
2
X (ω ) dP (ω ) X 2 (ω ) dP ∫ dP (ω ) < ∞
Ω Ω Ω
$%&% '
1

1 ⎛ 1 ⎛ x − m ⎞2 ⎞
EXEMPLE.– Soit X une v.a. gaussienne (densité exp ⎜ − ⎜ ⎟ ⎟ ).
2πσ ⎝ 2⎝ σ ⎠ ⎠

Elle appartient à L ( dP ) et à L ( dP ) .
1 2

1
soit Y une v.a. de Cauchy : (densité ).
(
π 1 + x2 )
Elle n’appartient pas à L ( dP ) et elle n’appartient donc pas à L ( dP )
1 2
non
plus.

1.2.2. Propriétés

1) L ( dP ) est un espace de Banach ; nous n’utiliserons pas cette propriété


1

dans la suite ;
2) L
2
( dP ) est un espace de Hilbert. On donne ici les propriétés sans
démonstration.

*On peut munir L


2
( dP ) du produit scalaire défini par :
∀ X , Y ∈ L2 ( dP ) < X,Y > = ∫ X (ω ) Y (ω ) dP (ω ).

Vecteurs aléatoires 35

Cette expression est bien définie car d’après l’inégalité de Schwarz :

∫Ω X (ω ) Y (ω ) dP (ω ) ≤ ∫ X 2 (ω ) dP (ω ) ∫ Y 2 (ω ) dP (ω ) < ∞
Ω Ω

et les axiomes du produit scalaire sont immédiats à vérifier.

*L
2
( dP ) est un espace vectoriel normé par :

∫ Ω X (ω ) dP (ω ) .
2
X = < X, X > =

Il est facile de vérifier que :

∀ X , Y ∈ L2 ( dP ) X +Y ≤ X + Y
∀ X ∈ L2 ( dP ) et ∀λ ∈ ! λX = λ X

En ce qui concerne le dernier axiome :


– si X = 0 ⇒ X =0;

– si X = (∫ Ω )
X 2 (ω ) dP (ω ) = 0 ⇒ X = 0 p.s. ou X+ = 0+ ( )
*L
2
( dP ) est un espace complet pour la norme . définie ci-avant. (Toute
suite de Cauchy X n converge vers une X de L
2
( dP )).

1.3. Espérance mathématique et applications

1.3.1. Définitions

On considère un vecteur aléatoire général (non nécessairement à densité) :

X = ( X1 ,..., X n ) : ( Ω, a , P ) → ( ! n , B ( ! n ) ) .
36 Processus stochastiques et filtrages optimaux

On se donne par ailleurs une application mesurable :

(
Ψ : ! n , B !n ( ) ) → ( !, B ( ! ) )
Ψ , X (notée aussi Ψ ( X ) ou Ψ ( X 1 ,..., X n )) est une application mesurable
(donc une v. a.) définie sur ( Ω, a ) .

DÉFINITION.– Sous l’hypothèse Ψ , X ∈ L1 ( dP ) , on appelle espérance


mathématique de la valeur aléatoire Ψ , X l’expression Ε ( Ψ , X ) définie par :

E (Ψ , X ) = ∫ ( Ψ , X )(ω ) dP (ω )

ou, pour rappeler que X est un vecteur :

E ( Ψ ( X 1 ,..., X 2 ) ) = ∫ Ψ ( X1 (ω ) ,..., X n (ω ) ) dP (ω ) .

REMARQUE.– Cette définition de l’espérance mathématique de Ψ , X est bien


adaptée aux problèmes généraux ou à orientation théorique ; en particulier, c’est en
utilisant celle-ci que l’on construit L
2
( dP ) l’espace de Hilbert des v.a. du
deuxième ordre.

En pratique cependant, c’est la loi PX (image de la mesure P par l’application


X ) et non P que l’on connaît. On veut donc utiliser la loi PX pour exprimer
Vecteurs aléatoires 37

E ( Ψ , X ), on dit que l’on transfert le calcul de E ( Ψ , X ) de l’espace

( Ω, a, P ) à l’espace ( !n , B ( !n ) , PX ).
Pour simplifier l’écriture dans le théorème qui suit (et comme souvent dans la
suite) ( X 1 ,..., X n ) , ( x1 ,..., xn ) et dx1...dxn seront souvent notés respectivement
X , x et dx.

Théorème de transfert

Supposons Ψ , X ∈ L ( dP ) , on a alors :
1

1) E ( Ψ , X ) = ∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x )
En particulier si PX admet une densité f X :
E (Ψ , X ) = ∫ Ψ ( x ) f X ( x ) dx et E X = ∫ x f X ( x ) dx ;
!n !

2) Ψ ∈ L ( dPX )
1

DÉMONSTRATION.–

– l’égalité du 2) est vraie si Ψ = 1B avec B ∈ B !n ( ) car

E ( Ψ , X ) = E (1B , X ) = PX ( B )
=∫ 1
!n B
( x ) dPX ( x ) = ∫ !n Ψ ( x ) dPX ( x )
– l’égalité est encore vraie si Ψ est une fonction étagée c’est-à-dire si
m

j =1
j
( )
Ψ = ∑ λ j 1B où les B j ∈ B ! n et sont disjoints 2 à 2.

On a en effet :
38 Processus stochastiques et filtrages optimaux

( )
m m
Ε ( Ψ , X ) = ∑ λ j Ε 1B , X = ∑ λ j PX ( B j )
j
j =1 j =1

m ⎛ m ⎞
= ∑λj ∫ n 1B ( x ) dPX ( x ) = ∫ !n ⎜ ∑ λ j 1B j ( x ) ⎟ dPX ( x )
!
j =1
j
⎝ j =1 ⎠
=∫ n Ψ ( x ) dPX ( x )
!

Supposons maintenant que Ψ soit une fonction mesurable positive, on sait


qu’elle est limite d’une suite croissante de fonctions étagées positives Ψ P .

On a donc ⎜

∫ Ω ( Ψ P , X )(ω ) = ∫ !n Ψ p ( x ) dPX ( x )
⎜ avec Ψ - Ψ
⎝ P

Ψ p , X est également une suite croissante positive qui converge vers Ψ , X


et en prenant les limites des deux membres quand p ↑ ∞ , on obtient d’après le
théorème de la convergence monotone :

∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x ) .
Si Ψ est une application mesurable quelconque on utilise encore la
+ −
décomposition Ψ = Ψ − Ψ et Ψ = Ψ + + Ψ − .

+ −
Il est par ailleurs clair que ( Ψ , X ) = Ψ , X et ( Ψ , X ) = Ψ , X .
+ −

Il vient :

+
E Ψ , X = E (Ψ , X ) + E (Ψ , X ) = E Ψ+ , X + E Ψ− , X .

( ) ( )
C’est-à-dire d’après ce qui précède :

=∫ Ψ + ( x ) dPX ( x ) + ∫ Ψ − ( x ) dPX ( x ) = ∫ Ψ ( x ) dPX ( x ) .


!n !n !n
Vecteurs aléatoires 39

Comme Ψ , X ∈ L ( dP ) , on en déduit que Ψ ∈ L ( dPX ) (réciproquement


1 1

si Ψ ∈ L ( dPX ) alors Ψ , X
1
∈ L1 ( dP ) ).

+ −
En particulier E ( Ψ , X ) et E ( Ψ , X ) sont finis, et

(
E ( Ψ , X ) = E Ψ+ , X − E Ψ− , X ) ( )
=∫ Ψ + ( x ) dPX ( x ) − ∫ Ψ − ( x ) dPX ( x )
!n !n

=∫ Ψ ( x ) dPX ( x )
!n

REMARQUE.– (qui prolonge la remarque précédente) : Dans certains ouvrages la


notion de « vecteur aléatoire comme application mesurable », jugée trop abstraite
n’est pas développée.

Dans ce cas l’intégrale ∫ Ψ ( x ) dPX ( x ) = ∫ !n Ψ ( x ) f X ( x ) dx (si PX

admet la densité f X ) est donnée comme définition de E ( Ψ , X ).

EXEMPLES.–

1) Soit le « vecteur aléatoire gaussien » X


T
= ( X1 , X 2 ) de densité :

⎛ 1 1 ⎞
f X ( x1 , x2 ) =
1
exp ⎜−
⎝ 2 1-ρ
2 (
x12 − 2 ρ x1 x2 + x22 ⎟ )
2π 1 − ρ 2 ⎠

où ρ ∈ ]−1,1[ et soit l’application Ψ : ( x1 , x2 ) → x1 x2 .


3

La condition :

⎛ ⎞
∫! x1 x23
1
exp ⎜ −
1
(x
2
)
− 2 ρ x1 x2 + x22 ⎟ dx1 dx2 < ∞
2π 1 − ρ 2 ⎝ (
⎜ 2 1− ρ 2 ) 1


40 Processus stochastiques et filtrages optimaux

est facilement vérifiée et :

⎛ ⎞
EX1 X 23 = ∫ x x3
1
exp ⎜ − x 2

1
2 ρ x x (+ x 2 ⎟
dx dx )
! 2 1 2
2π 1 − ρ 2 ⎜ 2 1− ρ 2 1
⎝ ( )
1 2 2
⎟ 1 2

1 1
2) Soit une variable aléatoire de Cauchy de densité f X ( x ) =
π 1 + x2

1 1
donc X ∉ L ( dP )
π ∫ ! 1 + x2
1
x dx = +∞ et EX n’est pas définie.

Considérons ensuite la transformation Ψ qui consiste à « redresser et à écrêter »


la v.a. X .

x
−K 0 K

Figure 1.4. Opération de redressement et d’écrêtage

K 1 −K K ∞ K
∫ ! Ψ ( x ) dPX ( x ) = ∫ − K x 1 + x 2 dx + ∫ −∞ 1 + x 2 dx + ∫ K 1 + x2 dx
⎛π
( ) ⎞
= ln 1 + K 2 + 2 K ⎜ − K ⎟ < ∞
⎝2 ⎠

Donc Ψ , X ∈ L ( dP ) et :
1
Vecteurs aléatoires 41

⎛π
( ) ⎞
+∞
E (Ψ , X ) = ∫ Ψ ( x ) dPX ( x ) = ln 1 + K 2 + 2 K ⎜ − K ⎟ .
−∞ ⎝2 ⎠

DÉFINITION.– Etant données np v.a. X jK ( j = 1 à p, k = 1 à n ) de L1 ( dP ) ,


⎛ X 11 … X 1n ⎞
⎜ ⎟
on définit l’espérance de la matrice ⎡⎣ X jk ⎤⎦ = ⎜ " " ⎟ par :
⎜ X p1 ( X pn ⎟
⎝ ⎠

⎛ EX 11 … EX1n ⎞
⎜ ⎟
E ⎡⎣ X jk ⎤⎦ = ⎜ " " ⎟.
⎜ EX p1 ( EX pn ⎟
⎝ ⎠
En particulier : étant donné un vecteur aléatoire :

⎛ X1 ⎞
⎜ ⎟
( )
X = ⎜ " ⎟ ou X T = ( X 1 ,..., X n ) vérifiant X j ∈ L1 ( dP ) ∀j = 1 à n
⎜X ⎟
⎝ n⎠

⎛ EX 1 ⎞
On pose E [ X ] =
⎜ ⎟
(
⎜ " ⎟ ou E ⎣ X ⎦ = ( EX1 ,..., EX n ) .
⎜ EX ⎟
⎡ T⎤ )
⎝ 2⎠

Espérance mathématique d’une v.a. complexe

DÉFINITIONS.– Etant donnée une v.a. complexe X = X 1 +i X 2 , on dit que :

X ∈ L1 ( dP ) si X1 et X 2 ∈ L1 ( dP ).

Si X ∈ L ( dP ) on définit son espérance mathématique par :


1

E ( X ) = EX 1 + i EX 2 .
42 Processus stochastiques et filtrages optimaux

Transformation des vecteurs aléatoires

On considère un vecteur aléatoire réel X = ( X 1 ,..., X n ) de densité de


probabilité f X ( x )1D ( x ) = f X ( x1 ,..., xn ) 1D ( x1 ,..., xn ) où D est un ouvert
n
de ! .

On se donne par ailleurs l’application :

α : x = ( x1 ,..., xn ) → y = α ( x ) = (α1 ( x1 ,..., xn ) ,...,α n ( x1 ,..., xn ) )


D ∆

On suppose que α 1
est un C – difféomorphisme de D sur un ouvert ∆ de
! n , c’est-à-dire que α est bijective et que α et β = α −1 sont de classe C1.

α
X Y =α (X )

D ∆

Figure 1.5. Transformation d’un vecteur aléatoire X par un C1 − difféomorphisme

Le vecteur aléatoire Y = (Y1 ,..., Yn ) = (α1 ( X1,..., X n ) ,...,α n ( X1,..., X n ) )


prend ses valeurs sur ∆ et on veut déterminer fY ( y )1∆ ( y ) sa densité de
probabilité.

PROPOSITION.–

fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y )
Vecteurs aléatoires 43

DÉMONSTRATION.–

Soit :

Ψ ∈ L1 ( dy ) E ( Ψ ( y )) = ∫ Ψ ( y ) fY ( y )1∆ ( y ) dy.
!n

Par ailleurs :

E ( Ψ ( Y ) ) = E Ψ (α ( X ) ) = ∫ Ψ (α ( x ) ) f X ( x )1D ( x ) dx.
!n

Par application du théorème du changement de variables dans les intégrales


multiples et en notant par J β ( y ) la matrice jacobienne de l’application β , il
vient :

=∫ Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) dy.
!n

Finalement, l’égalité :

∫ ! n Ψ ( y ) fY ( y )1∆ ( y ) dy
= ∫ n Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) dy
!

ayant lieu pour tout Ψ ∈ L ( dy ) , on en déduit par le lemme de Haar la formule


1

cherchée :

fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) .

EN PARTICULIER.– Soit X est une v.a. et soit l’application α : x → α ( x)


D⊂! ∆⊂!

l’égalité devient fY ( y )1∆ ( y ) = f X ( β ( y )) β ′ ( y ) 1∆ ( y ) .


44 Processus stochastiques et filtrages optimaux

EXEMPLE.– Soit le couple aléatoire Z = ( X , Y ) de densité de probabilité :

1
f Z ( x, y ) = 2 2
1D ( x, y ) où D = ]1, ∞[ × ]1, ∞[ ⊂ ! 2
x y

1
On se donne par ailleurs le C – difféomorphisme α :

défini par :

⎛ α : ( x, y ) → ( u = α1 ( x, y ) = xy , v = α 2 ( x, y ) = x y )
⎜ / $%%%%%%%
%&%%%%%%%%
'
∈D ∈∆



⎜⎜ / ($%%%%%%%%&%%%%%%%%')
β : ( u, v ) → x = β1 ( u, v ) = uv , y = β 2 ( u, v ) = u v
∈∆
⎝ ∈D

⎛ v u ⎞
1
⎜ u v ⎟ 1
J β ( u, v ) = ⎜ u⎟
⎟ et Dét J β ( u, v ) = .
2⎜ 1 − 3 2 v
⎜ uv ⎟
⎝ v 2⎠

(
Le vecteur W = U = X Y , V = X
Y ) admet donc la densité de probabilité :
Vecteurs aléatoires 45

fW ( u , v ) 1∆ ( u , v ) = f Z ( β1 ( u , v ) , β 2 ( u , v ) ) Dét J β ( u , v ) 1∆ ( u , v )
1 1 1 1
= 1∆ ( u , v ) = 1∆ ( u , v )
( ) ( )
2 2 2
uv u 2v 2u v
v

REMARQUE.– Réciproquement le vecteur W = (U , V ) de densité de probabilité


fW ( u , v ) 1∆ ( u , v ) et dont les composantes sont dépendantes est transformé par
β en vecteur Z = ( X , Y ) de densité de probabilité f Z ( x, y ) 1D ( x, y ) et dont
les composantes sont indépendantes.

1.3.2. Fonctions caractéristiques d’un vecteur aléatoire

DÉFINITION.– On appelle fonction caractéristique du vecteur aléatoire :

X T = ( X1 ... X n ) l’application ϕ X : ( u1 ,..., u2 ) → ϕ X ( u1 ,..., u2 ) définie par :


!n 0

⎛ n ⎞
ϕ X ( u1 ,..., un ) = E exp ⎜ i ∑ u j X j ⎟
⎜ j =1 ⎟
⎝ ⎠
⎛ n ⎞
= ∫ n exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,...xn ) dx1... dxn
! ⎜ j =1 ⎟
⎝ ⎠

(On a écrit la définition de E Ψ ( X 1 ,..., X n ) avec :

⎛ n ⎞
Ψ ( X 1 ,..., X n ) = exp ⎜ i ∑ u j X j ⎟
⎜ j =1 ⎟
⎝ ⎠

et on a appliqué le théorème sur l’intégration par rapport à la mesure image).

ϕX est donc la transformée de Fourier de f X (ϕ X = F ( f X ) ).


46 Processus stochastiques et filtrages optimaux

En analyse on écrirait plutôt :

⎛ n ⎞
F ( f X )( u1 ,..., un ) = ∫
!n
exp ⎜⎜ − i ∑ u j x j ⎟⎟ f X ( u1 ,..., un ) dx1... dxn .
⎝ j =1 ⎠

Quelques propriétés usuelles de la transformée de Fourier :


– ϕ X ( u1 ,...u2 ) ≤ ∫ f X ( x1 ,..., xn ) dx1... dxn = ϕ X ( 0,..., 0 ) = 1 ;
!n

– l’application ( u1 ,..., u2 ) → ϕ X ( u1 ,..., u2 ) est continue ;


!n 0
– l’application F : f X → ϕ X est injective.

Exemple très simple :

Le vecteur aléatoire X prend ses valeurs dans l’hypercube ∆ = −1,1 [ ]n et il admet


une densité de probabilité :

1
f X ( x1 ,..., xn ) = 1∆ ( x1,..., xn )
2n

(noter que les composantes X j sont indépendantes).

1
ϕ ( u1 ,..., un ) = exp i ( u1 x1 + ... + un xn ) dx1...dxn
2n ∫ ∆
n sin u
1 n +1
= n ∏ ∫ exp ( iu j x j ) dx j = ∏
j

2 j =1 −1 j =1 uj

où, dans cette dernière expression et grâce aux prolongements par continuité, on
remplace :

sin u1 sin u2
par 1 si u1 = 0 , par 1 si u2 = 0 ,...
u1 u2
Vecteurs aléatoires 47

Inversion de la transformée de Fourier

F
fX F −1 ϕX

On a, comme on le verra, de bonnes raisons (calculs simplifiés) d’étudier


certaines questions en utilisant les fonctions caractéristiques plutôt que les densités
de probabilités, mais on a souvent besoin de revenir aux densités ; le problème qui
se pose est celui de l’inversibilité de la transformée de Fourier F , étudiée dans les
cours spécialisés.

Rappelons simplement ici une condition suffisante :

PROPOSITION.– Si ∫ !n ϕ X ( u1,..., un ) du1...dun < ∞


(c’est-à-dire ϕ X ∈ L1 ( du1...dun ) ), alors F −1 existe et :

1 ⎛ n ⎞
f X ( x1 ,..., xn ) = ∫! n exp ⎜ −i
⎜ ∑ j j ⎟⎟ ϕ X
u x ( u1 ,..., un ) du1...dun
( 2π )n ⎝ j =1 ⎠

En outre l’application ( x1 ,..., xn ) → f X ( x1 ,..., xn ) est continue.

EXEMPLE.– Soit une v.a. gaussienne X ∼ Ν m, σ ( 2


).
1 ⎛ 1 ⎛ x − m ⎞2 ⎞
C’est-à-dire que f X ( x ) = exp ⎜ − ⎜ ⎟ et supposons σ ≠ 0
2πσ ⎜ 2 ⎝ σ ⎟⎠ ⎟
⎝ ⎠
⎛ uσ ⎞
2 2
on obtient ϕ X ( u ) = exp ⎜ ium − ⎟.
⎝ 2 ⎠

1 +∞
Il est clair que ϕ X ∈ L1 ( du ) et f X ( x ) = ∫ −∞ exp ( −iux ) ϕ X ( u ) du .

48 Processus stochastiques et filtrages optimaux

Propriétés et applications des fonctions caractéristiques

1) Indépendance

PROPOSITION.– Pour que les composantes X j du vecteur aléatoire

X T = ( X 1 ,..., X n ) soient indépendants, il faut et il suffit que :


n
ϕ X ( u1 ,..., un ) = ∏ ϕ X ( u j ) .
j
j =1

DÉMONSTRATION.–

Condition nécessaire :

⎛ n ⎞
ϕ X ( u1 ,..., un ) = ∫
!n
exp
⎜ ∑
⎜ i u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn .

⎝ j =1 ⎠

Grâce à l’indépendance :

⎛ n ⎞ n n
= ∫ !n
exp
⎜∑
⎜i u j xj ⎟
⎟ ∏ j ( x j ) dx1... dxn = ∏ϕ X (u j ) .
fX j

⎝ j =1 ⎠ j =1 j =1

CONDITION SUFFISANTE.– On part de l’hypothèse :

⎛ n ⎞
!n∫exp
⎜ ∑
⎜ i u j x j ⎟ f x ( x1 ,..., xn ) dx1... dxn

⎝ j =1 ⎠
⎛ n ⎞
! ∫ ⎜ ∑
= n exp ⎜ i u j x j ⎟
⎟ ∏ ( )
f X x j dx1... dxn
j
⎝ j =1 ⎠

n
D’où on déduit : f X ( x1 ,..., xn ) = ∏ f X j ( x j ) , c’est-à-dire l’indépendance,
j =1

puisque la transformation de Fourier f X F ϕX est injective.


Vecteurs aléatoires 49

REMARQUE.– On ne confondra pas ce résultat avec celui qui concerne la somme de


v.a. indépendantes et qui s’énonce de la manière suivante.

n
Si X 1 ,..., X n sont des v. a. indépendantes alors ϕ∑ X
j
(u ) = ∏ϕ X j (u )
j j =1

Soient par exemple n variables aléatoires indépendantes :

( )
X 1 ∼ Ν m1 , σ 2 ,..., X n ∼ Ν mn , σ 2 ( )
et soient n constantes réelles λ1 ,..., λn.

n
La remarque nous permet de déterminer la loi de la valeur aléatoire ∑λj X j .
j =1

En effet les v.a. λj X j sont indépendantes et :

n n n 1
iuλ j m j − u 2 λ 2j σ 2j
ϕ∑
λ X
( u ) = ∏ ϕλ j X j ( u ) = ∏ ϕ X j λ j u = ∏ e( ) 2
j j j j =1 j =1 j =1
1
iu ∑ λ j m j − u 2 ∑ λ 2j σ 2j
2
=e j j

n ⎛ ⎞
donc ∑ λ j X j ∼ Ν ⎜ ∑ λ j m j , ∑ λ 2j σ 2j ⎟ .
⎜ ⎟
j =1 ⎝ j j ⎠

2) Calcul des moments (jusqu’au 2e ordre par exemple)

Supposons ϕ X ∈ C 2 !n . ( )
En appliquant une fois le théorème de Lebesgue de dérivation sous signe somme
(dont les hypothèses sont immédiates à vérifier) il vient :
50 Processus stochastiques et filtrages optimaux

∂ϕ X
∀K = 1 à n ( 0,..., 0 )
∂u X
⎛ ⎛ ⎞ ⎞
= ⎜ ∫ n ixK exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn ⎟
⎜ ! ⎜ j ⎟ ⎟
⎝ ⎝ ⎠ ⎠( u1 = 0,...,un = 0 )
= i∫ xK f X ( x1 ,..., xn ) dx1...dxn = i E X K
!n

∂ϕ X
Soit E X K = −i ( 0, ..., 0 ) .
∂u K

En appliquant ce théorème une deuxième fois, il vient :

∂ 2ϕ X
∀ k et 2 ∈ (1, 2, ..., n ) EX K X 2 = ( 0,..., 0 ).
∂u2 ∂uK

1.4. Variables et vecteurs aléatoires du second ordre

Commençons par rappeler les définitions et propriétés usuelles relatives aux


variables aléatoires du 2e ordre.

DÉFINITIONS.– Etant donné X ∈ L2 ( dP ) de densité de probabilité fX ,


2
E X et E X ont un sens. On appelle variance de X l’expression :

Var X = E X − ( E X ) = E ( X − E X ) .
2 2 2

On appelle écart type de X l’expression σ ( X ) = Var X .

Soit maintenant deux v.a. X et Y ∈ L


2
( dP ) . En utilisant le produit scalaire
< , > sur L ( dP ) défini en 1.2. on a :
2

E X Y = < X , Y > = ∫ X (ω ) Y (ω ) dP (ω )

Vecteurs aléatoires 51

et, si le vecteur Z = ( X , Y ) admet la densité f Ζ , alors :

E XY =∫ xy f Z ( x, y ) dx dy.
!2

On a déjà constaté, en appliquant l’inégalité de Schwarz, que E X Y a bien un


sens.

DÉFINITION.– Soit deux v.a. X , Y ∈ L2 ( dP ) on appelle covariance de X et Y :

L’expression Cov ( X , Y ) = E X Y − E X E Y .

Quelques remarques ou propriétés faciles à vérifier :

Cov ( X , X ) = V ar X

Cov ( X , Y ) = Cov (Y , X )

est une constante réelle Var ( λ X ) = λ Var X ;


2
– si λ
– si X et Y sont deux v.a. indépendantes, alors Cov ( X , Y ) = 0 mais la
réciproque n’est pas vraie ;
– si X 1 ,..., X n sont des v.a. 2 à 2 indépendantes

Var ( X 1 + ... + X n ) = Var X1 + ... + Var X n

Coefficients de corrélation

(
Les Var X j (toujours positives) et les Cov X j , X K ) (de signe quelconque)
peuvent prendre des valeurs algébriques très élevées. On préfère parfois utiliser les
« coefficients de corrélation » (normalisés) :

Cov ( X j , X K )
ρ ( j, k ) =
Var X j Var X K

dont voici les propriétés :


52 Processus stochastiques et filtrages optimaux

1) ρ ( j , k ) ∈ [ −1,1]

En effet : supposons (uniquement pour simplifier l’écriture) que X j et X K


soient centrées et considérons le trinôme du 2e degré en λ.

Τ ( λ ) = E ( λ X j − X K ) = λ 2 EX 2j − 2λ E ( X j X K ) + E X K2 ≥ 0
2

Τ ( λ ) ≥ 0 ∀λ ∈ ! si et seulement si le discriminant :

( )
2
∆ = E X jXK − E X 2j E X K2

( )
2
est négatif ou nul, soit Cov X j , X K ≤ Var X j Var X K (c’est-à-dire
ρ ( j , k ) ∈ [ −1,1] ).

Ce qui est aussi l’inégalité de Schwarz.

On peut par ailleurs préciser que ρ ( j , k ) = ±1 si et seulement si ∃ λ 0 ∈ !


tel que X K = λ 0 X j p.s. : en effet en remplaçant X K par λ 0 X j dans la
définition de ρ ( j , k ) , on obtient ρ ( j , k ) = ±1 .

Réciproquement, si ρ ( j , k ) = 1 (par exemple), c’est-à-dire si :


∆ = 0 , ∃ λ 0 ∈ ! tel que X K = λ 0 X j p.s.

Si X j et X k ne sont pas centrés, on remplace dans ce qui précède X j par


X j − Ε X j et X k par X k − E X k

2) Si X j et X k sont indépendantes, E X j X k = E X j E X k donc

( )
Cov X j , X k = 0 et ρ ( j , k ) = 0

Mais la réciprocité est fausse dans le cas général comme le prouve l’exemple
suivant.
Vecteurs aléatoires 53

Soit Θ une variable aléatoire uniformément répartie sur 0 , 2 [ π [ c’est-à-dire


1
f Θ (θ ) = 1 0 , 2 π [ (θ ) .
2π [

Soit aussi deux v.a. X j = sin Θ et X k = cos Θ .

On vérifie facilement que E X j, E Xk , E X j Xk sont nuls donc

( )
Cov X j , X k et ρ ( j , k ) sont nuls. Cependant X j 2 + X k 2 = 1 et les v.a. X j
et X k sont dépendantes.

Vecteurs aléatoires du second ordre

DÉFINITION.– On dit qu’un vecteur aléatoire X


T
= ( X1 ,..., X n ) est du second
ordre si X j ∈ L
2
( dP ) ∀ j =1 à n .

DÉFINITION.– Etant donné un vecteur aléatoire du second ordre


X = ( X1 ,..., X n ) , on appelle matrice de covariance de ce vecteur, la matrice
T

symétrique :

⎛ Var X1 … Cov ( X 1 , X n ) ⎞
⎜ ⎟
ΓX = ⎜ " " ⎟
⎜ Cov ( X , X ) ( Var X ⎟
⎝ n 1 n ⎠

Si on se reporte à la définition de l’espérance d’une matrice de v.a., on voit que


l’on peut écrire Γ X = E ⎡( X − E X )( X − E X ) ⎤ .
T
⎣ ⎦

On constate aussi que Γ X −ΕX = Γ X .

REMARQUE.– Variables et vecteurs aléatoires complexes du second ordre : on dit


qu’une variable aléatoire complexe X = X 1 + i X 2 est du second ordre si X 1 et

X 2 ∈ L2 ( dP ) .
54 Processus stochastiques et filtrages optimaux

La covariance de deux variables aléatoires du second ordre et centrées


X = X1 + i X 2 et Y = Y1 + iY2 a pour définition naturelle :

Cov ( X , Y ) = EXY = E ( X 1 + i X 2 )(Y1 − iY2 )


= E ( X 1Y1 + X 2Y2 ) + iE ( X 2Y1 − X 1Y2 )

et la condition de décorrelation est donc :

E ( X 1Y1 + X 2Y2 ) = E ( X 2Y1 − X 1Y2 ) = 0 .

On dit qu’un vecteur aléatoire complexe X


T
(
= X 1 ,..., X j ,... X n ) est du

second ordre si pour tout j ∈ (1,..., n ) X j = X 1 j + iX 2 j est une variable


aléatoire complexe du second ordre.

La matrice de covariance d’un vecteur aléatoire complexe du second ordre et


centré est définie par :

⎛ E X 1 2 … EX 1 X n ⎞
⎜ ⎟
ΓX = ⎜ " " ⎟
⎜⎜ 2⎟⎟
⎝ EX n X 1 ( E X n ⎠

Si l’on ne craint pas les lourdeurs d’écriture, on peut sans difficulté écrire ces
définitions pour des variables et vecteurs aléatoires complexes non centrés.

Revenons aux vecteurs aléatoires réels.

DÉFINITION.– On appelle matrice des moments du second ordre la matrice


symétrique E ⎡⎣ X X ⎤⎦ . Si X est centré Γ X = E ⎡⎣ X X ⎤⎦ .
T T

Transformation affine d’un vecteur du 2e ordre

Notons par M ( p, n ) l’espace des matrices à p lignes et à n colonnes.


Vecteurs aléatoires 55

PROPOSITION.– Soit X
T
= ( X1 ,..., X n ) un vecteur aléatoire de vecteur espérance
mT = ( m1 ,..., mn ) et de matrice de covariance Γ X .

Soit par ailleurs une matrice A ∈ M ( p, n ) et un vecteur certain

BT = ( b1 ,..., bP ) .

Le vecteur aléatoire Y = AX + B possède Am + B pour vecteur espérance et


ΓY = AΓ X AΤ pour matrice de covariance.

DÉMONSTRATION.–

E [Y ] = E [ AX + B ] = E [ AX ] + B = Am + B.

Et aussi par exemple :

Τ
E ⎡( AX ) ⎤ = E ⎡⎣ X Τ AΤ ⎤⎦ = mΤ AΤ
⎣ ⎦

ΓY = Γ AX +Β = Γ AX = E ⎡⎢ A ( X − m ) ( A ( X − m ) ) ⎤⎥ =
Τ
⎣ ⎦
Τ Τ
E ⎡ A ( X − m )( X − m ) AΤ ⎤ = A E ⎡( X − m )( X − m ) ⎤ AΤ = AΓ X AΤ
⎣ ⎦ ⎣ ⎦
dans la suite, nous aurons aussi besoin du résultat facile suivant.

PROPOSITION.– Soit X
T
= ( X 1 ,..., X n ) un vecteur aléatoire du 2e ordre, de
matrice de covariance Γ Χ .

Alors :

⎛ n ⎞
∀ ΛT = ( λ1 ,..., λn ) ∈ ! n Λ Τ Γ X Λ = var ⎜ ∑ λ j X j ⎟ .
⎜ j =1 ⎟
⎝ ⎠
56 Processus stochastiques et filtrages optimaux

DÉMONSTRATION.–

(
Λ ΤΓ X Λ = ∑ Cov X j , X K λ j λK = ∑ E
j,K
)
j,K
(( X j − EX j ) ( X K − EX K ) )λ j λK
2 2
⎛ ⎞ ⎛ ⎛ ⎞⎞ ⎛ ⎞
⎜ j (
= E ⎜ ∑ λ j X j − EX j ) ⎟⎟ = E ⎜ ∑ λ j X j − E ⎜⎜ ∑ λ j X j ⎟⎟ ⎟ = Var ⎜⎜ ∑ λ j X j ⎟⎟
⎜ j ⎟
⎝ ⎠ ⎝ ⎝ j ⎠⎠ ⎝ j ⎠
n Τ
CONSÉQUENCE.– ∀Λ ∈ ! on a toujours Λ Γ Χ Λ ≥ 0 .

Rappelons à ce propos ces définitions d’algèbre :


T
– si, Λ Γ X Λ > 0 ∀Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) , on dit que Γ X est
définie positive ;
– si ∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) tel que Λ ΤΓ X Λ = 0 , on dit que Λ X
est semi-définie positive.

REMARQUE.– Dans cet ouvrage la notion de vecteur apparaît dans deux contextes
différents et afin d’éviter certaines confusions, revenons, en insistant, sur quelques
points de vocabulaire.

n
1) On appelle vecteur aléatoire de ! (ou vecteur aléatoire à valeurs dans
⎛ X1 ⎞
⎜ ⎟
! ), tout n-uple de variables aléatoires X = ⎜ " ⎟
n

⎜X ⎟
⎝ n⎠
( ou X = ( X1 ,..., X n ) ou meme
T
ˆ X = ( X 1 ,..., X n ) ) .

X est un vecteur en ce sens que pour chaque ω ∈ Ω , on obtient un n-uple

X (ω ) = ( X 1 (ω ) ,..., X n (ω ) ) qui appartient à l’espace vectoriel ! .


n

n
2) On appelle vecteur aléatoire du second ordre, tout vecteur aléatoire de !
X = ( X 1 ,..., X n ) dont toutes les composantes X j appartiennent à L2 ( dP ) .
Vecteurs aléatoires 57

Dans ce contexte, les composantes X j elles-mêmes sont des vecteurs


puisqu’elles appartiennent à l’espace vectoriel L ( dP ) .
2

Donc, dans la suite quand on parlera d’indépendance linéaire ou de produit


n
scalaire ou d’orthogonalité, il faudra bien préciser à quel espace vectoriel, ! ou
L ( dP ) , on fait référence.
2

1.5. Indépendance linéaire des vecteurs de L


2
( dP )
DÉFINITION.– On dit que les n vecteurs X 1 ,..., X n de L
2
( dP ) sont linéairement
indépendants si λ1 X 1 + ... + λn X n = 0 p.s. ⇒ λ1 = ... = λn = 0 (où ici, 0 est
le vecteur nul de L
2
( dP ) ).
DÉFINITION.– On dit que les n vecteurs X 1 ,..., X 2 de L
2
( dP ) sont linéairement
dépendants si ∃ λ21 ,..., λn non tous nuls et ∃ un événement A de probabilité
positive tel que λ1 X 1 (ω ) + ... + λn X n (ω ) = 0 ∀ω ∈ A .

En particulier : X 1 ,..., X n seront linéairement dépendants si ∃ λ1 ,..., λn non


tous nuls tel que λ1 X 1 + ... + λn X n = 0 p.s.

Exemples : soient les trois applications mesurables :

X1, X 2 , X 3 : ([0, 2] ,B [0, 2] , dω ) → ( !,B ( ! ) )


définies par :

X 1 (ω ) = ω X 1 (ω ) = e
− (ω −1)
⎫ ⎫
⎪ ⎪⎪
X 2 (ω ) = 2ω ⎬ sur [ 0,1[ et X 2 (ω ) = 2 ⎬ sur [1, 2[
⎪ ⎪
X 3 (ω ) = 3ω ⎭ X 3 (ω ) = −2ω + 5⎪⎭
58 Processus stochastiques et filtrages optimaux

Figure 1.6. Trois variables aléatoires

Les trois applications sont évidemment mesurables et appartiennent à L ( dω ) ,


2

ce sont 3 vecteurs de L ( dω ) .
2

[ [
Ces 3 vecteurs sont linéairement dépendants car sur A = 0,1 de mesure de
1
probabilité : −5 X 1 ( ω ) + 1 X 2 ( ω ) + 1 X 3 ( ω ) = 0 ∀ω ∈ A .
2

Matrice de covariance et indépendance linéaire

Soit donc Γ X la matrice de covariance de X = ( X 1 ,..., X n ) vecteur du 2e


ordre.

1) Si Γ X est définie positive : X 1 = X 1 − EX 1 ,..., X n = X n − EX n sont


* *

alors des vecteurs linéairement indépendants de L ( dP ) .


2

En effet :

2
⎛ ⎞ ⎛ ⎛ ⎞⎞
Λ Γ X Λ = Var ⎜ ∑ λ j X j ⎟ = E ⎜ ∑ λ j X j − E ⎜ ∑ λ j X j ⎟ ⎟
T
⎜ j ⎟
⎝ j ⎠ ⎝ ⎝ j ⎠⎠
Vecteurs aléatoires 59

2
⎛ ⎞
= E⎜
⎜ ∑ λ j ( X j − EX j ) ⎟ =0

⎝ j ⎠

C’est-à-dire :

∑ λ j ( X j − EX j ) = 0 p.s.
j

Ce qui implique, puisque Γ X est définie positive, que λ1 = ( = λn = 0

On peut dire aussi que X 1 ,..., X n engendrent un hyperplan de L ( dP ) de


* * 2

dimension n que l’on peut noter H ( X 1* ,..., X n* ) .

En particulier, si les v.a. X 1 ,..., X n sont décorrelées 2 à 2 (donc a fortiori si


elles sont stochatiquement indépendantes), on a :

ΛT Γ X Λ = ∑ Var X j .λ j2 = 0 ⇒ λ1 = ( = λn = 0
j

donc dans ce cas Γ X est définie positive et X 1 ,..., X n sont encore linéairement
* *

indépendantes.

T
REMARQUE.– Si E X X , la matrice des moments d’ordre 2, est définie positive
alors X 1 ,..., X n sont des vecteurs linéairement indépendants de L ( dP ) .
2

2) Si maintenant Γ X est semi-définie positive :

X 1* = X 1 − EX 1 , . . . , X n* = X n − EX n

sont alors des vecteurs linéairement dépendants de L ( dP ).


2

En effet :

∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 )
60 Processus stochastiques et filtrages optimaux

⎛ ⎞
( )
tel que : Λ Γ X Λ = Var ⎜
T
∑λ j Xj⎟=0
⎝ j ⎠
C’est-à-dire :

∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) tel que ∑λ ( X


j
j j − EX j ) = 0 p.s.

Figure 1.7. Vecteur X ∗ (ω ) et vecteur X ∗

⎛ X1 ⎞
⎜ ⎟
Exemple : on considère X = X 2 un vecteur aléatoire
3
de ! du 2e ordre,
⎜ ⎟
⎜X ⎟
⎝ 3⎠
⎛ 3⎞ ⎛4 2 0⎞
⎜ ⎟ ⎜
admettant m = −1 pour vecteur espérance et Γ X = 2 1

0 pour matrice
⎜ ⎟ ⎜ ⎟
⎜ 2⎟ ⎜0 0 3 ⎟⎠
⎝ ⎠ ⎝
Vecteurs aléatoires 61

de Covariance. On constate que Γ X est semi-définie positive. En prenant par


exemple ΛT = (1 , − 2 , 0 ) on vérifie que (Λ Γ Λ) = 0 .
T
X Donc Var

( X1 − 2 X 2 + 0 X 3 ) = 0 et X 1 − 2 X 2 = 0
* *
p.s.

1.6. Espérance conditionnelle (cas des vecteurs à densité)

Soit X une v.a. réelle et soit Y = (Y1 ,..., Yn ) un vecteur aléatoire réel. On
suppose que : X et Y sont indépendants et que le vecteur
Z = ( X , Y1 ,..., Yn ) admet une densité de probabilité f Z ( x, y1 ,..., yn ) .

Dans ce paragraphe on emploiera selon les cas les notations (Y1 ,..., Yn ) ou
Y , ( y1 ,..., yn ) ou y.

Rappelons pour commencer que fY ( y ) = ∫ ! f Z ( x, y ) dx .

Probabilité conditionnelle

On veut, pour tout B ∈ B ( ! ) et tout ( y1 ,..., yn ) ∈ ! n , définir et calculer la


probabilité pour que X ∈ B sachant que Y1 = y1 ,..., Yn = yn .

On note cette quantité P ( ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) ) ou plus

( )
simplement P X ∈ B y1 ,..., yn . Notons qu’on ne peut pas, comme le cas des
variables discrètes, écrire :

(
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )
(
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) = ) P ( (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )

0
Le quotient ici est indéterminé et égale
0
62 Processus stochastiques et filtrages optimaux

Pour j = 1 à n , posons I j = ⎡⎣ y j , y j + h ⎡⎣

On écrit :

(
P ( X ∈ B y1 ,..., yn ) = lim P ( X ∈ B ) (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n )
h →0
)
P ( ( X ∈ B ) ∩ (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) )
= lim
h→0 P ( (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) )

∫ B dx ∫ I ×...×I f Z ( x, u1,..., un ) du1...dun


= 1 n

∫ I ×...×I f y ( u1,..., un ) du1...dun


1 n

∫ B f Z ( x, y ) dx = f Z ( x, y ) dx
=
fY ( y ) ∫ B fY ( y )

Il est donc naturel de dire que la densité conditionnelle de la v.a. X sachant


( y1 ,..., yn ) est la fonction :
f Z ( x, y )
x → f ( x y) = si fY ( y ) ≠ 0
fY ( y )
! !

On peut négliger l’ensemble des y pour lesquels fY ( y ) = 0 car il est de


n
mesure (dans ! ) nul.

Posons en effet Α = {( x, y ) fY ( y ) = 0} , on remarque :


P ( ( X , Y ) ∈ Α ) = ∫ f Z ( x, y ) dx dy = ∫ du ∫ f ( x, u ) dx
Α {y f Y ( y )=0} !

=∫ fY ( u ) du = 0 , donc fY ( y ) est non nul presque partout.


{ y fY ( y )=0}
Vecteurs aléatoires 63

Finalement, on a obtenu une famille (indiciée par les y vérifiant fY ( y ) > 0 )

de densités de probabilités f ( x y ) (∫ !
)
f ( x y ) dx = 1 .

Espérance conditionnelle

Soit toujours le vecteur aléatoire Z = ( X , Y1 ,..., Yn ) de densité f Z ( x, y ) et

f ( x y ) la densité de probabilité de X sachant y1 ,..., yn .

DÉFINITION.– Etant donnée une application mesurable


Ψ : ( !, B ( ! ) ) → ( !, B ( ! ) ) , sous l’hypothèse ∫ ! Ψ ( x ) f ( x y ) dx < ∞
(c’est-à-dire (
Ψ ∈ L1 f ( x y ) dx ) on appelle espérance conditionnelle de

Ψ ( X ) sachant ( y1 ,..., yn ) l’espérance de Ψ ( X ) calculée avec la densité

( ) (
conditionnelle f x y = f x y1 ,..., yn et on écrit : )
E ( Ψ ( X ) y1 ,..., yn ) = ∫ Ψ ( x ) f ( x y ) dx .
!

E ( Ψ ( X ) y1 ,..., yn ) est une valeur certaine, fonction de ( y1 ,..., yn ) , notons la


gˆ ( y1 ,..., yn ) (cette notation prendra son sens dans le chapitre sur l’estimation).

DÉFINITION.– On appelle espérance conditionnelle de Ψ ( X ) par rapport à

Y = (Y1 ,..., Yn ) la v.a. gˆ (Y1 ,..., Yn ) = E ( Ψ ( X ) Y1 ,..., Yn ) (notée aussi


E ( Ψ ( X ) Y ) qui prend la valeur gˆ ( y1 ,..., yn ) = E ( Ψ ( X ) y1 ,..., yn ) quand
(Y1 ,..., Yn ) prend la valeur ( y1,..., yn ).
REMARQUE.– Comme on ne distingue pas deux v.a. égales p.s., on appellera encore
espérance conditionnelle de Ψ ( X ) par rapport à Y1 ,..., Yn toute v.a.
gˆ ′ (Y1 ,..., Yn ) telle que gˆ ′ (Y1 ,..., Yn ) = gˆ (Y1 ,..., Yn ) p.s.
64 Processus stochastiques et filtrages optimaux

C’est-à-dire gˆ ′ (Y1 ,..., Yn ) = gˆ (Y1 ,..., Yn ) sauf éventuellement sur Α tel que

P ( Α ) = ∫ fY ( y ) dy = 0 .
Α

PROPOSITION.– Si Ψ ( X ) ∈ L ( dP ) (c’est-à-dire ∫ ! Ψ ( x ) f X ( x ) dx < ∞ )


1

alors ĝ (Y ) = E ( Ψ ( X ) Y ) ∈ L ( dP ) (c’est-à-dire ∫ gˆ ( y ) fY ( y ) dy < ∞ .


1
n
!

DÉMONSTRATION.–

∫ ! gˆ ( y ) f ( y ) dy = ∫ ! E ( Ψ ( X ) y ) fY ( y ) dy
n n

= ∫ fY ( y ) dy ∫ Ψ ( X ) f ( x y ) dx
n
! !

Par le théorème de Fubini :

∫ ! Ψ ( x ) fY ( y ) f ( x y ) dx dy = ∫ ! Ψ ( x ) f Z ( x, y ) dx dy
n+1 n+1

= ∫ Ψ ( x ) dx ∫ f Z ( x, y ) dy = ∫ Ψ ( x ) f X ( x ) dx < ∞
n
! ! !

Principales propriétés de l’espérance conditionnelle

Les hypothèses d’intégrabilité étant vérifiées :

1)

(
2) Si X et Y sont indépendants E Ψ ( X ) Y = E Ψ ( X ) ) ( )
( )
3) E Ψ ( X ) X = Ψ ( X )

4) Conditionnements successifs

( )
E E ( Ψ ( X ) Y1 ,..., Yn , Yn +1 ) Y1 ,..., Yn = E ( Ψ ( X ) Y1 ,..., Yn )
5) Linéarité
E ( λ1Ψ1 ( X ) + λ2 Ψ 2 ( X ) Y ) = λ1E ( Ψ1 ( X ) Y ) + λ2 E ( Ψ 2 ( X ) Y )
Vecteurs aléatoires 65

Les démonstrations en général faciles sont laissées en exercice.

Remarquons en particulier qu’en ce qui concerne la première propriété, il suffit


de réécrire la démonstration de la dernière proposition en y ôtant les valeurs
absolues.

Le chapitre sur l’estimation en moyenne quadratique rendra plus concrète la


notion d’espérance conditionnelle.

Exemple : soit Z = ( X , Y ) un couple aléatoire de densité de probabilité


f Z ( x, y ) = 6 xy ( 2 − x − y )1∆ ( x, y ) où ∆ est le carré [ 0,1] × [ 0,1].

( )
Calculons E X Y . On a successivement :

y ∈ [ 0,1]
1 1
– f ( y) = ∫ 0 f ( x, y ) dx = ∫ 0 6 xy ( 2 − x − y ) dx avec

soit f ( y ) = ( 4 y − 3 y 2 )1[0,1] ( y )
f ( x, y ) 6 x ( 2 − x − y )
– f ( x y) = = 1[0,1] ( x ) avec y ∈ [ 0,1]
f ( y) 4 − 3y

( ) ∫ 0 xf ( x y ) dx ⋅1[0,1] ( y ) = 2 (54−−43yy ) 1[0,1] ( y )


1
– E X y =

Donc :

5 − 4Y
E(X Y) = 1 0,1 (Y ) .
2 ( 4 − 3Y ) [ ]

On a aussi :

( )
E ( X ) = E E ( X Y ) = ∫ E ( X y ) f ( y ) dy
1
0

5 − 4y
( 4 y − 3 y ) dy 7
1
=∫ 2
=
0 2(4 − 3y) 12
66 Processus stochastiques et filtrages optimaux

1.7. Exercices du chapitre 1

Enoncé 1.1.

Soit X une v.a. de fonction de répartition

⎛0 si x<0

1
F ( x) = ⎜ si 0≤x≤2
⎜2
⎜1 si x>2

Calculer les probabilités :

( ) (
P X 2 ≤ X ; P X ≤ 2X 2 ; P X + X 2 ≤ 3) ( 4 )
Enoncé 1.2.

Soit le vecteur aléatoire Z = ( X ,Y ) de densité de probabilité


1
f Z ( x, y ) = K 4
1∆ ( x, y ) où K est une constante réelle et où
yx
⎧ 1⎫
∆ = ⎨( x, y ) ∈ ! 2 x, y > 0 ; y ≤ x ; y > ⎬.
⎩ x⎭

Déterminer la constante K et les densités f X et fY des v.a. X et Y .

Enoncé 1.3.

Soient X et Y deux variables aléatoires indépendantes et de densités


uniformes sur l’intervalle [ 0,1] :

1) Déterminer la densité de probabilité f Z de la v.a. Z = X + Y .


2) Déterminer la densité de probabilité fU de la v.a. U = X Y .
Vecteurs aléatoires 67

Enoncé 1.4.

Soient X et Y deux v.a. indépendantes et de densités uniformes sur l’intervalle


[ 0,1] . Déterminer la densité de probabilité fU de la v.a. U = X Y .

Solution 1.4.

U prend ses valeurs dans [ 0,1]

Soit FU la fonction de répartition de U :


– si u ≤ 0 FU ( u ) = 0 ; si u ≥ 1 FU ( u ) = 1 ;
– si u ∈ ]0,1[ : FU ( u ) = P (U ≤ u ) = P ( X Y ≤ u ) = P ( ( X , Y ) ∈ Bu )
où Bu = A ∪ B est l’aire hachurée de la figure.

Donc FU ( u ) = ∫B f( X ,Y ) ( x, y ) dx dy = ∫ f X ( x ) fY ( y ) dx dy
u Bu
68 Processus stochastiques et filtrages optimaux

1 u 1 dx
= ∫ dx dy + ∫ dx ∫ x
dy = u + u ∫ = u (1 − 2n u )
A u 0 u x

⎛ 0 si x ∈ ]-∞,0] ∪ [1, ∞[
Finalement fU ( u ) = FU′ ( u ) = ⎜
⎜ − 2n u
⎝ x ∈ ]0,1[

Enoncé 1.5.

On considère trois v.a. réelles X , Y , Z indépendantes et de même loi N ( 0,1),


1 ⎛ x2 ⎞
c’est-à-dire admettant la même densité ⎜− ⎟.
2π ⎝ 2 ⎠

( )
1
Déterminer la densité de probabilité fU de la v.a.r. U = X 2 + Y 2 + Z 2 2
.

Solution 1.5.

Soit FU la fonction de répartition de U :

⎛ ⎞
( )
1
– si u ≤ 0 FU ( u ) = P ⎜ X 2 + Y 2 + Z 2 2
≤ u⎟ = 0
⎝ ⎠
– si u > 0 FU ( u ) = P ( ( X + Y + Z ) ∈ Su )

Où Su est la sphère de ! 3 centrée en ( 0, 0, 0 ) et de rayon u

= ∫ f( X ,Y , Z ) ( x, y, z ) dx dy dz
Su

⎛ 1
=
1
3 ∫Su exp ⎜⎝ − 2 ( x
2
) ⎞⎠
+ y 2 + z 2 ⎟ dx dy dz
( 2π ) 2
Vecteurs aléatoires 69

et en utilisant un passage en coordonnées sphériques :

1 eπ π u ⎛ 1 ⎞ 2
∫0 dθ ∫ 0 dϕ ∫ 0 exp ⎜⎝ − 2 r ⎟ r sin ϕ dr
2
=
( 2π )
3
2 ⎠
1 u ⎛ 1 ⎞
= 2π ⋅ 2 ∫ r 2 exp ⎜ − r 2 ⎟ dr
( 2π )
3
2
0
⎝ 2 ⎠

2 ⎛ 1 2⎞
et comme r → r exp ⎜ − r ⎟ est continue :
⎝ 2 ⎠

⎛ 0 si u < 0
fU ( u ) = ⎜⎜ 2 ⎛ 1 ⎞
⎜ FU′ ( u ) = u 2 exp ⎜ − u 2 ⎟ si u ≥ 0
⎝ 2π ⎝ 2 ⎠

Enoncé 1.6.

1 a
1a) Vérifier que ∀a>0 fa ( x ) = est une densité de
π a + x2 2

probabilité (appelée densité de Cauchy).


1b) Vérifier que la fonction caractéristique correspondante est
ϕ X ( u ) = exp ( − a u ) .
1c) Soit une famille de v.a. indépendantes X 1 ,..., X n de densité f a . Trouver
X 1 + ... + X n
la densité de la v.a. Yn = .
n
Que constate-t-on ?

2) Par considération de variables aléatoires de Cauchy, vérifier que l’on peut


avoir l’égalité ϕ X +Y ( u ) = ϕ X ( u ) ϕY ( u ) avec X et Y dépendantes.
70 Processus stochastiques et filtrages optimaux

Enoncé 1.7.

⎛1 2 3⎞
⎜ ⎟
Montrer que M = 2 1 2 n’est pas une matrice de covariance.
⎜ ⎟
⎜3 2 1⎟
⎝ ⎠

⎛ 1 0, 5 0 ⎞

Montrer que M = 0, 5 1

0 est une matrice de covariance.
⎜ ⎟
⎜ 0 ⎟
⎝ 0 1 ⎠

Vérifier sur cet exemple que la propriété « n’être pas corrélé avec » pour une
famille de v.a. n’est pas transitive.

Enoncé 1.8.

Montrer que le vecteur aléatoire X T = ( X1, X 2 , X 3 ) d’espérance

⎛ 10 −1 4 ⎞
ΕX = ( 7, 0,1) et de matrice de covariance Γ X = ⎜ −1 1 −1 ⎟ appartient
T
⎜ ⎟
⎜ 4 −1 2 ⎟
⎝ ⎠
3
presque sûrement (p.s.) à un plan de ! .

Enoncé 1.9.

On considère le vecteur aléatoire U = ( X , Y , Z ) de densité de probabilité


fU ( x, y, z ) = K x y z ( 3 − x − y − z ) 1∆ ( x, y, z ) où ∆ est le cube
[0,1] × [ 0,1] × [ 0,1] .
1) Calculer la constante K .
⎛ ⎡1 1⎤ 1 3⎞
2) Calculer la probabilité conditionnelle P ⎜ X ∈
⎝ ⎢⎣ 4 , 2 ⎥⎦ Y = 2 , Z = 4 ⎟⎠.

3) Déterminer l’espérance conditionnelle Ε X ( 2


Y,Z . )
CHAPITRE 2

Vecteurs gaussiens

2.1. Quelques rappels sur les variables aléatoires gaussiennes

DÉFINITION.– On dit qu’une v.a. réelle est gaussienne, d’espérance m et de


variance σ 2 si sa loi de probabilité PX :

1 ⎛ ( x − m )2 ⎞
– admet la densité f X ( x ) = exp ⎜ − ⎟ si σ 2 ≠ 0
2π σ ⎜ 2σ 2 ⎟
⎝ ⎠
(par un calcul d’intégrale double par exemple, on vérifie que ∫ f X ( x ) dx = 1) ;
!

– est la mesure de Dirac δ m si σ 2 = 0 .

Figure 2.1. Densité gaussienne et mesure de Dirac


72 Processus stochastiques et filtrages optimaux

Si σ ≠ 0 , on dit que X est gaussienne non dégénérée.


2

Si σ = 0, on dit que X est gaussienne dégénérée ; X est dans ce cas une


2

« v.a. certaine » prenant la valeur m avec la probabilité 1.

2
EX = m, Var X = σ . Ceci se vérifie facilement par utilisation de la fonction de
répartition.

Comme on l’a déjà noté, pour spécifier qu’une v.a. X est gaussienne
d’espérance m et de variance σ 2
, on écrira X ∼ N m, σ ( 2
).
Fonction caractéristique de X ∼ N m, σ ( 2
)
Commençons d’abord par déterminer la fonction caractéristique
de X 0 ∼ N ( 0,1) :

( ) 1 − x2
ϕ X ( u ) = E eiuX = 0
∫! eiux e 2 dx .

0

On voit facilement que l’on peut appliquer le théorème de dérivation sous signe
somme et :

i − x2
ϕ ′X ( u ) = ∫! eiux xe 2 dx .
0

Ensuite par intégration par parties :

i ⎡⎛ iux − x 2 ⎞ +∞ +∞ − x2 ⎤
⎢⎜ −e e 2 ⎟ + ∫ iue e 2 dx ⎥ = − uϕ X 0 ( u ).
iux
=
2π ⎢⎣⎝ ⎠ −∞ −∞
⎥⎦

La résolution de l’équation différentielle ϕ ′X ( u ) = − uϕ X ( u )


0 0
avec la
2
−u
condition ϕ X ( 0 ) = 1 nous conduit à la solution ϕ X ( u ) = e
0 0
2 .
Vecteurs gaussiens 73

2
1 ⎛ x −m ⎞
+∞ iux − 2 ⎜ σ ⎟
Pour X ∼ N m, σ ( 2
) ϕ X (u ) =
1
2π σ
∫ −∞
e e ⎝ ⎠
dx .

x−m
Par le changement de variable y = qui nous ramène au cas précédent, on
σ
1
ium − u 2σ 2
obtient ϕ X (u ) = e 2 .

Si σ2 =0 c’est-à-dire si PX = δ m :

ϕ X (u ) (transformée de Fourier au sens des distributions de δm ) = e


ium

1
ium − u 2σ 2
si bien que dans tous les cas (σ 2
≠ ou = 0 ) ϕ X (u ) = e 2 .

REMARQUE.– Etant donnée la v.a. X ∼ N m, σ ( 2


) , on peut écrire :
⎛ 1 ( x − m ) σ 2 −1 ( x − m ) ⎞
fX (u ) =
1
exp ⎜ −
⎝ 2
( ) ⎟

(σ )
1 1
( 2π ) 2
2 2


ϕ X ( u ) = exp ⎜ ium − u σ u ⎟
1 2 ⎞
⎝ 2 ⎠

Ce sont les écritures que l’on retrouvera pour les vecteurs gaussiens.

2.2. Définition et caractérisation des vecteurs gaussiens

DÉFINITION.– On dit qu’un vecteur aléatoire réel X


T
= ( X 1 ,..., X n ) est gaussien
n
si ∀ ( a0 , a1 ,..., an ) ∈ !
n +1
la v.a. a0 + ∑ajX j est gaussienne. (On peut dans
j =1

cette définition supposer a0 = 0 ce que nous ferons en général).


74 Processus stochastiques et filtrages optimaux

Un vecteur aléatoire X
T
= ( X 1 ,..., X n ) n’est donc pas gaussien si on peut
n
trouver un n -uple ( a1 ,..., an ) ≠ ( 0,..., 0 ) tel que la v.a. ∑ a j X j ne soit pas
j =1
n
gaussienne et il suffit pour cela de trouver un n - uple tel que ∑ a j X j ne soit pas
j =1
une v.a. à densité.

EXEMPLE.– On se donne une v.a. X ∼ N ( 0,1) et une v.a. ε discrète,


indépendante de X et tel que :

1 1
P ( ε = 1) = et P ( ε = −1) = .
2 2

On pose Y = ε X.

En utilisant ce qui précède, on montrera en exercice que, bien que Y soit une
v.a. N ( 0,1) , le vecteur ( X , Y ) n’est pas un vecteur gaussien.

PROPOSITION.– Pour qu’un vecteur aléatoire X


T
= ( X 1 ,..., X n ) d’espérance
mT = ( m1 ,..., mn ) et de matrice de covariance Γ X soit gaussien, il faut et il suffit
que sa fonction caractéristique (f.c) ϕ X soit définie par :

⎛ m ⎞
⎜ j =1
1
ϕ X ( u1 ,..., un ) = exp ⎜ i ∑ u j m j − uT Γ X u ⎟
2 ⎟ ( où u T
)
= ( u1 ,..., un ) .
⎝ ⎠

DÉMONSTRATION.–
⎛ n ⎞ ⎛ n ⎞
ϕ X ( u 1,..., u n ) = E exp ⎜ i ∑ u j X j ⎟ = E exp ⎜ i.1.∑ u j X j ⎟
⎜ ⎟ ⎜ ⎟
⎝ j =1 ⎠ ⎝ j =1 ⎠
n
= fonction caractéristique de la v.a. ∑u j X j en la valeur 1.
j =1
Vecteurs gaussiens 75

C’est-à-dire : ϕn (1)

j =1
u jX j

⎛ ⎛ n ⎞ 1 ⎛ n ⎞⎞
et ϕ n (1) = exp ⎜⎜ i.1.E ⎜⎜ ∑ u j X j ⎟⎟ − 2

⎜∑
1 Var ⎜ u j X j ⎟⎟
⎟⎟
∑u j X j ⎝ ⎝ j =1 ⎠ 2 ⎝ j =1 ⎠⎠
j =1

n
si et seulement si la v.a. ∑u j X j est gaussienne.
j =1

⎛ n ⎞
Enfin, puisque Var ⎜ ∑
⎜ j =1
u j X j ⎟ = u T Γ X u , on a bien :

⎝ ⎠

⎛ n
1 ⎞
ϕ X ( u 1,..., u n ) = exp ⎜ i ∑ u j m j − u T Γ X u ⎟.
⎜ 2 ⎟
⎝ j =1 ⎠

NOTATION.– On voit que la fonction caractéristique d’un vecteur gaussien X est


entièrement déterminée quand on connaît son vecteur espérance m et sa matrice de
covariance Γ X . Si X est un tel vecteur, on écrira X ∼ N n ( m, Γ X ).

CAS PARTICULIER.– m = 0 et Γ X = I n (matrice identité), X ∼ N n ( 0, I n ) est ( )


alors appelé vecteur gaussien standard.

2.3. Résultats relatifs à l’indépendance

PROPOSITION.–

1) si le vecteur X
T
= ( X 1 ,..., X n ) est gaussien, toutes ses composantes X j
sont alors des v.a. gaussiennes ;

2) si les composantes X j d’un vecteur aléatoire X sont gaussiennes et


indépendantes, le vecteur X est alors gaussien.
76 Processus stochastiques et filtrages optimaux

DÉMONSTRATION.–

1) on écrit X j = 0 + ... + 0 + X j + 0... + 0 ;

n n
⎛ 1 2 2⎞
2) ϕ X ( u 1,..., u n ) = ∏ ϕ X ( u j ) ∏ exp ⎜ iu j m j − u jσ j ⎟
=
j =1
j
j =1 ⎝ 2 ⎠
⎛ n
1 ⎞
que l’on peut encore écrire : exp ⎜ i
⎜ ∑ u j m j − 2 u T Γ X u ⎟⎟
⎝ j =1 ⎠
⎛σ 2
1
0 ⎞

avec Γ X = ⎜ # .
⎜ 0 2
σn ⎠

ATTENTION.– Comme on le verra ultérieurement : « composantes X j gaussiennes


et indépendantes » n’est pas une condition nécessaire pour que le vecteur aléatoire
( )
X T = X 1 ,..., X j ,..., X n soit gaussien.

PROPOSITION.– Si X
T
( )
= X 1 ,..., X j ,..., X n est un vecteur gaussien de matrice
de covariance Γ X , on a l’équivalence : Γ X diagonale ⇔ les v.a. X j sont
indépendantes.

DÉMONSTRATION.–

⎛ σ 12 0 ⎞
⎜ ⎟ n
ΓX = ⎜ # ⎟ ( j)
⇔ ϕ X ( u 1,..., u n ) = ∏ ϕ X j u
⎜ 0 2 ⎟
σn ⎠
j −1

Ce qui est une condition nécessaire et suffisante d’indépendance des v.a. X j .

Résumons par un schéma ces deux résultats simples :


Vecteurs gaussiens 77

(
X T = X 1 ,..., X j ,..., X n ) Les composantes Xj
est un vecteur gaussien sont des v.a. gaussiennes
Si (condition suffisante)
Même si
les Xj sont
ΓX
indépendantes est diagonale

( Xj indépendantes ( X j indépendantes ou
⇔ ΓX est diagonale) X est gaussien)

REMARQUE.– Un vecteur gaussien X


T
( )
= X 1 ,..., X j ,..., X n est évidemment du
2e ordre. En effet chaque composante X j est gaussienne et appartient donc à

⎛ −( x − m ) ⎞
2

⎜ x 1 2σ 2 dx < ∞ ⎟
L2 ( dP )
⎜ ∫!
2
e
2πσ ⎟
⎝ ⎠

On peut généraliser la dernière proposition et remplacer les v.a. gaussiennes par


des vecteurs gaussiens.

Considérons par exemple trois vecteurs aléatoires :

(
X T = X ,..., X
1 n ) ; Y = (Y ,..., Y ) ; Z = ( X ,..., X , Y ,..., Y )
T
1 p
T
1 n 1 p

⎛ ΓX $ Cov( X , Y ) ⎞
⎜ ⎟
et posons Γ Z =
⎜ % $ %

⎜ Cov(Y , X ) $ Γ ⎟
⎝ Y ⎠

où Cov ( X , Y ) est ici la matrice des coefficients Cov X j , Y& ( )


( )
T
et où Cov ( X , Y ) = Cov ( X , Y ) .
78 Processus stochastiques et filtrages optimaux

PROPOSITION.– Si Z
T
(
= X 1 ,..., X n , Y1 ,..., Yp ) est un vecteur gaussien de
matrice de covariance Γ Z , on a l’équivalence :
Cov ( X , Y ) = matrice nulle ⇔ X et Y sont 2 vecteurs gaussiens indépendants.

DÉMONSTRATION.–

⎛ ΓX $ ⎞ 0
⎜ ⎟
ΓZ = ⎜ % $ % ⇔

⎜ 0 $ ΓY ⎟⎠

⎛ n+ p ⎛ ΓX $ 0 ⎞ ⎞
⎜ 1 T⎜ ⎟ ⎟
ϕ Z ( u 1 ,..., u n, u n +1,..., u n + p ) = exp ⎜ i ∑ u j m j − u ⎜ % $ % ⎟u ⎟
2 ⎜
⎜ j =1
⎝ ⎝ 0 $ ΓY ⎠⎟ ⎠⎟

( )
= ϕ X ( u 1,..., u n ) ϕY u n +1,..., u n + p … Ce qui est une condition nécessaire et
suffisante d’indépendance des vecteurs X et Y.

ATTENTION.– Soit Z
T
( )
= X T , Y T , U T ,... où X , Y ,U ,... sont des v.a. ou des
vecteurs aléatoires.
– Z est un vecteur gaussien est une hypothèse plus forte que
– X gaussien et Y gaussien et U gaussien…
– X gaussien et Y gaussien et U gaussien… et leurs covariances (ou
matrices de covariances) sont nulles ⇒ que Z
T
( )
= X T , Y T , U T ,... est un
vecteur gaussien.

EXEMPLE.– Soient X , Y , Z trois v.a. ∼ N ( 0,1) , cherchons la loi du vecteur

W T = (U ,V ) ou U = X + Y + Z et V = λ X − Y avec λ ∈ ! : à cause de
l’indépendance, le vecteur ( X , Y , Z ) est gaussien et
∀a, b ∈ ! aU + bV = ( a + λ b ) X + ( a − λ b ) Y + aZ est une v.a. gaussienne.
Donc W
T
= (U ,V ) est un vecteur gaussien.
Vecteurs gaussiens 79

Pour le déterminer entièrement il faut connaître m = EW et ΓW et on aura


W ∼ N 2 ( m, ΓW ) .

Il vient facilement :

EW T = ( EU , EV ) = ( 0, 0 ) et
⎛ Var U Cov (U , V ) ⎞ ⎛ 3 λ −1 ⎞
ΓW = ⎜ ⎟=⎜ ⎟
⎝ Cov (V ,U ) ⎠ ⎝ λ − 1 λ + 1⎠
2
Var V

En effet :

= EU 2 = E ( X + Y + Z ) = EX 2 + EY 2 + EZ 2 = 3
2
Var U

EV 2 = E ( λ X − Y ) = λ 2 EX 2 + EY 2 = λ 2 + 1
2
Var V =

Cov (U ,V ) = E ( X + Y + Z )( λ X − Y ) = λ EX 2 − EY 2 = λ − 1
Cas particulier : λ = 1 ⇔ ΓW diagonale ⇔ U et V sont indépendants.

2.4. Transformation affine d’un vecteur gaussien

On peut généraliser aux vecteurs le résultat suivant sur les v.a. gaussiennes :

Si Y ∼ N m, σ( 2
) alors ∀a, b ∈ ! (
aY + b ∼ N am + b, a 2σ 2 . )
En modifiant un peu l’écriture,
( )
N am + b, a 2σ 2 devenant N ( am + b, a VarY a ), on imagine déjà comment
ce résultat va s’étendre aux vecteurs gaussiens.

PROPOSITION.– Soient un vecteur gaussien Y ∼ N n ( m, ΓY ) , A une matrice


appartenant à M ( p, n ) et un vecteur certain B ∈ ! .
p

Alors AY + B est un vecteur gaussien (


∼ N p Am + B, AΓY AT . )
80 Processus stochastiques et filtrages optimaux

DÉMONSTRATION.–

⎛ $ ⎞
⎛ a11 % a1n ⎞ ⎛ Y1 ⎞ ⎛ b1 ⎞ ⎜ ⎟
⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ $ ⎟
⎜ $ $ $
⎟⎜ $ ⎟ ⎜ ⎟ ⎜ n ⎟
AY + B = ⎜ a&1 % a&i % a&n ⎟ ⎜ Yi ⎟ + ⎜ b& ⎟ = ⎜ ∑ a&iYi + b& ⎟
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ $ $ ⎟ ⎜ $ ⎟ ⎜ $ ⎟ ⎜ i =1 ⎟
⎜ $ ⎟
⎜ a p1 % a ⎟ ⎜Y ⎟ ⎜ b ⎟ ⎜ ⎟⎟
⎝ pn ⎠ ⎝ n ⎠ ⎝ p ⎠ ⎜
⎝ $ ⎠
– ceci est bien un vecteur gaussien (de dimension p ) car toute combinaison
linéaire de ses composantes est une combinaison affine des v.a. Y1 ,..., Yi ,..., Yn et
par hypothèse Y
T
= (Y1 ,..., Yn ) est un vecteur gaussien ;
– par ailleurs on a vu que si Y est un vecteur de 2e ordre :
E ( AY + B ) = AEY + B = Am + B et Γ AY + B = AΓY AT .

EXEMPLE.– Soient ( n + 1) v.a. indépendantes Y j ∼ N ( µ ,σ )


2
j = 0 à n.

Il vient Y
T
= (Y0 , Y1 ,..., Yn ) ∼ N n +1 ( m, ΓY ) avec mT = ( µ ,..., µ ) et

⎛σ 2 0 ⎞
⎜ ⎟
ΓY = ⎜ # ⎟.
⎜ 0 2 ⎟
σ ⎠

Soient par ailleurs les nouvelles v.a. X & définies par :

X1 = Y0 + Y1 ,..., X n = Yn −1 + Yn

⎛ X 1 ⎞ ⎛ 110...0 ⎞ ⎛ Y0 ⎞
⎜ ⎟ ⎜ ⎟⎜ ⎟
Le vecteur X
T
= ( X 1 ,..., X n ) est gaussien car
⎜ $ ⎟ = ⎜ 0110..0 ⎟ ⎜ $ ⎟
⎜ X ⎟ ⎜ 0...011 ⎟ ⎜ Y ⎟
⎝ n⎠ ⎝ ⎠⎝ n ⎠

plus précisément, d’après la proposition précédente, X ∼ N Am, AΓ AT .


n Y ( )
Vecteurs gaussiens 81

REMARQUE.– Si dans cet exemple nous supposons µ =0 et σ = 1 , nous


2

constatons que le vecteur X est gaussien bien que ses composantes X j ne soient
pas indépendantes. En effet, nous avons par exemple :

Cov ( X1 , X 2 ) ≠ 0 car EX 1 X 2 = E (Y0 + Y1 )(Y1 + Y2 ) = EY1 = 1 et


2

EX 1 EX 2 = E (Y0 + Y1 ) E (Y1 + Y2 ) = 0.

2.5. Existence des vecteurs gaussiens

NOTATION.– u = ( u 1,..., u
T
n ) , xT = ( x1 ,..., xn ) et mT = ( m1 ,..., mn ).

On s’intéresse ici à l’existence des vecteurs gaussiens c’est-à-dire à l’existence


n
des lois de probabilités sur ! ayant des transformées de Fourier de la forme :

⎛ 1 T ⎞
exp ⎜ i
⎜ ∑ j j 2
u m − u Γ u ⎟⎟
⎝ j ⎠

PROPOSITION.– Etant donné un vecteur mT = ( m1 ,..., mm ) et une matrice


Γ ∈ M ( n, n ) , symétrique et semi-définie positive, il existe une probabilité PX
n
unique sur ! , de transformée de Fourier :

⎛ n ⎞ ⎛ n 1 T ⎞
∫! n
exp ⎜ i
⎜ ∑ j j⎟ X 1 n
u x ⎟ dP ( x ,..., x ) = exp
⎜ ∑
⎜ i u j m j −
2
u Γu ⎟ .

⎝ j =1 ⎠ ⎝ j =1 ⎠

En outre :
1) si Γ est inversible, PX admet sur ! n la densité :
⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞ ;
1
f X ( x1 ,..., xn ) = n 1
exp ⎜ −
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠
82 Processus stochastiques et filtrages optimaux

2) si Γ est non inversible (de rang r < n ) les v.a. X 1 − m1 ,..., X n − mn sont
linéairement dépendantes. On peut encore dire que ω → X (ω ) − m prend
presque sûrement ses valeurs sur un hyperplan ( Π ) de !
n
ou que la probabilité
PX charge un hyperplan ( Π ) et n’est donc pas à densité dans ! n .

DÉMONSTRATION.–

1) Commençons par rappeler un résultat d’algèbre linéaire :

Γ étant symétrique, on peut trouver une base orthonormée de ! n formée de


vecteurs propres de Γ ; appelons (V1 , ..., Vn ) cette base. En notant λ j les valeurs
propres de Γ on a donc ΓV j = λ jV j où les λj sont solutions de l’équation
Det ( Γ − λ I ) = 0 .

Quelques conséquences

⎛λ 1 ⎞0
⎜ ⎟
Posons d’abord Λ = ⎜ # ⎟ et V = (V1 ,..., Vn ) .
⎜ ⎟
⎝ 0 λn ⎠

(où les VJ sont des vecteurs colonnes).

– ΓV j = λ jV j j = 1 à n équivaut à ΓV = V Λ et, la matrice V étant


orthogonale VV ( T
)
= V T V = I , Γ = V ΛV T .

Démontrons que, si en outre Γ est inversible les λj sont ≠ 0 et ≥ 0, donc les


λj sont > 0.

– Les λj sont ≠ 0. En effet, Γ étant inversible,


n
0 ≠ Dét Γ = Dét Λ = ∏ λ j
j =1
Vecteurs gaussiens 83

Les λj sont ≥ 0 : considérons en effet la forme quadratique u → u


T
Γu
( ≥ 0 puisque Γ semi définie positive).

Dans la base (V1...Vn ) u s’écrit ( u 1,..., u n ) avec u j = < V j , u > et la forme

⎛u1⎞
⎜ ⎟
s’écrit u → ( u 1,..., u n ) Λ $ = ∑ λ j u j ≥ 0 d’où le résultat annoncé.
2
⎜ ⎟
⎜u ⎟ j
⎝ n⎠

Démontrons maintenant la proposition.

2) Plaçons nous d’abord dans le cas général, c’est-à-dire celui dans lequel
Γ est non nécessairement inversible (c’est-à-dire encore que les valeurs propres λ j
sont ≥ 0).

Considérons n v.a. indépendantes Y j ∼ N 0, λ j . ( )


On sait que le vecteur Y
T
= (Y1 ,..., Yn ) est gaussien ainsi que le vecteur
X = VY + m (proposition du paragraphe précédent) ; plus précisément

(
X ∼ N m , Γ = V ΛV T . )
L’existence des vecteurs gaussiens d’espérance et de matrice de covariance
donnée est donc bien prouvée.

Par ailleurs, on a vu que si X est N n ( m, Γ ) , sa fonction caractéristique

⎛ 1 ⎞
(transformée de Fourier de sa loi) est : exp ⎜ i
⎜ ∑ u j m j − 2 uT Γu ⎟⎟.
⎝ j ⎠

On a donc bien :

⎛ 1 T ⎞
∫! n
exp (i∑ u x ) dP
j j X ( x1 ,..., xn ) = exp ⎜⎜ i ∑ u j m j −
2
u Γu ⎟ .

⎝ j ⎠
84 Processus stochastiques et filtrages optimaux

Unicité de la loi : elle découle de l’injectivité de la transformation de Fourier.

3) Précisons pour terminer le rôle joué par l’inversibilité de Γ .


a) Si Γ est inversible toutes les valeurs propres λ j ( = VarY j ) sont > 0 et le
vecteur Y
T
= (Y1...Yn ) admet la densité :

n
1 ⎛ y 2j ⎞
fY ( y1 ,..., yn ) = ∏ exp ⎜ − ⎟
2πλ j ⎜ 2λ j ⎟
j =1 ⎝ ⎠
1 ⎛ 1 T −1 ⎞
= 1
exp ⎜ − y Λ y⎟
n ⎛ n ⎞ 2 ⎝ 2 ⎠
( 2π ) 2 ⎜⎜ ∏ λ j ⎟⎟
⎝ j =1 ⎠

En ce qui concerne le vecteur X = VY + m : la transformation affine


y → x = Vy + m est inversible d’inverse y = V −1 ( x − m ) et de Jacobien
Det V = ±1 ( V orthogonal).

n
Par ailleurs ∏ λ j = Det Λ = Det Γ .
j =1

En appliquant le théorème sur la transformée d’un vecteur aléatoire par un


C1 -difféomorphisme, on obtient enfin la densité de probabilité du vecteur X :

f X ( x1 ,..., xn ) = f X ( x ) = fY V −1 ( x − m ) = ( )
↑ ↑ ↑
notation théorème on explicite

⎛ 1
( ) ⎞
1 −1
n 1
exp ⎜ − ( x − m )T V T Λ −1V −1 ( x − m ) ⎟
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠

T
Comme Γ = V ΛV :
Vecteurs gaussiens 85

⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞⎟ ;
1
f X ( x1 ,..., xn ) = n 1
exp ⎜ −
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠

b) Si Rang Γ = r < n , rangeons les valeurs propres de Γ par ordre


décroissant : λ1 ≥ λ2 ≥ ...λr > 0 et λr +1 = 0,..., λn = 0
Yr +1 = 0 p .s .,..., Yn = 0 p.s. et, presque sûrement, X = VY + m prend ses
valeurs dans (Π ) la sous variété affine de !n image de
ε = { y = ( y1 ,..., yr , 0,..., 0 )} par l’application affine y → Vy + m .

REMARQUE.– Soit un vecteur aléatoire X


T
= ( X 1 ,..., X n ) ∼ N n ( m, Γ X ) et
supposons qu’on ait à calculer une expression de la forme :

EΨ ( X ) = ∫ Ψ ( x ) f X ( x ) dx =
!n

∫ ! Ψ ( x1,..., xn ) f X ( x1,..., xn ) dx1...dxn .


n

Dans le cas général, la densité f X et par suite le calcul proposé, sont rendus
complexes par la dépendance des v.a. X 1 ,..., X n .

Soit λ1 ,..., λn les valeurs propres de Γ X et V la matrice orthogonale qui


diagonalise Γ X .

On a X = VY + m avec Y
T
= (Y1 ,..., Yn ) , les Y j étant indépendantes et
( )
∼ N 0, λ j et le calcul proposé peut s’effectuer sous la forme plus simple :
⎛ n −yj ⎞
2


E Ψ ( X ) = E Ψ (VY + m ) = ∫ n Ψ (Vy + m ) ⎜ ∏
1 2λ
e j ⎟ dy ...dy .
⎟ 1 n
⎜ j =1 2πλ j
!

⎝ ⎠
EXEMPLES.–

1) Ecriture d’un cas usuel :


86 Processus stochastiques et filtrages optimaux

Soit le vecteur gaussien X


T
= ( X1 , X 2 ) ∼ N 2 ( 0, Γ X )

⎛1 ρ⎞
où Γ X = ⎜ ⎟ avec ρ ∈ ]−1,1[ .
⎝ρ 1⎠

Γ X est inversible et :
⎛ 1 ⎞
f X ( x1 , x2 ) =
1
exp ⎜ −
⎝ 2 1− ρ
1
2 (x
2
1 )
− 2 ρ x1 x2 + x22 ⎟ .
2π 1 − ρ 2 ⎠

fx 1
2π 1 − ρ 2

0
x1 x2

Les intersections du graphe de f X avec les places


horizontaux sont les ellipses ε d’équations
x12 − 2 ρ x1 x2 + x22 = C (constantes)

Figure 2.2. Exemple de densité d’un vecteur gaussien

2) On se donne le vecteur gaussien X


T
= ( X 1 , X 2 , X 3 ) avec :
⎛3 0 q⎞
⎜ ⎟
m = (1, 0, −2 ) et Γ = ⎜ 0 1 0 ⎟ .
T

⎜q 0 1⎟
⎝ ⎠
Vecteurs gaussiens 87

( Cov ( X1, X 2 ) )
2
A cause de l’inégalité de Schwarz ≤ Var X 1 Var X 2 on
doit supposer q ≤ 3.

Nous voulons étudier la densité f X ( x1 , x2 , x3 ) du vecteur X .

Valeurs propres de Γ :

3−λ 0 q
Det ( Γ − λΙ ) = 0 1− λ 0 (
= (1 − λ ) λ − 4λ + 3 − q
2 2
)
q 0 1− λ

D’où les valeurs propres rangées dans l’ordre décroissant :

λ1 = 2 + 1 + q 2 , λ2 = 1 , λ3 = 2 − 1 + q 2
a) si q < 3 alors λ1 > λ2 > λ3 , Γ est inversible et X a une densité de
probabilité dans ! donnée par :
3

⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞⎟ ;
1
f X ( x1 , x2 , x3 ) = 3 1
exp ⎜ −
( 2π ) 2 ( λ1λ2λ3 ) 2 ⎝ 2 ⎠
b) q = 3 alors λ1 = 4 ; λ2 = 1 ; λ3 = 0 et Γ est non inversible de rang 2.

Cherchons la matrice orthogonale V qui diagonalise Γ en écrivant ΓV j = λ j V j

Pour λ1 = 4 ; λ2 = 1 ; λ3 = 0 on obtient respectivement les vecteurs propres :

⎛ 3 ⎞ ⎛− 1 ⎞
⎜ 2⎟ ⎛0⎞ ⎜ 2⎟
V1 = ⎜ 0 ⎟ , V2
⎜ ⎟
= 1 , V3 = ⎜ 0 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜0⎟
⎜⎜ 1 ⎟⎟ ⎝ ⎠ ⎜⎜ 3 ⎟⎟
⎝ 2 ⎠ ⎝ 2⎠

et la matrice orthogonale V = V1 V2 V3 ( ) (VV T


= V TV = Ι . )
88 Processus stochastiques et filtrages optimaux

Soit les v.a. indépendantes Y1 ∼ N ( 0, 4 ) et Y2 ∼ N ( 0,1) et soit la v.a.


Y3 = 0 p.s., on a :

⎛ 3 0 −1 ⎞ Y
⎛ X1 ⎞ ⎜ 2 2 ⎟⎛ 1 ⎞ ⎛ 1 ⎞
⎜ ⎟
X = X2 = ⎜ 0 1 0 ⎟⎜Y ⎟ + ⎜ 0 ⎟
⎜ ⎟ ⎜ ⎟ ⎜⎜ 2 ⎟⎟ ⎜⎜ ⎟⎟
⎜X ⎟
⎝ 3 ⎠ ⎜⎜ 1 0 3 ⎟⎟ ⎝ 0 ⎠ ⎝ −2 ⎠
⎝ 2 2 ⎠

⎛ X 1∗ ⎞

⎜ ∗⎟
ou, en appelant X = ⎜ X 2 ⎟ le vecteur X après centrage,
⎜⎜ ∗ ⎟⎟
⎝ X3 ⎠

⎛ X 1∗ ⎞ ⎛⎜ 3 2 0 −1 ⎞ Y
2 ⎟⎛ 1 ⎞

X1 =
3 Y
2 1
⎜ ∗⎟
⎜ X 2 ⎟ = ⎜⎜ 0 1 ⎟ ⎜ Y ⎟ soit X ∗ = Y
0
⎜⎜ ∗ ⎟⎟ ⎟ ⎜⎜ 2 ⎟⎟ 2 2

⎝ X 3 ⎠ ⎜⎜⎝ 1 3 ⎟⎟ ⎝ 0 ⎠

0 X 3 = 1 Y1
2 2 ⎠ 2

⎛ X 1∗ ⎞

⎜ ∗ ⎟
On en déduit encore que X = ⎜ X 2 ⎟ .
⎜⎜ ∗ ⎟

⎝ 3 X1 ⎠

Figure 2.3. Plan ( Π ) chargé par la probabilité P


Vecteurs gaussiens 89

décrit presque sûrement le plan ( Π ) contenant l’axe



Donc, le vecteur X
'''(
0 x2 et le vecteur U T = ( 3, 0,1) . On dit que la loi PX charge le plan ( Π ).

Probabilité et espérance conditionnelle

Développons un cas simple à titre d’exemple :

Soit le vecteur Gaussien Z


T
= ( X , Y ) ∼ N 2 ( 0, Γ Z ) . En posant

ρ=
( Cov ( X , Y ) )
2
et Var X = σ12 , Var Y = σ 22 la densité Z s’écrit :
VarX VarY
⎛ ⎛ x2 ⎞
1 1 xy y2 ⎞ ⎟
f Z ( x, y ) = exp ⎜ − ⎜ 2 − 2ρ + ⎟ .
2πσ1σ 2 1 − ρ 2 ⎜
⎜ 2 1− ρ 2
⎝ ( ) ⎜
⎝ σ1 σ1σ 2 σ 22 ⎠⎟ ⎟⎟

Densité conditionnelle de X sachant Y = y ,

f ( x, y ) f Z ( x, y )
f ( x y) = Z =
fY ( y )
∫ ! f Z ( x, y ) dx
⎡ ⎛ x2 ⎤
1 ⎢ 1 xy y 2 ⎞⎥
exp − ⎜ − 2ρ + ⎟

=
2πσ1σ 2 1 − ρ 2
⎢ 2 1− ρ2 ⎜ σ 2
⎢⎣ ⎝ 1 ( )
σ1σ 2 σ 22 ⎟⎠ ⎥
⎥⎦
1 ⎡ 1 y ⎤2
exp ⎢ − 2⎥
2πσ 2 ⎣⎢ 2 σ 2 ⎦⎥
⎡ 2⎤
1 1 ⎛ σ1 ⎞ ⎥
= exp ⎢ − x − ρ y
⎢ 2σ 2 1 − ρ 2 ⎜⎝ ⎟
(
σ1 2π 1 − ρ 2 ⎣⎢ 1 ) σ2 ⎠ ⎥(⎥⎦ )
x étant une variable réelle et y une valeur numérique fixée, on reconnaît une
densité gaussienne. Plus précisément : la loi conditionnelle de X sachant Y = y est

⎛ σ1
N⎜ρ
2
y , σ1 1 − ρ( 2
) ⎞⎟.
⎝ σ2 ⎠
90 Processus stochastiques et filtrages optimaux

σ1 σ1
On voit en particulier que E ( X y ) = ρ y et que E ( X Y ) = ρ Y.
σ2 σ2
Dans le chapitre sur l’estimation, on verra plus généralement que si
( X , Y1 ,..., Yn ) (
est un vecteur gaussien, E X Y1 ,..., Yn ) s’écrit sous la forme
n
λ0 + ∑ λ jY j .
j =1

2.6. Exercices du chapitre 2

Enoncé 2.1.

On considère une cible circulaire D de centre 0 et de rayon R sur laquelle on


tire à l’arc . Le couple Z = ( X , Y ) représente les coordonnés du point d’impact de
la flèche sur le support de la cible ; on suppose que les v. a. X et Y sont
indépendantes et suivant la même loi N 0, 4 R ( 2
).
1) Quelle est la possibilité pour que la flèche atteigne la cible ?

2) Combien de fois faut-il lancer la flèche pour que, avec une possibilité
≥ 0, 9 , la cible soit atteinte au moins une fois (on donne &n 10 ≠ 2, 305 ) ?

3) Supposons que l’on tire 100 fois sur la cible, calculer la probabilité pour que
la cible soit atteinte au moins 20 fois.

Indication : utiliser le théorème central limite.

Solution 2.1.

1) Les v.a. X et Y étant indépendantes, la densité de probabilité de

1 ⎛ x2 + y2 ⎞
Z = ( X , Y ) est f Z ( x, y ) = f X ( x ) fY ( y ) = 2
exp ⎜ − 2 ⎟
8π R ⎝ 8R ⎠
1 ⎛ x2 + y2 ⎞
et P ( Z ∈ D ) = 2 ∫
exp ⎜ − 2 ⎟ dx dy
8π R D ⎝ 8R ⎠
Vecteurs gaussiens 91

par un passage en coordonnées polaires :

R −e −u
2
⎛ 1 ⎞ 2π 1 1 R2 −1
2 ⎟∫ ∫0 e ∫0
=⎜ d θ 8 R 2 ede = ⋅ 2π ⋅ e 8 R 2 du = 1− e 8
⎝ 8π R ⎠ 0 8π R 2
2

2) A chaque lancé k , on associe une v.a. de Bernouilli U k ∼ b ( p ) définie

⎛ U k = 1 si la flèche atteint la cible (probabilité p )


par ⎜
⎝ U k = 0 si la flèche n'atteint pas la cible (probabilité 1 - p ).
En n lancés, le nombre d’impact est donné par la v.a.

U = U1 + ... + U n ∼ B ( n, p )

P (U ≥ 1) = 1 − P (U = 0 ) = 1 − Cnk p k (1 − p ) ( où k = 0 )
n−k

= 1 − (1 − p )
n

On cherche donc n qui vérifie 1 − (1 − p ) ≥ 0, 9


n

&n10 &n10 &n10 2, 3


⇔ (1 − p ) ≤ 0,1 ⇔ n ≥ −
n
=− =− #
&n (1 − p ) &n (1 − p ) &n e
−1
8
1
8
soit n ≥ 19.

3) En utilisant les notations précédentes, on cherche à calculer P (U ≥ 20 )


avec U = U1 + % + U100 . C’est-à-dire :

⎛ U1 + % + U100 − 100 µ 20 − 100 µ ⎞


P (U1 + % + U100 ≥ 20 ) = P ⎜ ≥ ⎟
⎝ 100σ 100σ ⎠

(( ) )
1
−1 −1 −1 2
avec µ = 1 − e 8
# 0,1175 et σ = 1− e 8
e 8
# 0, 32
92 Processus stochastiques et filtrages optimaux

⎛ 8, 25 ⎞
soit P ⎜ S ≥ ⎟ = P ( S ≥ 2, 58 ) = 1 − F0 ( 2, 58 )
⎝ 3, 2 ⎠

où S est une v.a. N ( 0,1) et F0 est la fonction de répartition des v.a. N ( 0,1) .

Finalement P (U ≥ 20 ) = 1 − 0, 9951# 0, 005.

Enoncé 2.2.

Soit X 1 ,… , X n n v.a. indépendantes de loi N ( 0,1) et soit

a 1 ,… , a n ; b 1,… , b n 2n constantes réelles.

n n
1) Montrer que les v.a. Y = ∑ a j x j et Z = ∑ b j x j sont indépendantes si
j =1 j =1
n
et seulement si ∑ a jb j = 0 .
j =1

2) En déduire que si X 1 ,..., X n sont n v.a. indépendantes de loi N ( 0,1) , les


n
1
v.a. X =
n
∑Xj et YK = X K − X (où K ∈ {1, 2,..., n} ) sont indépendantes.
j =1

Pour K ≠ & YK et Y& sont-elles des v.a. indépendantes ?

Solution 2.2.

1) U = (Y , Z ) est évidemment un vecteur gaussien.

(∀λ et µ ∈ !, la v.a. λY + µ Z est évidemment une v.a. gaussienne).

Pour que Y et Z soient indépendants il est donc nécessaire et suffisant que :


Vecteurs gaussiens 93

0 = Cov (Y , Z ) = EYZ = ∑ a j b j EY j Z j = ∑ a j b j
j j

2) Uniquement pour simplifier l’écriture, faisons par exemple K = 1

1 1 ⎛ 1⎞ 1 1
X= X1 + % + X n ; Y1 = ⎜ 1 − ⎟ X 1 − X 2 − % − X n et
n n ⎝ n⎠ n n

n
1⎛ 1⎞ 1
∑ a j b j = n ⎜⎝1 − n ⎟⎠ − ( n − 1) n = 0
j =1

Pour simplifier faisons K = 1 et & = 2

⎛ 1⎞ 1 1
Y1 = ⎜ 1 − ⎟ X1 − X 2 − % − X n ;
⎝ n⎠ n n
1 ⎛ 1⎞ 1
Y2 = − X 1 + ⎜ 1 − ⎟ X 2 − % − X n
n ⎝ n⎠ n

n
⎛ 1⎞1 1
et ∑ a j b j = −2 ⎜⎝1 − n ⎟⎠ n − ( n − 2 ) n < 0
j =1

donc Y1 et Y2 sont dépendantes.

Enoncé 2.3.

On donne une v.a. réelle X ∼ N ( 0,1) et une v.a. discrète ε tel que
1 1
P ( ε = −1) = et P = ( ε = +1) = .
2 2

On suppose X et ε indépendantes. On pose Y = ε X.

1) En utilisant les fonctions de répartition, vérifier que Y ∼ N ( 0,1).

2) Montrer que Cov ( X , Y ) = 0.


94 Processus stochastiques et filtrages optimaux

3) Le vecteur U = ( X , Y ) est-il gaussien ?

Solution 2.3.

1)
(
FY ( y ) = P (Y ≤ y ) = P ( ε X ≤ y ) = P ( ε X ≤ y ) ∩ ( ( ε = 1) ∪ ( ε = −1) ) )
=P ( ( (ε X ≤ y ) ∩ (ε = 1) ) ∪ ( (ε X ≤ y ) ∩ (ε = −1) ) )
A cause de l’incompatibilité des deux événements liés par la réunion,

= P ( ( ε X ≤ y ) ∩ ( ε = 1) ) + P ( ( ε X ≤ y ) ∩ ( ε = −1) )
= P ( ( X ≤ y ) ∩ ( ε = 1) ) + P ( ( − X ≤ y ) ∩ ( ε = −1) )

A cause de l’indépendance de X et ε,

P ( X ≤ y ) P ( ε = 1) + P ( − X ≤ y ) P ( ε = −1)
1
=
2
( P ( X ≤ y ) + P ( − X ≤ y ))
Enfin, grâce à la parité de la densité de la loi N ( 0,1) ,

= P ( X ≤ y ) = FX ( y ) ;

2) Cov ( X , Y ) = EXY − EXEY = Eε X − *+


, Eε X = *,
Eε EX
2 2
EX = 0;
0 0

3) X + Y = X + ε X = X (1 + ε ) ;

1
( )
Donc P ( X + Y = 0 ) = P X (1 + ε ) = P (1 + ε = 0 ) =
2
.

On déduit que la v.a. λ X + µY (avec λ = µ = 1 ) n’est pas gaussienne, car la


loi n’est pas à densité (elle « charge » la valeur 0).
Vecteurs gaussiens 95

Donc le vecteur U = ( X , Y ) n’est pas gaussien.

Enoncé 2.4.

Soit une v.a.r. X ∼ N ( 0,1) et soit un réel a > 0 .

⎪⎧ X si X <a
1) Montrer que la v.a.r. Y définie par Y = ⎨ est aussi une
⎪⎩− X si X ≥a
v.a.r. X ∼ N ( 0,1) .

(Indication : montrer l’égalité des fonctions de répartitions FY = FX ).

4 ∞ − x2
2) Vérifier que Cov ( X , Y ) = 1 − ∫a x 2e 2 dx .

Solution 2.4.

1) FY ( y ) = P ( Y ≤ y ) = P ( (Y ≤ y ) ∩ ( X < a) ∪ ( X ≥ a) )
Distributivité et puis incompatibilité % ⇒

( ) (
P (Y ≤ y ) ∩ ( X < a ) + P (Y ≤ y ) ∩ ( X ≥ a ) = )
P ( (Y ≤ y ) ) ((
X < a P ( X < a) + P Y ≤ y X ≥ a P ( X ≥ a) ) )
P ( X ≤ y ) P ( X < a ) + P (( − X ≤ y )) P ( X ≥ a )
*++++++++,
P( X ≤ y )
1 − x2
car e 2 = f X ( x) est paire

( )
= P ( X ≤ y ) P ( X < a ) + P ( X ≥ a ) = P ( X ≤ y ) = FX ( y )
96 Processus stochastiques et filtrages optimaux

2) EX = EY donc :

a −a ∞
Cov ( X , Y ) = EXY = ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−a −∞ a
∞ −a ∞
=∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−∞ −∞ a
−a ∞
−∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−∞ a

2
Le 1er terme égale EX = VarX = 1 .

La somme des 4 termes suivants, à cause de la parité de la fonction intégrée,



égale −4 ∫a x 2 f X ( x ) dx d’où le résultat.

Enoncé 2.5.

⎛X⎞ ⎛0⎞
Soit Z = ⎜ ⎟ un vecteur gaussien de vecteur espérance m = ⎜ ⎟
⎝Y ⎠ ⎝1 ⎠
⎛ 1 1 ⎞
c’est-à-dire Z ∼ N 2 ( m, Γ Z ) .
2⎟
et de matrice de covariance Γ Z = ⎜
⎜1 ⎟
⎝ 2 1 ⎠

1) Donner la loi de la variable aléatoire X − 2Y .

2) A quelles conditions sur les constantes a et b , la variable aléatoire


aX + bY est-elle indépendante de X − 2Y et de variance 1.

Solutions 2.5.

1) X ∼ N ( 0,1) et Y ∼ N (1,1) ; comme en outre X et Y sont indépendants


X − 2Y est une v.a. gaussienne ; précisément X − 2Y ∼ N ( −2, 5 ) .
Vecteurs gaussiens 97

⎛ X − 2Y ⎞
2) Comme ⎜ ⎟ est un vecteur gaussien (… écrire la définition)
⎝ aX + bY ⎠
X − 2Y et aX + bY sont indépendants ⇔ Cov ( X − 2Y , aX + bY ) = 0
or Cov ( X − 2Y , aX + bY ) = aVarX − b Cov ( X , Y )
− 2a Cov ( X , Y ) − 2bVarY =
2
a− b−a =0 soit b=0
3

Comme 1 = Var ( a X + b Y ) = Var aX = a Var X


2
: a = ±1 .

Enoncé 2.6.

On considère deux v.a. indépendantes X et Y et l’on suppose que X admet


une densité de probabilité f X ( x ) et que Y ∼ N ( 0,1) .

Déterminer la v.a. (
E e XY X . )
Solution 2.6.

− y2
E e ( XY
x =E) xY
=∫ e
!
xy 1

e 2 dy

−( y − x )
2

1 x2
=

e 2
∫! e 2 dy

−( y − x )
2

1
Comme y → e 2 est une densité de probabilité (v.a. ∼ N ( x,1) ),

( )
X2
XY
on a finalement E e X =e 2.
CHAPITRE 3

Généralités sur les processus à temps discret

3.1. Définition

Un processus à discret est une famille de v.a.

{
XT = X t j t j ∈T ⊂ ! }
où T appelé base de temps est un ensemble dénombrable d’instants. X t est la v.a.
i
de la famille considérée à l’instant t j .

Ordinairement, les t j sont uniformément répartis et distants d’une unité de



temps et dans la suite T sera égal à " ou # ou # et les processus seront encore
notés X T ou, si l’on veut préciser, X " ou X # ou X .
#∗

Pour pouvoir étudier correctement des groupes de v.a. X j de X T et non pas


seulement les v.a. X j individuellement, on a intérêt à considérer ces dernières
comme étant des applications définies sur un même ensemble et ceci nous conduit à
la définition rigoureuse.

DÉFINITION.– On appelle processus stochastique réel à temps discret toute famille


X T d’applications mesurables :
100 Processus stochastiques et filtrages optimaux

Xj : ω ⎯⎯
→ X j (ω ) avec j ∈T ⊂ "
( Ω ,a ) ( !, B ( ! ) )

On dit aussi que le processus est défini sur l’espace fondamental ( Ω, a ) .

En général un processus X T est associé à un phénomène réel, c’est-à-dire que


les X j représentent des grandeurs (aléatoires) physiques biologiques… Par
exemple l’intensité d’un bruit électromagnétique provenant d’une certaine étoile.

Pour un ω donné, c’est-à-dire après réalisation du phénomène, on a obtenu des


valeurs numériques x j = X j ( ω ).

{ }
DÉFINITION.– xT = x j j ∈ T s’appelle réalisation ou trajectoire du processus
XT .

Figure 3.1. Une trajectoire


Processus à temps discret 101

Lois

Au chapitre 1 nous avons défini les lois PX des vecteurs aléatoires réels
X = ( X 1 ,..., X n ) , lois qui rappelons le, sont des mesures définies sur
T

( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! ) tribu borélienne de ! n .

Les suites finies ( X i ,..., X j ) de v.a. de X T sont des vecteurs aléatoires et


comme dans la suite nous n’aurons à faire intervenir que de telles suites, les
considérations du chapitre I seront suffisantes pour les études que nous envisageons.
T
Mais X T ∈ ! et dans certains problèmes on ne peut éviter la sophistication
supplémentaire suivante :

1) Construction d’une tribu B ! ( ) = ⊗ B ( ! ) sur !T ;


T
j∈T
j

2) Construction de lois sur B ! ( )


T
(Théorème de Kolmogorov).

Stationnarité

DÉFINITION.– On dit qu’un processus X T = X j j ∈ " { } est stationnaire si

∀i, j , p ∈ " les vecteurs aléatoires ( X i ,..., X j ) et ( X i+ p ,..., X j + p ) ont


même loi, c’est-à-dire ∀Bi ,..., B j ∈ B ( ! ) (sur le dessin les Boréliens sont des
intervalles) :

P (( X i+ p ∈ Bi ) ∩ ... ∩ ( X j + p ∈ B j ) = P ) (( X i ∈ Bi ) ∩ ... ∩ ( X j ∈ B j ) )
102 Processus stochastiques et filtrages optimaux

Stationnarité du second ordre

DÉFINITION.– On dit qu’un processus X T est centré si EX j = 0 ∀j ∈ T .

DÉFINITION.– On dit qu’un processus X T est du 2e ordre si :

X j ∈ L2 ( dP ) ∀j ∈ T .
2 1
On rappelle que si X j ∈ L ∀j ∈ T alors X j ∈ L et ∀i, j ∈ T
EX i X j < ∞ .
– La définition suivante a donc un sens.

DÉFINITION.– Etant donné X " un processus réel du 2e ordre, on appelle fonction


de covariance de ce processus, l’application :

(
→ Γ ( i, j ) = Cov X i , X j
Γ : i , j ⎯⎯ )
" x" !
On appelle fonction d’autocorrelation de ce processus, l’application :

→ R ( i, j ) = E X i X j
R : i, j ⎯⎯
" x" !
Ces deux applications, coïncident évidemment si X " est centré. On reconnaît
ici des notions introduites dans le cadre de vecteurs aléatoires mais ici les indices
...i,... j ,... représentant des instants, on peut s’attendre à ce qu’en général quand les
écarts i − j croissent, les valeurs Γ ( i, j ) et R ( i, j ) décroissent.

DÉFINITION.– On dit que le processus X " est stationnaire du 2e ordre si :


– il est du 2e ordre ;
– l’application → m ( j ) = EX
j ⎯⎯ est constante ;
" !
– ∀ i, j , p ∈ " Γ ( i + p, j + p ) = Γ ( i , j )

Dans ce cas Γ ( i, j ) s’écrit plutôt C ( j − i ) .


Processus à temps discret 103

Relation liant les deux types de stationnarités

Un processus stationnaire n’est pas nécessairement du 2e ordre comme on le voit


en considérant par exemple le processus X " dans lequel on choisit pour X j des
v.a. indépendantes de loi de Cauchy :

a
fX j ( x) = 2
et EX j et EX j ne sont pas définies.
(
π a +x 2 2
)
Il ne faut pas confondre un « processus stationnaire et de 2e ordre » (ou de 2e
ordre et stationnaire) avec un « processus stationnaire du 2e ordre ».

Il est clair que si un processus du 2e ordre est stationnaire, il est alors


stationnaire du 2e ordre. En effet :

EX j + p = ∫ xdPX
! j+ p
( x ) = ∫ ! xdPX ( x ) = EX j j

et :

Γ ( i + p, j + p ) = ∫ 2
xy dPX , X j+ p ( x, y ) − EX i + p EX j + p
! i+ p

=∫
!
2
xy dPX , X i j
( x, y ) − EX i EX j = Γ ( i, j )
L’implication inverse « stationnarité du 2e ordre ⇒ stationnarité » est fausse en
général ; elle est cependant vraie dans le cas des processus gaussiens.

Ergodicité

Soit X " un processus stationnaire du 2e ordre.

DÉFINITION.– On dit que l’espérance de X " est ergodique si :

N
1
EX 0 = lim
N ↑∞ 2N + 1
∑ X j (ω ) p.s. (presque sûrement).
j =− N

On dit que la fonction d’autocorrelation de X " est ergodique si :


104 Processus stochastiques et filtrages optimaux

N
1
∀n ∈ " K ( j, j + n ) = EX j X j +n = lim
N ↑∞ 2N + 1
∑ X j (ω ) X j +n (ω ) p.s.
j =− N
C’est-à-dire que, sauf éventuellement pour ω ∈ A ensemble de probabilité
nulle ou encore à l’exception de trajectoires dont la probabilité d’apparition est
nulle, on a pour une trajectoire quelconque x" .

+N
1
EX 0 = lim
N ↑∞ 2N + 1
∑ xj (ergodicité du 1er ordre)
j =− N

=
+N
1
EX j X j + n = lim
2N + 1
∑ x j x j +n (ergocité du 2e ordre).
N ↑∞ j =− N

Sous réserve que le processus X " soit ergodique, on peut donc remplacer une
moyenne probabiliste par une moyenne sur le temps.

Voici une condition suffisante d’ergodicité du 1er ordre :

PROPOSITION.– Loi forte des grands nombres :

Si les X j ( j ∈ " ) forment une suite de v.a. indépendantes et de même loi .

+N
1
Et si E X 0 < ∞ alors EX 0 = lim
N ↑∞ 2N + 1
∑ X j (ω ) p.s.
j =− N

REMARQUE.– Supposons que les v.a. X j soient des v.a. indépendantes de Cauchy
1 a
de densités de probabilité ( a > 0).
π a + x2 2

En utilisant la technique des fonctions caractéristiques, on peut vérifier que la


+N
1
v.a. YN = ∑
2 N + 1 j =− N
X j a la même loi que X 0 ; donc YN ne peut pas

converger p.s. vers la constante EX 0 … mais E X 0 = +∞ .


Processus à temps discret 105

EXEMPLE .– On considère le processus X " constitué des v.a.


X j = A cos ( λ j + Θ ) où A est une constante réelle et où Θ est une v.a. de
1
densité de probabilité uniforme fΘ (θ ) = 1 [0,2π [(θ ) . Vérifions que X " est

stationnaire du 2e ordre.

2π A 2π
EX j = ∫ Acos ( λ j + θ ) fΘ (θ ) dθ = ∫ cos ( λ j + θ ) dθ = 0
0
2π 0


Γ ( i , j ) = K ( i , j ) = EX i X j = ∫ A cos ( λ j + θ ) A cos ( λ j+θ ) fΘ (θ ) dθ
0

2 2
A 2π A
∫ cos ( λ i + θ ) cos ( λ j + θ ) dθ = cos ( λ ( j − i ) )
2π 0
2

Et X " est bien stationnaire du 2e ordre.

Toujours sur cet exemple, nous allons voir l’ergodicité de l’espérance.

Ergodicité de l’espérance

+N
1
lim
N 2N + 1
∑ Acos ( λ j + θ ) (avec θ fixé ∈ [ 0, 2π [ )
j =− N

1 N
2A ⎛ N
1⎞
= lim
2N + 1
∑ cosλ j = lim
N 2N + 1
⎜ ∑ cosλ j − ⎟
2
N
j =− N ⎝ j =0 ⎠

2A ⎛ 1⎞ 2 A ⎛ 1- e ( ) 1 ⎞
N iλ N +1

⎜ ∑
iλ j
= lim Ré e − ⎟ = lim ⎜ Ré − ⎟
N 2 N + 1 ⎝ j =0 2 ⎠ N 2N + 1 ⎝ 1 − e iλ 2⎠

Si λ ≠ 2kπ , la parenthèse est bornée et la limite est nulle et égale à EX 0 .


Donc l’espérance est ergodique.
106 Processus stochastiques et filtrages optimaux

Ergodicité de la fonction d’autocorrelation

+N
1
lim ∑ Acos ( λ j + θ ) Acos ( λ ( j + n ) + θ )
N 2N + 1 j =− N

(avec θ fixé ∈ [ 0, 2π [ )

A2 +N
= lim
N 2N + 1
∑ cosλ j cosλ ( j + n )
j =− N
2 +N
1 A
= lim
N 2 2N + 1
∑ ( cosλ ( 2j+n ) + cosλ n )
j =− N

⎛ 1 A2 ⎛ +N ⎞ ⎞ A2
Ré ⎜ eiλ n ∑ eiλ 2 j ⎟ ⎟ +
= lim ⎜
⎜ 2 2N + 1 ⎟ 2 cosλ n
N
⎝ ⎝ j =− N ⎠⎠

A2
La limite est encore nulle et cosλ n = K ( j , j + n ). Donc la fonction
2
d’autocorrelation est ergodique.

Deux processus importants en traitement de signal

Processus de Markov
DÉFINITION : On dit que X " est un processus de Markov discret si :
– ∀B ∈ B ( ! ) ;

– ∀t1 ,..., t j +1 ∈ " avec t1 < t2 < ... < t j < t j +1 ;

– ∀x1 ,..., x j +1 ∈ ! .

Alors ( ) (
P X t j+1 ∈ B X t j = x j ,..., X t1 = x1 = P X t j+1 ∈ B X t j = x j ) ;

égalité qu’on écrit plus brièvement :

( ) (
P X t j+1 ∈ B x j ,..., x1 = P X t j+1 ∈ B x j ).
Processus à temps discret 107

On peut dire que si t j représente l’instant présent, pour l’étude de X " vers le

futur (instants > t j ), l’information {( X tj ) (


= x j ,..., X t 1 = x1 )} n’apporte rien de
(
plus que l’information X t = x j .
j
)

Souvent les processus de Markov sont associés à des phénomènes débutant à


l’instant 0 par exemple et l’on se donne alors la loi de probabilité Π 0 de la v.a.
X0 .

Les probabilités conditionnelles (


P X t j+1 ∈ B x j ) portent le nom de
probabilités de transition.

Dans la suite, on suppose t j = j .

DÉFINITION.– On dit que la probabilité de transition est stationnaire si

( ) (
P X j +1 ∈ B x j est indépendante de j = P ( X 1 ∈ B x0 ) . )
Voici un exemple de processus de Markov que l’on rencontre souvent dans la
pratique.
108 Processus stochastiques et filtrages optimaux

X # est défini par la v.a. X 0 et la relation de récurrence X j +1 = f X j , N j ( )


où les N j sont des v.a. indépendantes et indépendantes de la v.a. X 0 et où f est
2
une application : ! × ! → ! borélienne.

Montrons donc que ∀B ∈ B ( ! ) .

( ) ( )
P X j +1 ∈ B x j , x j −1 ,..., x0 = P X j +1 ∈ B x j

⇔ P ( f ( X , N ) ∈ B x , x ,..., x ) = P ( f ( X , N ) ∈ B x )
j j j j −1 0 j j j

⇔ P ( f ( x , N ) ∈ B x , x ,..., x ) = P ( f ( x , N ) ∈ B x )
j j j j −1 0 j j j

Et cette égalité sera vérifiée si la v.a. N j est indépendante de

( X j −1 = x j −1 ) ∩ ... ∩ ( X 0 = x0 ).
Or la relation de récurrence nous conduit à des expressions de la forme :

X 1 = f ( X 0 , N 0 ) , X 2 = f ( X 1 , N1 ) = f ( f ( X 0 , N 0 ) , N1 )

(
= f 2 ( X 0 , N 0 , N1 ) ,..., X j = f j X 0 , N1 ,..., N j −1 )
Ce qui prouve que : N j étant indépendante de X 0 , N1 ,..., N j −1 est aussi
indépendante de X 0 , X 1 ,..., X j −1 (et même de X j ).

Processus gaussien

DÉFINITION.– On dit qu’un processus X " est gaussien si ∀ S = ( i,..., j ) ∈ " , le

(
vecteur aléatoire X S = X i ,..., X j ) est un vecteur gaussien, ce que l’on note

(
rappelons le : X S ∼ N n mS , Γ X . s
)
On voit en particulier que dès que l’on sait qu’un processus X " est gaussien, sa
loi est entièrement déterminée par sa fonction espérance j → m ( j ) et sa fonction
covariance i, j → Γ ( i, j ) . Un tel processus est noté X " ∼ N ( m ( j ) , Γ ( i , j ) ) .
Processus à temps discret 109

Un processus gaussien est évidemment du 2e ordre, s’il est en outre stationnaire


du 2e ordre il est alors stationnaire et il suffit pour s’en rendre compte d’écrire la
probabilité :
⎛ 1
( x − mS )T Γ −S1 ( x − mS ) ⎞⎟
1
fX ( x ,..., x ) =
i j exp ⎜ −
j −i +1 1
⎝ 2 ⎠
( Det Γ )
S

( 2π ) 2 XS
2

d’un vecteur quelconque X S extrait du processus.

Espace linéaire associé à un processus

X
Soit X " un processus stationnaire du 2e ordre. On note H la famille des
combinaisons linéaires finies de v.a. de X " .

⎧⎪ ⎫⎪
C’est-à-dire : H X
= ⎨ ∑ λ j X j S fini ⊂ " ⎬
⎩⎪ j∈S ⎭⎪
X
DÉFINITION.– On appelle espace linéaire associé au processus X " la famille H
2 X
augmentée des limites dans L des éléments de H . L’espace linéaire est noté par
X
H .

REMARQUES.–

1) H
X
⊂H X
⊂ L2 ( dP ) et H X
est un sous espace vectoriel fermé de

L2 ( dP ).

2) Supposons que X " soit un processus gaussien stationnaire. Toutes les


2
combinaisons linaires de v.a. X j de X " sont gaussiennes et les limites dans L
sont également gaussiennes. En effet, on vérifie facilement que si la suite de v.a.
X n ∼ N mn , σ n2 ( ) converge dans L
2
vers une v.a. X d’espérance m et de

variance σ 2 , mn et σ m2 convergent alors respectivement vers m et σ et


X ∼ N m, σ ( 2
).
110 Processus stochastiques et filtrages optimaux

Opération retard

X
Le processus X " étant donné, on considère sur H l’opérateur

( )
T n n ∈ #∗ défini par :

T n : ∑ λ j X j → ∑ λ j X ( j −n ) ( S fini ⊂ " ).
j∈S j∈S
X X
H H
n
DÉFINITION.– T s’appelle opération retard d’ordre n .

Propriétés de l’opérateur retard :


n X X
– T est linéaire de H dans H

– ∀ n et m ∈ # T n % T m = T n+m
n 2
– T conserve le produit scalaire de L , c’est-à-dire ∀ I et J finis ⊂ "

⎛ ⎞ ⎛ ⎞
< T n ⎜ ∑ λi X i ⎟ , T n ⎜ ∑ µ j X j ⎟ > = < ∑ λi X i , ∑ µ j X j > .
⎝ i∈I ⎠ ⎝ j∈J ⎠ i∈I j∈J

n X
EXTENSION.– T se prolonge à tout H de la façon suivante :

X X
Soit Z ∈ H et soit Z p ∈ H une suite de v.a. qui converge vers Z dans

L2 ; Z P est en particulier une suite de Cauchy de H X


et par l’isométrie T n,
Tn Zp ( ) est aussi une suite de Cauchy de H X
qui, puisque H X
est complet,

converge dans H X
. Il est facile de vérifier que lim T
P
n
( Z p ) est indépendante de
la suite particulière Z p qui converge vers Z.

X X
En conséquence : ∀Z ∈ H et la suite Z p ∈ H qui converge vers Z . Il est

naturel de poser T n
( Z ) = lim
P
T n
( Z p ).
Processus à temps discret 111

3.2. Processus stationnaires du deuxième ordre et mesure spectrale

Dans ce paragraphe, il sera intéressant de constater l’influence sur la densité


spectrale de l’espacement temporel entre les v.a. Pour cette raison nous
considérerons momentanément un processus stationnaire du 2e ordre
{ }
X "θ = X jθ j ∈ " où θ est une constante et où jθ a la dimension d’une
durée.

3.2.1. Densité spectrale

DÉFINITION.– On dit que le processus X "θ possède une densité spectrale si sa


covariance C ( nθ ) = C ( ( j − i ) θ ) = EX iθ X jθ − EX iθ EX jθ peut s’écrire sous la
1
forme : C ( nθ ) = ∫ − 122θθ exp ( 2iπ ( inθ ) u ) S XX ( u ) du
et S XX ( u ) est alors appelée densité spectrale du processus X "θ .

PROPOSITION.–

+∞
Sous l’hypothèse ∑ C ( nθ ) < ∞ :
n =−∞

1) Le processus X "θ admet une densité spectrale S XX ;

1
2) S XX est continue, périodique de période , réelle et paire.
θ

Figure 3.2. Fonction covariance et densité spectrale d’u processus


112 Processus stochastiques et filtrages optimaux

ATTENTION.– La fonction covariance C n’est pas définie (et en particulier ne vaut


pas zéro) en dehors des valeurs nθ .

DÉMONSTRATION.– Compte tenu des hypothèses, la série :

+∞

∑ C ( pθ ) exp ( −2iπ ( pθ ) u )
p =−∞

1
converge uniformément sur ! et définit une fonction S ( u ) continue et
θ
-périodique. En outre :

1 +∞

∫ −1

∑ ( pθ ) exp ( −2iπ ( pθ ) u ) exp ( 2iπ ( nθ ) u ) du
2θ p =−∞
C

1
=∫ 2θ
S ( u ) exp ( 2iπ ( nθ ) u ) du
−1

La convergence uniforme et l’orthogonalité dans L − 1


2
( 2θ
,1
2θ ) des
exponentielles complexes permettant de conclure que :
1
C ( nθ ) = ∫ 2θ
exp ( 2iπ ( nθ ) u ) S ( u ) du et que S XX ( u ) = S ( u )
−1

Pour terminer, C ( nθ ) est une fonction de covariance donc :

C ( − nθ ) = C ( nθ )

+∞
et on en déduit que S XX ( u ) = ∑ C ( pθ ) exp ( −2iπ ( pθ ) u ) est réelle et paire
p =−∞

(on a aussi S XX ( u ) = C ( 0 ) + 2 ∑ C ( pθ ) cos2π ( pθ ) u ).
p =1

EXEMPLE.– La covariance C ( nθ ) = σ e (λ > 0)


2 − λ nθ
d’un processus X "θ vérifie
bien la condition de la proposition et X "θ admet la densité spectrale.
Processus à temps discret 113

+∞
− λ nθ − 2iπ ( nθ )u
S XX ( u ) = σ 2 ∑e
n =−∞
⎛ ∞ ∞ ⎞
− λ nθ − 2iπ ( nθ )u − λ nθ + 2iπ ( nθ )u
= σ 2 ⎜⎜ ∑ e + ∑e − 1⎟⎟
⎝ n =0 n =0 ⎠
⎛ 1 1 ⎞
=σ 2 ⎜ − λθ − 2iπθ u
+ − λθ + 2iπθ u
− 1⎟
⎝ 1− e 1− e ⎠
1 − e−2λθ
=σ 2
1 + e−2λθ − 2e−λθ cos2πθ u

Bruit blanc

DÉFINITION.– On dit qu’un processus stationnaire du 2e ordre, centré X "θ est un


bruit blanc si sa fonction de covariance C ( nθ ) = C ( ( j − i ) θ ) = EX iθ X jθ vérifie
⎛ C ( 0 ) = EX 2jθ = σ 2 ∀j ∈ "

⎝ C ( nθ ) = 0 si n ≠ 0

La fonction C vérifie bien la condition de la proposition précédente et


+∞
S XX ( u ) = ∑ C ( nθ ) exp ( −2iπ ( nθ ) u ) = C ( 0 ) = σ 2
n =−∞

Figure 3.3. Fonction covariance et densité spectrale d’un bruit blanc


114 Processus stochastiques et filtrages optimaux

On rencontre souvent les « bruits blancs gaussiens » : ce sont des processus


gaussiens qui sont aussi des bruits blancs ; les familles de v.a. extraites de tels
processus sont indépendantes et ∼ N 0, σ ( 2
).
On a plus généralement le résultat suivant et dont nous admettons la
démonstration.

Théorème d’Herglotz

Pour qu’une application nθ → C ( nθ ) soit la fonction de covariance d’un


processus stationnaire du 2e ordre, il faut et il suffit qu’existe une mesure positive
⎛⎡ 1 1 ⎤⎞
µX sur B ⎜ ⎢- , ⎥ ⎟ appelée mesure spectrale tel que :
⎝ ⎣ 2θ 2θ ⎦ ⎠
1
C ( nθ ) = ∫ 2θ
exp ( 2iπ ( nθ ) u ) d µ X ( u ) .
−1


Dans cet énoncé on ne suppose plus que ∑ C ( nθ ) < ∞ .
n =−∞

+∞
Si ∑ C ( nθ ) < ∞ , on retrouve l’énoncé du début avec :
n =−∞

d µ X ( u ) = S XX ( u ) du (énoncé que l’on peut compléter en disant que la densité


spectrale S XX ( u ) est positive).

3.3. Représentation spectrale d’un processus stationnaire du 2e ordre

Dans ce paragraphe nous expliquons la démarche permettant d’aboutir à la


représentation spectrale d’un processus. Afin de ne pas obscurcir cette démarche, les
démonstrations des résultats, assez longues sans être difficiles, ne seront pas
données.
Processus à temps discret 115

3.3.1. Problème

L’objet de représentation spectrale est :


1) d’étudier les intégrales (dites de Wiener) du type ∫S ϕ ( u ) dZu obtenues
comme limites, en un sens à préciser, des expressions de la forme :

∑ ϕ ( u j ) ( Zu j
− Zu j−1 )
j

où S est un intervalle borné de ! , ϕ est une application à valeurs complexes (et


d’autres conditions), Z S = Z u u ∈ S{ } est un processus du 2e ordre à
accroissements orthogonaux (en abrégé p.a.o.) dont la définition précise sera donnée
dans la suite ;
2) (la construction de l’intégrale de Wiener étant faite) de montrer que
réciproquement, si on se donne un processus stationnaire du 2e ordre X "θ , on peut

{
trouver un p.a.o. Z S = ZU u ∈ S = ⎡ − 1
⎣ 2θ
,1 ⎤
2θ ⎦} tel que ∀j ∈ " X jθ

X jθ = ∫ e ( ) dZu .
2iπ jθ u
puisse s’écrire comme une intégrale de Wierner
S

2iπ ( jθ )u
REMARQUE.– ∫ S ϕ ( u ) dZu et ∫S e dZu ne seront pas des intégrales de
Stieljes ordinaires (et c’est ce qui motive une étude particulière).

En effet :

⎛ ⎞
⎜ ⎟
⎜ σ = {,.., u j −1 , u j , u J +1} subdivision de S ⎟
⎜ ⎟
posons ⎜ σ = sup u j − u j −1 module de la subdivision σ ⎟
⎜ j

⎜I =
⎜ σ u∑ (
ϕ ( u j ) Zu j − Zu j−1 ) ⎟

⎝ j ∈σ ⎠

∀σ , l’expression Iσ est bien définie, c’est une v.a. du 2e ordre à valeurs


complexes. Pourtant, le processus Z S n’étant a priori pas à variation bornée, la
116 Processus stochastiques et filtrages optimaux

limite ordinaire lim Iσ , c’est-à-dire la limite, à trajectoire donnée u → Z u (ω ) ,


σ →0

n’existe pas et ∫ S ϕ ( u ) dZu ne peut donc être une intégrale de Stieljes ordinaire.

Précisément la v.a. ∫ S ϕ ( u ) dZu sera par définition la limite dans L2 , si cette


limite existe de la famille Iσ quand σ → 0 , c’est-à-dire :

2
lim E Iσ − ∫S ϕ ( u ) dZ u = 0 .
σ →0

∫ S ϕ ( u ) dZu = σlim→0 L _ ( Iσ ) .
2
Ce qu’on écrit encore parfois :

3.3.2. Résultats

3.3.2.1. Processus à accroissements orthogonaux et mesure associée


S désigne ici un intervalle borné de ! .

DÉFINITION.– On appelle processus aléatoire à paramètre continu de base S , toute


famille de v.a. Z u , le paramètre u décrivant S .

{
Ce processus sera noté Z S = Z u u ∈ S . }
Par ailleurs, on dira qu’un tel processus est :
– centré si EZ u = 0 ∀u ∈ S ;
2
– du 2e ordre si EZ u < ∞ (c’est-à-dire Z u ∈ L
2
( dP ) ) ∆u ∈ S ;
– continue dans L : si E ( Z u + ∆u − Z u ) → 0
2 2

quand ∆u → 0 ∀u et u + ∆u ∈ S (on parle aussi de continuité à droite ou à gauche


2
dans L ).

Dans la suite Z S sera centré du 2e ordre et continu dans L2 .


Processus à temps discret 117

DÉFINITION.– On dit que le processus Z S est à accroissements orthogonaux ( Z S


est un p.a.o.) si ∀u1 , u2 , u3 , u4 ∈ S avec u1 < u2 ≤ u3 < u4

< Z u4 − Zu3 , Z u2 − Zu1 > L2 ( dP ) = E Zu4 − Z u3 ( ) ( Zu 2


)
− Zu1 = 0

On dit que Z S est un processus à accroissements orthogonaux et stationnaires


( Z S est un p.a.o.s.) si Z S est un p.a.o. et si en outre ∀u1 , u2 , u3 , u4 avec

( ) ( )
2 2
u4 − u3 = u2 − u1 ; on a E Zu4 − Z u3 = E Zu2 − Z u1 .

2
PROPOSITION.– A tout p.a.o. Z S continu à droite dans L , on peut associer :
– une fonction F non décroissante sur S tel que :

F ( u ′ ) − F ( u ) = E ( Z u′ − Zu ) si u < u ′ ;
2

– une mesure µ sur B ( S ) qui est telle que ∀ u , u ′ ∈ S avec u < u ′ alors

( ) ( ).
µ ( ]u, u′]) = F u′+ − F u −

3.3.2.2. Intégrale stochastique de Wiener


Soit toujours Z S un p.a.o. continu à droite et µ la mesure associée.

PROPOSITION.– Soit ϕ ∈ L ( µ ) à valeurs complexes :


2

⎛ ⎞
1) La
σ →0
lim
⎜ u∑
ϕ ( u j ) Zu − Zu
L2 _ ⎜ ( j j −1
) ⎟⎟ existe. C’est par définition
⎝ ∈σ j ⎠
l’intégrale stochastique de Wiener ∫ ϕ ( u ) dZ u ;
S

2) Soit ϕ et ψ ∈ L
2
( µ ) à valeurs complexes. On a la propriété :
E ∫ ϕ ( u ) dZ ∫ ψ ( u ) dZ
S u S u
= ∫ ϕ ( u )ψ ( u ) d µ ( u ) ,
S

∫ ϕ ( u ) dZ ∫ ϕ (u ) d µ ( u ).
2
en particulier E u =
S S
118 Processus stochastiques et filtrages optimaux

Idée de la démonstration

Posons ε = espace vectoriel des fonctions en escalier à valeurs complexes.


On commence par prouver la proposition pour les fonctions ϕ ,ψ ,... ∈ ε
(si ϕ ∈ε ϕ ( u ) = ∑ a j 1⎤U ( u ) et :
⎦ j −1 ,U j ⎤

j

∫ S ϕ ( u ) dZu = ∑j ϕ ( u j ) ( ZU j
− ZU j−1 ). )
On établit ensuite le résultat dans le cas général en utilisant le fait que
ε ( ⊂ L2 ( µ ) ) est dense dans L
2
(µ ) c’est-à-dire que ∀ϕ ∈ L
2
(µ ) on peut

trouver une suite ϕn ∈ ε tel que :

2
ϕ − ϕn L ( µ ) = ∫ ϕ ( u ) − ϕn ( u ) d µ ( u ) → 0
2
2 quand n → ∞
S

3.3.2.3. Représentation spectrale


On se donne X "θ un processus stationnaire du 2e ordre.

D’après le théorème d’Herglotz, on sait que sa fonction de covariance

1
2iπ ( nθ )u
nθ → C ( nθ ) s’écrit C ( nθ ) = ∫ − 1220θ e d µX (u )

où µX est la mesure spectrale sur B ⎡ −1 (⎣ 2θ


,1 ⎤ .
2θ ⎦ )
PROPOSITION.– Si X "θ est un processus stationnaire du 2e ordre, centré, de
fonction de covariance nθ → C ( nθ ) et de mesure spectrale µ X , il existe un p.a.o.

{
unique Z S = Z u u ∈ S = ⎡ −1 , 1 ⎤ tel que :
⎣ 2θ 2θ ⎦ }
2iπ ( jθ )u
∀j ∈ " X jθ = ∫ e dZ u
S
Processus à temps discret 119

En outre, la mesure associée à Z S est la mesure spectrale µX .

L’écriture des X jθ comme intégrales de Wiener porte le nom de représentation


spectrale du processus.

dZu e (
2iπ ( jθ )u 2iπ ( j + n )θ ) u
REMARQUE.– EX jθ X ( j + n )θ = E e
S S ∫ dZu ∫
et en appliquant la propriété énoncée au 2 de la proposition précédente.

−2iπ ( nθ )u
= ∫ e dZ u = C ( − nθ ) = C ( nθ ) .
S

3.4. Généralités sur le filtrage numérique

Etant donné un processus stationnaire du 2e ordre X " et une suite de nombres

{ }
réels h = h j ∈ ! j ∈ " , on s’intéresse à l’opération qui à X " fait
correspondre un nouveau processus Y" défini par :

+∞ ⎛ +∞ ⎞
∀K ∈ " YK = ∑ j K − j ⎜⎜ ∑ h jT j ⎟⎟ X K
h X =
j =−∞ ⎝ j =−∞ ⎠
2 2
se note aussi h1 où 1 est l’application identique de L dans L ).
0
( h 0T

+∞
Dans la suite on supposera toujours que ∑ h j < ∞ ; cette condition est
j =−∞
1
notée généralement h ∈ & et s’appelle (pour des raisons qui apparaîtront plus tard)
condition de stabilité.

DÉFINITION.– On dit que le processus Y" est le transformé (ou filtré) du processus
+∞
X " par le filtre H (T ) = ∑ h jT j et on écrit Y" = H (T ) X " .
j =−∞
120 Processus stochastiques et filtrages optimaux

REMARQUE.–

1) Le filtre H (T ) est entièrement déterminé par la suite de pondérateurs

{ }
h = h j ∈ ! j ∈ " et selon les cas, on parlera du filtre H (T ) ou du filtre h
ou encore du filtre (..., h− m ,..., h−1 , h0 ,..., hn ,...).

+∞
2) L’écriture « ∀K ∈ " YK = ∑ hj X K − j » est la définition du produit
j =−∞

de convolution (noté ∗ ) de X " par h et on écrit aussi :


Y" = h ∗ X " ou bien ∀K ∈ " YK = ( h ∗ X " ) K .

X
3) Soit X " un processus stationnaire du 2e ordre et H l’espace linéaire
+∞
associé. Il est clair que les v.a. YK = ∑ hj X K − j ∈H X
et que le processus
j =−∞

Y" est aussi stationnaire du 2e ordre.

Filtre causal

Physiquement, pour K YK ne peut dépendre que des v.a.


donné quelconque,
XK− j antérieures au sens large à YK , c’est-à-dire que j ∈ # . Un filtre
H (T ) qui réalise cette condition est dit causal ou réalisable.

Parmi les filtres causaux, on distingue encore deux grandes classes :

1) Les filtres à réponse impulsionnelle finie (ou RIF) qui sont tels que :

N
∀K ∈ " YK = ∑ h j X K − j
j =0

et dont voici la réalisation schématique suivante.


Processus à temps discret 121

Figure 3.4. Schéma d’un filtre RIF

2) Les filtres à réponse impulsionnelle infinie (ou R.I.I.) qui sont tels que :


∀K ∈ " YK = ∑ h j X K − j
j =0

REMARQUES.–

1) Précisons bien le rôle joué par l’opérateur T : à un instant quelconque K ,


il remplace X K par X K −1 ; on peut dire aussi que T bloque la v.a. X K −1
pendant une unité de temps et la restitue à l’instant K ;

2) Soit H (T ) un filtre R.I.I. A l’instant K


YK = ∑ h j X K − j = h0 X K + ... + hK X 0 + hK +1 X −1 + ...
j =0

Pour un processus X # , donc commençant à l’instant 0 , on aura :

K
∀K ∈ # YK = ∑ h j X K − j
j =0
122 Processus stochastiques et filtrages optimaux

Exemple filtrage d’un processus gaussien

Considérons le processus gaussien X " ∼ N ( m ( j ) , Γ ( i , j ) ) et le filtre (RIF)


H (T ) défini par h = ( ...0,..., 0, h 0,..., hN , 0,...) . On vérifie immédiatement que
le processus Y" = H (T ) X " est gaussien. Considérons par exemple le filtrage
spécifié par le schéma suivant :

K
∀K ∈ # YK = ∑ h j X K − j = − X K + 2 X K −1
j =0

Y" est un processus gaussien. Déterminons en les paramètres :


mY ( i ) = EY j = 0
ΓY ( i, j ) = E Yi Y j = E (( − X i )
+ 2 X i −1 ) ( − X j + 2 X j −1 ) =
− j −i − j −i +1
E X i X j − 2 E X i −1 X j − 2 E X i X j −1 + 4 E X i −1 X j −1 = 5e − 2e

Filtre inverse d’un filtre causal

DÉFINITION.– On dit qu’un filtre causal H ( T ) est inversible s’il existe un filtre noté

( H (T ) )−1 et appelé filtre inverse de H ( T ) tel que pour tout processus


stationnaire du 2e ordre X " on ait :

X " = H (T ) ( ( H (T ) ) −1
)
X " = ( H (T ) )
−1
( H (T ) X " ) ( ∗)
Processus à temps discret 123

Si un tel filtre existe l’égalité Y" = H ( T ) X " est équivalente à l’égalité

X " = ( H ( T ) ) Y" .
−1

Par ailleurs ( H (T ) )−1 est défini par une suite de pondérateurs


h′ = {h′j ∈ ! j ∈ "} et on a le produit de convolution ∀K ∈ " X " = h′ ∗ Y" .

( )
−1
Pour la recherche du filtre inverse H (T ) c’est-à-dire pour la recherche de

la suite de pondérateurs { }
h′ = h′j ∈ ! j ∈ " on écrit que la suite d’égalités ( ∗ )
est équivalent à : ∀K ∈ "

⎛ +∞ ⎞ ⎛ ⎛ +∞ ⎞ ⎞ ⎛ +∞ ⎞ ⎛ ⎛ +∞ ⎞ ⎞
X K = ⎜ ∑ h jT j ⎟ ⎜ ⎜ ∑ h′j T j ⎟ X K ⎟ = ⎜ ∑ h′j T j ⎟ ⎜ ⎜ ∑ h j T j ⎟ X K ⎟
⎜ j =−∞ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟ ⎜ j =−∞ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟
⎝ ⎠⎝⎝ ⎠ ⎠ ⎝ ⎠⎝⎝ ⎠ ⎠

ou encore à :

⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞
⎜⎜ ∑ h jT ⎟⎟ % ⎜⎜ ∑ h′j T ⎟⎟ = ⎜⎜ ∑ h′j T ⎟⎟ % ⎜⎜ ∑ h j T ⎟⎟ = 1
j j j j

⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠

EXEMPLE.– On considère le filtre Causal H (T ) = 1 − hT .


H (T ) admet le filtre inverse ( H (T ) ) = ∑ h j T j .
−1
1) Si h < 1
j =0

On doit pour cela vérifier que étant donné X K v.a. à l’instant K d’un processus
stationnaire du 2e ordre X " , on a :

⎛⎛ ∞ j j ⎞ ⎞
(1 − hT ) ⎜ ⎜ ∑
⎜ ⎜ j =0
h T ⎟ X K ⎟ = X K (égalité dans L2 )
⎟ ⎟
⎝⎝ ⎠ ⎠
124 Processus stochastiques et filtrages optimaux

⎛ N ⎞
⇔ lim (1 − hT ) ⎜ ∑ h j T j ⎟ X K = X K
N ⎜ j =0 ⎟
⎝ ⎠
( )
⇔ 1 − h N +1 T N +1 X K − X K = h
N +1
X K −( N +1) → 0 quand N ↑ ∞

ce qui est vérifié si h < 1 puisque X K − ( N +1) = E X 02 .

( )
−1
On remarque en outre que H (T ) est Causal.

⎛ 1 −1 ⎞
2) Si h > 1 écrivons (1 − hT ) = −hT % ⎜1 − T ⎟ donc :
⎝ h ⎠
−1
−1 ⎛ 1 ⎞ ⎛ 1 ⎞
(1 − hT ) = ⎜1 − T −1 ⎟ % ⎜ − T −1 ⎟ .
⎝ h ⎠ ⎝ h ⎠

1
Comme les opérateurs commutent et que < 1,
q

T ( )
− j +1
T −1 ∞ 1 − j ∞
%∑ T = −∑
−1
(1 − hT ) =− j +1
h j =0 h j j =0 h

Mais cet inverse n’a pas de réalité physique, il n’est pas Causal (les « opérateurs
− ( j +1)
avance » T ne sont pas Causaux).

3) Si h = 1 (1 − T ) et (1 + T ) ne sont pas inversibles.

Fonction de transfert d’un filtre numérique

DÉFINITION.– On appelle fonction de transfert du filtre numérique


+∞ +∞
H (T ) = ∑ h j T j la fonction H ( z ) = ∑ hj z− j z ∈ '.
j =−∞ j =−∞
Processus à temps discret 125

On reconnaît la définition donnée en analyse d’une série de Laurent, à la


−1 1
permutation z → z = près. Comme conséquence de cette permutation les
z
fonctions de transfert (sommes des séries) seront écrites pratiquement en utilisant la
variable z . On dit aussi que H ( z ) est la transformée en z de la suite
−1

numérique h = (... h− m ,..., h 0,..., hn ,...).

Précisons le domaine de définition deH ( z ) ; c’est le domaine de convergence


K de la série de Laurent. On sait déjà que K est une couronne de centre 0 et a
donc la forme

K = { z 0 ≤ r < z < R}

Notons par ailleurs par C ( 0, ρ ) tout cercle du plan complexe de centre et de


rayon ρ.

K contient C ( 0,1) car à cause de l’hypothèse de stabilité du filtre à savoir


+∞ +∞
∑ hj < ∞ , ∑ hj z− j converge absolument (et donc converge) en tout
j =−∞ j =−∞

z ∈ C ( 0,1) .

Figure 3.5. Domaine de convergence de la fonction de transfert H ( z)


d’un filtre numérique quelconque
126 Processus stochastiques et filtrages optimaux

Les singularités σj de H ( z ) vérifient σj ≤r ou σj ≥R et il y aura au

moins une singularité de H ( z ) sur C ( 0, r ) et une autre sur C ( 0, R ) (sinon on


pourrait agrandir K le domaine d’holomorphie de H ( z ) ).

Si maintenant le filtre est Causal :



– s’il est à réponse impulsionnelle infinie (R.I.I.) soit H ( z ) = ∑ hj z− j ,
j =0

{
alors H ( z ) est holomorphe dans K = z 0 ≤ r < z } ( R = +∞ ) ;
N
– s’il est à réponse impulsionnelle finie (R.I.F.) soit H ( z ) = ∑ hj z− j ,
j =0

alors H ( z ) est holomorphe dans K = z 0 < z { } (plan pointé en 0).


On constate notamment que les singularités σj d’une fonction de transfert d’un
filtre causal et stable sont toutes de modules strictement inférieurs à 1.

Figure 3.6. Domaine de convergence du H (z) d’un filtre causal R.I.I.


et domaine de convergence du H (z) d’un filtre causal R.I.F.
Processus à temps discret 127

+∞
ATTENTION.– étant donnée une série de Laurent ∑ hj z− j (c’est-à-dire étant
j =−∞

donné un filtre numérique h = {... h− m ,..., h 0,..., hn ,...} ) son domaine de


convergence K et donc sa somme H ( z ) sont déterminés de façon unique. C’est-

(
à-dire qu’au filtre est associé le coupe H ( z ) , K . )
Réciproquement, si étant donné H ( z ) , on veut obtenir le filtre h , il faudra
commencer par préciser le domaine dans lequel on veut développer H ( z ) , car
pour différents domaines K , on obtient des développements en séries de Laurent
différents ayant H ( z ) pour somme.

Ceci se résume par la double implication (H ( z), K ) ( h .

Inversion de la transformée en z

( )
Etant donné le couple H ( z ) , K , on veut retrouver le filtre h .

H étant holomorphe dans K on peut appliquer la formule de Laurent :

1 H ( z)
∀j ∈ " h j =
2iπ ∫Γ +
z − j +1
dz

où (argument d’homotopie) Γ est un contour quelconque de K et entourant 0 .


L’intégrale peut être calculée par la méthode des résidus ou bien, puisqu’on a le
choix du contour Γ en choisissant Γ = C ( 0,1) et en paramétrant et en calculant

∫Γ H ( e ) e dθ .
1 iθ ijθ
l’intégrale ∀j ∈ " hj =
2iπ
+

On peut aussi, pour déterminer h j , développer en série de Laurent la fonction


H ( z ) en s’aidant des développements usuels connus.
128 Processus stochastiques et filtrages optimaux

EXEMPLE RÉCAPITULATIF.– Soit le filtre Causal et stable H (T ) = 1 − hT avec

h < 1 , de fonction de transfert H ( z ) = 1 − h z −1 définie sur ' − {0} . On a vu


qu’il est inversible et que son inverse, également causal et stable, est

R (T ) = ∑ h j T j
j =0

La fonction de transfert du filtre inverse est donc :


R ( z ) = ∑ h j z− j =
1
1 − hz −1
définie sur z { z >h }
j =0

1
(on remarque aussi que R ( z ) = ).
H ( z)

Figure 3.7. Domaine de définition H (z) et domaine de définition R (z)

Possédant R ( z ) =
1
1 − hz −1
sur {z }
z > h , retrouvons (à titre d’exercice) le

développement en série de Laurent de R ( z ) c’est-à-dire les h j coefficients des z


−j
.
Processus à temps discret 129

j
1 1 z
∫ R ( z )z ∫
j −1
Par les formules de Laurent h j = dz = −dz
2iπ 2iπ
+ +
Γ Γ
z−h

où Γ est un contour appartenant à z { z >h . }


En appliquant le théorème des résidus,
1 ⎛ zj ⎞ zj
si j ≥ 0 h j = 2iπ . ⎜ Résidu de en h ⎟ = lim ( z − h ) = hj
2iπ ⎝ z-h ⎠ z → h z−h
si j < 0 :
1 ⎢⎡⎛ 1
⎞ ⎤ ⎡⎛
1
⎞⎤
h j = 2iπ . ⎜ Résidu de en 0 ⎟ ⎥ + ⎢⎜ Résidu de en h ⎟ ⎥ = 0
2iπ ⎣⎢⎝⎜ z j ( z −h ) ⎟ ⎥ ⎢⎜
⎠ ⎦ )*****
⎣⎝ z j ( z −h ) ⎟⎥
⎠⎦
)***** *+****** , *+****** ,
−1 1
hj hj

X
PROPOSITION.– Soit X " un processus stationnaire du 2e ordre et soit H
l’espace linéaire associé ; on considère toujours le filtre H (T ) de fonction de
+∞ +∞
transfert H ( z) = ∑ h j z − j avec ∑ hj < ∞ .
j =−∞ j =−∞

Alors :
⎛ +∞ ⎞ +∞
1) ∀ K ∈ " ⎜ ∑ q jT j ⎟ X K = ∑ q j X K − j converge dans H X .
⎜ j =−∞ ⎟
⎝ ⎠ j =−∞
+∞
C’est dire que les v.a. YK = ∑ h j X K − j du processus filtré restent dans H X
;
j =−∞
on dit que le filtre est stable.
2) Le processus filtré Y" est stationnaire du 2e ordre.

3) Les densités spectrales de X " et de Y" sont liées par la relation :

SYY ( u ) = H ( −2iπ u ) S XX ( u )
2
130 Processus stochastiques et filtrages optimaux

DÉMONSTRATION.–

1) On doit montrer que ∀K ∈ " , il existe une v.a. YK ∈H X


⊂ L2 ( dP ) telle
N
que la suite N → ∑ hj X K − j converge pour la norme de H X
et quand N ↑ ∞
−N
X
vers YK . Or H étant un espace de Banach, il suffit de vérifier la convergence
normale, à savoir :

+∞ +∞
( )
1
∑ hj X K − j = ∑ h j E X K2 − j 2
<∞.
j =−∞ J =−∞
+∞
Ce qui est vrai compte tenu de l’hypothèse de stabilité ∑ h j < ∞ et de la
j =−∞

stationnarité de 2e ordre : E X (2K − j ) = σ 2 + m 2

2) Il faut vérifier que E YK est indépendant de K et que Cov ( Yi , Y j ) a la

forme CY ( j − i ) , ce qui est immédiat.

3) CY ( j − i ) = Cov ( Yi , Yj ) = ∑ h& h&′ Cov ( X j − & , X i − &′ )


& , &′

et, en utilisant la définition de S XX ( u )


1
CY ( j − i ) = ∑ h& h&′ ∫ − 12 exp ( 2iπ ( j − & ) − ( i − & ' ) u ) S XX ( u ) du .
& ,& ' 2

Il est facile de vérifier qu’on peut intervertir les symboles ∑ et ∫, de sorte que :
1 ⎛ ⎞
CY ( j − i ) = ∫ 2
exp ( 2iπ ( j − i ) u ) ⎜ ∑ h& h& ' exp 2iπ ( & '− & ) ⎟ S XX ( u ) du
−1
2 ⎝ & ,& ' ⎠
2
1
=∫ 2
exp ( 2iπ ( j − i ) u ) ∑ h& exp ( 2iπ &u ) S XX ( u ) du
−1
2 &
1
=∫ exp ( 2iπ ( j − i ) u ) H ( −2iπ u ) S XX ( u ) du
2 2
−1
2
Processus à temps discret 131

et en se reportant à la définition de SYY ( u ) , on a bien :

SYY ( u ) = H ( −2iπ u ) S XX ( u ) .
2

3.5. Exemple important : processus autorégressif


DÉFINITION.– On appelle processus autorégressif de degré d ∈ # tout processus
stationnaire du 2e ordre, centré X " qui vérifie : ∀K ∈ ".
d
X K = ∑ h j X K − j + BK où B" est un bruit blanc de puissance EBK2 = σ 2 .
j =1

La famille des processus autorégressifs de degré d est notée AR ( d ) .

Donc ∀ K , X K est obtenu à partir des K valeurs antérieures


X K −d ,..., X K −1 à la v.a. BK près, ce que l’on peut réaliser par le montage
suivant :

Figure 3.8. Filtre autorégressif

L’égalité de la définition s’écrit encore : H ( T ) X " = B" où on a posé


d
H ( T ) = 1 − ∑ h jT j .
j =1
132 Processus stochastiques et filtrages optimaux

C’est-à-dire qu’on peut obtenir X " par le filtrage de B" par le filtre H (T )
dont le schéma est déjà donné ci-avant à la direction des flèches près.

PROPOSITION.–

1) Tout processus X " ( AR ( d ) ) , généré par le bruit B" et par le filtre


2
σ
H (T ) possède la densité spectrale S XX ( u ) =
H ( exp ( −2iπ u ) )
2

(où le polynôme H ne possède pas de racine de module 1).

2) Réciproquement : tout processus stationnaire du 2e ordre, centré et


possédant une densité spectrale de la forme précédente est auto-régressif de degré
égal au degré de H .

DÉMONSTRATION.–

1) La proposition sur le filtrage et la relation B" = H (T ) X " avec


S B ( u ) = σ 2 conduisent au premier résultat annoncé.

Par ailleurs, supposons que H possède la racine z0 = exp ( −2i π u0 ) de


module 1 et posons z = exp ( −2i π u ) .

Par le développement de Taylor au voisinage de z0 , on aurait :

H ( z ) = H ′ ( z0 )( z − z0 ) + ... ou encore :

H ( exp ( −2i π u ) ) = constante × ( u − u0 ) + ... et l’application :


σ2
u → S XX ( u ) =
H ( exp ( −2i π u ) )
2

ne serait pas intégrable au voisinage de u0 ... comme doit l’être une densité
spectrale.
Processus à temps discret 133

2) Si le processus X " admet une densité spectrale de la forme


2
σ
S XX ( u ) = , le processus H (T ) X " admet la densité
H ( exp ( −2i π u ) )
2

spectrale constante σ 2 et comme il est centré, c’est un bruit blanc B" .

CAS PARTICULIER.– Processus autorégressif de degré 1 :

X K = h X K −1 + BK
C'est-à-dire (Ε)
(1 − hT ) X K = BK

On remarque pour débuter que :

1) X " est un processus de Markov

∀B ∈ B ( ! ) : P ( X K ∈ B X K −1 = α , X K −2 = β ,...) =
P ( hα1 + BK ∈ B X K −2 = β ,...)
et comme BK est indépendant de X K − 2 , X K −1 ,...

= P ( h α1 + BK ∈ B )
= P ( h X K −1 + BK ∈ B X K −1 = α ) = P ( X K ∈ B X K −1 = α )

2) Si B" est un bruit blanc gaussien, X " est lui-même gaussien.

Expression de X " , solution de ( E ) :

1) On recherche X " processus stationnaire du 2e ordre solution de ( E ) :

– si h = 1, il n’existe pas de processus stationnaire du 2e ordre X " qui


satisfasse à ( E ).

En effet supposons par exemple h = 1 et réitérons n fois la relation de


récurrence, il vient :
134 Processus stochastiques et filtrages optimaux

X K − X K −n −1 = BK + Bk −1 + ... + BK −n
et E ( X K − X K − n −1 ) = E ( BK + BK −1 + ... + BK − n ) = ( n + 1) σ
2 2 2

Mais si le processus était stationnaire du 2e ordre, on aurait aussi ∀n ∈ " .

E ( X K − X K − n −1 ) = E X K2 + E X K2 − n −1 − 2 E X K X K − n −1 ≤ 4σ 2
2

Et on voit donc que X " ne peut pas être stationnaire du 2e ordre.

Supposons maintenant h ≠ 1, on cherche, si (1 − hT ) est un opérateur


inversible, à obtenir X K = (1 − hT ) BK ;
−1

– si h > 1 . En écrivant (1 − hT ) = − hT % ⎜ 1 −
⎛ 1 −1 ⎞ , comme 1 < 1, on
T ⎟
⎝ h ⎠ h

voit qu’on peut développer ( 1


1 − T −1
h
) (donc aussi (1 − hT )−1 ) en série de
−1
puissance de T (opérateur avance) mais le filtre qu’on obtient étant non causal on
rejette la solution X " obtenue ;

– si h < 1, c’est-à-dire si le zéro du polynôme H ( z ) = 1 − hz −1 a un


module inférieur à 1, on sait que l’opérateur (1 − hT ) est inversible et que

(1 − hT )−1 = ∑ h j T j (filtre causal).
j =0


X K = (1 − hT ) BK = ∑ h j BK − j est donc la solution unique de :
−1

j =0

(1 − hT ) X K = BK

Sous cette forme, la stationnarité du 2e ordre de X " est évidente. En effet les
B j étant centrés et orthogonaux.
Processus à temps discret 135

∞ 2
σ2
Var X K
j =0
(
= ∑ E h BK − j
j
) =
1 − h2

Par ailleurs pour n ∈ # cov ( X i , X i + n ) =

⎛ ∞ j ∞ ⎞ ∞
2 h
n
E X i X i+n = E ⎜ ∑ h Bi − j ∑ h Bi + n −& ⎟ = σ ∑ h h = σ
& 2 j j +n
⎜ j =0 ⎟ 1− h
⎝ & =0 ⎠ j =0

n
h
Finalement ∀n ∈ " C ( n ) = Cov ( X i , X i + n ) = σ
2
1− h

( )
Figure 3.9. Graphe de C n , fonction de covariance
d’un processus AR (1) ( h ∈ ] 0,1 [ )

Densité spectrale S XX ( u ) de X " :


136 Processus stochastiques et filtrages optimaux

+∞
σ2 +∞
S XX ( u ) = ∑ C ( n ) exp ( −2iπ n u ) =
1− h 2 ∑ hn exp ( −2iπ n u )
n =−∞ n =−∞

σ2 ⎡ 1 1 ⎤
= 2 ⎢
+ − 1⎥
1 − h ⎣1 − h exp ( −2iπ u ) 1 − h exp ( 2iπ u ) ⎦
σ2
=
1 − 2h cos 2 π u + h 2

2) Solution générale de ( E ) :

C’est la somme de la solution trouvée de l’équation avec deuxième membre



X K − h X K −1 = BK soit ∑ h j BK − j .
j =0

Et de la solution générale de l’équation sous deuxième membre


K
X K − hX K −1 = 0 soit Α h où Α est une v.a. quelconque.


La solution générale X K = ∑ h j BK − j + Α h K n’est plus stationnaire du 2e
j =0
ordre, sauf si Α = 0.

3.6. Exercices du chapitre 3

Enoncé 3.1.

Etudier la stationnarité du processus gaussien X " ∼ N ( m ( K ) , min ( j , K ) ) où


E ( X K ) = m ( K ) est constante.

Enoncé 3.2.

On considère la suite réelle hn définie par :

1
hn = 2n si n < 0 et hn = si n ≥ 0 .
4n
Processus à temps discret 137

+∞
1) Déterminer le domaine de convergence de la série de Laurent ∑ hn z n
n =−∞

{
2) Si h = hn n ∈ " } est un filtre numérique, déterminer sa fonction de

transfert H ( z ) en précisant son domaine de définition.

Solution 3.2.

+∞ −1 ∞ n ∞ n∞ n n
⎛z⎞ ⎛ 1 ⎞ ⎛z⎞
1) ∑ hn z n = ∑ ( ) ∑ ⎜⎝ 4 ⎟⎠ ∑ ⎜⎝ 2 z ⎟⎠ ∑ ⎜⎝ 4 ⎟⎠
2 z + = +
n =∞ n =−∞ n =0 n =1 n =0

1
La série converge si z > et si z < 4 donc dans la couronne
2

K= z { 1
2
< z <4 .}
+∞ ∞ n
∞ n
⎛z⎞ ⎛ 1 ⎞
2) H ( z ) = ∑ hn z −n
= ∑⎜ ⎟ + ∑⎜ ⎟
n =−∞ n =1 ⎝ 2 ⎠ n =0 ⎝ 4 z ⎠

La série converge si z > 2 et si z < 1/ 4 donc dans la couronne


{
K′ = z 1 < z < 2 .
4 }
1 1 7z
Dans K ′ : H (z) = −1+ = .
1− z 1 − ( 4z )
−1
( 2 − z )( 4 z − 1)
2

Enoncé 3.3.

16 − 6 z
Développer H ( z ) =
−1
en série (de Laurent) de puissances de z
( 2 − z )( 4 − z )
dans les trois domaines suivants :
138 Processus stochastiques et filtrages optimaux

1) { z z < 2}

2) { z 2 < z < 4}

3) { z z > 4}

H ( z ) représentant à chaque fois une fonction de transfert, préciser dans les trois
cas si le filtre correspondant est stable et s’il est causal.

Solution 3.3.

2 4 1 1
H (z) = + = +
2−z 4− z 1− z 1− z
2 4
∞ 0
⎛ 1 1 ⎞ n
– si z < 2 H (z) = ∑⎜ + n ⎟
z = ∑ 2n + 4n z − n ( )
n =0 ⎝ 2 4 ⎠
n
n =−∞


⎛ 1 1 ⎞
Le filtre est stable car ∑ ⎜⎝ 2n + 4n ⎟⎠ < ∞ mais non causal puisque la série
n=0
contient des puissances positives de z .
−2 1
– si 2 < z < 4 on écrit H ( z ) = +
(
z 1− 2
z ) 1− z
4
∞ n ∞ n ∞
−2 z 0
=∑ n
+∑ n
= ∑ 4n z − n + ∑ −2n z n .
n =1 z n =0 4 n =−∞ n =1

Le filtre n’est ni stable ni causal.


−2 −4
– si z > 4 on écrit H ( z ) = +
(
z 1− 2
z ) z (1 − 4 z )

( )
= ∑ − 2n + 4n z − n le filtre est instable et causal.
n =1
Processus à temps discret 139

Enoncé 3.4.

On considère un bruit blanc gaussien B" (rappelons que les BK sont des v.a.
gaussiennes indépendantes ; EBK = 0 et Var BK = 0 ). On se donne par ailleurs
deux réels α et β différents et vérifiant α < 1 et β < 1.

1) Construire un processus stationnaire centré X " tel que :


X K = α X K −1 + BK − β BK −1 K ∈ " , et déterminer sa densité spectracle
S XX ( u ) .

X
2) Notons par H l’espace linéaire engendré par les v.a. X n , n ≤ 0 .

Notons par HB l’espace linéaire engendré par les v.a. Bn , n ≤ 0 .

X
Vérifier que H =H B .

3) On pose YK = ∑ β n X K −n K ∈"
n=0

Exprimer YK en fonction du bruit blanc et en déduire la meilleure approximation


linéaire de YK exprimée à l’aide des X n , n ≤ 0 .

4) Montrer que les v.a. YK sont gaussiennes centrées et calculer leurs


covariances.

Solution 3.4.

1) L’égalité définissant X K permet d’écrire (1 − α T ) X K = (1 − β T ) BK et


l’opérateur (1 − α T ) étant inversible puisque α < 1.

⎛ ∞

X K = (1 − α T )
−1
(1 − β T ) BK = ⎜ ∑ α nT n ⎟ (1 − β T ) BK
⎝ n =0 ⎠
140 Processus stochastiques et filtrages optimaux


Donc X K = BK + ∑ α n−1 (α − β ) BK −n et X " est bien stationnaire.
n =1

Par ailleurs, le processus X " est généré à partir de B" par le filtre
−1 1− β z
(1 − α T ) (1 − β T ) de fonction de transfert .
1+α z

2
1 − β e2iπ u
Donc d’après le théorème sur le filtrage : S XX (u ) = 2iπ u
σ 2.
1+ αe

B
2) D’après 1) ∀K X K ∈H donc H
X
⊆ H
B

Réciproquement, en partant de BK = (1 − β T ) (1 − α T ) X K
−1
et par des calculs

analogues aux précédents, on obtient H B ⊆H X


⎛ ∞ ⎞
= ∑ β n X K −n = ⎜ ∑ β nT n ⎟ X K = (1 − β T ) X K
−1
3) YK
n =0 ⎝ n =0 ⎠

Donc YK = (1 − β T ) (1 − α T )−1 (1 − β T ) BK ,
−1
et comme on peut permuter

les opérateurs, YK = (1 − α T )−1 BK = ∑ α n BK − n
n =0

X
Puisque H = H B , la meilleure approximation linéaire de YK est :

⎛ ∞ ⎞ ∞
projH X YK = projH X YK = projH B ⎜ ∑ α n BK − n ⎟ = ∑ α n+ K B− n
⎝ n =0 ⎠ n =0
0

∞ ∞
α K ∑ α n B− n = α k Y0 = α K ∑ β n X − n
n =0 n =0
Processus à temps discret 141


4) Puisque YK = ∑ α n BK −n, les YK sont des v.a. gaussiennes centrées. Par
n =0
ailleurs :

∞ ∞ ∞
Cov (Y j , YK ) = ∑ ∑ α m+ n E ( BK −n B j −m ) = ∑ α 2m+ K − j EB 2j −m
m =0 n =0 m =0


α K− j

K− j
∑ α 2mσ 2 =
1−α 2
σ2.
m =0

Enoncé 3.5.


Soit X " un processeur vérifiant ∑ bn X K −n = BK ( bn ∈ ! ) où B" est un
n =0

bruit de puissance σ 2 . On pose par ailleurs b ( z ) = ∑ bn z − n .
n =0

1 z K − j −1
1) Montrer que si j < K ∫C b ( z ) dz
EX j BK =
2iπ
+

(intégrale de la variable complexe z où C = { z z = 1} ).

2) Vérifier que si b ( z ) ne possède pas de zéro dans le disque


{z }
z < 1 alors ∀j < K X j ⊥ BK ( EX j BK = 0).

Solution 3.5.


1) EX j BK = ∑ bn EX j X K −n et par définition de la densité spectracle
n =0
S X ( u ) de X " :

EX j X K − n = cov ( X j , X K −n ) = ∫ ( 2iπ ( j − K + n ) u ) S X ( u ) du
1/ 2
exp
−1/ 2
142 Processus stochastiques et filtrages optimaux

⎛ ∞ n⎞
⎜ ∑ bnT ⎟ X K = BK , X " est obtenu par filtrage de B"
Par ailleurs, puisque
⎝ n =0 ⎠
1
(de densité spectacle σ ), par le filtre de fonction de transfert
2
et par le
b( z)
2
σ
théorème sur le filtrage S X ( u ) =
b ( exp ( −2iπ u ) )
2


1
exp ( 2iπ ( j − K ) u )∑ bn exp ( 2iπ nu )
1/ 2
d’où EX j BK = σ 2 ∫ du
b ( exp ( −2iπ u ) )
−1/ 2 2
n =0

b ( exp ( −2iπ u ) )
exp ( 2iπ ( j − K ) u )
1/ 2
σ2∫ du
b ( exp ( −2iπ u ) )
−1/ 2 2

1/ 2 exp ( 2iπ ( j − K ) u )
=σ2∫ du
−1/ 2 b ( exp ( −2iπ u ) )

En posant z = exp ( −2iπ u ) , dz = −2iπ z du et finalement :

σ2 z K − j −1
EX j BK =
2iπ ∫C +
b( z)
dz

2) Si b z ( ) ne possède pas de zéro dans {z }


z < 1 , la fonction à intégrer
est holomorphe à l’intérieur du disque ouvert D ( 0,1) et par le théorème de Cauchy
EX j BK = 0.
CHAPITRE 4

Estimation

4.1. Position du problème

On considère deux processus à temps discret :

( )
X !∗ = X 1 ,..., X j ,... et Y!∗ = (Y1 ,..., Y j ,...) :
– du 2e ordre ;
– pas nécessairement stationnaires du 2e ordre (ils ne possèdent donc pas
nécessairement une densité spectrale).

X !∗ est appelé processus d’état, c’est le processus (physique par exemple) que
l’on cherche à estimer mais il est inaccessible directement.

Y!∗ est appelé processus d’observation, c’est le processus que l’on observe
( )
(précisément on observe une trajectoire y!∗ = y1 ,..., y j ,... qui nous permettra

(
d’estimer la trajectoire correspondante x!∗ = x1 ,..., x j ,... ). )
Un exemple classique est le suivant :

(
X !∗ = X 1 ,..., X j ,... )
(
Y!∗ = X !∗ + U !∗ = X 1 + U1 ,..., X j + U j ,... , )
144 Processus stochastiques et filtrages optimaux

où U !∗ est aussi un processus aléatoire.

On dit alors que le processus d’état est perturbé par un bruit parasite
U !∗ (perturbation due à la mesure, à la transmission, etc.).

Dans la suite, les hypothèses et données suivantes seront admises :


– ∀j ∈ !

X j et Y j ∈ L2 ( dP ) ;
∗ ∗
– ∀i, j ∈ ! × ! , on connaît EX j , cov X i , Y j ( ) , cov (Yi , Y j ).
PROBLÈME.– Ayant observé (ou enregistré) une trajectoire y!∗ de Y!∗ jusqu’à
l’instant K − 1 , on veut, à un instant donné p , déterminer la valeur « xˆ p qui
approche au mieux x p (inconnue) ».

Figure 4.1. Trois trajectoires

(
y!∗ = y1 ,..., y j ,... ) (
xˆ!∗ = xˆ1 ,..., xˆ j ,... ) ( )
x!∗ = x1 ,..., x j ,... inconnue.

Si :
– p< − 1 on parle de lissage ;
K

– p = K − 1 on parle de filtrage ;
– p > K − 1 on parle de prédiction.

REMARQUE 1.– Dans le cas de la prédiction, on peut n’avoir à considérer que le


processus Y!∗ car prédire y p pour p > K − 1 est déjà un problème…
Estimation 145

REMARQUE 2.– A propos de l’expression « xˆ p approche au mieux x p ». Nous


verrons que les hypothèses (connaissances des variances et covariances) nous
permettent de déterminer Xˆ p , la v.a. du 2e ordre qui approche au mieux en

moyenne quadratique la v.a. X p , c’est-à-dire la v.a. Xˆ P qui est telle que

( ) = Min2 E ( X p − Z ) , ce qui est un résultat sur les moyennes de


2 2
E X p − Xˆ p
Z ∈L
v.a. et non sur les réalisations.

Cependant, ne serait-ce qu’à cause de l’inégalité de Bienaymé-Tchebychev :

( )
2
E X p − Xˆ p
(
P X p − Xˆ p ≥ C ≤ ) C2
= A.

On voit que l’on obtient un résultat sur les réalisations puisque cette inégalité
signifie exactement que à l’instant p , la valeur inconnue x p appartiendra à

l’intervalle connu ⎤⎦ xˆ p − C , xˆ p + C ⎡⎣ avec une probabilité supérieur à 1 − A .

Ce chapitre est une introduction au filtrage de Kalman pour lequel nous aurons à
considérer la meilleure estimation de la v.a. X K (et aussi éventuellement de la v.a.
YK ) ayant observé Y1 ,..., YK −1 et nous supposerons donc p = K .

RÉSUMONS.– Etant donné le processus d’observation Y!∗ , considéré jusqu’à


l’instant K − 1 , toute estimation Z de X K aura la forme Z = g (Y1 ,..., Yk −1 ) où
g : " K −1 → " est une application borélienne. Le problème que nous nous
poserons dans les paragraphes à venir est le suivant.

Trouver la meilleure estimation en moyenne quadratique Xˆ K K −1 de X K ,

c’est-à-dire trouver la v.a. Xˆ K K −1 qui rend minimum l’application

Z → E( XK − Z )
2
(c’est-à-dire encore trouver la fonction ĝ qui rend
L2 ( dP ) "

( )
2
minimum g → E X K − g (Y1 ,..., YK −1 ) . On a Xˆ K K −1 = gˆ (Y1 ,..., YK −1 ) ).
146 Processus stochastiques et filtrages optimaux

4.2. Estimation linéaire

L’espace fondamental que l’on définit ci-après a déjà été introduit, mais dans un
contexte différent, au chapitre 3.

DÉFINITION.– On appelle espace linéaire d’observation jusqu’à l’instant K −1 et on


note H KY−1 (ou H (1, Y1 ,..., YK −1 ) ), l’espace vectoriel des combinaisons linéaires
des v.a. 1, Y1 ,..., YK −1 , c’est-à-dire :

⎧ K −1 ⎫
H KY−1 = ⎨λ01 + ∑ λ jY j λ 0 ,..., λK −1 ∈ " ⎬ .
⎩ j =1 ⎭

Puisque les v.a. 1, Y1 ,..., YK −1 ∈ L


2
( dP ) , H KY-1 est un sous espace vectoriel
(fermé, car le nombre de v.a. est fini) de L
2
( dP ) .
On peut aussi dire que H KY-1 est un sous espace de Hilbert de L2 ( dP ) .

Nous nous intéressons ici au problème énoncé au paragraphe précédent mais


avec l’hypothèse simplificatrice : g est linéaire, c’est-à-dire que les estimateurs
envisagés Z de X K sont de la forme :

K −1
Z = g (Y1 ,..., YK −1 ) = λ0 + ∑ λ jY j et appartiennent donc à HKY−1.
j =1

Le problème s’énonce alors : trouver la v.a., notée Xˆ K K −1 , qui rend minimum


l’application :

Z → E( XK − Z )
2

H KY−1 "

(c’est-à-dire trouver les λˆ0 , λˆ1 ,..., λˆK −1 qui rendent minimum :
Estimation 147

2
⎛ ⎛ K −1
⎞⎞
λ0 , λ1 ,..., λK −1 → E ⎜⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟⎟ ).
⎝ ⎝ J =1 ⎠⎠
K −1
On aura Xˆ K K −1 = λˆ0 + ∑ λˆ jY j .
j =0
DÉFINITION.–
2
⎛ ⎛ K −1 ⎞⎞
C ( λ0 , λ1 ,..., λK ) = E ⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟ s’appelle « fonction coût ».
⎜ ⎜ ⎟⎟
⎝ ⎝ j =1 ⎠⎠

La solution est donnée par le résultat suivant, relatif aux espaces de Hilbert.

THÉORÈME.–
K −1
– Il existe Xˆ K K −1 = λˆ0 + ∑ λˆ jY j unique qui rend minimum l’application
j =1

Z → E( XK − Z )
2
;
H KY−1 "
– Xˆ K K −1 est la proposition orthogonale de X K sur H KY−1 (on la note aussi

projH Y X K ). C’est-à-dire X K − Xˆ K K −1 ⊥ H K −1 .
Y
K −1

Figure 4.2. Projection orthogonale du vecteur XK sur H KY-1

Ce théorème étant admis, on achève de résoudre le problème en calculant les


λˆ 0, λˆ 1,..., λˆ K −1 .
148 Processus stochastiques et filtrages optimaux

PROPOSITION.–

K −1
1) Les coefficients λˆ 0, λˆ 1,..., λˆ K −1 de Xˆ K K −1 = λˆ 0 + ∑ λˆ jY j vérifient :
j =1

⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ ⎜ ⎟ K −1
ΓY ⎜ # ⎟ = ⎜ # ⎟ et λ 0 K ∑ j j
ˆ = EX − λˆ EY
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟ j =1
⎝ K −1 ⎠ ⎝ K K −1 ⎠

⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟
et si ΓY est inversible ⎜ # ⎟ = ΓY ⎜ # ⎟;
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟
⎝ K −1 ⎠ ⎝ K K −1 ⎠

2) X$ K = X K − Xˆ K K −1 est une v.a. centrée qui représente l’erreur


d’estimation.

( ) ( )
2
On a Var X$ K = Var X K − Xˆ K K −1 = E X K − Xˆ K K −1

= Var X K − ∑ λˆi λˆ j cov ( Yi , Y j ).


i, j

Et si ΓY est inversible =

Var X K − ⎡⎣Cov ( X K , Y j ) ⎤⎦ ΓY−1 ⎡⎣Cov ( X K , Y j ) ⎤⎦ .


T

Démonstration :

1) X K − Xˆ K K −1 ⊥ H K −1 ⇔ X K − Xˆ K K −1 ⊥ 1, Y1 ,..., YK −1
Y

– X K − Xˆ K K −1 ⊥ 1 ⇔

⎛ ⎛ K −1 ⎞⎞
( )
E X K − Xˆ K K −1 1 = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ jY j ⎟ ⎟ = 0
⎜ ⎟
⎝ ⎝ j =1 ⎠⎠
Estimation 149

Soit EX K = λˆ 0 + ∑ λˆ j EY j ; (1)
j

– X K − Xˆ K K −1 ⊥ Yi ⇔

⎛ ⎛ ⎞⎞
( )
E X K − Xˆ K K −1 Yi = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ j Y j ⎟ ⎟ Yi = 0 .
⎜ ⎟
⎝ ⎝ j ⎠⎠

Soit EX K Yi = λˆ 0 EYi + ∑ λˆ j EY jYi . (2)


j

De (1) on tire λˆ 0 = EX K − ∑ λˆ j EY j que l’on porte dans (2).


j

Il vient :

⎛ ⎞
EX K Yi = ⎜ EX K − ∑ λˆ j EY j ⎟ EYi + ∑ λˆ j EY j Yi
⎝ j ⎠ j

= EX K EYi − ∑ λˆ j ( EY j Yi − EY j EYi ) .
j

C’est-à-dire :

∀i = 1 à K −1 ∑ λˆ j Cov (Y j , Yi ) = Cov ( X K , Yi )
j

⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ ⎜ ⎟
ou, sous forme matricielle ΓY ⎜ # ⎟ = ⎜ # ⎟.
⎜ˆ ⎟ ⎜ ⎟
⎝ λ K −1 ⎠ ⎝ Cov ( X K , YK −1 ) ⎠

– Si ΓY est non inversible :

Rappelons les équivalences :


150 Processus stochastiques et filtrages optimaux

ΓY non inversible ⇔ ΓY est semi-définie positive ⇔ les v.a.


Y1 − EY1 ,..., YK −1 − EYK −1 sont linéairement dépendantes dans L2
⇔ dim H KY−1 < K − 1 ;

Sous cette hypothèse, il existe une infinité de K-uples ( λˆ ,..., λˆ ) (et donc
1 K −1

aussi une infinité de λ̂ 0 ) qui vérifient la dernière égalité matricielle mais toutes les
expressions λˆ 0 + ∑ λˆ jY j sont égales à la même v.a. Xˆ K K −1 d’après l’unicité de la
j
projection orthogonale sur un sous espace de Hilbert.

– Si ΓY est inversible :

Les v.a. Y − EY ,..., Y − EY sont linéairement indépendantes dans


1 1 K −1 K −1

L2 , les coefficients λˆ 0, λˆ 1,..., λˆ K −1 sont uniques et on obtient

⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟ K −1

⎜ # ⎟ = Γ Y ⎜ # ⎟ et 0 K ∑ j j
ˆ = EX − λˆ EY
λ
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟ j =1
⎝ K −1 ⎠ ⎝ K K −1 ⎠

2) X K − Xˆ K K −1 est centrée (évident).

( )
X K = X K − Xˆ K K −1 + Xˆ K K −1 et comme X K − Xˆ K K −1 ⊥ X K
d’après le théorème de Pythagore.

2
⎛ ⎞
( )
2
E X K − Xˆ K K −1 = EX K2 − EXˆ 2 = EX K2 − E ⎜ λˆ 0 + ∑ λˆ jY j ⎟
K K −1 ⎜ ⎟
⎝ j ⎠

et puisque λˆ 0 = EX K − ∑ λˆ j EY j ,
j
Estimation 151

2
⎛ ⎞
E ( X K − X K K −1 ) = − E ⎜ EX K − ∑ λˆ j ( Y j − EY j ) ⎟
2
EX K2
⎝ j ⎠
= EX K − E ( EX K ) − 2 EX K ∑ λˆ j Y j − EY j
2 2
( )
j

+ ∑ λˆi λˆ j (Yi − EYi ) ( Y j − EY j ) .


i, j

( ) = Var X K − ∑ λˆ i λˆ j Cov (Yi , Y j ) .


2
D’où E X K − Xˆ K K −1
i, j

⎛ λˆ1 ⎞
⎜ ⎟
Soit sous forme matricielle = Var X K − λˆ 1,..., λˆ ( K −1 ) ΓY ⎜ # ⎟ .
⎜ˆ ⎟
⎜ λK −1 ⎟
⎝ ⎠

⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟
Et si ΓY est inversible comme ⎜ # ⎟ = ΓY ⎜ # ⎟.
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟
⎝ K −1 ⎠ ⎝ K K −1 ⎠

Il vient :

( )
2
E X K − Xˆ K K −1

⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟.
= Var X K − ( Cov ( X K , Y1 ) , ... , Cov ( X K , YK −1 ) ) ΓY−1 ⎜ # ⎟
⎜ Cov ( X , Y ) ⎟
⎝ K K −1 ⎠

REMARQUE.– Si Cov ( X K , Y1 ) = 0,..., Cov ( X K , YK −1 ) = 0 , les v.a. Yj


n’apportent aucune information pour estimer en moyenne quadratique la v.a. X K −1 .

En nous reportant d’ailleurs aux formules précédents :


152 Processus stochastiques et filtrages optimaux

⎛ λˆ 1 ⎞ ⎛ 0⎞
⎜ ⎟ −1 ⎜ ⎟
⎜ # ⎟ = ΓY ⎜ # ⎟ et Xˆ K K −1 = λˆ 0 = EX K .
⎜ˆ ⎟ ⎜ 0⎟
⎝ λ K −1 ⎠ ⎝ ⎠

2
On retrouve le résultat connu : étant donné une v.a. X ∈ L , la v.a. qui
minimise Z → E ( X K − Z ) est
2
X̂ = EX .
L2 "
K −1
DÉFINITION.– L’hyperplan de "
K
d’équation x = λˆ 0 + ∑ λˆ j y j s’appelle plan de
j =1

régression de X en Y1 ,..., YK −1.

Pratiquement :

1) Les hypothèses statistiques sur les processus X ∗ et Y ∗ nous ont permis


! !

de calculer les valeurs numériques λˆ 0 , λˆ 1,..., λˆ K −1 et donc d’obtenir le plan de


K −1
régression x = λˆ 0 + ∑ λˆ j y j (les y j et x parcourant " ).
j =1

2) On veut connaître la valeur xK prise par X K ; on recueille les


observations y1 ,..., yk −1 et on déduit donc l’estimation cherchée xˆ K K −1 (cette fois
des valeurs déterminées).

3) On est assuré que la vraie valeur xK prise par la v.a. X K est dans
l’intervalle ⎤ xˆ K K −1− C , xˆ K K −1+ C ⎡ avec une probabilité supérieure à :
⎦ ⎣

( )
2
E X K − X K K −1
1− 2
,
C
valeur qui se calcule en utilisant la formule de la proposition précédente.
Estimation 153

CAS PARTICULIER.– Soit à estimer : X 2 à partir de la seule v.a. d’observation Y1 ,


c’est-à-dire, soit à trouver X̂ 2 1 = λˆ 0 + λˆ 1Y1 ,

E ( X 2 − ( λ 0 + λ 1Y1 ) ) . D’après la proposition :


2
qui minimise

λˆ1 = (VarY1 ) Cov ( X 2 , Y1 ) et λˆ0 = EX 2 − (VarY1 ) Cov ( X 2 , Y1 ) EY1 .


−1 −1

Cov ( X 2 , Y1 )
Donc Xˆ 2 1 = EX 2 + (Y1 − EY1 ).
VarY1

Figure 4.3. Droite de régression

Valeur de la variance d’erreur d’estimation :

( )
2
= VarX 2 − Cov ( X 2 , Y1 )(VarY ) Cov ( X 2 , Y1 )
−1
EX$ 2 2 = E X 2 − Xˆ 2 1

⎛ ( Cov ( X 2 , Y1 ) )2 ⎞
= VarX 2 ⎜ 1 − ⎟.
⎜ VarX 2 VarY1 ⎟
⎝ ⎠

REMARQUE.– Il peut être intéressant de noter le parallèle existant entre le problème


de la meilleure estimation en moyenne quadratique de X K et celui de la meilleure
approximation dans L2 d’une fonction h par un polynôme trigonométrique. Posons
154 Processus stochastiques et filtrages optimaux

B ([ 0,T ]) = tribu des boréliens de l’intervalle [ 0, T ] et donnons un tableau des


correspondances.

H K −1 ⊂ L ( Ω, a, P )
y 2
H ∈L
2
([ 0, T ] , B ([ 0, T ]) , dt )

L2 ( dt )
{ }
L ( dP ) = v.a. X
{ }
2 2
EX < ∞ T 2
= f boréliennes ∫0 f ( t ) dt < ∞

Produit scalaire : ∀X , Y ∈ L
2
( dP ) Produit scalaire : f , g ∈ L
2
( dt )
< X , Y > = EXY T
< f , g >= ∫ f ( t ) g ( t ) dt
∫ X ( ω ) Y ( ω ) dP ( ω )
0
=

Pour j = − K à K

Pour j =1 à K −1 Y j ∈ L ( dP )
2

e j (t ) =
exp ( 2iπ jt T ) ∈ L ( dt ) 2

T
Espace linéaire : Espace linéaire :
H
Y
K −1
= H (1, Y1 , ..., YK −1 ) H ( e− K ,..., e0 ,..., eK )
Problème : Problème :

Etant donné la v.a. X K ∈ L


2
( dP ) Etant donné la fonction h ∈ L
2
( dt )
Trouver λˆ 0 , λˆ 1, ..., λˆ donc
K −1 Trouver λˆ −K , ..., λˆ
K donc trouver ĥ qui
trouver Xˆ K K −1 qui minimise minimise
2 K
h (t ) − ∑ λ e ( t ) dt
T
⎛ ⎛ k −1
⎞⎞ ∫
E ⎜ XK − ⎜ λ0 + ∑ λ j Y j ⎟ ⎟ 0
j =− K
j j

⎝ ⎝ j =1 ⎠⎠
Estimation 155

Dans le problème de la meilleure approximation d’une fonction par un polynôme


trigonométrique, les coefficients λˆ j ont une expression très simple car les ej
forment une base orthonormée de H ( e− K ,..., eK ) et on a :

1 T λˆ j
λˆ j = ∫0 h ( t ) e j ( t ) dt et C j = coefficients de Fourier.
T T

Variante de la proposition précédente

⎧⎪ K −1 ⎫⎪
On considère l’espace linéaire d’observation H KY−1 = ⎨ ∑ λ jY j λ j ∈ " ⎬ et
⎪⎩ j =1 ⎪⎭
K −1
on cherche donc la v.a. Xˆ K K −1 = ∑ λˆ jY j qui minimise l’application
j =1

Z → E( XK − Z ).
H KY−1 "

Posons M Y ( )
= ⎡⎣ E YiY j ⎤⎦ matrice des moments d’ordre 2 du vecteur aléatoire
Y1 ,..., YK −1 .

On a la proposition suivante.

PROPOSITION.–

⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞
⎜ ⎟ ⎜ ⎟ et si M est inversible :
1) Les λˆ j vérifient M Y ⎜ # ⎟ = #
⎜ ⎟ Y
⎜ λK −1 ⎟ ⎜⎝ EX K YK −1 ⎟⎠
⎝ ⎠

⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞
⎜ ⎟ −1 ⎜ ⎟.
⎜ # ⎟ = MY ⎜ #

⎜ λK −1 ⎟ ⎜ EX Y ⎟
⎝ ⎠ ⎝ K K −1 ⎠
156 Processus stochastiques et filtrages optimaux

( )
2
2) E X K − X K K −1 = EX K2 − ∑ λˆi λˆ j EYiY j et si M Y est inversible
i, j

⎛ EX K Y1 ⎞
= EX K2 − ( EX K Y1 ,..., EX K YK −1 ) M Y−1
⎜ #
⎟.
⎜ ⎟
⎜ EX Y ⎟
⎝ K K −1 ⎠
Dorénavant et dans toute la suite de cet ouvrage, l’espace linéaire d’observation
⎧ K −1 ⎫
à l’instant K −1
Y
sera H K −1 = ⎨ ∑ λ1Y j λ j ∈ " ⎬ .
⎩ j =1 ⎭

INNOVATION.– Soit un processus discret (YK ) K∈!∗ qui (comme ce sera le cas en
filtrage de Kalman) peut être le processus d’observation d’un autre processus
( X K ) K∈! ∗ et posons YˆK K −1 = projH Y YK ; YˆK K −1 est donc la meilleure
K −1

estimation linéaire et en moyenne quadratique de la v.a. YK .

DÉFINITION.– On appelle innovation à l’instant K ( ≥ 2 ) , la v.a.

I K = YK − YˆK K −1 .

On appelle processus d’innovation la famille de v.a. { I 2 ,..., I K ,...} .

4.3. Meilleure estimation – Espérance conditionnelle

On cherche à améliorer le résultat en considérant comme estimation de X K non


K −1
plus uniquement les fonctions linéaires ∑ λ jY j des v.a. Y1 ,..., YK −1 mais les
j =1

fonctions générales g (Y1 ,..., YK −1 ) .

PROPOSITION.– La famille des v.a.


Estimation 157

{
H K′Y−1 = g (Y1 ,..., YK −1 ) g : " K −1 → " boréliennes,

tel que g ( Y1 ,..., YK −1 ) ∈ L


2
} est un sous espace vectoriel fermé de L2 .
DÉMONSTRATION.–

{
Notons encore L ( dP ) = v.a.Z EZ < ∞ = espace de Hilbert muni du
2 2
}
produit scalaire : ∀Z1 , Z 2 ∈ L
2
( dP ) < Z1 , Z 2 > L ( dP ) = EZ1Z 2 ;
2

Par ailleurs, f
Y (y
1
, ..., y
K −1 ) désignant la densité du vecteur

Y = (Y1 ,..., YK −1 ) , posons pour simplifier l’écriture :

d µ = fY ( y1 ,..., yK −1 ) dy1...dyK −1
et introduisons le nouvel espace de Hilbert {
L2 ( d µ ) = g : " K −1 → "

borélienne ∫" K −1
g 2 ( y1 ,..., yK −1 ) d µ < ∞} .

Il est muni du produit scalaire : ∀g1 , g 2 ∈ L2 ( d µ )

< g1 , g 2 > L2 ( d µ ) = ∫ K −1 g1 ( y1 ,..., yK −1 ) g 2 ( y1 ,..., yK −1 ) d µ .


"

Soit enfin l’application linéaire :

Ψ:g → g (Y ) = g (Y1 ,..., YK −1 )


L2 ( d µ ) L2 ( dP ) .

On constate que ψ conserve le produit scalaire (et la norme) :

< g1 (Y ) g 2 (Y ) > L2 ( dP ) = Eg1 (Y ) g 2 (Y ) = ∫ g1 ( y ) g 2 ( y ) dy


" K −1

=< g1 , g 2 > L2 ( d µ )
158 Processus stochastiques et filtrages optimaux

Par hypothèse H K′Y−1 ⊂ L2 ( dP ) , vérifions que H K′ −1 est un sous espace


Y

vectoriel de L
2
( dP ) :
Soient Z1 et Z 2 ∈ H K′Y−1 et soient deux constantes λ 1 et λ 2 ∈ " . Il existe
g1 ∈ L2 ( d µ ) tel que Z1 = g1 (Y ) et il existe g 2 ∈ L2 ( d µ ) tel que
Z2 = g2 ( µ ) .

Donc λ 1Z1 + λ 2 Z 2 = λ 1Ψ ( g1 ) + λ 2 Ψg 2 = Ψ ( λ 1 g1 + λ 2 Z 2 ) et comme

λ 1 g1 + λ 2 g 2 ∈ L2 ( d µ ) , H K′Y−1 est bien un sous espace vectoriel de L2 ( dP ).

Montrons ensuite que H K′Y−1 est fermé dans L2 ( dP ).

Soit Z p = g p (Y ) = Ψ g p ( ) une suite de H K′Y−1 qui converge vers

Z ∈ L2 ( dP ) .

Vérifions que Z ∈ H K′ −1 :
Y

g p (Y ) est une suite de Cauchy de H K′Y−1 et à cause de l’isométrie, g p (Y )


est une suite de Cauchy de L
2
(dµ ) et qui converge donc vers une fonction

g ∈ L ( d µ ) , c’est-à-dire :
2

( g p ( y ) − g ( y ) ) d µ = E ( g p (Y ) − g (Y ) )
2 2
gp − g =∫ → 0.
L2 ( d µ ) " K −1 p ↑∞

Comme la limite de g p (Y ) est unique, g (Y ) = Z , c’est-à-dire que

Z ∈ H K′Y−1 et que H K′Y−1 est fermé.

Finalement H K′Y−1 est un sous espace de Hilbert de L2 ( dP ).

Revenons à notre problème : soit à estimer la v.a. XK.


Estimation 159

Le meilleur estimateur Xˆ ′ = gˆ (Y1 ,..., YK −1 ) ∈ H K′Y−1 de X K , c’est-à-dire


K K −1

l’estimateur qui minimise E ( X K − g ( Y1 ,..., YK −1 ) )


2
est (toujours en vertu du
théorème déjà cité sur les espaces de Hilbert) la projection orthogonale de X K sur
H K′Y−1 .

Soit : Xˆ ′ = gˆ ( Y1 ,..., YK −1 ) = projH ′Y X K .


K K −1 K −1

Figure 4.4. Projection orthogonale du vecteur XK sur H K′Y-1

1

( ⎞
)
2 2
⎜ E X K − Xˆ K′ K −1 ⎟
⎝ ⎠

H K′ Y−1
XK
H KY−1 Xˆ K′ K −1

Xˆ K K −1
L ( dP )
2

1

( )
2⎞ 2
ˆ
⎜ E X K − X K K −1 ⎟
⎝ ⎠

Figure 4.5. Meilleure estimation linéaire et meilleure estimation


160 Processus stochastiques et filtrages optimaux

Il est clair qu’on a les inclusions H KY−1 ⊂ H K′Y−1 ⊂ L2 ( dP ) donc a priori

étant donné X K ∈ L
2
( dP ) − H K′Y−1 , Xˆ ′
K K −1
sera une meilleure approximation

de X K que Xˆ K K −1 , ce que l’on visualise dans la figure 4.5.

2
Dans la figure 4.5, les v.a. (vecteur de L ) sont représentés par des points et les
normes des erreurs d’estimation par des segments.

Enfin, pour résoudre entièrement le problème posé, on cherche à calculer


Xˆ K′ K −1 .

PROPOSITION.– Xˆ K′ K −1 = gˆ (Y1 ,..., YK −1 ) = projH ′Y X K


K −1

(
est l’espérance conditionnelle E X K Y1 ,..., YK −1 . )
DÉMONSTRATION.–

1) Vérifions pour commencer que la v.a.

g (Y1 ,..., YK −1 ) = E ( X Y1 ,..., YK −1 ) ∈ L2 ( dP )

(∫ )
2
or ( g ( y1 ,..., y K −1 ) ) = ( g ( y ) ) = xi1 f ( x y ) dx ,
2 2
"
et par l’inégalité de Schwarz :

≤ ∫ x 2 f ( x y ) dx ∫ 12 f ( x y ) dx
" &'
" '('' )
=1
donc :

Eg (Y1 ,..., YK −1 ) = ∫ g 2 ( y1 ,..., yk −1 ) fY ( y ) dy


2
" K −1

≤∫ f
" K −1 Y
( y ) dy ∫" x 2 f ( x y ) dx.

En posant encore ici U = ( X , Y1 ,..., YK −1 ) et en rappelant que :

fU ( x, y ) = fY ( y ) f ( x y ) on a par le théorème de Fubini :


Estimation 161

E ( g (Y1 ,..., YK −1 ) ) ≤ ∫ x 2 dx ∫ K −1 fU ( x, y ) dy = EX 2 < ∞ .


2
" "
&'' ('')
fX ( x)

On a donc bien g (Y1 ,..., YK −1 ) ∈ L ( dP )


2
et aussi, étant donné la définition

de H K′Y−1 , g (Y1 ,..., YK −1 ) ∈ H K′Y−1 .

(
2) Pour montrer que g (Y1 ,..., YK −1 ) = E X K Y1 ,..., YK −1 est la projection )
orthogonale Xˆ K′ K −1 = gˆ (Y1 ,..., YK −1 ) = projH ′Y X K , il suffit, comme cette
K −1

projection est unique, de vérifier l’orthogonalité

X K − E ( X K Y1 ,..., YK −1 ) ⊥ H K′Y−1 .

C’est-à-dire :

∀ g (Y1 ,..., YK −1 ) ∈ H K′Y−1 X K − E ( X K Y1 ,..., YK −1 ) ⊥ g (Y1 ,..., YK −1 )

(
⇔ EX K g (Y1 ,..., YK −1 ) = E E ( X K Y1 ,..., YK −1 ) g (Y1 ,..., YK −1 ) . )
Or, le premier membre EX K g (Y1 ,..., YK −1 ) = ∫" K
xg ( y ) f Z ( x, y ) dx dy
=∫ xg ( y ) f ( x y ) fY ( y ) dx dy
"K

et en appliquant le théorème de Fubini :

= ∫" ( ∫" xf ( x y ) dx ) g ( y ) fY ( y ) dy qui est égal au 2e membre


K −1

E ( E ( X K Y1 ,..., YK −1 ) g (Y1 ,..., YK −1 ) ) et la proposition est démontrée.

Pratiquement, le vecteur aléatoire U = ( X K , Y1 ,..., YK −1 ) étant associé à un


phénomène physique, biologique, etc., la réalisation de ce phénomène nous donnera
K − 1 valeurs numériques y1 ,..., y K −1 et les réponses finales au problème seront les
valeurs numériques :
162 Processus stochastiques et filtrages optimaux

K −1
xˆ K K −1 = ∑ λˆ j y j
j =1

dans le cas de l’estimation linéaire ;

xˆ ′K K −1 = E ( X K y1 ,..., yK −1 )

dans le cas de l’estimation générale.

On montre maintenant que dans le cas gaussien Xˆ K K −1 et Xˆ K′ K −1 coïncident.

Plus précisément :

PROPOSITION.– Si le vecteur U = ( X K , Y1 ,..., YK −1 ) est gaussien, on a l’égalité


entre v.a.

⎛ K −1 ⎞
Xˆ K′ K −1 = Xˆ K K −1 + E ⎜ X K − ∑ λˆ jY j ⎟ .
⎜ ⎟
⎝ j =1 ⎠

DÉMONSTRATION.–

⎛ K −1 ⎞
( X K , Y1 ,..., YK −1 ) vecteur gaussien ⇒ ⎜⎜ X K − ∑ λˆ jY j , Y1 ,..., YK −1 ⎟⎟
⎝ j =1 ⎠
est également gaussien.

K −1
Posons V = X K − ∑ λˆ jY j .
j =1

V est orthogonal à H KY−1 donc EVY j = 0 ∀ j =1 à K −1 et les deux


vecteurs V et (Y1 ,..., YK −1 ) sont décorrélés.

On sait que si le vecteur (V , Y1 ,..., YK −1 ) est gaussien et que V et

(Y1 ,..., YK −1 ) sont décorrélés, alors V et (Y1 ,..., YK −1 ) sont indépendants.


Estimation 163

FINALEMENT.–

⎛ K −1 ⎞
E ( X K Y1 ,..., YK −1 ) = E ⎜ ∑ λˆ jY j + V Y1 ,..., YK −1 ⎟
⎝ j =1 ⎠
K −1
= ∑ λˆ j Y j + E (V Y1 ,..., YK −1 ) .
j =1

Et puisque V et Y1 ,..., YK −1 sont indépendants :

K −1
E ( X K Y1 ,..., YK −1 ) = ∑ λˆ jY j + EV .
j =1

EXEMPLE.– Soit U = ( X K , YK −1 ) = ( X , Y ) un couple gaussien de densité

⎛ 2 2 ⎞
fU ( x, y ) =
1
π 3
exp ⎜ −
⎝ 3
(
x − xy + y 2 ⎟ .

)
On veut déterminer E X Y . ( )
La loi marginale de Y admet la densité :

⎛ 2 x 2 − xy + y 2 ⎞ dx
fY ( y ) = ∫ "
1
π 3
exp ⎜ −
⎝ 3
( ) ⎟⎠
1 ⎛ y2 ⎞ ⎛ 2 ⎛ y⎞ ⎞
2

= ∫ exp ⎜ − ⎟ ⎜ ⎜
exp − x − ⎟ ⎟ dx
π 3 ⎝ 2 ⎠ ⎝ 3⎝ 2⎠ ⎠
"

1 ⎛ y2 ⎞ 1 ⎛ 2 2⎞
=

exp ⎜ − ⎟ ∫ exp ⎜ − u ⎟ du
⎝ 3 ⎠
⎝ 2 ⎠ 3π
"

2
1 ⎛ y ⎞ 2

= exp ⎜ − ⎟
2π ⎝ 2 ⎠
164 Processus stochastiques et filtrages optimaux

f Z ( x, y ) ⎛ 2 x 2 − xy + y 2 ⎞ 2π exp ⎛ y ⎞
2

f ( x y) =
fY ( y )
=
1
π 3
exp ⎜ −
⎝ 3
( ) ⎟⎠ ⎜ ⎟
⎝ 2 ⎠
2 ⎛ 2⎛ y⎞ ⎞
2

= exp ⎜ − ⎜x− ⎟ ⎟
3π ⎝ 3⎝ 2⎠ ⎠
⎛ ⎞
( x − y 2 ) ⎟⎟ .
2
1 1
= exp ⎜ −
2π i 3 ⎜ 2i 3
4 ⎝ 4 ⎠

Donc : sachant Y = y , X suit une loi N ( y 2 , 34) ; c’est-à-dire :

1
E ( X y) = y et E ( X Y ) = Y (fonction linéaire de Y ; λˆ = ).
2 2 2

⎛ 1 ⎞
(Ici EV = E ⎜ X − Y ⎟ = 0 car X et Y sont centrés).
⎝ 2 ⎠

4.4. Exemple : prédiction d’un processus autorégressif AR (1)

Considérons le processus stationnaire du 2e ordre X* défini par



∀K ∈ * XK = ∑ q j BK − j et solution de l’équation X K = qX K −1 + BK
j =∞

avec q réel tel que q < 1 et où BZ est un bruit blanc de puissance EBK = σ .
2 2

Au chapitre précédent nous avons calculé sa fonction de covariance et obtenu :

n
q
EX i X i + n =σ 2
.
1 − q2

Ayant observé les v.a. X 1 ,..., X K −1 , on cherche la meilleure estimation linéaire

et en moyenne quadratique Xˆ K + + K −1 de X K + + ,
Estimation 165

K −1
Xˆ K ++ K −1 = ∑ λˆ jY j et les λˆ j vérifient :
j =1

⎛ EX 1 X 1 … EX 1 X K −1 ⎞ ⎛ λˆ1 ⎞ ⎛ EX K ++ X 1 ⎞
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ # # ⎟ ⎜ # ⎟=⎜ # ⎟
⎜ EX X - EX X ⎟ ⎜ ˆ ⎟ ⎜ EX X ⎟
⎝ K −1 1 K −1 K −1 ⎠ ⎝ λK −1 ⎠ ⎝ K + + K −1 ⎠

soit

⎛ 1 q - q K −2 ⎞ ⎛ λˆ1 ⎞ ⎛ q K + + −1 ⎞
⎜ K −3
⎟⎜ ⎟ ⎜ K ++−2 ⎟
⎜q 1 -q ⎟⎜ ⎟ ⎜q ⎟
⎜ # ⎟ ⎜ ⎟ =⎜ ⎟ .
# # #
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ q K −2 - 1 ⎟ ⎜ λˆ ⎟ ⎜ q + +1 ⎟
⎝ ⎠ ⎝ K −1 ⎠ ⎝ ⎠

On a la solution ( λˆ ,..., λˆ
1 ) = ( 0,..., 0, q ) et cette solution est
ˆ
K − 2 , λK −1
+ +1

unique car le déterminant de la matrice est égal à (1 − q )


2 K −2
≠ 0.

Donc Xˆ K + + K −1 = λˆK −1 X K −1 = q X K −1 .
+ +1

On voit que la prédiction de la v.a. X k ++ n’utilise que la dernière v.a. observée.

C’est-à-dire ici X K −1 .

La variance de l’erreur d’estimation vaut :

( ) ( )
2 2
E X K ++ − Xˆ K ++ K −1 = E X K ++ − q + +1 X K −1 =

EX K2 ++ + q ( ) EX K2 −1 − 2q + +1EX K ++ X K −1 =
2 + +1 σ2
1− q 2
1− q
2( + +1)
( )
166 Processus stochastiques et filtrages optimaux

4.5. Processus multivariés

Dans certains problèmes pratiques, on peut avoir à considérer des processus


d’état X ∗ et des processus d’observation Y ∗ qui sont tels que :
! !

⎛ X 1j ⎞ ⎛ Y j1 ⎞
⎜ ⎟ ⎜ ⎟
⎜# ⎟ ⎜# ⎟
⎜ +⎟ ⎜ ⎟
∀j ∈ !∗ X j = ⎜ X j ⎟ et Y j = ⎜ Y j+ ⎟
⎜# ⎟ ⎜# ⎟
⎜ ⎟ ⎜ ⎟
⎜ X nj ⎟ ⎜ Y jm ⎟
⎝ ⎠ ⎝ ⎠

où ∀ j et + X j et
+
Y j+ ∈ L2.

On dira alors que :


– X j et Y j sont des multivecteurs (vecteurs parce que les X +j et les Y j+
appartiennent à l’espace vectoriel L2 ; multi car X j et Y j sont des ensembles de
plusieurs vecteurs) ;
– n est l’ordre du multivecteur X j et m est l’ordre du multivecteur Y j ;

( ) ( )
n m
– X j ∈ L2 et Y j = L2 ;

– X !∗ et Y!∗ sont des processus multivariés, les processus considérés


jusqu’à présent (à valeur dans " ) étant dits scalaires.

Opérations sur les multivecteurs :


– on peut additionner deux multivecteurs de même ordre, et si X et
X ′∈ L ( )2 n
alors X + X ′∈ L ( )2 n
;

– on peut multiplier un multivecteur par une constante réelle. Et si

( ) ( )
n n
X ∈ L2 et λ ∈" alors λ X ∈ L2 ;

– produit scalaire de deux multivecteurs non nécessairement de même ordre :

( ) ( )
n m
soient X ∈ L2 et Y ∈ L2 .
Estimation 167

On pose < X , Y >= EXY ∈ M ( n, m ) où M ( n, m ) est l’espace des


T

matrices à n lignes et m colonnes.

On note par Onm la matrice identiquement nulle de M ( n, m ) .

DÉFINITION.– On dit que les multivecteurs X et Y sont orthogonaux si


< X , Y >= Onm et on écrit X ⊥ Y .

REMARQUE.– Si X et Y sont orthogonaux, Y et X le sont aussi.


2
On pose X =< X , X >= EXX T .

2
X étant une matrice définie positive, on sait qu’il existe une matrice
2
symétrique définie positive notée X tel que X = X X .

2
Toutefois, dans la suite nous n’utiliserons que ⋅ .

REMARQUE.– L’ensemble des multiplicateurs de même ordre ( (L )2 m


par exemple)
pourrait être muni d’une structure d’espace vectoriel. Sur cet espace le symbole
⋅ défini ci-avant serait une norme.

Ici nous considérerons l’ensemble des multivecteurs d’ordre n ou m. Cet


ensemble n’est pas un espace vectoriel et ne peut donc pas être muni d’une norme.
2 2
Donc pour nous, dans la suite X ne signifiera pas ( norme de X ) . Pour la
même raison, ce n’est que par abus de langage que l’on parlera du produit scalaire
< X ,Y > .

Espace linéaire d’observation H KY−1


Soit donc le processus d’état multivarié X vérifiant :
!∗
168 Processus stochastiques et filtrages optimaux

( ) et soit le processus d’observation multivarié Y


n
∀j ∈ !∗ X j ∈ L2 !∗
vérifiant

∀j ∈ !∗ Y ∈(L ) .
j
2 m

Par généralisation de la définition donné au 4.2, on note :

⎧⎪ K −1 ⎫⎪
H KY−1 = H (Y1 ,..., YK −1 ) = ⎨ ∑ j j j
Λ Y Λ ∈ M ( n, m ) ⎬
⎩⎪ j =1 ⎭⎪

et on dira encore que H KY−1 est l’espace linéaire d’observation jusqu’à l’instant
K −1.

REMARQUE.– Les éléments de H KY−1 doivent être des multivecteurs d’ordre n , car
c’est parmi eux que l’on choisira la meilleure estimation de X K , multivecteur
d’ordre n . H KY−1 est donc adapté à X K .

NOTATIONS.–

1) Orthogonal de H KY−1 : c’est l’ensemble noté H KY−,⊥1 des multivecteurs V


vérifiant V ∈ H KY−,⊥1 Y
si et seulement si V est orthogonal à H K −1 .

⎛0⎞ ⎫
⎜ ⎟ ⎪ Y
2) 0H = # ⎬ n zéros, multivecteur nul de H K −1 .
⎜ ⎟
⎜0⎟ ⎪
⎝ ⎠ ⎭

Problème de la meilleure estimation

Généralisant le problème développé au 4.2. au cas des processus multivariés, on


⎛ X 1K ⎞ ⎛ Z1 ⎞
⎜ ⎟ ⎜ ⎟ Y
cherche à approximer X K = ⎜ # ⎟ par des éléments Z = ⎜ # ⎟ de H K −1 ,
⎜Xn ⎟ ⎜Zn ⎟
⎝ K⎠ ⎝ ⎠
la distance entre X K et Z étant :
Estimation 169

K −1 2
tr X K − Z
2
= trE ( X K − Z )( X K − Z ) = ∑ E
T

j =1
( X Kj −Z j
)
2 2
(où tr X K − Z signifie « trace de la matrice X K − Z »).

Le résultat suivant généralise le théorème de projection sur les sous espaces de


Hilbert et apporte la solution.

THÉORÈME.–
K −1
– Il existe Xˆ K K −1 = ∑ Λˆ jY j unique appartenant à H KY−1 qui minimise
j =1
2
l’application Z → tr X K − Z
;
H KY−1 "
– Xˆ K K −1 est la projection orthogonale de X K sur H KY−1 , c’est-à-dire

X K − Xˆ K K −1 ⊥ H KY−1 , c’est-à-dire encore :

< X K − Xˆ K K −1 , Y j >= Onm ∀j = 1 à K −1.

Nous pouvons imager ce théorème par le schéma suivant dans lequel tous les
vecteurs apparaissant sont des multivecteurs d’ordre n :

Figure 4.6. Projection orthogonale du multivecteur XK sur H KY-1


170 Processus stochastiques et filtrages optimaux

NOTATION.– Dans la suite toutes les projections orthogonales (sur H KY −1


exclusivement) seront notées indifféremment :

Xˆ K K −1 ou projH Y X K ; YˆK K −1 ou projH Y YK etc.


K −1 K −1

De ce théorème on déduit les propriétés suivantes :

P1) Soit X K et X K ′ ∈ L ( )2 n
(
alors .
X + X′ ) K K −1
= Xˆ K K −1 + Xˆ K′ K −1 .

En effet :

∀j = 1 à K − 1 < X K − Xˆ K K −1 , Y j >= Onm et < X K′ − Xˆ K′ K −1 , Y j >= Onm .

Donc :

(
∀j = 1 à K − 1 < X K − X K′ − Xˆ K K −1 + Xˆ K′ K −1 , Y j >= Onm . )
Et puisque la projection orthogonale de X K + X K′ est unique, on a bien :

(.
X + X ′)
K K −1
= Xˆ K K −1 + Xˆ K′ K −1.

P2) Soit X K ∈ L ( ) 2 n
et une matrice H ∈ M ( m, n ) ;

alors (.
HX ) K K −1 = HXˆ K K −1 .

Il suffit de vérifier que HX K − HXˆ K ⊥ H KY−1 car cela entraînera que :


K −1

HXˆ K = (.
HX ) K
K −1 K −1

puisque la projection orthogonale (ici sur l’espace H KY−1 ) est unique.


Estimation 171

Or par hypothèse < X K − Xˆ K


K −1
(
, Y j >= E X K − Xˆ K
K −1
)Y T
j = Onm .

Donc aussi par associativité du produit matriciel :

(
Omm = HE X K − Xˆ K
K −1
)Y T
j (
= EH X K − Xˆ K
K −1
)Y T
j

=< HX K − HXˆ K , Y jT
K −1

et on a bien HX K − HXˆ K ⊥ H KY−1 .


K −1

Ces propriétés vont être utilisées dans la suite.

Processus d’innovation I
!∗

Ayant en vue le filtrage de Kalman, nous supposons ici que X !∗ et Y ∗ sont


!
les deux processus multivariés posés précédemment et liés par les équations d’état et
d’observation :

⎛ X K +1 = A ( K ) X K + C ( K ) N K
⎜⎜
⎝ YK = H ( K ) X K + G ( K ) WK

A ( K ) ∈ M ( n , n ) ; C ( K ) ∈ M ( n , + ) ; H ( K ) ∈ M ( m, n ) ; G ( K ) ∈ M ( m , p ),

et où N et W!∗ sont des bruits (processus multivariés) satisfaisant à un certain


!∗
nombre d’hypothèses mais dont la seule qui soit nécessaire ici est :

∀j = 1 à K − 1 < WK , Y j >= EWK YjT = O pm .

1) Si n = m :
172 Processus stochastiques et filtrages optimaux

YK et YˆK K −1 sont deux multivecteurs de même ordre m . La différence


YK − YˆK K −1 a donc un sens et en accord avec la définition donné en 4.2, on définit
l’innovation à l’instant K ≥ 2 par I K = YK − YˆK K −1 .

Exprimons maintenant I K sous la forme qui nous sera utile dans la suite.

Par la deuxième équation d’état :

I K = YK − projH Y
K −1
( H ( K ) X K + G ( K )WK ),
en utilisant la propriété P1 d’abord et P2 ensuite

I K = YK − H ( K ) Xˆ K K −1 − (.
G ( K ) WK ) K K −1 .

Si p ≠ m ( et de n ) , (.
G ( K ) W ) K K −1 n’est pas égal à G ( K ) Wˆ K K −1 et

d’ailleurs ce dernier produit matriciel n’a pas de sens.

Vérifions pour terminer que (.


G ( K )WK ) K K −1 = OH .

Par définition de la projection orthogonale :

<G ( )W
K K − (.
G ( K )WK ) K K −1 , Y j > = 0mm ∀ j = 1 à K − 1.

Par hypothèse sur le bruit W!∗ :

< G ( K ) WK , Y j >= G ( K ) < WK , Y j > = 0mm ∀ j = 1 à K − 1.

On en déduit :

(.
G ( K ) W ) K K −1 , Y j = 0mm ∀ j = 1 à K − 1 , c’est-à-dire :
Estimation 173

.
K −1 et ( G ( K ) WK ) K K −1 = 0H .
G ( K ) WK ∈ H"
Y ,⊥

Finalement I K = YK − YˆK K −1 = YK − H ( K ) Xˆ K K −1 .

2) Si n ≠ m :
YK et YˆK K −1 sont des multivecteurs d’ordre différent et YK − YˆK K −1 n’a pas de
sens et on définit directement I K = YK − H ( K ) Xˆ K K −1 .

Finalement et dans tous les cas ( n égal ou différent de m ) :

DÉFINITION.– On appelle innovation à l’instant K ≥ 2 ;


(
le multivecteur I K ∈ H K -1
Y, ⊥
) d’ordre m , défini par I K = YK − H ( K ) Xˆ K K −1 .

REMARQUE.– On ne confondra pas l’innovation avec :

DÉFINITION.– On appelle erreur de prédiction de l’état à l’instant K le multivecteur


d’ordre n défini par X$ K = X K − Xˆ K .
K −1 K −1

Propriété de l’innovation :

1) I K ⊥ Y j ∀j = 1 à K − 1 ;

2) I K ′ ⊥ I K ∀K et K ′ ≥ 2 avec K ≠ K ′.

DÉMONSTRATION.–

1) I K = YK − H ( K ) Xˆ K K −1 = H ( K ) X K + G ( K ) WK − H ( K ) Xˆ K K −1

donc :

( )
< I K , Y j > = < H ( K ) X K − Xˆ K K −1 + G ( K ) WK , Y j >

en utilisant l’associativité du produit matriciel.


174 Processus stochastiques et filtrages optimaux

Puisque :

( )
< H ( K ) X K − Xˆ K K −1 , Y j > = H ( K ) < X K − Xˆ K K −1 , Y j > 0mm

et puisque :

< G ( K ) WK , Y j > = G ( K ) < WK , Y j > Omm

on a bien < I K , Y j > = 0 et I K ⊥ Y j .

2) Sans perte de généralité supposons par exemple K ′ > K :

< I K ′ , I K > = < I K ′ , YK − H ( K ) Xˆ K K −1 > .

Y ,⊥
Et ce produit scalaire égale Omm car I K ′ ∈ H K ′−1 et

YK − H ( K ) Xˆ K K −1 ∈HKY (Y
K )
∈ HKY et H ( K ) Xˆ K K −1 ∈ HKY−1 .

4.6. Exercices du chapitre 4

Enoncé 4.1.

Soit une famille de v.a. du second ordre X , Y1 ,..., YK ,... on veut estimer X à
partir des Y j et on pose : Xˆ K = E ( X Y1 ,..., YK ) .

Vérifier que E ( Xˆ K +1 Y1 ,..., YK ) = Xˆ K .

(On dit que le processus X̂ !∗ est une martingale par rapport à la suite des YK ).

Enoncé 4.2.

Soit {U j }
j ∈ ! une suite de v.a. indépendantes, du second ordre, de loi
N (0, σ 2 ) et soit θ une constante réelle.
Estimation 175

On définit une nouvelle suite X j j ∈ ! { ∗


} par
⎛ X1=U1

⎝ X j =θU j−1+U J si j ≥ 2.

1) Montrer que ∈∀k ∈ ! , le vecteur X


∗ K
= ( X1 ,..., X K ) est gaussien.

2) Préciser l’espérance, la matrice de les variances et la densité de probabilité


de ce vecteur.

3) Déterminer la meilleur prédiction en m.q de X k + P à l’instant K = 2 ;

(
c’est-à-dire calculer E X 2+ P X 1 , X 2 . )

Solution 4.2.

⎛1 0 - 0 ⎞
⎜θ 1 0 - 0 ⎟
1) Considérons la matrice A= ⎜ ⎟ appartenant à M ( K , K ).
⎜# #⎟
⎜ ⎟
⎝ 0 - 0 θ 1⎠

En posant U
K
= (U1 ,...U K ) ,on peut écrire X K = AU K . Le vecteur U K
étant gaussien (composantes gaussiennes et indépendantes), il en va de même pour
K
le vecteur X .

2) EX K = EAU K = AEU K = 0

( )
Γ X = A σ 2 I AT = σ 2 AAT ( I = matrice identité ).
Par ailleurs :

(
Det Γ X K = det ) (σ 2
)
AAT = σ 2 n et Γ X K est inversible.
176 Processus stochastiques et filtrages optimaux

1 ⎛ 1 T −1 ⎞
On obtient f X K ( x1 ,..., xK ) = exp ⎜ −x ΓX K x ⎟.
( 2π ) σ
n/2 n
⎝ 2 ⎠

3) Le vecteur ( X1, X 2 , X 2+ P ) est gaussien ; donc la meilleure prédiction de


Xˆ 2+ P est la meilleure prédiction linéaire, c’est-à-dire :

Xˆ 2+ P = E ( X 2+ P X 1 , X 2 ) = projH X 2+P

où H est l’espace linéaire engendré par les v.a. X1 et X 2 .

⎛ λˆ ⎞ ⎛ C ov ( X 2+ P , X1 ) ⎞
Xˆ 2+ P = λˆ, X1 + λˆ2 X 2 avec ⎜ 1 ⎟ = Γ −X12 ⎜
⎜ C ov ( X , X ) ⎟⎟
Donc ;
⎜ λˆ ⎟
⎝ 2⎠ ⎝ 2+ P 2 ⎠

or C ov ( X J , X K ) = EX J X K = θ si K − j = 1 ;

C ov ( X J , X K ) = EX J X K = 0 si K − j > 1 ;

⎛ C ov ( X 2 P +1 , X 1 ) ⎞ ⎛ 0 ⎞
donc si p > 1 ⎜
⎜ C ov ( X ⎟⎟ = ⎜ ⎟ et Xˆ 2+ P = 0 ;
⎝ 2 P+2 , X )
2 ⎠ ⎝0⎠

⎛ λˆ1 ⎞ 1 ⎛ 1 + θ 2 −θ ⎞ ⎛ 0 ⎞ θ θ
2
si p = 1 ⎜ ⎟=
⎜ λˆ ⎟ σ 2 ⎜⎝ −θ ⎟ ⎜ ⎟ et Xˆ 3 = − 2 Xˆ 1 + 2 Xˆ 2 .
⎝ 2⎠ 1 ⎠ ⎝θ ⎠ σ σ

Enoncé 4.3.

⎛ X K +1 = A ( K ) X K + C ( K ) N K (1)
On considère le système d’état ⎜⎜
⎝ YK = H ( K ) X K + G ( K ) WK ( 2)

A ( K ) ∈ M ( n, n ) ; C ( K ) = M ( n, + ) ; H ( K ) = M ( m, n ) ; G ( K ) = M ( m, p )
Estimation 177

et oùX 0 , N K ,WK ( pour K ≥ 0 ) sont des multivecteurs du second ordre tel que
∀j ≤ K WK est orthogonal à X 0 , N 0 ,..., N j −1 , W0 ,..., W j −1 .

Montrer que ( )
∀j ≤ K < H ( j ) X j − Xˆ j j −1 ,WK >= 0mp .

Solution 4.3.

( )
< H ( j ) X j − Xˆ j j −1 , WK > =

⎛ j −1
ˆ ( H ( i ) X + G ( i ) W ) ⎞⎟ , W >
< H ( j ) ⎜ A ( j − 1) X j −1 + C ( j − 1) Ν j −1 − ∑ Λ i i i K
⎝ i =1 ⎠

(où ˆ sont les matrices optimales de M ( n, m )).


Λ i

Compte tenu des hypothèses d’orthogonalité de l’énoncé, ce produit scolaire se


j −1
⎛ ⎞
réduit à < H ( j ) ⎜ A ( j − 1) X j −1 − ∑ Λˆ i H ( i ) X i ⎟ ,WK > .
⎝ i −1 ⎠

Par ailleurs en réitérant la relation récurrences (1) ,on voit que X i s’exprime en
fonction de X i −1 et Ν i −1 et aussi de X i −2 , Ni −2 , Ni −1... et aussi de
X 0 , N0 , N1 ,..., Ni −1 .

Donc,H ( j ) A ( j − 1) X j −1 et H ( j ) Λˆ i H ( i ) X i sont des multivecteurs


d’ordre m dont chacune des m « composantes » ne comporte que des v.a.
orthogonales à chacune des p « composantes » de WK , multivecteur d’ordre p .

(
Finalement, on a bien < H ( j ) X j − Xˆ j j −1 ) ,W
K > = 0 mp.
CHAPITRE 5

Le filtre de Wiener

5.1. Introduction

Le filtrage de Wiener est une méthode d’estimation d’un signal perturbé par un
bruit additif.

La réponse de ce filtre au signal bruité, correlé avec le signal à estimer, est


2
optimale au sens du minimum dans L .

Le filtre doit être pratiquement réalisable et stable si possible, en conséquence sa


réponse impulsionnelle doit être causale et les pôles à l’intérieur du cercle unité.

Le filtrage de Wiener est très utilisé en raison de sa simplicité, pour autant, les
signaux à analyser doivent être des processus stationnaires du second ordre.

Exemples d’applications : traitement de la parole, exploration pétrolière,


mouvement de la houle, etc.

5.1.1. Position du problème

Dans la figure 5.1, X K , WK et YK représentent les 3 processus d’entrée, h est


ici la réponse impulsionnelle du filtre, ZK la sortie du filtre qui donnera Xˆ K
l’estimée à l’instant k, de X K quand le filtre sera optimal. Tous les signaux sont
nécessairement des processus stationnaires du second ordre.
180 Processus stochastiques et filtrages optimaux

Figure 5.1. Représentation de la transmission,


h est la réponse impulsionnelle du filtre que l’on va rechercher

Nous appellerons :

( )
T
Y = YK YK −1 !Y j !YK − N +1

le vecteur représentatif du processus de durée N à l’entrée du filtre de réalisation :

( )
T
y = yK yK −1 ! y j ! yK − N +1 .

( )
T
h = h 0 h 1! hN −1 le vecteur représentant les coefficients de la réponse
impulsionnelle que l’on pourrait identifier au vecteur λ du chapitre 4.
– XK l’échantillon à estimer à l’instant K ;

– Xˆ K l’échantillon estimé de X K à l’instant K ;

– ZK sortie du filtre à cet instant = hT Y .

Le critère utilisé est le critère quadratique classique.

Le filtre est optimal quand :

( )
2
Min E ( X K − Z K ) = E X K − Xˆ K
2
.

Le problème consiste à obtenir le vecteur h qui minimise cette erreur.


Le filtre de Wiener 181

5.2. Résolution et calcul du filtre Finite Impulse Response (FIR)

L’erreur s’écrit :

ε K = X K − hT Y

( )
N
avec h ∈ "N et Y ∈ L2 .

Nous avons une fonction C : coût à minimiser qui est une application :

(
h 0 , h 1,! , hN −1 → C h 0 , h 1,! hN −1 = E (ε K2 ) ) .
N
" → "

Le vecteur hˆ = hoptimal est tel que ∇ h C = 0

( )
2
soit C = E X K − hT Y (scalaire)

alors ∇ hC = −2 E (ε K Y ) (vecteur Nx1).

REMARQUE.– C’est le théorème de projection sur les espaces de Hilbert. Nous


retrouvons, bien évidemment le principe de l’orthogonalité.

Cette erreur quadratique moyenne sera minimale quand :

E (ε K Y ) = 0 soit quand h = hˆ .

⎛ ⎞
En utilisant l’expression de εK : E⎜ XK − hˆT Y ⎟ Y = 0 ;
⎝ ⎠

toutes les composantes du vecteur sont nulles (ou E X K ( − )


Xˆ K Y = 0 ).

Soit E ( X K Y ) = E Y Y ( T
) hˆ .
Nous appellerons :
182 Processus stochastiques et filtrages optimaux

Le vecteur r d’intercorrélation :

(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
R la matrice d’autocorrélation des données observables :

⎛ YK ⎞
⎜ ⎟
Y
R = E ⎜ K −1 ⎟ (YK YK −1 !YK − N +1 ) = E Y Y T
N ×N ⎜ # ⎟ ( )
⎜⎜ ⎟⎟
⎝ YK − N +1 ⎠

et r = R hˆ équation de Wiener-Hopf sous forme matricielle.

REMARQUE.– En prenant la ligne j ∈ [ K , K − N +1]

nous obtenons :

N −1
( )
rXY ( j ) = E X K YK − j = ∑ hˆi RYY ( j − i ) ∀j ∈ [ K , K − N +1]
i =0

Equation de Wiener-Hopf.

Si la matrice R est non singulière, on en tire :

ĥ = R −1 r .

5.3. Evaluation de l’erreur minimale

D’après le théorème de projection :

(
E XK − )
Xˆ K Y = 0 et :

(
E XK − )
Xˆ K Xˆ K = 0.
Le filtre de Wiener 183

Ainsi l’erreur minimale prend la forme :

(ε ) = E ( X Xˆ )
2
2
C min = Min E K K − K

= E(X Xˆ ) X
K − K K

= E(X 2
Xˆ ) .
K −
2
K

Mais Xˆ K = hˆ Y .
T

Ainsi C min = Min E (ε K ) 2 = R XX ( 0 ) − hˆT r.

Connaissant la matrice d’autocorrelation R des données à l’entrée du filtre et le


vecteur r d’intercorrelation, nous pouvons en déduire le filtre optimal de réponse
impulsionnelle ĥ et l’erreur quadratique moyenne minimale pour un ordre N
donné du filtre.

Exemple d’application : donner les coefficients du filtre de Wiener pour N = 2


si la fonction d’autocorrélation du signal à estimer s’écrit RXX (K ) = a K ; 0〈 a 〈1
et celle du bruit : RWW ( K ) = δ ( K = 0) bruit blanc.
Le signal à estimer est non corrélé au bruit ( X ⊥ W ) .

⎛2 a⎞ ⎛1 ⎞
Soit R = ⎜ ⎟ ; r = ⎜ ⎟.
⎝ a 2⎠ ⎝a⎠

Car RYY = RXX + RWW .

Nous en déduisons :

T
⎛ 2 − a2 a ⎞
ˆ
h=⎜ 2 ⎟
4 − a2 ⎠
et Min E (ε ) = 4 −2a
2
K 2
.
⎝ 4−a
Revenons à notre calcul de filtre FIR.
184 Processus stochastiques et filtrages optimaux

Le filtre que nous venons d’obtenir est de la forme :

( )
T
hˆ = hˆ 0 hˆ 1 ! hˆ N −1

de longueur N finie : sa fonction de transfert s’écrit :

N −1
H ( z ) = ∑ hˆ i z −i
i =0

avec une relation entrée-sortie de la forme Xˆ ( z ) = H ( z )Y ( z ) .

Elargissons cette classe de filtres du type « FIR » et donnons une méthode


d’obtention de filtres du type IIR.

5.4. Résolution et calcul du filtre Infinite Impulse Response (IIR)

Pour ce faire nous allons procéder à un pré-blanchiement du signal


d’observation.

Tout d’abord rappelons une définition : on dit que Α( z ) fonction rationnelle

représente un système à phase minimale si Α( z ) et 1 sont analytiques


Α( z )
dans l’ensemble { z | z > 1} c’est-à-dire si les zéros et pôles de Α( z ) sont à
l’intérieur du disque unité.

De plus le système à phase minimale et son inverse sont stables.

Théorème de Paley-Wiener


Soit une fonction SYY ( z ) vérifiant quand z = e :


SYY (eiω ) = ∑ sn e −inω fonction réelle et ≥ 0 ;
−∞
Le filtre de Wiener 185

∫ ln SYY (eiω ) dω < ∞ .


0

Alors, il existe une suite an causale de transformée en z , Α( z ) qui vérifie :

SYY ( z ) = σ ε2 A ( z ) A z −1 . ( )
σ ε2 représente la variance d’un bruit blanc et Α( z ) représente en outre un système
à phase minimale. De plus la factorisation de SYY ( z ) est unique.

Α( z ) étant un système à phase minimale, 1 est causal et analytique dans


Α( z )
{ z | z > 1} . Puisque les an coefficients du filtre A ( z ) sont réels :

( )
2
SYY (eiω ) = σ ε2 Α(eiω ) Α e−iω = σ ε2 Α(eiω ) Α(eiω ) = σ ε2 Α(eiω )

1
c’est-à-dire : σ ε2 = 2
SYY (eiω ) .

Α(e )

1
Donc le filtre blanchit le processus YK , K ∈ Z .
Α( z )

Schématiquement :

REMARQUE.– A ( z )
2
( )
= A ( z ) . A z −1 si les coefficients de A ( z ) sont réels.
186 Processus stochastiques et filtrages optimaux

A présent, ayant pré-blanchi l’entrée, le problème se ramène au calcul d’un filtre


B ( z ) de la manière suivante :

Ainsi B ( z ) = A ( z ) . H ( z )

A ( z ) , étant connue par SYY ( z ) et H ( z ) devant être optimal, alors B ( z ) doit


aussi être optimal.

Appliquons l’équation de Wiener-Hopf au filtre B( z) :

r X ε ( j ) = ∑ bˆi R
i
εε ( j − i ) .

Soit rX ε ( j ) = bˆ j σ ε2 .
rX ε ( j )
Ainsi bˆ j = 2
.
σε


Et B ( z ) = ∑ bˆ j z − j pour B ( z ) causale.
j =0


1
Ainsi B ( z ) =
σε 2 ∑ rX ε ( j ) z − j .
j =0

La somme représente la transformée en z de l’intercorrelation rX ε ( j) pour

les indices j ≥ 0 que nous écrirons ⎡⎣ S X ε ( z ) ⎤⎦ .


+
Le filtre de Wiener 187


1
Ainsi : B ( z ) =
σε 2 ∑ rX ε ( j ) z − j
j =0

Il nous faut à présent établir une relation entre S X ε ( z ) et S XY ( z ) .

En effet nous pouvons écrire :

RXY ( K ) = E (( X n + K Yn ) )
⎛ ∞ ⎞
= E ⎜ X n + K ∑ ai ε n −i ⎟
⎝ i =0 ⎠

RXY ( K ) = ∑ ai RX ε ( K + i)
i =0

Qui peut encore s’écrire :

−∞
RXY ( K ) = ∑ a−i RX ε ( K − i) = a− k ∗ RX ε (K )
0

En prenant la transformée en z des 2 membres :

( )
S XY ( z ) = A z −1 S X ε ( z )

Il vient :

1
⎡ S ( z)⎤
H (Z ) = 2 ⎢ XY ⎥
σ ε A ( z ) ⎢ A z −1 ⎥
⎣ ⎦+ ( )
5.5. Evaluation de l’erreur minimale

Cette erreur minimale s’écrit :

C min = E (ε K X K ) quand h = hˆ
= Rε X ( 0)
188 Processus stochastiques et filtrages optimaux

qui peut également s’écrire :

⎛ ⎞
C min = E ( X K − Xˆ K ) X K ou = RXX ( 0 ) − E ⎜⎜ hˆT YX K ⎟⎟
⎝ ⎠

soit C min = RXX ( 0 ) − hˆT r déjà rencontrée dans le cas du filtre FIR.

Mais cette fois, le nombre d’éléments dans la somme est infini :


C min = RXX ( 0 ) − ∑ hˆi RXY ( i )
i =0

ou :


C min = RXX ( 0 ) − ∑ hˆi RYX ( −i )
i =0

En faisant apparaître une convolution :

C min = RXX ( 0 ) − hˆ j ∗ RYX ( j ) j =0

Expression qui peut également s’écrire, en prenant les transformées en z :

1
∫C (0,1) ( S XX ( z ) − H ( Z ) SYX ( z ) ) z
−1
C min = dz
j 2π

5.6. Exercices du chapitre 5

Enoncé 5.1.

Soit à estimer un signal X K , dont la fonction d’autocorrelation est :

1 1
RXX ( K ) = δ ( K =0) + ⎡⎣δ ( K =−1) + δ ( K =1) ⎤⎦
2 4
Le filtre de Wiener 189

Les mesures y K = xK + nK du processus YK sont filtrées par un filtre de


Wiener de réponse h .

Le bruit N K est orthogonal au signal X K et :

1
Rnn ( K ) = δ ( K =0)
2

1) Donner la réponse du filtre de Wiener (FIR) d’ordre 2 ;

2) Donner l’erreur minimale obtenue.

Solution 5.1.

1) hˆ = R r =(7 /15
−1
2 /15)T .

2) C min = σ X − r hˆ = 7 / 30 avec σ X2 = RXX (0) = 1/ 2 .


2 T

Enoncé 5.2.

On se propose de calculer un filtre d’ordre 2 (FIR).

YK l’entrée du filtre a la forme YK = X K + WK où X K est le signal émis et


où WK est un bruit blanc orthogonal à X K (les processus sont tous stationnaires du
2e ordre).

Connaissant les autocorrélations statistiques :

K
RXX ( K ) = a et R WW ( K ) = N δ ( K =0)

et sachant :

hˆ = R r hˆ : h
-1
optimal.
190 Processus stochastiques et filtrages optimaux

Avec :

⎛ YK ⎞
⎜ ⎟
YK −1 ⎟
R =E
N ×N

⎜ # ⎟
( YK YK −1 !YK − N +1 ) = E Y Y T ( )
⎜⎜ ⎟⎟
⎝ YK − N +1 ⎠

(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
1) Donner les 2 composantes du vecteur ĥ représentant la réponse
impulsionnelle.

2) Donner l’erreur quadratique moyenne minimale.

3) Allure de cette erreur pour N = 1 et 0 < a < 1 .

4) On souhaite à présent calculer un filtre optimal du type IIR. En considérant


les mêmes données que précédemment, donnez la fonction de transfert du filtre.

5) Donner la réponse impulsionnelle.

6) Donner l’erreur quadratique moyenne minimale.

REMARQUE.– On pourra poser : b + b


−1
=
1
N
(a −1
) (
− 1 + a −1 + a )
Solution 5.2.

1
1) hˆ = 2 2
(1 + N − a 2 aN )T
(1 + N ) − a

1+ N − a2 + a2 N
2) C min = 1 −
(1 + N ) 2 − a 2
Le filtre de Wiener 191

3)

Figure 5.2. Tracé de la fonction erreur ou coût en fonction du paramètre a

2
1 A 1− a Na
et σ ε =
2
4) H ( z ) = −1
avec A =
σ ε 1 − bz
2
1 − ab b

n
5) hn≥0 = cb avec c =
(1 − a ) b
2

Na (1 − ab )

c
6) C min = 1 −
1 − ab

Enoncé 5.3. [SHA 88]

Soit { X K | K = 1 à N} un ensemble de N variables aléatoires tel que


Ε( X K ) = 0 et var X K = σ x2 émises par une source.
192 Processus stochastiques et filtrages optimaux

A la réception, on obtient la suite numérique y K = xK + wK réalisation du


processus YK = X K + WK où wK est un bruit blanc centré de variance σ ω2 .

γ =σx
2
1) Donner le filtre de Wiener en fonction de N et γ en posant , le
σ ω2
rapport signal à bruit.

2) Donner l’erreur minimale en fonction de σ x2 , N et γ .

REMARQUE.– On pourra utiliser l’équation de Wiener-Hopf.

Solution 5.3.

γ
1) h j =
1 + Nγ

σ x2
2) C min =
1 + Nγ
CHAPITRE 6

Filtrage adaptatif : algorithme


du gradient et du LMS

6.1. Introduction

Par traitement adaptatif, on entend une classe particulière et pourtant très large
d’algorithmes d’optimisation qui sont mis en œuvre en temps réel dans les systèmes
de transmission d’information à distance.

Les propriétés des algorithmes adaptatifs sont que, d’une part, ils permettent
l’optimisation d’un système et son adaptation à son environnement sans intervention
extérieure et que, d’autre part, cette optimisation est aussi assurée en présence de
fluctuation de l’environnement au cours du temps.

Il est à noter également que le succès des techniques adaptatives est tel qu’on ne
les rencontre plus seulement en télécommunications mais aussi dans des domaines
très divers tels que détection sous-marine, détection périmétrique, reconnaissance
des formes, antennes réseaux, séismologie, instrumentation bio-médicale, traitement
de la parole et des images, identification des systèmes en automatique, etc.

Parmi les applications citées ci-dessus, différentes configurations se présentent,


illustrées par les figures 6.1 à 6.4.

Nous allons, au cours de ces quelques pages, expliquer le principe du filtrage


adaptatif et établir les premiers résultats mathématiques.
194 Processus stochastiques et filtrages optimaux

Figure 6.1. Prédiction

Figure 6.2. Identification

Figure 6.3. Déconvolution

Figure 6.4. Annulation


Filtrage adaptatif 195

Nous nous limiterons, dans un premier temps, aux processus stationnaires du


second ordre et aux algorithmes dits du gradient déterministe et du LMS (appelé
aussi gradient stochastique). Dans un deuxième temps, nous étendrons ce concept
aux signaux non stationnaires en présentant le filtrage de Kalman au chapitre
suivant.

6.2. Position du problème [WID 85]

A partir d’observations prises à l’instant K (que nous noterons yK :


réalisations) issues d’un capteur ou d’un système inconnu, on désire réaliser :
– soit une prédiction sur le signal ;
– soit une identification du système inconnu ;
– soit une déconvolution (ou filtrage inverse) ;
– soit une annulation d’échos.

Pour y parvenir, on fera une optimisation, au sens des moindres carrés, en


minimisant l’erreur obtenue dans les différents cas.

EXEMPLE.– Soit le prédicteur suivant :

Figure 6.5. Prédicteur

Les 3 courbes ci-dessous représentent :


1) entrée X K observées par xK : signal à prédire ;

2) sortie du filtre Z K observées par z K ;

3) erreur résiduelle ε K données par ε K .


Il apparaît nettement que εK tend vers 0 à partir d’un certain temps, temps au
bout duquel le filtre converge.
196 Processus stochastiques et filtrages optimaux

Figure 6.6. Tracés de l’entrée, sortie et erreur.


Ces courbes ont été obtenues avec des processus à temps continu

6.3. Représentation des données

La forme générale d’un filtre adaptatif peut être la suivante :

Figure 6.7. Schéma de principe avec entrées multiples


Filtrage adaptatif 197

Les signaux d’entrée peuvent être issus simultanément de capteurs (cas d’une
antenne adaptative, par exemple), ou bien ils peuvent représenter les différents
échantillons, pris à des instants différents, d’un seul signal.

Nous prendrons comme notation :

( )
T
– entrées multiples : Y
K
= YK0 YK1 ... YKm−1

= (YK YK −1 ... YK −m+1 )


K T
– entrée unique : Y

Dans le cas d’une entrée unique que nous considérerons par la suite, nous
aurions la configuration suivante.

Figure 6.8. Schéma de principe du prédicteur

Ecrivons la sortie Z K :

m −1
Entrée unique : Z K = ∑
i =0
λK YK −i
i

En appelant λK le vecteur poids ou coefficients, écrit aussi sous la forme :

( )
T
λK = λK0 λK1 ... λKm−1 , nous pouvons utiliser une notation vectorielle unique :

Z K = Y K T λK = λKT Y K .
198 Processus stochastiques et filtrages optimaux

Notre système n’étant pas parfait, nous obtenons une erreur, celle-ci s’écrit :

ε K = DK − Z K
avec DK qui représente la sortie désirée (ou X K ), c’est-à-dire, la variable aléatoire
que l’on cherche à estimer. Le critère que nous avons choisi d’exploiter est le critère
des moindres carrés : il consiste à choisir le meilleur vecteur λK , qui minimisera

l’erreur quadratique moyenne E (ε )2


K
, ou la fonction coût C ( λK ) .

6.4. Minimisation de la fonction coût

Si notre système (filtre) est linéaire et non récursif, nous aurons toujours une
fonction coût quadratique et elle pourra être représentée par une paraboloïde
elliptique (dim 2) (ou un hyperparaboloïde si la dimension est supérieure). Les
projections (isocoûts) représentées par les ellipses sur la figure ci-après sont de la
forme : aλ0 + bλ1 + cλ0 λ1 + d λ0 + eλ1 + f = 0
2 2

Illustrons une telle fonction coût :

Figure 6.9. Représentation de la fonction coût ([MOK 00] pour le tracé)


Filtrage adaptatif 199

C ( λK ) = E (ε ) = E {( D
2
K K − ZK )
2
}
Celle-ci peut encore s’écrire :

C ( λK ) = E {( DK − λKT Y K )}
2

Le minimum de cette fonction est atteint lorsque :

(λK )
∇ λ C ( λK ) =
K
∂C
∂λK
=E {( D K − λKT Y K )( −2Y )} = 0 (vect. nul de ( ! m )
K

pour λK = λoptimal = λˆ avec :

T
⎛ ⎞
∇ λK C ( λK ) = grad C ( λK ) = ⎜⎜ ∂C ( λ0K ) ,..., ∂C (mλ−K1 ) ⎟⎟
⎝ ∂λK ∂λK ⎠

( )
T
λˆ = λˆ 0 λˆ1 ... λˆ m−1 minimise λ K → C ( λK ) et λ̂ annule grad C ( λK )
Nous retrouvons le résultat classique : l’erreur est orthogonale à l’observation
(principe de l’orthogonalité ou théorème de projection). εK ⊥ Y K

Posons R = E Y ( K
)
Y KT la matrice d’autocorrélation du signal d’entrée.

⎧ YK2 YK YK −1 … YK YK −m+1 ⎫
⎪ ⎪
⎪ Y Y YK2−1 " YK −1 YK − m+1 ⎪
(
R = E Y K Y KT ) = E ⎨ K −1 K
# # #

⎪ ⎪
⎪ YK −m+1 ⎭⎪
2
⎩YK −m +1 YK YK − m+1 YK −1

et p = E DK Y ( K
) le vecteur colonne d’intercorrélation entre la réponse désirée et
le signal d’entrée.
200 Processus stochastiques et filtrages optimaux

( )
p = E DK Y K = E ( DK YK DK YK −1 ... DK YK −m+1 )
T

Ainsi le gradient de la fonction coût devient :

( ) (
E DK Y K − E Y K Y KT λK ) =0

Soit p − Rλˆ = 0 .

REMARQUE.– C’est aussi l’équation de Wiener-Hopf.

Le vecteur qui satisfait cette équation est le vecteur optimal :

λˆ = R −1 p si R est inversible.

6.4.1. Calcul du coût

( ) ( )
C ( λK ) = E DK2 + λKT E Y K Y KT λK − 2 E DK Y KT λK ( )
( )
ainsi C ( λK ) = E DK + λK R λK − 2 p λK .
2 T T

Pour λ̂ la valeur optimale de λK l’erreur minimale s’écrit :

()
C min = C λˆ = E DK2 − pT λˆ ( )
REMARQUE.– Il est intéressant de remarquer que l’erreur et le signal d’entrée Y ne
sont pas corrélés quand λK = λˆ . En effet :

ε K = DK − λKT Y K
En multipliant les deux membres par Y et en prenant l’espérance
mathématique, nous obtenons :

E (ε KY
K
) = p − E (Y K
)
Y KT λK = p − RλK .
Filtrage adaptatif 201

Pour la valeur optimale de λK nous avons : E (ε KY


K
)=0
Exemple de calcul du filtre :

Le système suivant est un filtre adaptatif pouvant identifier un système


déphaseur.

ϕ est une grandeur déterministe

Figure 6.10. Schéma de principe d’un filtre adaptatif identifiant un système déphaseur

Si ∅ est équirépartie sur [0, 2π ] on a montré au chapitre 3 que YK est


stationnaire du 2e ordre. Calculons les éléments de la matrice R.

⎡ ⎛ 2π n ⎞ ⎛ 2π
E ( Yn Yn − K ) = E ⎢sin ⎜ + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥
⎣ ⎝ N ⎠ ⎝ N ⎠⎦
2π K
= 0, 5 cos K ∈ [ 0,1]
N
⎡ ⎛ 2π n ⎞ ⎛ 2π
E ( Dn Yn − K ) = E ⎢ 2 sin ⎜ − ϕ + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥
⎣ ⎝ N ⎠ ⎝ N ⎠⎦
⎛ 2π K ⎞
= cos ⎜ −ϕ ⎟
⎝ N ⎠
202 Processus stochastiques et filtrages optimaux

La matrice d’autocorrelation R des données d’entrée et le vecteur d’intercorrélation


p s’écrivent :

⎛ 2π ⎞
⎛ YK2 YK YK −1 ⎞ ⎜ 0, 5 0, 5 cos
N ⎟
R = E⎜
⎜Y Y ⎟⎟ = ⎜ ⎟
⎝ K −1 K YK2−1 ⎠ ⎜⎜ 0, 5 cos 2π 0, 5 ⎟⎟
⎝ N ⎠
T
⎛ ⎛ 2π ⎞⎞
p = E ( DK YK DK YK −1 )
T
= ⎜ cos ϕ cos ⎜ −ϕ ⎟⎟
⎝ ⎝ N ⎠⎠

Le coût s’écrit :

2π ⎛ 2π
( )
C ( λK ) = 0,5 (λ 0 )2 + (λ1 ) 2 + λ 0 λ1 cos
N
− 2λ 0 cos ϕ − 2λ1 cos ⎜
⎝ N

−ϕ ⎟ + 2

Ainsi nous obtenons :

λˆ = R −1 p
T
2 ⎛ ⎛ 2π ⎞ ⎞
λˆ = ⎜ sin ⎜ −ϕ ⎟ sin ϕ ⎟
2π ⎝ ⎝ N ⎠ ⎠
sin
N
ˆ( )
C λ =E ( D ) − p λˆ
2
K
T

( )
et ici, le calcul nous donne : C λˆ = 0 .

6.5. Algorithme du gradient

Nous avons vu précédemment que le vecteur λ optimal, c’est-à-dire celui qui


minimise le coût C ( λK ) s’écrit :

λˆ = R −1 p .

Or, pour résoudre cette équation, il nous faut inverser la matrice


d’autocorrélation. Cela peut entraîner des calculs conséquents si cette matrice R
Filtrage adaptatif 203

n’est pas de Toeplitz,(c’est-à-dire que ses éléments sont de la forme R( i − j ) = R|i − j|


et qu’elle est de type positif) d’où l’idée de résoudre cette équation par une méthode
itérative.

Examinons l’évolution du coût C ( λK ) tracé précédemment.


Soit λK le vecteur coefficients (ou poids) à l’instant K . Si nous voulons
parvenir au λ optimal, il nous faut faire évoluer λK à chaque itération, en tenant
compte de sa position relative entre l’instant K et K +1 .

Pour un coût C (λ j ) donné, le gradient de C (λ j ) par rapport au vecteur

( ) (λ j ) .
T
λ j = λ 0j λ1j ... λ mj −1 est normal à C

Pour que l’algorithme converge, il faut bien évidemment que pour :

K> j ; C ( λK ) < C ( λ j )

Et comme nous l’avons déjà écrit, le minimum sera atteint quand :

∇ λK C ( λK ) = 0

D’où l’idée d’écrire que, plus le gradient sera important, plus nous serons
éloignés du minimum et qu’il suffit de modifier le vecteur des coefficients d’une
manière récursive de la façon suivante

λK +1 = λK + µ ( −∇λ C ( λK ) ) K
(égalité dans ! )
m

et que l’on nomme : algorithme du gradient déterministe avec :

∇ λ C ( λK ) = −2 E
K
(ε K
YK )
avec Y
K
( )
= YK0 YK1 ...YKm−1 notation du processus multivarié que nous avons vu
au début du chapitre 4 et cette dernière écriture de ∇ λ C
K
( λK ) est égale à :
204 Processus stochastiques et filtrages optimaux

= −2 ( p − R λK )

avec µ : paramètre qui agit sur la stabilité et la rapidité de convergence vers λ̂ .

Justification théorique

Si l’application λ = (λK0 λK1 " λKm−1 ) → C ( λ K ) 1 m


est de classe C ( ! ) on a
l’égalité :

C ( λK +1 ) − C ( λK ) = 〈∇ λ C ( λK ) , λK +1 − λK 〉 + o ( λK +1 − λK
K
)
m
où : 〈, 〉 et désignent respectivement le produit scalaire et la norme dans ! .

Donc si λK +1 est assez proche de λK , on a l’approximation :

C ( λK +1 ) − C ( λK ) $ 〈∇ λ C ( λK ) , λK +1 − λK 〉
K

dont on déduit en particulier que la variation C ( λK +1 ) - C ( λK ) de C ( λK ) est


maximale si les vecteurs ∇ λ
K
C ( λK ) et λK +1 − λK sont colinéaires.

Pour atteindre le plus rapidement possible le minimum de C ( λK ) on se place


donc dans ce cas là et ∀K on écrit :

λK +1 − λK = µ ( −∇λ C ( λK ) )K
soit λK +1 = λK + µ ( −∇λ C ( λK ) ) .
K

Par ailleurs, en utilisant l’expression :

λK +1 = λK + 2 µ E (ε K Y K ) ,

on peut écrire :

n −1
λK + n = λK + 2 µ ∑ E (ε K + jY K + j )
j =0
Filtrage adaptatif 205

et si le processus multivarié d’ordre m , ε K + jY K + j est stationnaire du 2e ordre


λ K + n = λK + 2 µ n E (ε K YK . )
Mais cette dernière écriture est inexploitable sur un plan pratique sauf sous
certaines conditions d’ergodicité, ce que nous allons voir dans le paragraphe suivant.

6.6. Estimation du gradient et algorithme LMS

(LMS : Least Mean Square : moyenne quadratique minimale)

Toutefois, il est difficile de résoudre l’expression ∇ λ


K
C ( λK ) = 0 qui nécessite
K
la connaissance de lois des composantes du vecteur Y et l’utilisation
d’algorithmes permettant l’inversion de matrice.
% %
Aussi, nous pouvons considérer les estimées p et R de p et de R dans le
calcul du gradient.

En effet :

∇ λK C ( λK ) = −2 ( p − RλK )
% % %
(
∇ λK C ( λK ) = −2 p − RλK )
Les grandeurs estimées seront les données observées.

% K
Soit : p = y dK
% K
et R = y y KT
%
ainsi ∇ λ C
K
( λK ) = -2 ε K yK
% %
et λK +1 = λK + 2µε K y K
206 Processus stochastiques et filtrages optimaux

Cette écriture récursive sur λK revient à supprimer le calcul de l’espérance, en


effet :

λK +1 = λK + 2 µ E (ε K YK )
devient :
% %
λK +1 = λK + 2µ ε K y K

appelé algorithme LMS qui appartient à la classe d’algorithmes dit du « gradient


stochastique ».

Or, il se trouve que les itérations successives de cet algorithme récursif réalisent
d’elles-mêmes l’espérance mathématique incluse dans cette formule par moyennage
statistique [MAC 81].

Pour être mis en œuvre, cet algorithme nécessite, à chaque pas d’incrémentation
de connaître le couple DK et Z K . Or nous en avons la connaissance aux instants
K grâce au filtrage λK car

Z K = λKT Y K et z K = λK y K en considérant les données,

et nous connaissons, bien évidemment, la référence DK .


Nous pouvons écrire pour n ∈ & :

% % 1 n −1
λ K + n = λK + ( 2 µ n )
n
∑ yK+ j εK+ j
j =0

( )
K+ j T
avec y = yK + j yK −1+ j ... yK −m+1+ j

si µ est constant à chaque pas d’itération.

On voit que si µ tend vers 0, n doit tendre vers l’infini de sorte que :
Filtrage adaptatif 207

1 n −1 K + j
∑ y εK+ j → E Y K
n j =0
( ε ) K

si le processus ε K + jY K + j est ergodique du 1er ordre. On retrouve la relation :


λ K + n = λK + 2 µ n E (ε K YK )
obtenue à la section 6.5. Ainsi, dans la recherche du vecteur optimal λ̂ les
algorithmes du gradient déterministe et du LMS conduisent au même résultat.

6.7. Interprétation géométrique

Donnons une autre écriture au coût.

Nous avions trouvé : C ( λK ) = E ( DK2 ) + λKT R λK − 2 pT λK avec :

«C (λˆ ) = E ( D ) − p λˆ avec p = Rλˆ


2
K
T
solution de Wiener de ∇ λ C
K
( λK ) = 0 »
Le coût peut se mettre sous la forme :

()
C ( λK ) = C λˆ + λˆT p + λKT RλK − 2λKT p
= C ( λˆ ) + (λˆ − λ K)
T
p + λKT RλK − λKT p

= C ( λˆ ) + (λˆ − λ K)
T
p + λKT R(λK − λˆ )

= C ( λˆ ) + (λˆ − λ K)
T
Rλˆ + (λK − λˆ )T RλK

= C ( λˆ ) + (λˆ − λ K)
T
R(λˆ − λK )

( λK ) = C ( λˆ ) + ( λK − λˆ ) ( )
T
ou C R λK − λˆ .

Posons α K = λK − λˆ .
il vient : C ( λK ) =C (λˆ + α K ) = C (λˆ ) + α KT R αK
208 Processus stochastiques et filtrages optimaux

Et facilement : ∇α
K
C ( λK ) = 2 R α K .

Par changement de base simplifions les expressions précédentes afin de trouver


des interprétations géométriques simples.

La matrice R étant symétrique, on sait qu’elle est diagonalisable par une matrice
orthogonale Q, c’est-à-dire :

Γ = Q −1RQ .

⎛γ 0 0 ⎞
−1 ⎜ ⎟
⎟ où les γ sont les valeurs propres
T i
Avec Q = Q et Γ = ⎜ '
⎜0 γ m −1 ⎟⎠

de R.

−1
Portons R = Q Γ Q dans la dernière écriture du coût :

()
C (α K ) = C λˆ + α KT Q Γ Q −1 α K

−1
et en posant u K = Q αK

m −1
() ()
C (uK ) = C λˆ + uTK Γ uK = C λˆ + ∑ γ i (uKi ) 2
i =0

et :

( )
T
∇uK C (u K ) = 2 Γ uK = 2 γ 0 uK0 γ 1 u1K γ m−1 uKm−1 .

i
Avec u K : composante i de u à l’instant K .
ème

Cette écriture est intéressante car lorsqu’une seule des composantes de


∇u C ( λK ) sera non nulle, cette composante, normale à C ( λK ) , portera le
K

vecteur gradient. Ainsi cette composante formera l’un des axes principaux des
ellipses (ou des hyperellipses).
Filtrage adaptatif 209

Par conséquent les vecteurs u K représentent les axes principaux des


hyperellipses.

Ces axes principaux représentent également les vecteurs propres de R . En effet,


quand on réduit une forme quadratique, ce qu’on réalise en diagonalisant, on établit
les axes principaux de l’hyperellipse en calculant les vecteurs propres de la matrice
R quand l’expression du coût C est sous la forme : Cte + α KT R α K .

REMARQUE.– Quand m=2 ou 3 la matrice orthogonale Q est associée à une rotation


2 "
3
dans R"ou R muni de la base des vecteurs propres de R .

REMARQUE 2.– ∇u
K
C (u K ) = Q −1 ∇α C (α K ) . K

Illustrons cette représentation par un exemple.

⎛3 1⎞
Soit R = ⎜ ⎟ ; p = (5 7)
T
et ( )
2
E DK = 10
⎝1 3⎠
Ainsi nous obtenons :

⎛2 0⎞
; λˆ = (1 2 ) et C ( λˆ ) = 1 .
T
Γ=⎜ ⎟
⎝0 4⎠

Les vecteurs propres de R nous permettent de construire une matrice Q


unitaire.

1 ⎛ 1 1⎞
Soit Q = ⎜ ⎟
2 ⎝ −1 1 ⎠

et C (α K ) = C ( λˆ ) + α KT R α K .

REMARQUE.– Q a toujours la même forme et prend toujours les mêmes valeurs si


nous choisissons le vecteur unité comme vecteur de base. Ceci tient à la forme très
particulière de R (Toeplitz). Voir tracé dans les repères
(λ 0
)(
, λ1 , α 0 , α 1 ) et (u 0
)
, u1 ci-après.
210 Processus stochastiques et filtrages optimaux

Figure 6.11. Tracé de la fonction coût et des différents axes


([BLA 01] pour le tracé de l’ellipse)

Figure 6.12. Tracé des « repères importants »


Filtrage adaptatif 211

−1
⎧ 0
⎪⎪u =
1
2
(α 0
− α1 )
Avec u K = Q αK soit ⎨
⎪u 1 =
⎪⎩
1
2
(α 0
+ α1 )

6.8. Stabilité et convergence

Etudions à présent la stabilité et la convergence de l’algorithme du gradient


déterministe.

En prenant l’écriture récursive du vecteur coefficients et en opérant une


translation :

α K = λK − λˆ .

Les écritures suivantes :

λK +1 = λK + µ ( −∇ λ C ( λK ) )
K

λˆ = R p
−1

∇ λ C ( λK ) = −2 ( p − RλK )
K

nous permettent d’écrire : α K +1 = ( I d − 2 µ R ) α K Id : matrice identité.

En écrivant R sous la forme :

R = Q Γ Q −1

et en prémultipliant α K +1 par Q −1 , nous obtenons :

Q −1α K +1 = uK +1 = ( I d − 2 µ Γ ) u K

i
(
et u K +1 = 1 − 2 µ γ
i
)u i
K
212 Processus stochastiques et filtrages optimaux

soit u K = ( I d − 2 µ Γ ) u0 .
K

Ainsi l’algorithme est stable et convergent si

( )
K
lim 1 − 2 µ γ
i
=0
K →∞

Si cette condition est obtenue alors : lim λK = λˆ


K →∞

1
avec 0 < µ<
γ max

L’illustration ci-après nous donne une idée de l’évolution du coût et de la


convergence de λK .

Figure 6.13. Tracé de plusieurs fonctions coût et des axes principaux « u »

RÉCAPITULATIF.– Nous avons montré que l’algorithme du LMS (ou gradient


stochastique), de par sa récursivité, résout l’équation de Wiener-Hopf en effectuant
les calculs de moyenne.
Filtrage adaptatif 213

Cependant, il nécessite deux fois plus de calculs qu’un filtre transverse, car il lui
faut calculer, d’une part :

ε K = d K − λKT y K soit m multiplications et m additions.

et d’autre part :
% %
λK +1 = λK + 2µε K y K soit m+1 multiplications et m additions.

La complexité est donc de 2m.

On montre également que l’algorithme du LMS est le plus simple de tous ceux
qui optimisent le même critère des moindres carrés.

Par contre, il convergera plus lentement que l’algorithme dit des moindres carrés
exacts.

Même exemple de calcul que précédemment mais avec entrée bruitée, il s’agit de
construire un déphaseur avec annuleur de bruit.

∅ est uniformément répartie sur [ 0, 2π ] et ϕ , certain, illustre un déphasage


connu.

Figure 6.14. Schéma de principe du déphaseur (voir figure 6.10) avec entrée bruitée

bK est un bruit blanc centré et indépendant de l’entrée :


214 Processus stochastiques et filtrages optimaux

( )
E bK −i bK − j = σ 2 δ i , j
⎡⎛ ⎛ 2π ⎞ ⎞⎛ ⎛ 2π ⎞⎤
E (YK YK − n ) = E ⎢⎜ sin ⎜ K + ∅ ⎟ + bK ⎟⎜ sin ⎜ ( K − n ) + ∅ ⎞⎟ + bK −n ⎟ ⎥
⎣⎝ ⎝ N ⎠ ⎠⎝ ⎝ N ⎠ ⎠⎦
2π K
= 0,5cos + σ 2δ 0,n
N
⎡ ⎛ 2π K ⎞ ⎛ ⎛ 2π ( K − n ) ⎞ ⎞⎤
E ( DK YK − n ) = E ⎢sin ⎜ − ϕ + ∅ ⎟ ⎜ sin ⎜ + ∅ ⎟ + bK − n ⎟ ⎥
⎢⎣ ⎝ N ⎠ ⎜⎝ ⎝ N ⎠

⎠ ⎥⎦
⎛ 2π n ⎞
= cos ⎜ −ϕ ⎟
⎝ N ⎠

Matrice d’autocorrélation des données YK :

⎛ 0, 5 + σ 2 2π

0, 5 cos
⎜ N ⎟
R=⎜ ⎟
⎜⎜ 0, 5 cos 2π 0, 5 + σ
2 ⎟⎟
⎝ N ⎠
T

p = E ( DK YK

DK YK −1 ) = ⎜ cos ϕ
T ⎛ 2π − ϕ ⎞ ⎞
cos ⎜ ⎟⎟
⎝ ⎝ N ⎠⎠

Ainsi nous obtenons :

λˆ = R
−1
p
⎛ 2 1 + 2σ 2 cos ϕ − ⎛ cos ϕ + cos ⎛ 4π − ϕ ⎞ ⎞ ⎞
1⎜
( ) ⎜


⎝N
⎟⎟⎟
⎠⎠
λˆ = ⎜ ⎟
∆⎜ 2π ⎛ 2π ⎞
⎜ −2 cos cos ϕ + 2 (1 + 2σ ) cos ⎜ − ϕ ⎟ ⎟
2 ⎟
⎝ N ⎝ N ⎠⎠

avec :


( )
2
∆ = 1 + 2σ 2 − cos 2
N
Filtrage adaptatif 215

et :

⎛ ⎛ 4π − 2ϕ ⎞ ⎞ − 1
(1 + 2σ )(1 + 4σ ) − 2σ
2 2 2
⎜ 2 cos ϕ + cos ⎜

2

⎝ N
⎟⎟
⎠⎠
C ( λˆ ) =

avec :


( ) ( )
C ( λK ) = 2 + 1 + 2σ 2 0, 5 (λ 0 ) 2 + (λ 1) 2 + λ 0 λ 1cos
N
− 2λ 0 cos ϕ

⎛ 2π ⎞
− 2λ 1cos ⎜ −ϕ ⎟
⎝ N ⎠

et C (α K ) = C ( λˆ ) + α KT R α K ou C ( u K ) = C (λˆ ) + u T
K Γ uK .

Voir tracé dans les repères (λ 0


)(
, λ1 , α 0 , α 1 ) et (u 0
)
, u1 ci-avant.

6.8.1. Convergence de l’algorithme du LMS

L’étude de la convergence de cet algorithme est beaucoup plus délicate que celle
du gradient déterministe, le lecteur pourra se référer à la bibliographie [BOL 87].

6.9. Exemple d’application de l’algorithme LMS

Rappel sur la modélisation d’un processus AR.


216 Processus stochastiques et filtrages optimaux

M
Ainsi BK = ∑ an X K −n .
n =0

En multipliant les 2 membres par X K −l et en prenant les espérances, il vient :

⎛ M ⎞
E ⎜ X K −( ∑ an X K − n ⎟ = E ( X K −( BK ) .
⎝ n =0 ⎠

Si ( > 0 alors X K −( ⊥ BK .

Car B K est un bruit blanc et seul BK est dépendant de X K .

Ainsi, en posant :

( )
E X j X m = rj − m

M
∑ an rn−( = 0 pour l > 0
n =0

M ⎛ M ⎞
et ∑ nn a r = E ( X B
K K ) = E ⎜ K ∑ an X K − n
B − ⎟ BK = σ B
2

n =0 ⎝ n =1 ⎠

En posant a0 = 1 et en utilisant l’écriture matricielle, il vient :

⎛ r0 r1 " rM ⎞ ⎛ 1 ⎞ ⎛ σ B2 ⎞ ← ( =0
⎜r ⎟⎜ ⎟ ⎜ ⎟
⎜1 r0 rM −1 a1
⎟⎜ ⎟ = ⎜0 ⎟ ⎫

⎜# ⎟ ⎜# ⎟ ⎜# ⎟ ⎬ ( ∈ [1, M ]
⎜⎜ r r ⎟⎜ ⎟ ⎜⎜ ⎟⎟ ⎪
⎝ M M −1 r0 ⎟⎠ ⎝ aM ⎠ ⎝0 ⎠ ⎭

Pour un processus AR d’ordre 1, soit le processus AR suivant :

X K = − a X K −1 + BK
Filtrage adaptatif 217

où BK est un bruit blanc centré de variance σ B2 .

Le problème consiste à estimer la constante a par un filtre adaptatif.

Connaissant BK et X K −1 , le problème consiste à estimer X K (ou a ).

Les résultats précédents nous permettent d’écrire :

⎧⎪r0 + a1 r1 = σ B2

⎪⎩r1 + a1 r0 = 0

r1
d’où : a1 = a = − ,
r0

et (
σ B2 = σ X2 1 − a 2 )
Estimons cette valeur du paramètre « a » à l’aide d’un prédicteur et en utilisant
un algorithme LMS.
218 Processus stochastiques et filtrages optimaux

ε K = DK − Z K et DK = X K

ou ε K = DK − λ X K −1 YK = X K −1

avec ε K ⊥ ZK principe d’orthogonalité

( )
soit E X K − λˆ X K −1 X K −1 = 0

ou r1 = λˆr0

r
d’où λˆ = 1 = − a
r0

En utilisant directement la solution optimale de Wiener R λˆ = p avec R = r0


et p = r1 nous obtenons R λˆ = p.

r
Soit λˆ = 1
r0

() ( )
C λˆ = E DK2 − pT λˆ

nous donne :

()
C λˆ = σ X2 (1−a2 )

Ce coût minimum est aussi égal à σ B2 .

Vous trouverez ci-dessous un exemple traité avec Matlab.

Pour un processus AR d’ordre 2, nous aurions :

ε K = DK − λ 0 X K −1 − λ1 X K −2
Filtrage adaptatif 219

( 0 1
)
et E X K − λˆ X K −1 − λˆ X K − 2 ( X K −1 X K −2 )T = (0 0)T

2
rr −rr r r −r
Ainsi : λˆ = 1 02 12 2 et λˆ = 2 20 12
0 1
r0 − r1 r0 − r1

ou en utilisant la solution de Wiener :

⎛r r1 ⎞
⎟ et p = ( r1 r2 ) avec R λ = p
R=⎜ 0
T ˆ
⎝ r1 r0 ⎠

Voir exemple ci-après avec le logiciel Matlab.

Exemples traités en utilisant le logiciel Matlab

Exemple d’un filtrage adaptatif (AR d’ordre 1)

L'objectif consiste à estimer le coefficient d'un prédicteur d'ordre 1 en utilisant


l'algorithme du LMS d'un filtre adaptatif. Le processus est construit par un modèle
AR du 1er ordre avec un bruit blanc, centré, gaussien et de variance (sigmav)^2. Le
problème revient donc à trouver le meilleur coefficient qui nous donne l'échantillon
à prédire.

%Prédicteur d'ordre 1

clear all;
close all;
N=500;
t=0:N;
a=-rand(1);%valeur à estimer
sigmav=0.1;%ecart type du bruit
r0=(sigmav)^2/(1-a^2);%E[u(k)^2]
r1=-a*r0;%représente P
wopt=r1/r0;%solution optimale de Wiener
Jmin=r0-r1*wopt;
mu=0.1;%paramètre de convergence
w(1)=0;
u(1)=0;
vk=sigmav*randn(size(t));
for k=1:length(t)-1;
u(k+1)=-a*u(k)+vk(k+1);
220 Processus stochastiques et filtrages optimaux

e(k+1)=u(k+1)-w(k)*u(k);
w(k+1)=w(k)+2*mu*u(k)*e(k+1);
E(k+1)=e(k+1)^2;%erreur carrée instantanée
J(k+1)=Jmin+(w(k)-wopt)'*r0*(w(k)-wopt);
end
%trace

subplot(3,1,1)
plot(t,w,'k',t,wopt,'k',t,a,'k');grid on
title('estimation de lambda, lambda opt. et "a"')

subplot(3,1,2)
plot(t,E,'k',t,J,'k',t,Jmin,'k');grid on
axis([0 N 0 max(E) ])
title('err.inst.,coût et cout min')

subplot(3,1,3)
plot(w,E,'k',w,J,'k');grid on
axis([0 1.2*wopt 0 max(J)])
title('err.inst.et coût en fonct. de lambda ')

Figure 6.15. Tracés des données importantes du processus AR d’ordre 1


Filtrage adaptatif 221

Autre exemple (AR d’ordre 2)

L'objectif consiste à estimer le coefficient d'un prédicteur d'ordre 2 en utilisant


l'algorithme du gradient stochastique d'un filtre adaptatif. Le processus est construit
par un modèle AR du 2e ordre avec un bruit blanc, centré, gaussien et de variance
(sigmav)^2. Le problème revient donc à trouver les meilleurs coefficients qui nous
donnent l'échantillon à prédire.

Prédicteur d'ordre 2

clear all;
close all;
N=1000;
t=0:N;
a1=-0.75;%valeur à estimer
a2=0.9;%idem
sigmav=0.2;%ecart type du bruit
r0=((1+a2)*((sigmav)^2))/(1+a2-a1^2+a2*(a1^2)-a2^2-a2^3);%E[u(k)^2]
r1=(-a1*r0)/(1+a2);%représente P2
r2=(r0*(a1^2-a2^2-a2))/(1+a2);%représente P1
w1opt=(r0*r1-r1*r2)/(r0^2-r1^2);
w2opt=(r0*r2-r1^2)/(r0^2-r1^2);
wopt=[w1opt w2opt]';%solution optimale de Wiener
p=[r1 r2]';
Jmin=r0-p'*wopt ;
R=[r0 r1;r1 r0];
mu=0.2;%paramètre de convergence
w1(1)=0;w2(1)=0;w1(2)=0; w2(2)=0;
u(1)=0;u(2)=0;
vk=sigmav*randn(size(t));

for k=2:length(t)-1;
u(k+1)=-a1*u(k)-a2*u(k-1)+vk(k+1);
e(k+1)=u(k+1)-w1(k)*u(k)-w2(k)*u(k-1);
w1(k+1)=w1(k)+2*mu*u(k)*e(k+1);
w2(k+1)=w2(k)+2*mu*u(k-1)*e(k+1);
w(:,k)=[w1(k) w2(k)]';
J(k+1)=Jmin+(w(:,k)-wopt)'*R*(w(:,k)-wopt);
end
%tracé
w(:,N)
delta=a1^2-4*a2;
z1=(-a1+(delta^.5))/2;
z2=(-a1-(delta^.5))/2;
222 Processus stochastiques et filtrages optimaux

subplot(2,2,1)
plot(t,w1,'k',t,w1opt,'b',t,a1,'r');grid on
title('est. lambda0, lambda0.opt. et "a0"')

subplot(2,2,2)
plot(t,w2,'k',t,w2opt,'b',t,a2,'r');grid on
title('est.lambda1, lambda1.opt et "a1"')

subplot(2,2,3)
plot(t,J,'-',t,Jmin,'r');grid on
axis([0 N 0 max(J)])
title('Cout et Cout min')

subplot(2,2,4)
plot (w1,J,'b',w2,J,'r');grid on
title('évolution des coefficients fonct. du coût ')

Figure 6.16. Tracés des données importantes du processus AR d’ordre 2


Filtrage adaptatif 223

6.10. Exercice du chapitre 6

Enoncé 6.1. [WID 85]

Un filtre adaptatif est caractérisé par

⎛2 1⎞
R=⎜ ⎟ matrice de corrélation des données,
⎝1 2⎠

p = ( 7 8 ) vecteur d’intercorrélation
T

( )
et E DK = 42
2
D K étant la sortie désirée.
1) Donner l’expression du coût C .
2) Calculer le vecteur optimal λ̂ .
3) Donner l’expression du coût minimum C (λ̂ ).
4) Calculer les valeurs propres de R.
5) Déterminer les vecteurs propres de telle sorte que la matrice Q de vecteurs
propres soit « normalisée » (c’est-à-dire QQ = I . ), ces vecteurs représentant les
T

axes principaux de la famille d’ellipses.


6) Donner les bornes de µ paramètre de convergence utilisé dans l’algorithme
du LMS.

Solution 6.1.

1) C = 2λ1 + 2λ2 + 2λ1λ2 − 14λ1 − 16λ2 + 42


2 2

2) λˆ = ( 2 3)
T

( )
3) C λˆ = 4

4) γ 1 = 1 γ2 = 3
2 (1 − 1) 2 (1 1)
T T
5) u1 = 1 u2 = 1
6) 0<µ <1 3
CHAPITRE 7

Le filtre de Kalman

7.1. Position du problème

Le but du filtrage que nous allons étudier consiste à « estimer au mieux » au sens
du critère classique des moindres carrés, un processus discret X K gouverné par une
équation de la forme :

X K +1 = A( K ) X K + C ( K ) N K (équation d’état).

Ce processus (physique, biologique, etc.) appelé processus d’état est celui qui
intéresse l’utilisateur.

Il représente par exemple la position, la vitesse et l’accélération d’un mobile.

Directement, ce processus est inaccessible et il est étudié par l’intermédiaire d’un


processus YK gouverné par une équation de la forme :

YK = H ( K ) X K + G ( K ) WK (équation d’observation)

YK est appelé processus d’observations.

N K et WK sont respectivement les bruits de système et de mesures que nous


qualifierons précisément par la suite. Le lecteur pourra retrouver les résultats des
processus discrets avec la bibliographie [BER 98, GIM 82].
226 Processus stochastiques et filtrages optimaux

Le filtre de Kalman généralise par sa conception, le filtre optimal des systèmes


non stationnaires.

Il est aussi récursif : la prédite Xˆ K +1|K est obtenue à partir de la filtrée à

l’instant précédent Xˆ K | K et la filtrée Xˆ K +1|K +1 , à partir de sa prédite Xˆ K +1|K et


de la mesure du processus YK +1 à l’instant ou l’on fait son estimation.

Par ailleurs, si le système observable est connu et linéaire, l’objectif consiste, à


partir des mesures du système, à déterminer la meilleure estimée possible au sens du
critère ci-dessus précisé.

Si le système observable est connu mais non linéaire une solution approchée peut
être donnée en opérant une linéarisation des équations d’état et d’observations
autour de la dernière valeur estimée. Dans ce cas nous donnerons les équations de
l’algorithme de Kalman en fin de chapitre sans les démontrer. Le lecteur pourra
trouver des compléments dans la bibliographie [GIM 82, RAD 84].

Si le système n’est pas parfaitement connu et linéaire le problème est plus


compliqué car il faut faire apparaître et estimer dans le vecteur d’état des
composantes inhérentes de ce système. Ce cas ne sera pas étudié dans ce chapitre.
De la même, manière, nous n’aborderons pas le cas où les bruits sont colorés ou
celui dans lequel il y a une corrélation entre bruit de système et bruit de mesure
[GIM 82, RAD 84].

Préliminaires dans le cas scalaire

Nous avons démontré que la meilleure estimée d’un processus, à partir d’une
fonction g d’observation, c’est-à-dire Xˆ = gˆ (Y1 ,..., YK ) représentée par la
projection orthogonale de X sur un espace de Hilbert que nous avons défini est
l’espérance conditionnelle de la grandeur X , sachant l’ensemble des variables
aléatoires d’observations Y1...YK c’est-à-dire :

Xˆ = gˆ (Y1 , ..., YK ) = Pr oj X = Ε ( X Y1 ,..., YK )


H KY

Toutefois, si le vecteur ( X , Y1 ,..., YK ) est gaussien, alors nous avons vu que

l’estimée X̂ de X est une fonction affine des vecteurs Y j .


Le filtre de Kalman 227

K
Xˆ = λˆ 0 + ∑ λˆ j Y j
j =1

Afin d’aborder le filtrage de Kalman d’une manière simple, nous allons


commencer par aborder le problème de l’estimation linéaire dans le cas scalaire
appliqué au prédicteur linéaire. La forme de l’estimation récursive obtenue nous
permettra alors de mieux cerner le cas multivarié.

Considérons un ensemble de variables aléatoires Y1 , Y2 ,..., Y j ..., YK −1

Y j : variable observée à l’instant j avec Y0 = 0 par convention.

Rappelons que nous notons par H KY-1 l’espace vectoriel réel engendré par ces
variables aléatoires, c’est-à-dire :

H KY-1 = { K −1
∑ λ j Yj λ j ∈ !
j =1
}
Exemple de l’estimation linéaire [HAY 91]

La meilleure estimation linéaire en m.q. d’une variable aléatoire YK , à partir


d’observations constituant H KY-1 peut se faire par le prédicteur linéaire suivant :

Figure 7.1. Schéma de principe de l’estimateur linéaire


228 Processus stochastiques et filtrages optimaux

L’erreur de prédiction s’écrit alors :

I K = YK − YˆK |K −1 (qu’on pourrait rapprocher de εK dans le filtre adaptatif)


pour un filtre prédicteur d’ordre K −1 et se construit facilement par le montage ci-
dessus.

Les sorties du filtre s’interprète comme : la meilleure estimée à l’instant K ,


connaissant les données du processus Y1 ,..., YK −1 .

Ainsi nous pouvons interpréter yˆ K |K −1, réalisation de YˆK |K −1 comme la sortie


d’un prédicteur d’ordre K − 1 dont l’entrée serait composée des observations
y1 , y2 ,..., yK −1 : mesures des Y j .

Le principe de l’orthogonalité nous montre que cette « erreur » I K est


orthogonale à H KY-1 et peut être interprétée comme une information apportée par
YK , d’où le nom « d’innovation ». Aussi nous appellerons cette erreur de
prédiction : l’innovation.

7.2. Approche de l’estimation

7.2.1. Cas scalaire

Il est clair que nous pouvons donner une estimée d’une grandeur d’un processus
à partir d’observations passées de ce processus.

Dans l’expression de l’innovation :

K −1
I K = YK − ∑ λˆi YK −i
i =1

YK représente la grandeur à estimer (voir : prédicteur)

K −1
et ∑ λˆ i YK −i représente l’estimation.
i =1
Le filtre de Kalman 229

= Pr oj Y YK = YˆK |K −1 et
H K-1

I K = YK − YˆK |K −1

De la même manière, si nous appelons :

Xˆ K K = Pr oj XK
H KY

l’estimée d’un processus à l’instant K , à partir des mesures y1 ,..., y K , ... du


processus Y1 ,..., YK ,... , nous pouvons écrire :

K
Xˆ K K = ∑ b j Y j estimée de X K .
j =1

Ecrivons l’innovation aux instants 1, 2,…, K :

K −1
I K = YK − ∑ λiK −1 YK −i avec λiK −1 : coefficients du prédicteur d’ordre K −1
i =1

I1 = Y1 avec Yˆ1/ 0 = 0
I 2 = Y2 − λ11Y1
I 3 = Y3 − λ12 Y2 − λ22 Y1
!
I K = YK − λ1K −1YK −1 − ... − λKK−−11Y1

Cette écriture peut se mettre sous la forme : I = M Y

avec M , matrice triangulaire inversible car det M = 1 .

−1
Ainsi Y = M I.
230 Processus stochastiques et filtrages optimaux

En conséquence, chaque vecteur I peut s’écrire en fonction des vecteurs

Y = (Y1 ,..., YK ) et inversement, (H KY = H KI ) .


T

Donc Xˆ K K = b′.Y = b′M I


−1

ou : b ' = (b1′ ,..., bK′ ) vecteur de dimension K


T

I = ( I1 ,..., I K )T vecteur Innovation.

Il est clair que l’égalité Xˆ K K = b′M I peut aussi se mettre sous la forme :
−1

K
Xˆ K K = ∑ d j I j
j =1

Ε( XK I j )
Montrons maintenant que : d j = j ∈ [1, K ]
Ε(I j I j )

Preuve :

Nous savons que : X K − Xˆ K |K ∈ H K


Y,⊥

On a : X K − Xˆ K |K ⊥ Y j ∀j ∈ [1, K ] il vient aussi :

Yˆj| j −1 ∈ H jY−1 ⊂ H KY , X K − Xˆ K |K ⊥ Yˆj| j −1

Donc X K − Xˆ K | K ⊥ Y j − Yˆj| j −1 = I j ∀j ∈ [1, K ]

( )
C’est-à-dire : E X K I j = E Xˆ K | K I j ( )
K
( )
D’où finalement : E X K I j = E Xˆ K |K I j = ( ) ∑d E (I I )
i =1
i i j
Le filtre de Kalman 231

et puisque I i ⊥ I j si i ≠ j il vient : d j =
( )
E XKI j
E (I jI j )

K
Exploitons l’écriture de la filtrée : Xˆ K K = ∑ d j I j
j =1

K −1
et Xˆ K K = ∑ d j I j + dK IK .
j =1

D’après nos premiers résultats, la somme des K −1 termes représente également


une estimation et :

Xˆ K K = Xˆ K −1 K −1 + d K I K .

Ce qui montre que l’estimée, à l’instant K s’écrit en fonction de l’estimée à


l’instant K −1 et d’un terme correctif dépendant de l’instant K .

Ce procédé d’estimation récursif est le fondement du filtrage de Kalman.

7.2.2. Cas multivarié

Nous allons à présent considérer des grandeurs vectorielles vues au chapitre 4,


c’est-à-dire :

( )
n
X K : multivecteur d’ordre n ∈ L2

( )
m
YK : multivecteur d’ordre m ∈ L2

( )
m
I K : multivecteur d’ordre m ∈ L2

Relation entre les Y j et les I j :

I K = YK − H ( K ) Xˆ K K −1
232 Processus stochastiques et filtrages optimaux

K −1
ou I K = YK − H ( K ) ∑ Λ
ˆ Y
j j
j =1

Réciproquement :

En écrivant les YK en fonction des I K , il vient avec X̂ 1|0 = 0.

Y1 = I1
ˆ I
Y2 = I 2 + H ( 2 ) Λ 1 1

Y3 = I 3 + H ( 3) Λ1 I1 + H ( 3) Λ
ˆ ˆ I + H ( 3) Λ
2 2
ˆ H ( 2) Λ
2
ˆ I
1 1
!

Ainsi YK s’écrit en fonction des I K , I K −1 ,..., I1 .

7.3. Filtrage de Kalman

Approche vectorielle ou multivariée soit :


– X K : multivecteur d’état ( n ×1)
– xK : vecteur d’état des réalisations

– YK : multivecteur d’observations ( m × 1)

– y K : vecteur d’observations des réalisations

7.3.1. Equation d’état

X K +1 = A ( K ) X K + C ( K ) N K

avec A ( K ) = matrice d’état ( n × n)

et N K = vecteur bruit de système (l × 1)

que nous choisirons centré, blanc et de matrice de corrélation.


Le filtre de Kalman 233

( )
E N K N Tj = δ K , j QK : ( "×" )

C ( K ) : Matrice déterministe (n × ")

7.3.2. Equation d’observations

YK = H ( K ) X K + G ( K ) WK

avec H ( K ) : matrice de mesures ou d’observations ( m × n ) .

WK : vecteur bruit de mesures ou d’observations ( p × 1) que nous choisissons,


comme N K , centré, blanc et de matrice de corrélation.

( )
E WK W jT = δ K , j RK ( p × p)
G ( K ) : matrice déterministe (m × p )

Les bruits N K et WK sont indépendants, et , comme ils sont centrés :

( )
E N K W jT = 0 ∀K et j .

Nous supposerons, par la suite , que WK ⊥ X 0 .

Par itération de l’équation d’état, nous pouvons écrire :


K −1
X K = Φ ( K ,0 ) X 0 + ∑ Φ ( K ,i +1) Ni avec Φ ( K , j ) : matrice de transition.
i =1

Il vient par cette équation de transition, en multipliant les 2 membres par W j

X K ⊥ Wj K, j > 0.

En utilisant l’équation d’observations :


234 Processus stochastiques et filtrages optimaux

Y j ⊥ WK 0 ≤ j ≤ K −1
et Yj ⊥ NK 0≤ j≤K

Le problème de l’estimation peut maintenant s’énoncer simplement de la façon


suivante.

Connaissant A( K ) la matrice d’état du système, H ( K ) la matrice de mesures


et les réalisations yi de Yi i ∈ [1,K ] ; obtenir les réalisations x j des X j .

Si 1< j<K on dira que l’estimation est un lissage.

Si j = K on dira que l’estimation est un filtrage.

Si j > K on dira que l’estimation est une prédiction.

REMARQUE.– Les matrices C ( K ) et G ( K ) ne jouent pas un rôle essentiel dans la


mesure où les puissances de bruit apparaissent dans les éléments des matrices
QK et RK respectivement. Cependant le lecteur pourra retrouver les analogies avec
les notations utilisées dans « Processus stochastiques et filtrage de Kalman » des
mêmes auteurs qui traite du cas continu.

7.3.3. Processus d’innovation

Le processus d’innovation a déjà été défini comme :

I K = YK − H ( K ) Pr oj X K = YK − H ( K ) Xˆ K |K −1 : ( m×1)
H KY −1

⎪⎧ K −1
⎪⎫
et : H KY-1 = ⎨ ∑ Λ jY j Λj matrice n × m ⎬⎪ .
⎪ j =0
⎩ ⎭

Par ce choix des Λ j , l’espace H KY−1 est adapté à l’ordre des multivecteurs

d’état X j et Pr oj Y XK = Xˆ K |K −1 a même ordre que X K .


HK −1

Ainsi I K représente l’apport d’informations entre les instants K − 1 et K .


Le filtre de Kalman 235

Rappel des propriétés précédemment établies :

I K ⊥ Y j ⎫⎪
⎬ pour j ∈ [1, K -1]
I K ⊥ I j ⎪⎭

Nous reviendrons sur l’innovation pour donner l’importance de sons sens


physique.

7.3.4. Matrice de covariance du processus d’innovation

Entre deux mesures, la dynamique du système fait évoluer les grandeurs d’état.
Aussi la prédite du vecteur d’état à l’instant K , connaissant les mesures (Y1...YK −1 )

c’est-à-dire Xˆ K |K −1 s’écrit en fonction de la filtrée à l’instant K − 1.

Xˆ K |K −1 = E ( X K | Y1 ,… , YK −1 ) = Pr oj XK
HY
K −1

= Pr oj
HY
( A( K − 1) X K −1 + C ( K − 1) N K −1 | Y1 ,… , YK −1 )
K −1

= A( K − 1) Xˆ K −1|K −1 + 0

Xˆ = A ( K −1) Xˆ
K K −1 K −1 K −1

Seule l’information provenant d’une nouvelle mesure à l’instant K permettra de


réduire l’erreur d’estimation à ce même instant. Ainsi H ( K ) représentant en
quelque sorte, l’appareil de mesures où pour le moins son effet :

YK − H ( K ) Xˆ
K K −1

représentera l’apport d’information entre 2 instants d’observations. C’est pour cette


raison que cette information s’appelle l’innovation.

Nous remarquons, par ailleurs que I K et YK ont mêmes ordres.

En exploitant l’équation d’observations nous en déduisons :


236 Processus stochastiques et filtrages optimaux

⎛ ⎞
I K = H ( K ) ⎜ X K − Xˆ + G ( K ) WK
⎝ K K −1 ⎟

et I K = H ( K ) X$ + G ( K ) WK
K K −1

où X$ K |K −1 = X K − Xˆ K | K −1 est appelée erreur de prédiction.

La matrice de covariance de l’innovation s’écrit finalement :

T
⎛ ⎞⎛ ⎞
Cov I K = E ( I K I KT ) = E ⎜ H ( K ) X$
K K −1
+ G ( K ) WK ⎟ ⎜ H ( K ) X$
K K −1
+ G ( K ) WK ⎟
⎝ ⎠⎝ ⎠

c'est-à-dire ou Cov I K = H ( K ) PK K −1 H T ( K ) + G ( K ) RK GT ( K )

⎛ ⎞
où P = Ε ⎜ X$ X$ T ⎟ est appelée matrice de covariance de l’erreur de
K K −1 ⎝ K K −1 K K −1 ⎠
prédiction.

Une formule de récurrence sur les matrices P sera développée dans


K K −1
l’annexe A.

7.3.5. Estimation

Dans le cas scalaire, nous avions établi une relation entre l’estimée d’une
grandeur X K et les innovations I K . Nous pouvons, bien évidemment étendre cette
approche au cas des processus multivariés, c’est-à-dire que l’on peut écrire :

K
Xˆ = ∑ d j (i ) I j
iK
j =1

d j ( i ) est une matrice ( n x m )

Déterminons les matrices d j ( i ) :


Le filtre de Kalman 237

(
Puisque E X$ i|K I j
T
) = E (( X i ) )
− Xˆ i|K I Tj = 0 ∀j ∈ [1, K ]

(
on a : E X i I j
T
) = E ( Xˆ T
i| K I j ) et vu la forme de Xˆ i| K .

⎛ K ⎞
On a encore E X i I j ( T
) = E ⎜⎜ ∑ d p (i ) I I T
p j ⎟⎟
.
⎝ p =1 ⎠

Soit, puisque I j ⊥ I p ∀j ≠ p et j , p ∈ [1, K ]

( ) (
E X i I Tj = d j ( i ) E I j I Tj = d j ( i ) CovI j . )
( ) ( CovI )
−1
Finalement : d j ( i ) = E X i I j
T
j .

Nous obtenons ainsi :

K
( ) ( Cov I )
−1
Xˆ i K = ∑ Ε X i I Tj j Ij
j =1
K −1
( ) ( Cov I )
−1
= ∑ Ε X i I Tj j Ij
j =1

(
+ Ε X i I KT ) ( Cov I K )−1 I K
Nous allons maintenant donner les équations de Kalman. Appliquons l’égalité
précédente à la filtrée Xˆ K +1 K +1 , il vient :

K +1
( ) ( Cov I )
−1
Xˆ K +1 K +1 = ∑ Ε X K +1 I Tj j Ij
j =1
K
( ) ( Cov I )
−1
= ∑ Ε X K +1 I Tj j Ij
j =1

(
+ Ε X K +1 I KT +1 ( Cov I K +1 ) ) −1
I K +1
238 Processus stochastiques et filtrages optimaux

L’équation d’état nous rappelle que :

X K +1 = Α ( K ) X K + C ( K ) N K

et nous savons que N K ⊥ Ij .

Donc :

( ) (
Ε X K +1 I Tj = Α ( K ) Ε X K I Tj . )
L’estimée de X K +1 connaissant la mesure à cet instant K+1 s’écrit alors :

K
( ) ( Cov I )
−1
Xˆ K +1 K +1 = Α ( K ) ∑ Ε X K I Tj j Ij
j =1

( )
+ Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1
−1

Le terme sous le signe sigma (somme) peut s’écrire Xˆ K K

Exploitons l’écriture :

I K +1 = H ( K +1) X$ K +1 K + G ( K +1) WK +1 .

Ce qui nous donne :

( ) −1
Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1 .

qui s’écrit encore :


( ) ⎞
T
Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε ⎜ X K +1 H ( K +1) X$ K +1 K + G ( K +1) WK +1 ⎟
⎝ ⎠
. ( Cov I K +1 ) I K +1
−1
Le filtre de Kalman 239

Par ailleurs nous avons montré que la meilleure estimation à un instant donné,
connaissant les mesures du passé, que nous écrivons Xˆ K +1 K , est égale à la

projection de X K +1 sur H KY soit :

Xˆ K +1 K = ProjH Y X K +1 = Pr oj
K HY
( Α (K ) X K + C (K ) NK )
K

Xˆ K +1 K = Pr oj
HY
( Α (K ) X K + C (K ) NK )
K

et comme : Y j ⊥ NK ∀ j ∈[1, K ]

il vient Xˆ K +1 K = Α ( K ) Xˆ K K ; Α ( K ) carrée

On peut considérer cette équation comme celle décrivant la dynamique du


système, indépendemment des mesures et comme l’une des équations du filtre de
Kalman.

Comme en outre X K ⊥ Wj K , j > 0 : il vient pour la filtrée :

( ) −1
Xˆ K +1 K +1 = Xˆ K +1 K + Ε X K +1 X$ KT +1 K H (TK +1) ( Cov I K +1 ) I K +1

Comme :

Xˆ K +1 K ⊥ X$ K +1 K

alors :

( ( )
Xˆ K +1 K +1 = Xˆ K +1 K + E X K +1 − Xˆ K +1 K X$ KT +1 K H T ( K +1) )
. ( Cov I K +1 ) I K +1
−1

Soit :

−1
Xˆ K +1 K +1 = Xˆ K +1 K + PK +1 K H T ( K +1) ( Cov I K +1 ) I K +1
240 Processus stochastiques et filtrages optimaux

DÉFINITION.– On appelle Gain de Kalman la fonction K définie ( ici à l’instant K+1)


par :

−1
K ( K +1) = PK +1 K H T ( K +1) ( Cov I K +1 )

avec :

Cov I K +1 = H ( K + 1) PK +1 K H T ( K + 1) + G ( K +1) RK +1 GT ( K +1)

soit en reportant dans l’expression de K ( K + 1) nous obtenons :

( )
−1
K ( K+1) = PK+1K HT ( K+1) H ( K+1) PK+1K H(TK+1) + G( K+1) RK+1GT ( K+1)

Nous remarquons que ce calcul ne nécessite pas la connaissance directe de la


mesure du processus YK .

Cette écriture du gain, intervient, bien évidemment, dans l’algorithme du filtre de


Kalman et nous pouvons écrire :

(
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K )
Cette expression de la meilleure filtrée représente une autre équation du filtre de
Kalman.

Nous remarquons que « l’effet » du gain est essentiel.

En effet, si la mesure est très bruitée, ce qui signifie que les éléments de la
matrice RK sont importants, alors le gain sera relativement faible, et l’impact de
cette mesure sera minimisé pour le calcul de la filtrée.

En revanche, si la mesure est peu bruitée, nous aurons l’effet inverse ; le gain
sera important et son effet sur la filtrée sera appréciable.

Nous allons à présent « apprécier » cette filtrée en calculant l’erreur que nous
commettons, c’est-à-dire en calculant la matrice de covariance de l’erreur de filtrage.
Le filtre de Kalman 241

Rappelons que Xˆ K +1 K +1 est la meilleure des filtrées, au sens où elle minimise


l’application :

= tr E ⎡( X K +1 − Z )( X K +1 − Z ) ⎤
2 T
Z → tr X K +1 − Z
⎣ ⎦
Y
∈ H K+1 ∈!

Le minimum est donc :

( )
2
tr X K +1 − Xˆ K +1 K +1 = tr E X$ K +1 K +1 X$ TK +1 K +1

(
NOTATION.– dans la suite la matrice E X$ K +1 K +1 X$ K +1 K +1
T
) est notée P K +1 K +1

et est appelée matrice de covariance d’erreur de filtrage.

Nous donnons maintenant une relation simple liant les matrices

P et P
K +1 K +1 K +1 K

On remarque que, par utilisation de l’équation de la filtrée d’abord et de


l’équation d’état ensuite :

X$ K +1|K +1 = X K +1 − Xˆ K +1 K +1

(
= X K +1 − Xˆ K +1 K − K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K )
= X K +1 − Xˆ K +1 K − K ( K +1)

(H ( K +1) X K +1 + G ( K +1) WK +1 − H ( K +1) Xˆ K +1 K )


= ( I d − K ( K +1) H ( K +1) ) X$ K +1|K − K ( K +1) G ( K +1) WK +1

où I d est la matrice identité.


242 Processus stochastiques et filtrages optimaux

En portant cette expression de X$ K +1|K +1 dans P et en utilisant le fait


K +1 K +1

que : X$ K +1| K ⊥ WK +1 on a :

= ( I d − K ( K +1) H ( K +1) ) P ( I d − K ( K +1) H ( K +1) ) +


T
P
K +1 K +1 K +1 K

K ( K +1) G ( K +1) R ( K +1) GT ( K +1) K T ( K +1)

Expression qui, puisque :

Cov I K +1 = G ( K +1) RK +1 GT ( K +1) + H ( K + 1) PK +1 K H T ( K + 1)

peut s’écrire :

(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) ( CovI K +1 )
−1
)
( CovI K +1 ) ( K ( K + 1) − PK +1 K H (TK +1) ( CovI K +1 ) )
−1 T

( −1
+ I d − PK +1 K H T ( K +1) ( CovI K +1 ) H ( K +1) PK +1 K )
−1
Mais on a vu que : K ( K +1) = PK +1 K H ( K +1) ( Cov I K +1 ) .
T

Donc le premier terme du deuxième membre de l’expression est nul et notre


relation cherchée est finalement :

(
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K)
Cette « mise à jour » de la matrice de covariance par itération est une autre
équation du filtre de Kalman.

Autre approche pour calculer ce minimum [RAD 84].

On remarque que l’avant dernière écriture de PK +1|K +1 peut se mettre sous la


forme :
Le filtre de Kalman 243

(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) J −1 ( K +1) )
( )
T
J ( K +1) K ( K + 1) − PK +1 K H (TK +1) J (−K1 +1)

( )
+ I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K

avec :

J ( K +1) = H ( K +1) PK +1 K H T ( K +1) + G ( K +1) RK +1 GT ( K +1) = Cov I K +1

Seul le 1er terme de PK +1 K +1 dépend de K ( K +1) et est de la forme

M J M T avec J symétrique.

Ainsi cette forme est de trace positive ou nulle et :

(
PK +1 K +1 = M J M T + I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K)
Le minimum de la trace sera donc atteint quand M sera nul soit :

K ( K +1) = PK +1 K H T ( K +1) J −1 ( K +1) où :

( )
−1
K ( K +1) = PK +1 K H T ( K +1) H ( K +1) PK +1 K H (TK +1) + G ( K +1) RK +1G T ( K +1)

résultat déjà obtenu !

et dans ces conditions quand :

( )
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K

on obtient le minimum de la tr PK +1 K +1 .

Il est important de noter que K , le gain de Kalman et la matrice de covariance


de l’erreur d’estimation sont indépendants des grandeurs YK .
244 Processus stochastiques et filtrages optimaux

Nous pouvons aussi écrire la meilleure « prédite », à savoir Xˆ K +1 K en fonction


de la précédente prédite :

(
Soit : Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 )
Comme pour la « meilleure » filtrée, la meilleur prédite s’écrit en fonction de
l’estimée prédite précédente pondérée du gain et de l’innovation apportée par la
mesure YK . Cette équation de Kalman est utilisée non pas en filtrage mais en
prédiction. Il nous faut à présent établir une relation sur l’évolution de la matrice de
covariance des erreurs d’estimation.

7.3.6. Equation de Riccati

Ecrivons une relation d’évolution entre la matrice de covariance de l’erreur de


filtrage et la matrice de covariance de l’erreur de prédiction :

(
PK K −1 = Ε X$ K K −1 X$ KT K −1 )
ou par incrémentation :

avec :
(
PK +1 K = Ε X$ K +1 K X$ KT +1 K )
X$ K +1 K = X K +1 − Xˆ K +1 K

Par ailleurs nous savons que :

Xˆ K +1 K = Α ( K ) Xˆ K K −1 + A ( K ) K ( K ) I K

donnant la prédite à l’instant K +1 et X K +1 = Α ( K ) X K + C ( K ) N K


ainsi que I K = YK − H ( K ) Xˆ K K −1 .

La combinaison de ces écritures nous donne :

( ) ( )
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 + C ( K ) N K
Le filtre de Kalman 245

Mais YK = H ( K ) X K + G ( K ) WK .

Donc :

( ) (
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) H ( K ) X K − Xˆ K K −1 − )
Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K

X$ K +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) X$ K K −1 −
Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K

Nous pouvons à présent écrire PK +1 K en remarquant que :

X$ K K −1 ⊥ NK
et X$ K K −1 ⊥ WK

REMARQUE.– Attention X$ K +1/ K n’est pas orthogonale à WK

Donc :

PK +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T

+ C ( K ) QK C T ( K ) + Α ( K ) K ( K ) G ( K ) RK GT ( K ) K T ( K ) ΑT ( K )

Cette expression de la matrice de covariance de l’erreur de prédiction peut se


mettre sous la forme :

PK +1 K = Α ( K ) PK K ΑT ( K ) + C ( K ) QK C T ( K ) .

Cette égalité indépendante de YK porte le nom d’équation de Riccati.

avec PK K = ( I d − K ( K ) H ( K ) ) PK K −1
qui représente la matrice de covariance de l’erreur de filtrage, également
indépendante de YK . Voir Annexe A pour détails de calcul.
246 Processus stochastiques et filtrages optimaux

7.3.7. Algorithme et résumé

L’algorithme se présente donc sous la forme suivante , avec les conditions


initiales :

P0 et X̂ 0|0 données ainsi que les matrices :

Α ( K ) , QK , H ( K ) , RK , C ( K ) et G ( K )

1) Phase de calcul indépendante des YK .

En effet, à partir des conditions initiales, on s’aperçoit que la récursivité qui


s’opère sur le gain K ( K + 1) et sur la matrice de covariance des erreurs de
prédiction et de filtrage PK +1 K et PK +1 K +1 ne nécessite pas la connaissance du
processus d’observations. Ainsi le calcul de ces matrices peut se faire en amont de
tout calcul itératif. Quant aux observations, elles interviennent pour le calcul de
l’innovation et de la filtrée ou de la prédite.

PK+1 K = Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )

( )
−1
K ( K+1) = PK+1 K HT ( K+1) H ( K+1) PK+1 K HT ( K +1) + G ( K+1) RK+1 GT ( K+1)
PK+1K+1 = ( Id − K ( K+1) H ( K+1) ) PK+1 K

Xˆ K+1K = Α( K ) Xˆ K K

( )
T T −1
ou K ( K + 1) = PK +1 K +1 H ( K + 1) G ( K +1) RK +1G ( K +1)

T
si G ( K +1) RK +1G ( K +1) est inversible.

2) Phase de calcul tenant compte des réalisations y K du processus YK .

I K +1 = YK +1 − H ( K + 1) Xˆ K +1 K

Xˆ K +1 K +1 = Xˆ K +1 K + K ( K + 1) I K +1
Le filtre de Kalman 247

C’est par une nouvelle mesure que l’innovation calculée permettra, pondérée par
le gain au même instant, de connaître la meilleure filtrée.

Figure 7.2. Schéma de principe du filtre de Kalman

Des compléments importants d’informations peuvent être obtenues dans


[HAY 91].

REMARQUE.– Si nous avions conçu un prédicteur de Kalman, nous aurions obtenu


l’écriture de la prédite.

(
Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1
%&&&'&&&(
)
IK

REMARQUE.– Lorsque les équations d’état et d’observations ne sont plus linéaires,


une solution approchée existe et les résultats non démontrés sont donnés ci-après. Le
filtre prend alors le nom de Filtre de Kalman étendu.

7.3.8. Equations du filtre de Kalman dans le cas non linéaire

Si :

X K +1 = A ( X K , K ) + C ( K ) N K
et YK = H ( X K , K ) + G ( K ) WK

Les opérateurs A ( X K , K ) et H ( X K , K ) ne sont plus linéaires par rapport à


la 1re variable X K .
248 Processus stochastiques et filtrages optimaux

Alors :

° °
PK +1 K = Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )
−1
⎛°
° ° ⎞
K K +1 = PK +1 K Η K +1 ⎜ Η K +1 PK +1 K ΗT ( K +1) + G ( K +1) R ( K +1) GT ( K +1) ⎟
( ) ( ) T
( )
⎜ ⎟
⎝ ⎠
⎛ ° ⎞
PK +1 K +1 = ⎜ Id − K ( K +1) Η ( K +1) ⎟ PK +1 K
⎝ ⎠
) ⎛ ⎞
X K +1 K = A ⎜ Xˆ , K ⎟
⎝ K K ⎠
IK +1 = Y − H Xˆ
K +1 (
, K +1K +1 K )
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) I K +1

° ∂A ( X K , K )
avec Α (K ) =
∂X K X = Xˆ K K
K

° ∂H ( X K +1, K +1)
et Η ( K +1) =
∂X K +1 X = Xˆ K +1 K
K +1

REMARQUE.– On utilise dans ce cas des dérivées de matrices, c’est-à-dire des


matrices formées par les dérivées des coefficients.

7.4. Exercices du chapitre 7

Enoncé 7.1.

Soit l’équation d’état X K +1 = A X K + N K .

où la matrice d’état A est la matrice « identité » de dimension 2 et N K le bruit de


système dont la matrice de covariance s’écrit Q = σ I d ( I d : matrice identité).
2
Le filtre de Kalman 249

Le système est observé par l’équation scalaire :

YK = X 1K + X K2 + WK où X 1K et X K2 sont les composantes du vecteur X K


où WK le bruit de mesure de variance R = σ 12 .

P0|0 = Id et Xˆ 0|0 = 0 sont les conditions initiales.

1) Donner l’écriture du gain de Kalman K (1) à l’instant « 1 » en fonction de


σ 2
et σ 12 .

2) Donner l’estimée de X̂ 1|1 de X 1 à l’instant « 1 » en fonction de K (1) et de


la 1re mesure de Y1 .

Solution 7.1.

1+σ 2 ⎛1⎞
1) K (1) = ⎜ ⎟
2 + 2σ 2 + σ 12 ⎝ 1 ⎠

2) Xˆ 1|1 = K (1)Y1

Enoncé 7.2.

On considère le mouvement d’une particule sur une droite.

x1 ( t ) représente la position de la particule et x2 ( t ) sa vitesse.

t
x1 ( t ) = ∫ x2 (τ ) dτ + x1 ( 0 )
0

En dérivant cette expression et en posant :


dx1 ( t )
x2 (t ) = = approximativement = x1 ( K +1) − x1 ( K ) .
dt
On suppose que la vitesse peut être représentée par :
250 Processus stochastiques et filtrages optimaux

X K2 = X K2 −1 + N K −1 .

Avec N K bruit stationnaire gaussien centré de variance 1.

La position est mesurée par y K , réalisation du processus YK . Cette mesure


ajoute un bruit stationnaire gaussien centré de variance 1 :

Y ( K ) = H ( K ) X ( K ) + WK

On suppose que RK matrice de covariance (de dimension 1) du bruit de mesure


égale à 1.

1) Donner les matrices A, Q (matrice de covariance de bruit de système) et H .

2) En prenant comme conditions initiales Xˆ 0 = Xˆ 0|0 = 0 P0|0 = I d


matrice identité, donner X̂ 1|1 la 1re estimation du vecteur d’état.

Solution 7.2.

⎛ 1 1⎞ ⎛0 0⎞
1) A = ⎜ ⎟ ; Q=⎜ ⎟ ; H = (1 0 )
⎝ 0 1⎠ ⎝0 1⎠

⎛ 2 3⎞
2) X̂ 1|1 = ⎜ ⎟ Y1
⎝1 3⎠

Enoncé 7.3. [RAD 84]

On veut estimer deux positions de cibles par une seule mesure. Ces positions
X 1K 2
et X K forment le vecteur d’état :

( )
T
X K = X 1K X K2

Le bruit de système est nul.


Le filtre de Kalman 251

La mesure du processus Y est bruitée par W de valeur moyenne nulle et de


variance R porte sur la somme des positions :

YK = X 1K + X K2 + WK

Afin de simplifier les calculs, on se placera dans le cas d’une cible immobile :

X K +1 = X K = X .

Les conditions initiales sont :

( )
– P0|0 = C ov X$ , X$ = Id matrice identité ;

– R = 0,1 ;

– y = 2, 9 (mesure) et Xˆ 0|0 = ( 0 0) .
T

1) Donner la matrice d’état A , et d’observation H .

2) Donner le gain de Kalman K .

3) Donner la matrice de covariance d’erreur d’estimation.

2
4) Donner l’estimée au sens du minimum dans L du vecteur d’état X K .

5) Si x = xK = (1 2 ) , donner l’erreur d’estimation


T

x$ = x$K |K = xK − xˆ K |K .

6) Comparer les erreurs d’estimations aux variances de X$ K et X$ K et


1 2

concluez.

Solutions 7.3.

1) A = I d H = (1 1)

2) K = (1 2,1 1 2,1)
T
252 Processus stochastiques et filtrages optimaux

⎛ 1,1 2,1 −1
2,1 ⎞
3) P1|1 = ⎜ ⎟⎟
⎜ −1 1,1
⎝ 2,1 2,1 ⎠

4) xˆ1|1 = ( 2, 9 2,1 2, 9 2,1)


T

( )
T
5) x$ K = x$ K
1
x$ K2 = ( −0, 38 − 0, 62 )T

6) var X$ K = var X$ K = 0, 52
1 2

Enoncé 7.4.

Soit l’équation d’état de dimension 1 (le processus d’état est un processus


scalaire) :

X K +1 = X K .

L’état est observé par 2 mesures :

YK = ⎛⎜ YK2 ⎞⎟ bruitées avec WK = ⎛⎜ WK2 ⎞⎟


Y1 W1
⎝ K⎠ ⎝ K⎠
Le bruit de mesure est caractérisé par sa matrice de covariance :

RK = ⎛⎜ O1 σO2 ⎞⎟ .
σ2
⎝ 2 ⎠

Les conditions initiales sont :

P0|0 = 1 (covariance de l’erreur d’estimation à l’instant « 0 »),


et X̂ 0|0 = 0 (estimée de X à l’instant « 0 »).

Posons D = σ 1 + σ 2 + σ 1 σ 2 .
2 2 2 2
Le filtre de Kalman 253

1) Donner l’écriture de K(1) gain de Kalman à l’instant « 1 » en fonction de


σ 1 , σ 2 et D .

2) Donner l’estimée X̂ 1|1 de X 1 à l’instant « 1 » en fonction des mesures de

Y11 , Y12 et σ 1,σ 2 et D .

σ 12 σ 22
3) En posant σ = 2
2
donner P1|1 la covariance de l’erreur d’estimation à
σ 1 +σ 22
l’instant « 1 » en fonction de σ .

Solutions 7.4.

⎛ σ 12 σ2 ⎞
2
1) K (1) = ⎜ ⎟
⎝ D D ⎠

(
2) Xˆ 1|1 = σ 2 Y1 + σ 1 Y1
2 1 2 2
)/ D
σ2
3) P1|1 =
1+σ
2

Enoncé 7.5.

La distance fixe d’un objet est évaluée par 2 mesures radar de qualités
différentes.

La 1re mesure donne le résultat :

y1 = r + n1 , mesure du processus Y = X + N1 où l’on sait que le bruit N1 est


tel que :

E ( N1 ) = 0 et var ( N1 ) = σ 12 = 10-2

La 2e mesure donne : y 2 = r + n2 mesure du processus Y = X + N 2 .


254 Processus stochastiques et filtrages optimaux

E ( N 2 ) = 0 et var ( N 2 ) = w (scalaire)

Les bruits N1 et N 2 sont indépendants

1) Donner l’estimée r̂1 de r que l’on obtient à partir de la 1re mesure.

2) Affiner cette estimée en utilisant la 2e mesure. Nous appellerons r̂2 cette


nouvelle estimée que nous écrirons en fonction de w .

3) Tracer la courbe rˆ2 ( w) et justifier son allure.

Solutions 7.5.

1) rˆ1 = xˆ1|1 = y1

σ 12 100 wy1 + y2
2) rˆ2 = xˆ2|2 = y1 + ( y2 − y1 ) =
σ 12 +w 100 w + 1

3) Voir figure 7.3.

Figure 7.3. Tracé de l’évolution de l’estimée en fonction de la puissance du bruit w,


paramétrée selon les grandeurs des mesures
ANNEXES

Annexe A

Résolution de l’équation de Riccati

Montrons que : PK +1 K = A ( K ) PK K A ( K ) + C ( K ) QK C ( K )
T T

Reprenons l’écriture développée de la matrice de covariance de l’erreur de


prédiction du paragraphe 7.3.6.

PK +1 K = Α ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T

+ C ( K ) QK C(TK ) + Α ( K ) K ( K ) G ( K ) RK G T ( K ) K T ( K ) ΑT ( K )

avec :

K ( K ) = PK K −1 H T ( K ) ( Cov I K )
−1

et :

Cov I K = H ( K ) PK K −1 H (TK ) + G ( K ) RK G T ( K )

En remplaçant K ( K ) et Cov I K , par leurs expressions, dans l’écriture


récursive de PK +1 K , nous allons pouvoir simplifier l’expression de la matrice de
covariance de l’erreur de prédiction.
256 Processus stochastiques et filtrages optimaux

Pour alléger les écritures, nous allons, supprimer les indice K quand il n’y aura
pas d’ambiguïté en posant P1 = PK +1 K , P0 = PK K −1 et I = I K

( )
P1 = A I d − KH P0 ( Α − ΑKH ) + C Q C T + Α K G R G T K T ΑT
T

K = P0 H T ( Cov I )
−1

Cov I = H P0 H T + G R GT

Ainsi :

G R G T = Cov I − H P0 H T
K G R G T K T = P0 H T ( Cov I )
−1
( Cov I − H P 0 H T ) ( Cov I )
−1T
H P0T

(
= P0 H T − P0 H T ( Cov I ) H P0 H T
−1
) ( Cov I ) −1T
H P0T

KGRGT K T = P0 H T ( cov I )
−1T
HP0T − P0 H T ( cov I ) HP0 H T ( cov I )
−1 −1T
HP0T
P1 = AP0 AT − AKHP0 AT − AP0 H T K T AT + AKHP0 H T K T AT + CQC T +
−1T −1 −1T
(+ P0 H T ( cov I ) HP0T − P0 H T ( cov I ) HP0 H T ( cov I ) HP0T ) AT

soit en remplaçant K par son expression.

−1 −1T
P1 = AP0 AΤ − A P0 H T ( Cov I ) HP0 AT − AP0 H T ( Cov I ) HP0T AT
!""#""$
K
−1 −1T
+ AP0 H Τ
( Cov I ) HP0 H T ( Cov I ) HP0T AT + CQC T

(
+ A P0 H Τ ( Cov I )
−1T −1
HP0T − P0 H T ( Cov I ) HP0 H T ( Cov I )
−1T
)
HP0T AT

Le 3e et le 6e terme s’annulent le 4e et le 7e terme s’annulent également et il nous


reste : P1 = AP0 A − AKHP0 A + CQC
T T T

⎣ (
ou : P1 = A ⎡ I d − KH P0 ⎤ A + CQC
⎦ ) T T
Annexes 257

PK +1 K = A ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ) AT ( K ) + C ( K ) QK C T ( K )
!""""#"""" $
PK K

Ainsi :

PK +1 K = A ( K ) PK K AT ( K ) + C ( K ) QK C T ( K )

= matrice de covariance de l’erreur de prédiction

avec :

PK K = ( I d − K ( K ) H ( K ) ) PK K −1

= matrice de covariance de l’erreur de filtrage

Résultat que nous allons démontrer dans l’annexe B.

REMARQUE.– Comme il a été dit au paragraphe 7.3.7. connaissant les conditions


initiales sur les matrices de covariance PK |K −1 et PK |K la réactualisation du calcul
du gain permet les connaissances sur ces matrices de manière itérative.

Annexe B

Nous allons aboutir à ce résultat en partant de la définition de P et en


K K

utilisant l’écriture de la fonction K déjà obtenue.

REMARQUE.– A la différence du calcul développé au paragraphe 7.3.6. nous ne


montrerons pas que la trP obtenue est minimale.
K K

Une autre manière de montrer le résultat suivant :

( )
PK K = Ε X% K K X% TK K = PK K −1 − K ( K ) H ( K ) PK K −1

(
= Id − K ( K ) H ( K ) P ) K K −1
258 Processus stochastiques et filtrages optimaux

Preuve :

En partant de la définition de la matrice de covariance de l’erreur de filtrage,


soit :

PK |K = (
E X% K |K X% TK |K )
Il vient avec X% K | K = X K − Xˆ K |K et Xˆ K K = Xˆ K K −1 + K ( K ) I K

Soit X% K K = X K − Xˆ K K −1 − K ( K ) I K
!"
"#""
$
X% K K −1

Utilisons à présent ces résultats pour le calcul de PK |K :

( ) ( )
PK K = PK K −1 − K ( K ) Ε I K X% KT K −1 − Ε X% K K −1 I KT K (TK )

+ K ( K ) Ε ( I K I KT ) K T ( K )

Nous remarquons que :

( ) (
Ε X% K K −1 I KT = Ε X K − Xˆ K K −1 I KT )
Or I j ⊥ I K et I j ⊥ YK j ∈ [1, K − 1]

donc Xˆ K K −1 ⊥ I K

Soit :

( ) ( ) (
Ε X% K K −1 I KT = Ε X K I KT = E A−1 ( K ) ( X K +1 − C ( K ) N K ) I KT )
(
Alors : Ε X K I K = Ε A
T
) ( −1
( K ) X K +1 I KT )
Car Ε ( N K ) = 0
Annexes 259

Mais nous avons vu par ailleurs que :

(
Ε ( X K +1 I KT ) = E ( A ( K ) X K + C ( K ) N K ) H ( K ) X% K |K −1 + G ( K )WK )
T

= ( )
E A ( K ) X K X% TK |K −1 H T ( K )

car : N K ⊥ WK et N K ⊥ X% K |K −1 = X K − Xˆ K |K −1

( T
) ( )
Par ailleurs : E X K X% K |K −1 = E Xˆ K |K −1 + X% K |K −1 X% K |K −1 = PK |K +1
T

Car Xˆ K |K −1 ⊥ X% K |K −1

Ainsi il vient :

( )
Ε X% K K −1 I KT = PK K −1H T ( K )

donc :

PK K = PK K-1 − K ( K ) H ( K ) PKT K −1
− PK K −1H T ( K ) K T ( K )
+ K ( K ) ( Cov I K ) K T ( K )

avec K ( K ) = PK K −1 H ( K ) ( Cov I K )
T −1
après simplification et en notant que

PK K = PK K matrice symétrique ou hermitienne si les éléments sont complexes :


T

PK K = PK K −1 − K ( K ) H ( K ) PK K −1

ou :

PK K = [ I d − K ( K ) H ( K ) ] PK K −1

CQFD
260 Processus stochastiques et filtrages optimaux

Exemples traités en utilisant le logiciel Matlab :

Premier exemple d’un filtrage de Kalman

L'objectif est d'estimer une constante inconnue noyée dans le bruit.

Cette constante est mesurée par un capteur bruité.

Le bruit est centré, gaussien de variance égale = 1.

Les conditions initiales sont égales à 0 pour l'estimée et égale à 1 pour la


variance de l'erreur d'estimation.

clear
t=0:500;
R0=1;
constante=rand(1);
n1=randn(size(t));
y=constante+n1;

subplot(2,2,1)
%plot(t,y(1,:));
plot(t,y,'k');% en N&B

grid
title('capteur')
xlabel('temps')
axis([0 500 -max(y(1,:)) max(y(1,:))])

R=R0*std(n1)^2 ;%variance du bruit de mesure

P(1)=1;%conditions initiales sur la variance de l'erreur d'estimation


x(1)=0;

for i=2:length(t)
K=P(i-1)*inv(P(i-1)+R);
x(i)=x(i-1)+K*(y(:,i)-x(i-1));
P(i)=P(i-1)-K*P(i-1);
end
err=constante-x;
subplot(2,2,2)
plot(t,err,'k');
grid
title('erreur');
xlabel('temps')
Annexes 261

axis([0 500 -max(err) max(err)])

subplot(2,2,3)
plot(t,x,'k',t,constante,'k');% en N&B
title('x extimée')
xlabel('temps')
axis([0 500 0 max(x)])
grid

subplot(2,2,4)
plot(t,P,'k');% en N&B
grid,axis([0 100 0 max(P)])
title('variance erreur estimation')
xlabel('temps')

Figure A 1. Tracé de la mesure, de l’erreur, de la meilleure filtrée et la variance de l’erreur

Second exemple du filtrage de Kalman

L'objectif de cet exemple est d'extraire une sinusoîde amortie dans du bruit.

Le vecteur d'état est un vecteur colonne à 2 composantes :


X1=10*exp(-a*t)*cos(w*t)
X2=10*exp(-a*t)*sin(w*t)
262 Processus stochastiques et filtrages optimaux

Le bruit de système est centré, gaussien et de variance var(u1) et var(u2).

Le bruit de mesures est centré, gaussien et de variance var(v1) et var(v2).

Conditions initiales :

Les composantes du vecteur d'état sont nulles à l'origine et la matrice de


covariance de l'erreur d'estimation est initialisée à 10* matrice identité.

REMARQUE.– Le programme proposé n'est pas le plus court et le plus rapide au sens
du temps CPU, il est détaillé pour permettre une meilleure compréhension.

clear
%simulation
a=0.05;
w=1/2*pi;
Te=0.005;
Tf=30;
Ak=exp(-a*Te)*[cos(w*Te) -sin(w*Te);sin(w*Te) cos(w*Te)];%matrice d'état
Hk=eye(2);%matrice d'observations

t=0:Te:Tf;
%X1
X1=10*exp(-a*t).*cos(w*t);
%X2
X2=10*exp(-a*t).*sin(w*t);
Xk=[X1;X2];% vecteur d'état

%bruit de mesures

sigmav1=100;
sigmav2=10;
v1=sigmav1*randn(size(t));
v2=sigmav2*randn(size(t));
Vk=[v1;v2];

Yk=Hk*Xk+Vk;%vecteur de mesures

%matrice de covariance du bruit de mesures


Rk=[var(v1) 0;0 var(v2)];%matrice de covariance des bruits

%initialisation

sigmau1=0.1;%bruit de système
sigmau2=0.1;%idem
Annexes 263

u1=sigmau1*randn(size(t));
u2=sigmau2*randn(size(t));
%Uk=[sigmau1*randn(size(X1));sigmau2*randn(size(X2))];
Uk=[u1;u2];
Xk=Xk+Uk;

sigq=.01;
Q=sigq*[var(u1) 0;0 var(u2)];
sigp=10;
P=sigp*eye(2);%matrice de covariance d'erreur d'estimation P(0,0)

%tracé

subplot(2,3,1)
%plot(t,X1,t,X2);
plot(t,X1,'k',t,X2,'k')% en N&B

axis([0 Tf -max(abs(Xk(1,:))) max(abs(Xk(1,:)))])


title('sign. à filtrer x1 et x2')

subplot(2,3,2)
%plot(t,Vk(1,:),t,Vk(2,:),'r')
plot(t,Vk(1,:),t,Vk(2,:));% en N&B

axis([0 Tf -max(abs(Vk(1,:))) max(abs(Vk(1,:)))])


title('bruits de mes.w1 et w2')

subplot(2,3,3)
%plot(t,Yk(1,:),t,Yk(2,:),'r');
plot(t,Yk(1,:),t,Yk(2,:));% en N&B

axis([0 Tf -max(abs(Yk(1,:))) max(abs(Yk(1,:)))])


title('sign.mesurés y1 et y2')

Xf=[0;0];

%%estimation et prédiction par kalman

for k=1:length(t);
%%prediction

Xp=Ak*Xf; % Xp=Xest(k+1,k) et Xf=Xest(k,k)

Pp=Ak*P*Ak'+Q; % Pp=P(k+1,k) et P=P(k)


264 Processus stochastiques et filtrages optimaux

Gk=Pp*Hk'*inv(Hk*Pp*Hk'+Rk); % Gk=Gk(k+1)

Ik=Yk(:,k)-Hk*Xp;% Ik=I(k+1)=innovation

%meilleure filtrée

Xf=Xp+Gk*Ik; % Xf=Xest(k+1,k+1)

P=(eye(2)-Gk*Hk)*Pp;% P=P(k+1)

X(:,k)=Xf;

P1(:,k)=P(:,1);%1ère colonne de P
P2(:,k)=P(:,2);%2eme colonne de P

end

err1=X1-X(1,:);
err2=X2-X(2,:);

%%traçé

subplot(2,3,4)
%plot(t,X(1,:),t,X(2,:),'r')
plot(t,X(1,:),'k',t,X(2,:),'k')% en N&B
axis([0*Tf Tf -max(abs(X(1,:))) max(abs(X(1,:)))])
title('estimées x1 et x2')

subplot(2,3,5)
%plot(t,err1,t,err2)
plot(t,err1,'k',t,err2,'k')% en N&B
axis([0 Tf -max(abs(err1)) max(abs(err1))])
title('erreurs')

subplot(2,3,6)
%plot(t,P1(1,:),'r',t,P2(2,:),'b',t,P1(2,:),'g',t,P2(1,:),'y')
plot(t,P1(1,:),'k',t,P2(2,:),'k',t,P1(2,:),t,P2(1,:),'b')

%rouge P11, blue P22, vert P21, jaune P12


axis([0 Tf/10 0 max(P1(1,:))])

title('covar.err.estimation.')% p11, p22, p21 et p12


Annexes 265

Figure A 2. Tracé des signaux sans bruits, des bruits de mesures,


des mesures, des filtrées, des erreurs et des variances
TABLE DES SYMBOLES ET NOTATIONS

N, R, C Ensembles numériques.

L2 Espace des fonctions de carré sommable.

p.s. « presque sûrement ».

E Espérance mathématique.

v.a. variable aléatoire.

v.a.r. variable aléatoire réelle.

p.s.
X n ⎯⎯⎯ →X Convergence p.s. de la suite X n vers X .

⋅, ⋅ L2 ( ) Produit scalaire dans L2 .

⋅ L2 ( )
Norme L2 .

Var Variance.

Cov Covariance.

⋅∧⋅ min ( ⋅ , ⋅) .

X ∼ N (m, σ 2 ) Loi normale de moyenne m et de variance σ2.


268 Processus stochastiques et filtrages optimaux

AT Matrice A transposée.

HKY Espace de Hilbert engendré par YN , processus scalaires


ou multivariés.

Pr ojHY Projection sur l’espace de Hilbert engendré par Y( t ≤ K ) .


K

XT Processus stochastique défini sur T ( le temps décrit T ).

p.a.o. Processus à accroissements orthogonaux.

p.a.o.s. Processus à accroissements orthogonaux et stationnaires.

Xˆ K |K −1 Prédite à l’instant K connaissant les mesures du


processus YK des instants 1 à K −1 .

X" K |K −1 Erreur de prédiction.

Xˆ K |K Filtrée à l’instant K connaissant ses mesures des instants


1 à K.

X" K |K Erreur de filtrage.

∇λ C Gradient de la fonction C ( λ ) .
BIBLIOGRAPHIE

[BER 98] BERTEIN J.C., CESCHI R., Processus stochastiques et filtrage de Kalman,
Editions Hermès, 1998.
[BLA 01] BLANCHET G., CHARBIT M., Signaux et images sous Matlab, Editions
Hermès, 2001.
[BOL 87] BOLAND F.M., FOLEY J.B., « Stochastic Convergence of the LMS
Algorithm in Adaptive Systems », Signal processing, North Holland 13, 1987.
[CHU 87] CHUI C.K., CHEN G. Kalman filtering, Editions Springer-Verlag, 1987.
[GIM 82] GIMONET B., LABARRERE M., KRIEF J.-P., Le filtrage et ses applications,
Editions Cépadues, 1982.
[HAY 91] HAYKIN S., Adaptive Filter Theory, Prentice Hall, 1991.
[MAC 81] MACCHI O., « Le filtrage adaptatif en télécommunications », Annales des
Télécommunications, 36, n° 11-12, 1981.
[MET 72] METIVIER M., Notions fondamentales de la théorie des probabilités,
Editions Dunod, 1972.
[MOK 00] MOKHTARI M., Matlab et Simulink pour étudiants et ingénieurs, Editions
Springer, 2000.
[RAD 84] RADIX J.-C., Filtrages et lissages statistiques optimaux linéaires, Editions
Cépadues, 1984.
[SHA 88] SHANMUGAN K.S., BREIPOHL A.M., Random Signal, John Wiley & Sons,
1988.
[THE 92] THERRIEN C.W., Discrete Random Signals and Statistical Signal
Processing, Prentice Hall, 1992.
[WID 85] WIDROW B., STEARNS S.D., Adaptive Signal Processing, Prentice Hall,
1985.
INDEX

A, B, C quadratique moyenne 198


adaptatif 193 espace
aléatoire à densité 22 de Hilbert 147, 181
analytiques 184 linéaire 109
annulation 195 linéaire d'observation 167
auto-régressif 131 estimation 236
axes principaux 209 filtrage 144, 234
blanchiement 184 filtrée 237, 240
borélienne 17 Finite Impulse Response (FIR), 181
bruit fonction
blanc 113, 183 caractéristique 18
de mesure 226 coût 147, 198
de système 226 covariance 112
causal 185 d'autocorrelation 106
coefficients 180 de répartition 25
de corrélation 51 de transfert 124, 184
colinéaires 204
convergence 204, 211 G, I, J, L
convergent 212 gain de Kalman 240
coût 203, 212 gradient stochastique 205
covariance 51 gradient 202
identification 195
D, E, F indépendance 26
déconvolution 195 indépendants 233, 254
dégénérée 72 Infinite Impulse Response (IIR), 184
densité spectrale 111 innovation 228
déterministe 207, 211 intercorrelation 186
équation de transition 233 jacobien 84
ergodicité 103 lissage 144, 234
erreur
de prédiction 236
minimale 183
272 Processus stochastiques et filtrages optimaux

M, N, O quadratique 209
marginales 23 moyenne 181
matrice 244 réponse impulsionnelle 179
de covariance 74 Riccati 245
de covariance de l'erreur de filtrage singulière 182
240 stabilité 211
de covariance de l'erreur de prédiction stable 212
236, 243, 244 stationnarité 101
de covariance du processus du second ordre 102, 195
d'innovation 235 stochastique 99, 213
de mesures 233
d'état 232 T, V, W
orthogonale 209 théorème
Q unitaire 209 de Paley-Wiener 184
mesure P 18 de projection 181, 199
multivariés 166 Toeplitz 203, 209
multivecteur 231, 232 trace 243
non récursif 195 trajectoire 100
orthogonal 189 tribu 16
valeurs propres 82, 208
P, Q, R, S variables aléatoires 191, 226, 227
phase minimale 184 variance 50
plan de régression 152 vecteur
prédicteur 195 aléatoire 17
prédiction 144, 195, 234 bruit de mesures 233
prédite 244 bruit de système 232
processus d'état 232
à temps discret 99 d'observations 232
de Markov 106 espérance 75
d'innovation 171 propre 82, 209
multivarié 203, 236 Wiener 179
stationnaire du second ordre 179, 180
projection 226