Vous êtes sur la page 1sur 39

Table des matières

1 Convergences de suites de variables al[Pleaseinsertintopreamble]atoires 3


1.1 Différents types de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Convergence faible et convergence étroite des mesures bornées sur IR . . . . . . . . 3
1.1.3 convergence étroite et convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4 Convergence étroite et convergence des fonctions caractéristiques . . . . . . . . . . . 3
1.1.5 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.6 Convergence dans L p ou convergence en moyenne d’ordre p . . . . . . . . . . . . . . . 4
1.1.7 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Lois faibles des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Lois fortes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Esperance conditionnelle 9
2.1 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Espace de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Variables aléatoires de carré intégrable . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.3 Cas des variables positives ou intégrables . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.4 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.5 Conditionnement par une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Vecteurs aleatoires 15
3.1 Généralités sur les vecteurs aléatoires sur IRn . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2 Loi marginale de X i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.3 Changement de variables dans une densité . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Vecteurs aléatoires indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 Espérance et matrice de variance-covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.1 Transformations linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.2 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Vecteurs aléatoires gaussiens : loi multinormale . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4.1 Densité de la loi multinormale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Lois infiniment divisibles 20


4.1 Informations préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 Représentations canoniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3 Lois stables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1
2 TABLE DES MATIÈRES

5 Chaînes de Markov 23
5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1.1 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.3 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.3.1 cas transient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.3.2 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.3.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3.4 Théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6 Martingales à temps discret 32


6.1 Définitions et Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.1.1 Quelques propriétés des temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.2.1 Nombre de descentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.3 Théorème de décomposition de Doob-Meyer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

7 Martingales à temps continu 37


7.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.1.1 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.2 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
7.2.1 Processus de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Chapitre 1

Convergences de suites de variables


aléatoires

1.1 Différents types de convergence


1.1.1 convergence en Loi
1.1.2 Convergence faible et convergence étroite des mesures bornées sur IR
Notons M l’espace des mesures bornées sur IR, C (IR) l’espace vectoriel des fonctions réelles conti-
nues sur IR, tendant vers zéro à l’infini, muni de la norme ||.|| définie par || f || = su p x∈IR | f (x)|.

Définition 1.1.1 On appelle topologie faible sur M associée à la structure uniforme de la convergence
simple sur C (IR), lorsque les éléments de M sont considérés comme fonctions (formes linéaires) sur C (IR).
En particulier, une suite (µn ) de mesures bornées sur IR est dite converger faiblement vers µ si, pour toute
fonction réelle f de C (IR), on Z Z
lim f d µn = f d µ.
n

1.1.3 convergence étroite et convergence en Loi


Définition 1.1.2 On dit que la suite (µn ) des mesures bornées sur IR converge complètement ou étroite-
ment vers la mesure µ si, (µn ) converge faiblement vers µ et si en outre

lim µn (IR) = µ(IR).

Définition 1.1.3 Une suite (X n ) de variables aléatoires converge en loi vers une variable aléatoire X si,
les lois de probabilités P X n des X n convergent étroitement vers la loi P X de X . On note
L
X n −→ X

1.1.4 Convergence étroite et convergence des fonctions caractéristiques


Théorème 1.1.1 (Théàrème de Paul Lévy) 1. Si la suite (µn ) de mesures bornées converge étroi-
tement vers la mesure bornée µ, la suite ϕµn (t) converge vers ϕµ (t) pour tout tout t ∈ IR.
2. Réciproquement si des fonctions caractéristiques ϕµn convergent simplement sur IR vers une fonc-
tion ϕ continue en zéro, ϕ est la fonction caractéristique d’une mesure bornée µ telle que (µn )
converge étroitement vers µ.
3. Dans les deux hypothèses précédentes la convergence de (ϕµn )n∈IN vers ϕµ est uniforme sur tout
intervalle borné [−T, T].

Remarque 1.1.1 Pour montrer la convergence en loi de la suite (X n ) vers X on peut montrer que :
1. Cas discret :
lim IP(X n = x) = IP(X = x)
n−→+∞

3
4 CHAPITRE 1. CONVERGENCES DE SUITES DE VARIABLES ALÉATOIRES

2. La suite de fonctions de répartition (F X n ) converge vers F fonction de répartition de X .


3. Cas continu : La suite de densités ( f X n ) converge vers f densité de X .

1.1.5 Convergence en probabilité


Définition 1.1.4 Etant donnée une suite (X n ) de variables aléatoires, elle converge stochastiquement (ou
en probabilité) vers la variable aléatoire X si pour tout δ0
lim IP(| X n − X | > δ) = 0,
n−→+∞
ou encore
∀δ > 0, ∀² > 0 ∃ N ∀ n ≥ N IP({ω : | X n (ω) − X (ω)| ≥ δ}) ≤ ².
On note
IP
Xn −
→X
Théorème 1.1.2 La convergence en probabilité implique la convergence en loi
Preuve : Soit (X n ) une suite de variables aléatoires convergeant vers X en probabilité. montrons que
pour toute fonction continue ϕ tendant vers zéro à l’infini, on a
Z Z
lim ϕ(x)IP X n (dx) = ϕ(x)IP X (dx).
n

La fonction ϕ ainsi choisie est uniformément continue on pose ||ϕ|| = sup x∈IRd |ϕ(x)|, soit δ > 0, on a
Z Z Z
| (ϕ(X ) − ϕ(X n ))dIP| ≤ |ϕ(X ) − ϕ(X n )| dIP + |ϕ(X ) − ϕ(X n )| dIP
{| X n − X |≥δ} {| X n − X |<δ}
Z
≤ 2||ϕ||IP(| X n − X | ≥ δ) + |ϕ(X ) − ϕ(X n )| dIP
{| X n − X |<δ}

Soit ² > 0, ϕ étant uniformément continue nous pouvons choisir δ > 0 tel que
²
∀ n | X n − X | ≤ δ =⇒ |ϕ(X ) − ϕ(X n )| < .
2
D’après la convergence en probabilité, pour le δ > 0 choisi,
²
∃ N n > N =⇒ P(| X n − X | ≥ δ) ≤ ,
4||ϕ
d’où en définitive on obtient Z
n > N =⇒ | (ϕ(X ) − ϕ(X n ))dIP| ≤ ².

1.1.6 Convergence dans L p ou convergence en moyenne d’ordre p


Définition 1.1.5 Une suite (X n ) de variables aléatoires convergence en moyenne d’ordre p (ou dans L p )
vers X si
lim IE[| X n − X | p ] = 0.
n
On note
Lp
X n −−→ X
Théorème 1.1.3 Si la suite (X n ) converge vers X dans L p , alors (X n ) converge vers X en probabilité.
Preuve : Soit (X n ) convergeant vers X dans L p ), alors
Z
lim | X n − X | p dIP = 0.
n

Soit δ > 0, on a
Z Z Z Z
p p p
| X n − X | dIP = | X n − X | dIP + | X n − X | dIP ≥ | X n − X | p dIP,
{| X n − X |≥δ} {| X n − X |>δ} {| X n − X |≥δ}

donc
1
Z
0 = lim p | X n − X | p dIP ≥ lim IP(| X n − X | > δ) ≥ 0,
n δ n
d’où (X n ) converge vers X en probabilité.
1.2. LOIS DES GRANDS NOMBRES 5

1.1.7 Convergence presque sûre


Définition 1.1.6 Une suite (X n ) de variables aléatoires convergence vers X presque sûrement s’il existe
un ensemble Ω0 négligeable pour IP tel que pour tout ω ∉ Ω0 ,

lim X n (ω) = X (ω),


n
ou encore
IP({ω : l im n X n (ω) 6= X (ω)}) = 0.
On note
p.s.
X n −−→ X

Théorème 1.1.4 La convergence presque sûre pour une suite (X n ) implique la convergence en probabi-
lité.

Preuve : Soit une suite (X n ) convergeant presque sûrement vers X . Alors, il existe Ω0 négligeable,

∀ω ∉ Ω0 ∀δ > 0 ∃ n ∀ r ≥ n | X r (ω) − X (ω)| ≤ δ

ou
δ > 0, ∀ω ∉ Ω0 , ∃ n : ω ∈ A δn = {ω/∀ r ≥ n : | X r (ω) − X (ω)| ≤ δ}.
On peut écrire
A δn = ∩r≥n [| X r (ω) − X (ω)| ≤ δ].
Pour δ > 0 donné, on déduit
δ
Ω0c ⊂ ∪∞
n=1 A n ,
ou
δ c
∩∞ ∞
n=1 (A n ) = ∩ n=1 [∪ r ≥ n ([| X r (ω) − X (ω)| > δ]) ⊂ Ω0 ,
d’où
δ c
IP(∩∞
n=1 (A n ) ) ≤ IP(Ω0 ) = 0.
La suite (A δn ) c étant décroissante dont l’intersection est de probabilité nulle, on a
δ c δ c
IP(∩∞
n=1 (A n ) ) = lim IP((A n ) ) = 0.
n

On sait que [| X n (ω) − X (ω)| > δ]) ⊂ (A δn ) c d’où pour δ > 0 donné, on a

0 ≤ lim IP(| X n (ω) − X (ω)| > δ) ≤ lim IP((A δn ) c ) = 0.


n n

Ainsi, la suite (X n ) converge vers X en probabilité.


Théorème 1.1.5 Si (X n ) converge vers X en probabilité, on peut extraire de (X n ) une sous-suite (X n k )
telle que
p.s.
X n k −−→ X quand k −→ +∞.

1.2 Lois des grands nombres


1.2.1 Lois faibles des grands nombres
Théorème 1.2.1 Soit (X n ) une suite de variables aléatoires indépendantes telles que IE(X n ) existe et
vaut µn , avec
1 Xn
lim µ k = µ,
n n
k=1

σ2 (X n ) = σ2n existe, avec


s
1 n
σ2k = 0,
X
lim
n n
k=1
alors
n
X IP
Xn = → µ.
Xk −
k=1
6 CHAPITRE 1. CONVERGENCES DE SUITES DE VARIABLES ALÉATOIRES

Preuve : On a
1 Xn
IE(X n ) = µk −→ µ,
n k=1
et
1 X n
V (X n ) = σ2 −→ 0,
n2 k=1 k

donc on déduit que


n
X IP
Xn = → µ.
Xk −
k=1

1.2.2 Lois fortes


Théorème 1.2.2 (admis) Soit (X n ) une suite de variables aléatoires indépendantes de moyenne nulle et
2
telle que +∞
P+∞
n=1 σ (X n ) < +∞. Alors la n=1 X n converge presque sûrement.
P

Dans le cas des variables aléatoires, ayant même loi, on peut énoncer un théorème de loi forte sans
hypothèse sur les moments du second ordre de la loi.

Théorème 1.2.3 Si (X n ) est une suite de variables aléatoires indépendantes de même loi, et si IE(X n ) = µ
existe, alors
n
X p.s.
Xn = X k −−→ µ.
k=1

1.3 Lemme de Borel-Cantelli


Théorème 1.3.1 Soit (F n ) une suite d’événements, on pose

Λ = ∩ p ∪n≥P F n = lim su pF n .
n

alors IP(Λ) = 0.
P
1. Si n IP(F n ) < +∞,

2. Si (F n ) sont indépendants et n IP(F n ) = +∞, alors IP(Λ) = 1.


P

Preuve :
Puis que Λ = ∩ p E p , on a :
P
1. Posons E p = ∪n≥ p F n , on a IP(E p ) ≤ n≥ p IP(F n ).

∀ p IP(Λ) ≤ IP(E p ) ≤
X
IP(F n ).
n≥ p

Or, on a par hypothèse


X
∀², ∃ N : ∀ p > N =⇒ IP(F n ) < ²,
n≥ p

soit
X
lim IP(F n ) = 0.
p−→+∞ n≥ p

Donc on a
0 ≤ IP(Λ) ≤ lim
X
IP(F n ) = 0.
p−→+∞ n≥ p

2. Montrons que IP(Λ c ) = 0, ce qui entraîne que IP(Λ) = 1. Nous avons Λ c = ∪ p ∩n≥ p F nc , les événe-
ments F n étant indépendants les F nc le sont aussi.
Ainsi, IP(∩n≥ p F nc ) = Πn≥ p IP(F nc ) = Πn≥ p (1 − IP(F n ).
P P
Puisque n≥ p IP(F n ) = +∞, donc on a n≥ p Log(1 − IP(F n )) = −∞ car (Log(1 − x) ≤ − x, 0 ≤ x < 1).
On en déduit que IP(∩n≥ p F nc ) = 0, et que IP(Λ c ) = 0.
1.4. THÉORÈME CENTRAL LIMITE 7

1.4 Théorème central limite


Théorème 1.4.1 Soit (X n )n une suite de variables aléatoires indépendantes de même loi, avec µ = IE(X n )
et σ = σ(X n ) < +∞. On pose S n = ni=1 X i . Alors on a
P

S n − nµ L
p −→ N (0, 1).
σ n

On peut aussi écrire


p Xn −µ L
n −→ N (0, 1).
σ
S n − nµ
Preuve : La fonction caractéristique de p
σ n
s’écrit :


− it σpn t
ϕ S np−nµ (t) = e ϕS n ( p )
σ n σ n
p
nµ t
= e− it Πnj=1 ϕ X j ( p )
σ
σ n
p
nµ t
= e− it σ (ϕ X 1 ( p ))n
σ n

Les variables X j ayant des moments jusqu’à l’ordre deux, la fonction caractéristique ϕ X 1 est deux fois
dérivable et quand n est assez grand, σpt n tend vers zéro, on peut donc effectuer un développement
limité d’ordre deux de (ϕ X 1 ( σpt n ))n . On a

t t 1 t t t
ϕ X 1 ( p ) = ϕ X 1 (0) + p ϕ0X 1 (0) + ( p )2 ϕ00X 1 (0) + ( p )2 ²( p )
σ n σ n 2 σ n σ n σ n
t 1 t 2 2 t t
= 1 + i p µ − ( p ) (µ + σ 2 ) + ( p )2 ² ( p )
σ n 2 σ n σ n σ n

d’où on tire
t nLog(ϕ X 1 ( σpt n ))
(ϕ X 1 ( p ))n = e
σ n
n[ i σpt n µ− 21 ( σpt n )2 (µ2 +σ2 )+ 12 ( σpt n µ)2 +( σpt n )2 ²( σpt n )]
=e
p
µ n 2
it σ
− t2 +( σt )2 ²( σpt n )
=e
2
− t2 +( σt )2 ²( σpt n )
On obtient en définitive que ϕ S np−nµ (t)) = e , ainsi on a
σ n

t2
lim ϕ S np−nµ (t)) = e− 2 .
n−→+∞ σ n

1.5 Exercices
Exercice 1 : Pour tout entier n non nul, on considère la fonction f n définie par

n2 x2
f n (x) = n2 xexp(− )I1IR+ (x).
2
1. montrer que f n est la densité d’une variable aléatoire.
2. Soit (X n ) une suite de variables aléatoires telle que, pour tout n ≥ 1, X n admet pour densité
f n . Démontrer que la suite (X n ) converge en probabilité vers une variable aléatoire X que l’on
précisera.
Exercice 2 : Soit n un entier naturel non-nul et soit a un réel. On considère la fonction f n définie sur
IR par f n (x) = π(+an
n2 x2 )
.
1. Déterminer a pour que f n soit une densité de variable aléatoire.
8 CHAPITRE 1. CONVERGENCES DE SUITES DE VARIABLES ALÉATOIRES

2. Soit (X n ) une suite de variables aléatoires telle que chaque (X n ) admet une densité f n . Etudier
l’existence de moments pour X n .
3. Etudier la convergence en loi de la suite (X n ).
4. Etudier la convergence en probabilité de la suite (X n ).
Exercice 3 : Soit (X n ) une suite de variables aléatoires qui converge en loi vers une variable aléatoire
X égale à une constante. Démontrer que la suite (X n ) converge aussi en probabilité vers X .
Exercice 4 : Soit (X n ) une suite de variables aléatoires indépendantes de même loi et de carré inté-
grable. On note m leur espérance commune. Etudier la convergence presque sûre de la suite

X 1 X 2 + X 2 X 3 + · · · + X n−2 X n−1 + X n−1 X n


Sn = .
n
Exercice 5 : Soit (X k ) une suite de variables aléatoires indépendantes définies sur (Ω, A , IP), suivant
une loi uniforme sur [0, 1]. On pose, pour tout j ≥ 1, Z j = X j X j+1 .
1. Calculer V ar(Z j ) et Cov(Z j , Z j+ i ) pour i ≥ 1.
2. En déduire que
1Xn
L2 1
Z j −→ quand n −→ +∞.
n j= 4

3. Les variables aléatoires (Z j ) j≥1 sont-elles indépendantes ? Et les variables (Z2k )k≥1 ?
4. Déduire de la question précédente que

1Xn
p.s. 1
Z j −−→ quand n −→ +∞.
n j= 4

Exercice 6 :Un fournisseur d’accès à internet met en place un point local d’accès, qui dessert 5000 abon-
nés. A instant donné, chaque abonné a une probabilité égale à 20% d’être connecté. Les comportements
des abonnés sont supposés indépendants les uns des autres.
1. On note X la variable aléatoire égale au nombre d’abonnés connectés à un instant t. Quelle est la
loi de X ? Quelle est son espérance, son écart-type ?
Xp
−1000
2. On pose Y = . Justifier précisément qu’on peut approcher la loi de Y par la loi normale
800
N (0, 1).
3. Le fournisseur d’accès souhaite savoir combien de connexions simultanées le point d’accès doit
pouvoir gérer pour que sa probabilité d’être saturé à un instant donné soit inférieur à 2, 5%. En
utilsant l’approximation précédente, proposer une valeur approchée de ce nombre de connexions.
Exercice 7 : En appliquant le théorème central limite à une suite de variables aléatoires indépendantes
(X n ) suivant toutes une loi de Poisson P (1), démontrer que
n nk 1
lim e−n
X
= .
n−→+∞
k=0 k! 2
Chapitre 2

Esperance conditionnelle

2.1 Indépendance
Soit (Ω, A , IP) un espace de probabilités.

Définition 2.1.1 1. On dit qu’une famille (A〉 ) i∈ I de sous-tribus de A est indépendante si, pour tout
J fini sous ensemble de I et pour tout A i ∈ A〉 on a
IP(∩ i∈ J A i ) = Π i∈ J IP(A i ).

2. On dit qu’une famille (X i ) i∈ I de variables aléatoires est indépendante si la famille de sous-tribus


(σ(X i )) i∈ I (où σ(X i )) = { X i−1 (B i ), B i ∈ B〉 }) est indépendante.
La famille (X i ) i∈ I est indépendante si et seulement si, pour tout J fini dans I, on a
IP X i ,i∈ J = ⊗ i∈ J IP X i , sur (Π i∈ J E i , ⊗ i∈ J B〉 )
Si X 1 , X 2 , · · · , X n sont des variables aléatoires indépendantes et intégrables, on a X 1 Ẋ 2 · · · X n ∈ L1
et
IE[X 1 Ẋ 2 · · · X n ] = Πni=1 IE(X i ).

2.2 Conditionnement
2.2.1 Espace de Hilbert
Un espace de hilbert est un espace vectoriel muni d’un produit scalaire et qui est complet pour la
norme associée.
Rappelons quelques résultats sur les espace de Hilbert : Soient H un espace de Hilbert et F ⊂ H un
sous espace fermé. Pour tout x ∈ H , il existe y ∈ F, unique projection orthogonale de x sur F, vérifiant
l’une des propriétés suivantes :
1. ∀ z ∈ F, x − y ⊥ z

2. ∀ z ∈ F, 〈 x, z〉 = 〈 y, z〉

3. ∀ z ∈ F, || x − y|| ≤ || x − z||
Soit

2.2.2 Variables aléatoires de carré intégrable


Soient (Ω, A , IP) et F une sous tribu de A . Considérons l’espace de Hilbert H = L2 (Ω, A , IP) et F le
sous-espace fermé de H , constitué des éléments ayant un représentant F − mesurable. Si X est une va-
riable aléatoire réelle de carré intégrable, il est naturel de considérer les meilleures approximations en
moyenne quadratique de X par une variable aléatoire Y ayant un représentant F -mesurable. D’après
ce qui précède, cette variable aléatoire est la projection orthogonale de X sur F. Elle est caractérisée
par

9
10 CHAPITRE 2. ESPERANCE CONDITIONNELLE

1. Y est F − mesurable, de carré intégrable

2. ∀ Z ∈ L2 , F − mesurable, IE(| X − Y |2 ) ≤ IE(| X − Z |2 )


Ces deux propriétés donnent
3. ∀ Z ∈ L2 , F − mesurable IE(X Y ) = IE(X Z)
ce qui est équivalent à
4. ∀B ∈ F , IE(Y I1B ) = IE(X I1B )).
La variable Y est déterminée de manière unique et vérifie les conditions 1) et 2) ou 3) et 4). On la note
Y = IE(X /F ) ou Y = IEF (X ), espérance conditionnelle de X quand F .

2.2.3 Cas des variables positives ou intégrables


Soit (Ω, A , IP), un espace de probabilité et F une sous tribu de A .

Définition 2.2.1 1. Soit X une v.a. F mesurable à valeurs dans [0, +∞]. La fonction Y : Ω −→
[0, +∞] est une version de l’espérance conditionnelle de X sachant F si :
— la variable Y est F mesurable
— pour tout B ∈ F , on a IE(X I1B ) = IE(Y I1B ).
2. Soit X une v.a.r F mesurable intégrable. La fonction Y : Ω −→ [0, +∞] est une version de l’espérance
conditionnelle de X sachant F si :
— la variable Y est F mesurable et intégrable
— pour tout B ∈ F , on a IE(X I1B ) = IE(Y I1B ).

Proposition 2.2.1 Soit (Ω, A , IP), un espace de probabilité et F une sous tribu de A . Soient Y et Y 0 deux
variables aléatoires réelles qui sont soit intégrables, soit positives. On suppose que ∀B ∈ F , IE(Y I1B ) ≤
IE(Y 0 I1B ), alors Y ≤ Y 0 presque sûrement.

Preuve : Pour tous réels a < b, on pose C a,b = {Y 0 ≤ a < b < Y }. Cet ensemble s’écrit

C a,b = (Y 0 )−1 (] − ∞, a]) ∩ Y −1 ([b, +∞[) ∈ A .

On a donc, Y 0 I1C a,b ≤ aI1C a,b < bI1C a,b < Y I1C a,b , d’où on tire IE(Y 0 I1C a,b ) ≤ IE(aI1C a,b ) < IE(bI1C a,b ) <
IE(Y I1C a,b ), soit IE(Y 0 I1C a,b ) ≤ aIP(C a,b ) < bIP(C a,b ) < IE(Y I1C a,b ).
Or on a supposé que IE(Y I1C a,b ) ≤ IE(Y 0 I1C a,b ), donc on déduit que aIP(C a,b ) = bIP(C a,b ), et par par
conséquent IP(C a,b ) = 0. De plus, on sait que

{Y 0 < Y } = ∪a<b,a,b∈IQ C a,b ,

donc IP({Y 0 < Y }) = 0.

Corollaire 2.2.1 Si Y et Y 0 sont deux versions de l’espérance conditionnelle de X sachant A , alors on a


Y = Y 0 , p.s.

2.2.4 Propriétés de l’espérance conditionnelle


Soit F une sous-tribu de A , X et Y deux v.a. soient intégrables ou positives Alors les assertions
suivantes sont vérifiées :
1. Si X est F − mesurable, Y ∈ L1 et X Y ∈ L1 , alors IE(X Y /F ) = X IE(Y /F ), p.s. En particulier
IE(X /F ) = X , p.s., si X est A − mesurable, intégrable.
2. Soit G une sous-tribu de F , alors

IE[IE(X /G )/F ] = IE[IE(X /F )/G ] = IE(X /G ), p.s., si X ∈ L1 .

3. Si X , Y ∈ L1 et X ≤ Y p.s. alors, IE(X /F ) ≤ IE(Y /Y ).


2.2. CONDITIONNEMENT 11

4. Si X n ≥ 0, X n ↑ X , X n , X ∈ L1 , alors IE(X n /F ) ↑ IE(X /F ), p.s.


Cette propriété ci-dessus, permet de définir IE(X /F ) si X est une v.a. positive quelconque.
5. Soit ϕ : IR −→ IR une fonction convexe, positive, alors ϕ(IE(X /F )) ≤ IE(ϕ(X )/F ). On en déduit que
|IE(X /F )| p ≤ IE(| X | p /F ), si p ∈ [1, +∞[.
1
Soient X ∈ L p , Y ∈ L q où p + 1q = 1, p, q ∈]1, +∞[, on a

1 1
IE(| X Y |/F ) ≤ (IE(| X | p /F )) p (IE(|Y | q /F )) q .

6. IE(IE(X /F ) = IE(X ),
7. IE(α X /F ) = αIE(X /F ), p.s. si α ∈ IR
8. IE(X + Y /F ) = IE(X /F ) + IE(Y /F ), p.s.
9. |IE(X /F )| ≤ IE(| X |/F )

2.2.5 Conditionnement par une variable aléatoire


Espérance conditionnnelle d’une variable aléatoire réelle par rapport à une variable aléa-
toire discrète

Définition 2.2.2 Soit Y une variable aléatoire réelle intégrable quelconque de (Ω, F , IP), X une variable
aléatoire discrète sur (Ω, F , IP) à valeurs dans (E, E ) de loi de probabilité IP X . on appelle espérance
conditionnelle de Y par rapport à X l’application :

1
Z
IE[Y /X = x] = Y (ω)IP(d ω)
IP(X = x) { X = x}

définie pour tout x ∈ E.


On dit que IE[Y /X = x] est l’espérance conditionnelle de Y , sachant X = x. Lorsque Y = I1F , on note

IE[I1F /X = x] = IP(F/X = x),

et désigne ce nombre comme la probabilité conditionnelle de F, sachant que X = x.

Remarque 2.2.1 1. Il est important de remarquer qu’il existe une classe d’équivalence pour IP X de
fonctions sur E telle que pour tout x ∈ E vérifiant IP X (E) 6= 0 on ait f (x) = IE[Y /X = x]. En effet, E
étant discret, l’ensemble des x où IE[Y /X = x] n’est pas définie est de mesure IP X nulle. On désigne
IE[Y /X ] ou IE X [Y ] un représentant quelconque de cette classe d’équivalence on notera IE[Y /X = x]
ou IE X = x [Y ] la valeur en x de ce représentant.
2. Si IP X (X = x) 6= 0 on retrouve la définition classique de la probabilité conditionnelle de F sachant
X = x, IP(F/X = x).

Théorème 2.2.1 Soient Y une variable aléatoire réelle intégrable sur (Ω, F , IP), X une variable aléatoire
à valeurs dans (E, E ) discrète, définie sur (Ω, F , IP) et IP X la loi de probabilité de X .
Pour tout B ∈ B on a : Z Z
Y (ω)IP(d ω) = IE[Y /X = x]IP X (dx).
X ∈B B

Preuve : On a : Z Z
X
Y (ω)IP(d ω) = IE[Y /X = x]IP X (dx)
X ∈B x∈B,IP X ( X = x)6=0 X = x
X
= IE(Y /X = x)IP X (X = x)
x∈B,IP X ( X = x)6=0

et le dernier terme de cette égalité est exactement


Z
IE[Y /X = x]IP X (dx).
B
12 CHAPITRE 2. ESPERANCE CONDITIONNELLE

Théorème 2.2.2 Soit IP(F/X = x) une version régulière de la probabilité conditionnelle par rapport à X .
Pour une variable aléatoire réelle intégrable Y on a :
Z
IE(Y /X = x) = Y (ω)IP(d ω/X = x), p.s.

Preuve Le fait que IP(F/X = x) soit une mesure en F permet d’écrire :


Z
IE[I1F /X = x] = IP(F/X = x) = I1F (ω)IP(d ω/X = x).

La formule du théorème est vraie pour Y = I1F , elle sera aussi vraie pour toute combinaison linéaire
d’indicatrices, c’est à dire Y = ni=1 λ i I1F i .
P

Pour tout x tel que IP X (X = x) 6= 0, si Yn est une suite croissante de variables aléatoires positives
étagées, alors la formule du théorème reste encore vraie pour Y = su pYn , en effet grâce à la convergence
monotone on a :
Z Z
IE(Y /X = x) = sup IE(Yn /X = x) = sup Yn (ω)IP(d ω/X = x) = Y (ω)IP(d ω/X = x).
n n

Enfin, pour tout x tel que IP X (X = x) 6= 0, et pour toute variable aléatoire intégrable, la relation reste
vraie en considérant, Y = Y + − Y − . Soit Y une variable aléatoire à valeur dans l’espace E muni de la
tribu E . On note σ(Y ) la tribu engendrée par Y . Pour simplifier les notations, on écrit IE(X /Y ) au lieu
de IE(X /σ(Y )).

Lemme 2.2.1 Soit U une variable aléatoire sur Ω, U est σ(Y )- mesurable si et seulement s’il existe une
application mesurable de g de E dans IR telle que U = g(Y ).

L’espérance conditionnelle IE(X /Y ) est de la forme g(Y ) avec g mesurable et on a


Z Z
g(Y )dIP = X dIP, ∀B ∈ σ(Y ).
B B

Par abus de langage on utilise la notation g(y) = IE(X /Y = y), car il n’y a pas d’égalité. On peut retenir
ceci :
Si (X , Y ) est un couple de variables aléatoires où Y est à valeurs dans IR et X à valeurs dans un
ensemble fini ou dénombrable, ou à valeurs dans IR ou IR p :
— Il existe une mesure de probabilité conditionnelle IP(./X = x) sur Ω.
— Il existe une distribution conditionnelle de Y /X = x.
— Si IE(Y ) existe, alors il existe une variable aléatoire espérance conditionnelle : IE(Y /X ) qui prend
les valeurs IE(Y /X = x) avec la loi probabilité P X :
Z Z
IE(Y /X = x) = Y (ω)dIP(ω/X = x) = ydIP(y/X = x),
Ω IR

et IE[IE[Y /X ]] = IE(Y ).
— Si V (Y ) existe on a V (Y ) = IE[V (Y /X )] + V (E[X /Y ]).
— Si le couple (X , Y ) est à valeur dans IR2 et possède une densité h(x, y) les densités conditionnelles
existent et sont données par :
h(x, y) h(x, y)
g(y/x) = , f (x/y) = ,
f (x) g(y)
R
et on a IE(Y /X = x) = IR yg(y/x)d y, ainsi que les formules de Bayes pour les densités

f (x/y)g(y) g(y/x) f (x)


g(y/x) = R ; f (x/y) = R .
IR f (x/y)g(y)d y IR g(y/x) f (x)dx

— Lorsque l’une des variables est discrète et l’autre possède une densité, il suffit de remplacer là
où c’est nécessaire les intégrales par des sommes finies et les densités par des probabilités ponc-
tuelles.
2.3. EXERCICES 13

2.3 Exercices
Exercice 1 : Soit (Ω, A , IP) est un espace de probabilité. Soient X , Y , deux éléments de L2 (Ω, A , IP)
tels que
IE(X /Y ) = Y , p.s; , IE(Y /X ) = X , p.s.

Montrer que X = Y , p.s.


Exercice 2 : Soit X 1 et X 2 deux variables aléatoires indépendantes de loi de Poisson de paramètres
λ1 et λ2 .
1. Déterminer IP(X 1 = k/X 1 + X 2 = n)
2. Calculer IE(X 1 /X 1 + X 2 ).
Exercice 3 : Soient X 1 , X 2 , et X 3 des variables aléatoires indépendantes de loi exponentielle de para-
mètre α. On pose
Y1 = X 2 − X 1 , Y2 = X 3 − X 1 .

Calculer la loi conditionnelle de (Y1 , Y2 ) sachant X 1 .


Exercice 4 : Soient X 1 , · · · , X n des variables aléatoires indépendantes de loi uniforme sur [a, b]. Soit
(X (1) , · · · , X (n) ) leur statistique d’ordre.
1. Montrer que la loi de (X (2) , · · · , X (n−1) ) conditionnelle à (X (1) , X (n) ) = (α, β) est celle de la statistique
d’ordre de (n − 2) variables indépendantes de loi uniforme sur [α, β].
2. Calculer IE(X 1 /X (1) , X (n) ), IE(X 12 /X (1) , X (n) ), puis IE[ n1 ni=1 X i /X (1) , X (n) ].
P

Exercice 5 : Soit (X , Y ) un couple de variables aléatoires tel que

1
IP(X = k) = , k ∈ IN∗ ,
2k
et
f Y (y/X = k) = k(1 − y)k−1 I1[0,1] (y).

1. Déterminer la loi de Y
2. Déterminer la loi de X sachant Y .
3. Calculer IE(X Y ).
Exercice 6 : Soit X 1 , · · · , X n une suite de variables aléatoires indépendantes et même loi de Poisson de
paramètre λ > 0. On pose :
Xn n
X
Sn = X i, K = Yi ,
i =1 i =1

où Yi = I1{ X i =0} .
1. Calculer IE( Kn /S n = s).
2. Calculer V (IE( Kn /S n = s)).
Exercice 7 : Soit (X n )n≥1 une suite de variables aléatoires admettant la même espérance m. Soit N
une variable aléatoire à valeurs dans IN∗ indépendante de la suite (X n )n≥1 . On pose S n = nk=1 X k . On
P

s’intéresse à la variable S N .
1. Si N suit une loi géométrique de paramètre 12 et les variables X n sont équiprobables sur {1, · · · , 6}
donner une façon de simuler S N à l’aide d’un dé et d’une pièce.
2. Déterminer IE[S N /N = n]. En déduire IE[S N /N].
3. Que vaut IE[S N ] ?
4. Application : la fièvre acheteuse. Le nombre de clients se rendant dans un magasin donné dans
l’espace d’une journée est une variable aléatoire de moyenne 50. La somme dépensée par chacun
des clients est aussis une variable aléatoire de moyenne 1500F. Avec des hypothèses raisonnables,
quel est le chiffre d’affaires quotiqien moyen du magasin ?
Exercice 8 :
14 CHAPITRE 2. ESPERANCE CONDITIONNELLE

1. On considère deux variables aléatoires indépendantes X 1 et X 2 exponentielles de paramètres


respectifs λ1 et λ2 . Soit Y = min(X 1 , X 2 ) le minimum de ces deux variables. Déterminer la loi de
Y.
2. Montrer
λ1
IP(Y = X 1 ) = IP(X 1 < X 2 ) = .
λ1 + λ2
En déduire que IP(X 1 = X 2 ) = 0.
3. Deux guichets sont ouverts à une banque : le temps de service au premier (respectivement second)
guichet suit une loi exponentielle de moyenne 20 (respectivement 30) minutes. Fatou et Moussa
sont convoqués à la banque pour s’expliquer sur leurs découverts respectifs : Fatou choisit le
guichet 1, Moussa le 2. Quelle est la probabilité que Fatou sorte la première ?
4. En moyenne, combien de temps faut-il pour que les deux soient sortis ? Indication : le max de deux
nombres, c’est la somme moins le min.
Chapitre 3

Vecteurs aleatoires

Les vecteurs aléatoires ont des applications dans beaucoup de domaines. Ils permettent de décrire
des phénomènes aléatoires qui évoluent dans IRn .

3.1 Généralités sur les vecteurs aléatoires sur IRn


On considère la tribu borélienne sur IRn , B (IRn ), et (Ω, A ) un espace probabilisable. On sait que la
tribu B (IRn ) est engendrée par les pavés de la forme : Πni=1 ] − ∞, x i ], où x i ∈ IR.
Définition 3.1.1 Un vecteur aléatoire réel X est une application de (Ω, A , IP) dans IRn muni de sa
tribu borélienne B (IRn ). L’espace étant muni de sa base canonique, le vecteur X = (X 1 , · · · , X n ) où X i , i =
1, 2, · · · , n sont des variables aléatoires réelles. La loi P X du vecteur X , est la loi du n− uplet (X 1 , · · · , X n ).
On note aussi, P X i la loi marginale de la variable aléatoire X i .

3.1.1 Fonction de répartition


Définition 3.1.2 La fonction de répartition F de X est une application de IRn dans [0, 1] définie par :

∀(x1 , x2 , · · · , xn ) ∈ IRn , F(x1 , x2 , · · · , xn ) = IP(X ∈ Πni=1 ] − ∞, x i ]).

Définition 3.1.3 La loi de X admet la densité f positive intégrable sur IRn d’intégrale un si et seulement
si Z x1 Z x2 Z xn
F(x1 , x2 , · · · , xn ) = ··· f (x1 , x2 , · · · , xn )dt 1 dt 2 · · · dt n .
−∞ −∞ −∞

Remarque 3.1.1 Si la densité f existe, elle est définie par :


∂n F
f (x1 , x2 , · · · , xn ) = .
∂ x1 ∂ x2 · · · ∂ x n

3.1.2 Loi marginale de X i


La densité de la loi marginale de la variable aléatoire X i est définie par :
Z
f X i (x i ) = f (x1 , x2 , · · · , xn )dx1 · · · dx i−1 dx i+1 · · · dxn

3.1.3 Changement de variables dans une densité


Effectuons le changement de variables défini par :

Yi = ϕ i (X 1 , X 2 , · · · , X n ), i = 1, 2, · · · , n.

On peut encore écrire Y = ϕ(X ) où ϕ est une difféomorphisme de IRn dans IRn . Si la loi de X admet une
densité de probabilité f , il en de même pour Y , et sa densité s’obtient par la formule :
f (ϕ−1 (y))
g(y) = ,
| detJ |

15
16 CHAPITRE 3. VECTEURS ALEATOIRES

où detJ, est le jacobien de la transformation ϕ donné par


∂ y1 ∂ y2 ∂ yn
∂ x1 ∂ x1
··· ∂ x1
.. .. .. ..
det(J) = . . . .
∂ y1 ∂ y2 ∂ yn
∂ xn ∂ xn
··· ∂ xn

et
∂ x1 ∂ x1 ∂ x1
∂ y1 ∂ y2
··· ∂ yn
.. .. .. ..
(det(J))−1 = det(J −1 ) = . . . .
∂ xn ∂ xn ∂ xn
∂ y1 ∂ y2
··· ∂ yn
.

3.2 Vecteurs aléatoires indépendants


Définition 3.2.1 Deux vecteurs X et Y sont indépendants si pour tous boréliens A et B on a :

IP(X ∈ A, Y ∈ B) = IP(X ∈ A) × IP(Y ∈ B).

3.3 Espérance et matrice de variance-covariance


Si µ i désigne l’espérance de X i , l’espérance de X = (X 1 , X 2 , · · · , X n ) le vecteur

µ1
 

 µ2 

 .. 
 . 
IE(X ) = µ =  .
 
 µi 
..
 
 
 . 
µn

Définition 3.3.1 Si X et Y sont de carré intégrable, on appelle covariance de X et Y le nombre

Cov(X , Y ) = IE(X Y ) − IE(X )IE(Y ).

Le vecteur aléatoire X ∈ L2 si et seulement si, pour tout i = 1, 2, · · · , n, X i ∈ L2 . La matrice de variance-


covariance Σ de X est définie par :

σ21 Cov(X 1 .X 2 ) · · · Cov(X 1 , X n )


 
 .. .. .. t t
Σ= . σ2  = IE[X X ] − µµ

2 . .
. . . σ2n

Remarque 3.3.1 La matrice de variance-covariance Σ est symétrique et positive ( i.e., pour tout v ∈
IRn , 〈v, Σv〉 ≥ 0).

On peut supposer que les variables sont centrées, sinon considérer Yi = X − IE(X i , on a alors

〈v, Σv〉 = Σ i j v i v j
X
i, j
X
= IE(X i X j )v i v j
i, j
à !
X
= IE (v i X i v j X j )
i, j
X X
= IE[( v i X i ) × ( v i X j )]
i j

= IE[( v i X i )2 ] ≥ 0
X
i
3.4. VECTEURS ALÉATOIRES GAUSSIENS : LOI MULTINORMALE 17

3.3.1 Transformations linéaires


Considérons le changement de variables linéaires, Y = A X où A est une matrice de constantes telle
que l’opération A X soit possible. Alors on a,

µY = A µ X , ΣY = A Σ X A t .

Théorème 3.3.1 Une condition nécessaire et suffisante pour qu’une matrice Σ symétrique soit la matrice
de variance d’un vecteur aléatoire est que Σ soit une matrice positive.

Preuve : Condition nécessaire est évidente. Montrons la réciproque, soit Σ une matrice symétrique po-
sitive, alors elle peut s’écrire sous la forme Σ = TT t où T est définie à une transformation orthogonale
1 1
près. On peut choisir T = Σ 2 = P Λ 2 P t où P est la matrice des vecteurs propres normés de T et Λ la
matrice diagonale des valeurs propres. Si on pose Y = T X , où X est de matrice de covariance identité
I d , on voit alors que Σ est la matrice de variance-covariance Y .

Proposition 3.3.1 Soit X un vecteur aléatoire de IRn d’espérance µ et de matrice de covariance Σ régu-
lière (detΣ 6= 0). Alors
1
1. Le Vecteur Y = Σ 2 (X − µ) est un vecteur aléatoire centré réduit à composantes non corrélées.
2. La variable (X − µ)Σ−1 (X − µ) t a pour espérance n.

3.3.2 Fonction caractéristique


Définition 3.3.2 On appelle fonction caractéristique du vecteur aléatoire X , la fonction de l’argument
vectoriel a défini par :
n
X
ϕ X (a) = IE[exp(〈a, X 〉)] = IE[exp( a i X i )].
i =1

Théorème 3.3.2 Les composantes X 1 , X 2 , · · · , X n de X sont indépendantes si et seulement si la fonction


caractéristique de X est égale au produit des fonctions caractéristiques de ses composantes :

ϕ X (a) = Πni=1 ϕ X i (a i ).

3.4 Vecteurs aléatoires gaussiens : loi multinormale


Définition 3.4.1 Un vecteur X ∈ IRn est dit gaussien si toute combinaison linéaire de ses composantes
est une variable aléatoire réelle gaussienne.

Lemme 3.4.1 Soit X ∈ IRn un vecteur gaussien, de moyenne µ et de matrice de covariance Σ. Pour tous
b ∈ IRd et A matrice d × n, Y = b + A X est un vecteur gaussien à valeurs IRd de moyenne b + A µ et de
matrice de covariance A Σ A t .

Théorème 3.4.1 Soit X ∈ IRn un vecteur aléatoire, de moyenne µ et de matrice de covariance Σ, il est
gaussien si et seulement si sa fonction caractéristique est donnée par :

1
ϕ X (a) = exp(i 〈µ, a〉 − aΣa t ), a ∈ IRn .
2
Théorème 3.4.2 Etant donnés µ ∈ IRn et une matrice n × n symétrique semi-définie positive Σ, il existe
une et une seule loi gaussienne sur IRn de moyenne µ et de matrice de covariance Σ.

Théorème 3.4.3 Soit X = (X 1 , X 2 , · · · , X n ) un vecteur gaussien. Les composantes X 1 , X 2 , · · · , X n sont in-


dépendantes si et seulement si la matrice de covariance de X est diagonale.

Preuve : On a , si Σ est diagonale de termes σ2i ,

1
ϕ X (a) = exp(− Σni=1 a2i σ2i ) = Πni=1 ϕ X i (a i )
2
18 CHAPITRE 3. VECTEURS ALEATOIRES

3.4.1 Densité de la loi multinormale


Théorème 3.4.4 Si la matrice de covariance de X , Σ est régulière, alors le vecteur admet une densité
qui s’écrit :
1 1
f (x1 , x2 , · · · , xn ) = n 1
exp(− (x − µ) t Σ−1 (x − µ))
(2π) 2 (| detΣ|) 2 2
1
Preuve : Le vecteur Y = Σ− 2 (X − µ) est gaussien, et les composantes sont centrées réduites et indépen-
dantes. La densité de Y s’écrit alors :
1 1
g(y) = Πni=1 g(yi ) = Πni=1 p exp(− Σni=1 yi2 ).
2π 2
1
Il suffit ensuite d’appliquer la formule de changement de variable, avec comme jacobien detJ = detΣ 2 .

3.5 Lois conditionnelles


Soit X ∈ IRn un vecteur gaussions que l’on peut partitionner en deux sous-vecteurs X 1 ∈ IR p et
X 2 ∈ IRn− p composantes d’espérance respective µ1 et µ2 .
µ ¶
X1
X= .
X2
La matrice de variance-covariance se partitionne en quatre blocs
Σ11 Σ12
µ ¶
Σ=
Σ21 Σ22
Théorème 3.5.1 La loi de X 1 /X 2 est multinormale de dimension n, -d’espérance :
1
IE(X 1 /X 2 ) = µ1 + Σ12 Σ−
22 (X 2 − µ2 );

-de matrice de variance-covariance :


1
Σ11/2 = Σ11 − Σ12 Σ−
22 Σ21

Théorème 3.5.2 (Théorème central-limite multidimensionnel) Soit X 1 , X 2 , · · · , X p une suite de vecteurs


aléatoires de IRn indépendants de même loi, d’espérance µ et de variance Σ alors
p
1 X L
p (X i − µ) −→ N n (0, Σ), quand p −→ +∞.
p i=1

3.6 Exercices
Exercice 1 :Soient α, β ∈]0, 1[ deux réels. Pour tout (i, j) ∈ IN2 , on pose p i, j = αβ(1 − α) i (1 − β) j .
1. Montrer qu’en posant IP({(i, j)}) = p i j pour tout (i, j) ∈ IN2 , on définit une mesure de probabilités
sur IN2 , muni de la tribu P (IN2 ).
Pour tout (i, j) ∈ IN2 , on pose X ((i, j)) = i et Y ((i, j)) = j.
2. Déterminer la loi de X et la loi de Y .
3. Calculer IP(X < Y ), IP(Y < X ) et IP(X = Y ).
Exercice 2 : Soit (X , Y ) un vecteur aléatoire sur IR2 dont la loi admet la densité

1 x 2 + y2
f (x, y) = exp(− ).
2π 2
Déterminer X , Y , X + Y et X 2 + Y 2 .
Exercice 3 : Soit X ∈ IR3 un vecteur gaussien centré de matrice de covariance

3 −1 0
 

Σ =  −1 3 0 
0 0 2
3.6. EXERCICES 19

1. Le vecteur X possède-t-il une densité ?


2. Trouver un opérateur A : IR3 −→ IR3 tel que les composantes de A.X sont des v.a. indépendantes.
3. Déterminer la loi de X 1 + 2X 2 − X 3 où X = (X 1 , X 2 , X 3 ).
4. Déterminer IE(X 3 /X 1 , X 2 ).
Exercice 4 : Existe-t-il un vecteur gaussien de IR3 dont la matrice de covariance est

1 1 0
 

Σ =  1 3 4 ?
0 4 3

Exercice 5 : Soit (X , Y ) couple gaussien centré de matrice de covariance


µ 4 ¶
−1
Σ= 3
−1 1

1. Calculer IE(X /X − Y ).
2. En déduire la loi de IE(X /X − Y ).
Chapitre 4

Lois infiniment divisibles

Les lois infiniment divisibles jouent un rôle essentiel dans la théorie des probabilités, c’est pour cela
il est toujours intéressant de savoir si une loi concrète possède cette propriété ou non. La démonstration
d’une telle propriété se fait généralement à l’aide des fonctions caractéristiques ou des transformées
de Laplace. Le calcul explicite de ces fonctions est souvent difficile, on utilise alors des méthodes inter-
médiaires. En particulier, quelques critères de divisibilité infinie pour une loi de probabilité concentrée
sur [0, +∞[, ont été trouvés, par exemple la log-convexité, la monotonicité hyperbolique complète ou
l’appartenance à la classe de Bondesson.

4.1 Informations préliminaires


Soit X une variable aléatoire réelle de fonction de répartition F. Sa fonction caractistique est définie
par : Z
ϕ X (t) = IE(e itX ) = exp(itx)dF(x), t ∈ IR.
IR
Soient F, F1 , et F2 des fonctions de répartition de fonctions caractéristiques respectives ϕ, ϕ1 et ϕ2 .
Par définition, la fonction F est une convolution de F1 et F2 si
Z +∞
F(z) = F2 (z − x)dF1 (x); z ∈ IR.
−∞

Une fonction caractéristique ϕ est dite infiniment divisible, si pour tout n ∈ IN, il existe une fonction
caractéristique ϕn telle que
ϕ(t) = (ϕn (t))n , t ∈ IR.

Une loi de probabilité, une fonction de distribution et une variable aléatoire X sont infiniment divisibles,
si la fonction caractéristique correspondante l’est.
Une variable aléatoire X est infiniment divisible, si pour tout n ∈ IN, il existe uen suite de variables
aléatoires X n,i , i = 1, 2, · · · , n, indépendantes et identiquement distribuées telles que l’on ait
n
X
X= X n,i ,
i =1

en loi.
On peut donner comme exemple de fonctions caractéristiques infiniment divisibles :
— loi dégénérée :
ϕ(t) = exp(ita), t ∈ IR, a ∈ IR.

— loi de Poisson P (λ) :


ϕ(t) = exp(λ(e[ t − 1)), t ∈ IR, λ > 0.

— loi normale N (µ, σ2 ) :


σ2
ϕ(t) = exp(itµ − t2 ), t ∈ IR, µ ∈ IR, σ > 0.
2

20
4.2. REPRÉSENTATIONS CANONIQUES 21

4.2 Représentations canoniques


Une fonction caractéristique ϕ est infiniment divisible si et seulement s’il existe un nombre réel a
et une fonction bornée K, non décroissante, K(−∞) = 0, tels que
+∞ 1 + x2
Z
ϕ(t) = exp{ iat + A(x, t) dK(x)}, t ∈ IR
−∞ x2

itx
A(x, t) := e itx − 1 − , t ∈ IR, x ∈ IR,
1 + x2
2
et la fonction intégrée est égale à − t2 , si x = 0.
Une telle représentation canonique de Lévy-Khintchine est unique. La fonction K est aussi appelée
fonction spectrale de Lévy-Khintchine.
Lévy donna une décomposition équivalente suivante :

1
Z
ϕF (t) = exp{ ita − σ2 t2 + A(x, t)dM(x)}, t ∈ IR,
2 IR/{0}

où a ∈ IR, σ > 0 et M est une fonction continue à droite sur IR/{0} avec les propriétés suivantes :
— M est non décroissante sur ] − ∞, 0[ et sur ]0, +∞[,
— M(−∞) = M(+∞) = 0,
R
— ]−1,1[/{0} dM(x) < +∞.
Si F est une distribution infiniment divisible alors est continue si et seulement si σ > 0 ou ∈IR/{0}
M(x)dx = ∞.
Les décompositions de Lévy-Khintchine et de Lévy généralisent la formule de Kolmogorov pour une
loi infiniment divisible de variance finie :
Z +∞ itx
e − 1 − itx
ϕ(t) = exp(itm + d κ(x)), t ∈ IR,
−∞ x2
2
où a fonction intégrée est égale à − t2 , si x = 0, m ∈ IR est une constante, κ est une fonction non décrois-
sante telle que κ(−∞) = 0.
Exemple : Les paramètres dans la décomposition de Lévy-Khintchine de la loi normale N (µ, σ2 ), µ, σ >
0 de densité sont : a = µ, K(x) = σ2 I1[0,+∞[ (x).

4.3 Lois stables


Une fonction de répartition F est stable, si pour chaque b 1 > 0, b 2 > 0 et pour chaque c 1 > 0, c 2 > 0
réels, il existe b > 0 et un nombre réel c tels que l’on ait :
x − c1 x − c2 x−c
F( ) ∗ F( ) = F( ), x ∈ IR.
b1 b2 b

Si une distribution F stable, alors, par défintion, sa fonction caractéristique l’est aussi.
Toute fonction caractéristique stable est infiniment divisible
Chaque fonction caractéristique stable admet la représentation canonique de Lévy suivante :

1
Z 0 Z +∞
ϕ(t) = exp(ita − σ2 t2 + A(x, t)dM(x) + A(x, t)dN(x)),
2 −∞ 0


— soit σ2 6= 0, M ≡, 0 N ≡ 0;
— soit σ2 = 0, M(x) = C 1 | x|−α , x < 0, N(x) = −C 2 x−α , x > 0; et ces paramètres satisfont

0 < α < 2, C 1 ≥ 0, C 2 ≥ 0, C 1 + C 2 > 0.


22 CHAPITRE 4. LOIS INFINIMENT DIVISIBLES

Réciproquement toute fonction caractéristique de cette forme est stable. Le paramètre α est appelé
exposant de cette loi stable.
Une fonction caractéristique ϕ est stable si et seulement si

t
ϕ = exp(ita − C | t|α (1 + i β ωα (t))), t ∈ IR,
| t|

où a ∈ IR, 0 < α < 2, c ≥ 0, |β| ≤ 1, sont des constantes et la fonction ωα donnée par :
 πα
 tg
 si α 6= 1
2
ωα =
 2 log| t| si α = 1

π
Chaque loi stable possède une densité, mais les expressions explicites de ces densités ne sont connues
que dans quelques cas. Si α = 2, on a ωα ≡ 0 et on obtient la loi normale.
Si α = 1 et β = 0, on a la loi de Cauchy C α .
Chapitre 5

Chaînes de Markov

Une chaîne de Markov, modélise un phénomène dynamique, pour lequel le futur dépend de l’état
présent et du hasard.

5.1 Généralités
Soient X 0 , X 1 , · · · , X n , · · · une suite de variables aléatoires définies sur un même espace de probabilité
(Ω, A , IP) et à valeurs dans un ensemble E fini ou dénombrable. L’ensemble E est appelé espace des états.

5.1.1 Définitions et exemples


Définition 5.1.1 La suite (X n )n∈IN est une chaîne de Markov si pour tout n ∈ IN et pour tout (i 0 , i 1 , · · · , i n−1 , i, j)
éléments de E tels que IP(X n = i, X n−1 = i n−1 , · · · , X 0 = i 0 ) > 0, on a

IP(X n+1 = j / X n = i , X n−1 = i n−1 , · · · , X 0 = i 0 ) = IP(X n+1 = j/X n = i)


| {z } | {z } | {z }
futur présent passé

Cette formule signifie, sachant le présent, le futur est indépendant du passé. Ou encore, étant donné
l’état présent, toute information sur le passé est inutile, pour prévoir l’état futur.

Définition 5.1.2 (Homogénéité) Une chaîne de Markov est dite homogène dans le temps, si la probabilité
précédente ne dépend pas de l’instant n. On appelle alors probabilité de transition de l’état i à l’état j, la
probabilité
p i j = IP(X n+1 = j/X n = i) = IP(X n = j/X n−1 = i) = · · · = IP(X 1 = j/X 0 = i).
On appelle matrice de transition de la chaîne, la matrice p = (p i j )1≤ i, j≤ M , si E = {1, 2, · · · , M }. La matrice
de transition est une matrice M × M.

Remarque 5.1.1 La connaissance de la loi initiale, c’est-à-dire des IP(X 0 = i) pour tout i ∈ E et des pro-
babilités de transition permet d’écrire très simplement la loi jointe du vecteur aléatoire (X 0 , X 1 , · · · , X n ),
puis que

IP(X 0 = i 0 , X 1 = i 1 , · · · , X n−1 = i n−1 , X n = i n ) = IP(X n = i n /X 0 = i 0 , · · · , X n−1 = i n−1 ) × IP(X 0 = i 0 , · · · , X n−1 = i n−1 )


= p(i n−1 , i n )IP(X n−1 = i n−1 /X 0 = i 0 , X 1 = i 1 , · · · , X n−1 = i n−2 ) × IP(X 0 = i 0 , X 1 = i 1 , · · · , X n−2 = i n−1 )
..
.
= p(i n−1 , i n ) × p(i n−2 , i n−1 ) × · · · × IP(X 1 = i 1 /X 0 = i 0 )IP(X 0 = i 0 ).

Toute matrice de transition vérifie les propriétés suivantes :


1. ∀(i, j) ∈ E × E, 0 ≤ p i j ≤ 1
2. pour tout i ∈ E,
M
X
p i j = 1.
j =1

23
24 CHAPITRE 5. CHAÎNES DE MARKOV

3. le vecteur e = (1; 1; · · · , 1) est un vecteur propre de la matrice de transition

Proposition 5.1.1 (Chapman-Kolmogorov) Pour tout couple (i, j) d’états de E et pour tout couple (n, m)
d’entiers naturels X
IP(X n+m = j/X 0 = i) = IP(X n = k/X 0 = i)IP(X m = j/X 0 = k).
k∈E

En particulier la matrice des transitions en n étapes est la puissance n − ième de la matrice P des
transitions en une étape.
∀ n ∈ IN, ∀(i, j) ∈ E × E, IP(X n = j/X 0 = i) = P inj .
Autrement dit, l’élément p nij de la matrice P n donne la probabilité pour que la chaîne se trouve à j après
n étapes en quittant l’état i.
Si µ est la probabilité initiale, on a

(IP(X n = 1), IP(X n = 2), · · · , IP(X n = M)) = µP n .

Preuve : On a

IP(X n+m = j/X 0 = i) = IP(X n+m = j, ∩[∪{ X n = k}]/X 0 = i)


X
= IP(X n+m = j, ∩[{ X n = k}]/X 0 = i)
k∈E
X IP(X n+m = j, X n = k, X 0 = i)
=
k∈E IP(X 0 = i)
X IP(X n+m = j/X n = k, X 0 = i)IP(X n = k, X 0 = i)
=
k∈E IP(X 0 = i)
X
= IP(X n+m = j/X n = k)IP(X n = k/X 0 = i)
k∈E
X
= IP(X m = j/X n = k)IP(X n = k/X 0 = i)
k∈E

car X n est une chaîne de Markov.


X X
∀ n ∈ IN, ∀(i, j) ∈ E ×E, IP(X n+1 = j/X 0 = i) = IP(X n = k/X 0 = i)IP(X 1 = j/X 0 = k) = IP(X n = k/X 0 = i)p k j ,
k∈E k∈E

d’où si IP(X n = k/X 0 = i) = p nik alors

p nik p k j = p ni j+1 .
X
IP(X n+1 = j/X 0 = i) =
k∈E

Pour la deuxième partie de la proposition, on a pour n = 1,


X
IP(X 1 = j) = IP(X 0 = i, X 1 = j)
i ∈E
X
= IP(X 1 = j/X 0 = i)IP(X 0 = i)
i ∈E
X
= µ(i)p i j
i ∈E

On note bien, que le dernier terme de droite est la j − ème composante du vecteur µP.
En utliisant la propriété de Markov, pour l’ordre n + 1, on a
X
IP(X n+1 = j) = IP(X n = i, X n+1 = j)
i ∈E
X
= IP(X n+1 = j/X n = i)IP(X n = i)
i ∈E
X
= IP(X n = i)p i j
i ∈E

Supposons que IP(X n = i) est donné par la formule de la proposition, c’est-à-dire, IP(X n = i) est la i − ème
composante du vecteur µP n , on a alors (µP n )P coîncide avec IP(X n+1 = j), puis que (µP n )P = µP n+1 .
5.2. CLASSIFICATION 25

Exemple 5.1.1 On considère une ligne téléphonique. L’état X n de cette ligne à l’étape n est 0 si elle est
libre et 1 si elle est occupée. Entre deux instants successifs, il une probabilité 21 pour qu’un appel arrive.
Si la ligne est occupée et qu’un appel arrive, cet appel est perdu. La probabilité que la ligne se libère entre
l’instant n et l’instant n + 1 est 31 .
1. Donner la matrice de transition de la chaîne
On note µ = (µ0 , µ1 ) la loi initiale, probabilités que la ligne soit initialement libre ou occupée.
2. Calculer P n .
3. Calculer la loi limite de la chaîne, c’est-à-dire µP∞ .

Correction :
1. La matrice de transition est µ1 1¶
P= 2 2
1 2
3 3

2. Pour calculer P n , on cherche d’abord à diagonaliser. La matrice admet 1 et 16 , la matrice de passage


est
1 − 12
µ ¶
Q=
1 31
et la matrice diagonale µ ¶
1 0
D= 1
0 6

Donc on a P n = QD n Q −1 d’où
lim P n = P∞ = QD ∞ Q −1 ,
n−→+∞
où µ ¶
1 0
D∞ =
0 0
ainsi µ2 3¶
P∞ = 5 5
2 3
5 5

3. On déduit alors µP∞ = ( 52 , 35 ).

Définition 5.1.3 Un état est dit absorbant, si une fois on atteint cet état, on y reste. Autrement dit, l’état
i est absorbant si p ii = 1.

5.2 Classification
Définition 5.2.1 On dit que l’état j est accessible à partir de l’état i, on note i −→ j, s’il existe un entier
n > 0 tel que p nij > 0. C’est - à-dire partant de l’état i on peut atteindre après plusieurs étapes l’état j. Les
états i et j communiquent, si j est accessible à partir de l’état i et si j est accessible à partir de l’état j, on
note x ↔ y.

Remarque 5.2.1 Si on définit la relation R par : xR y si et seulement x ↔ y, alors R est une relation
d’équivalence. Les classes d’équivalence sur E sont appelées classes de communication.
Une chaîne de Markov homogène avec une seule classe est dite irréductible.

Supposons que la chaîne soit initialement dans l’état i et notons :

T i = min{ n ≥ 1 : X n = i },

l’instant de premier retour dans cet état, T i est une variable aléatoire à valeurs dans IN∗ ∪ +∞. On
introduit r i = IP(T i < +∞/X 0 = i).

Définition 5.2.2 On dit l’état i est :


26 CHAPITRE 5. CHAÎNES DE MARKOV

— transient si r i < 1,
— récurrent si r i = 1.

Définition 5.2.3 une classe de communication C d’une chaîne de Markov est dite fermée, si pour tout
i ∈ C on a X
p i j = 1.
j ∈E

Si C a un nombre fini d’éléments, alors C est fermé si la sous-matrice de probabilités de transition


restreinte à C est elle même une matrice de transition.

On considère la variable aléatoire N i nombre de passages de la chaîne par l’état i.

Proposition 5.2.1 Soient i, j deux états quelconques de E, on a

∀ n ∈ IN, IP j (N i ≥ n + 1) = IP j (T i < +∞)IP i (N i ≥ n).

Preuve : On considère l’instant T i de premier passage de la chaîne par i. On peut écrire


T
{ N i ≥ n + 1} = {T i < +∞ ∩ N i i ≥ n},

T
où N i i désigne le nombre de visites à l’état i après l’instant T i . La propriété de Markov forte appliquée
à l’instant T i donne :
T
IP j (N i ≥ n + 1) = IP j (N i i ≥ n/T i < +∞)IP j (T i < +∞)
= IP j (T i < +∞)IP i (N i ≥ n),
car X T i = i sur {T i < +∞}.

Proposition 5.2.2 Les conditions suivantes sont équivalentes :


1. L’état i est récurrent IP i (T i < +∞) = 1
2. La chaîne X revient IP i − p.s. une infinité de fois à l’état i : IP i (N i = +∞) = 1
3. La série n≥1 p(ii)n diverge
P

Les conditions suivantes équivalentes :


a) L’état i est transient IP i (T i < +∞)
b) la variable aléatoire N i est IP i − p.s. finie IP i (N i = +∞) = 0 et elle suit une loi géométrique sur IN :

∀ n ∈ IN, IP i (N i ≥ n) = (IP i (T i < +∞))n .

c) La variable aléatoire N i est IP i − intégrable et

p(ii)n < +∞.


X
IE i (N i ) =
n≥1

Démonstration : Appliquons à l’égalité de la proposition le cas où j = i.


cas i récurrent : On a IP i (T i < +∞) = 1, l’égalité de la proposition devient :

∀ n ∈ IN, IP i (N i ≥ n + 1) = IP i (N i ≥ n) = IP i (N i ≥ 1) = P i (T i < +∞) = 1,

ce qui implique alors que IP i (N i = +∞) = 1, doù 1) =⇒ 2).


cas i transient : Posons α i = IP i (T i < +∞) < 1, donc on a { N i ≥ 1} = {T i < +∞}. L’égalité de la
proposition s’écrit :

∀ n ∈ IN, IP i (N i ≥ n + 1) = α i IP i (N i ≥ n) = (α i )n IP i (N i ≥ 1) = (α i )n+1 ,

d’où
IP i (N i = +∞) = lim (α i )n = 0.
n−→+∞
5.2. CLASSIFICATION 27

La variable aléatoire N i suit une loi géométrique de raison α i , ainsi on a


αi
(α i )n =
X X
IE i (N i ) = IP i (N i ≥ n) = < +∞.
n≥1 n≥1 1 − αi
Or on a
p(ii)n .
X X
IE i (N i ) = IE i ( I1{ X n = i} ) = IP i (X n = i) =
n≥1 n≥1
Les implications a) =⇒ b) =⇒ c) sont établies, 2) =⇒ 3) également. Les implications 3) =⇒ 1) contraposée
de c) =⇒ a) et c) =⇒ a) contraposée de 1) =⇒ 3) sont aussi établies.
Proposition 5.2.3 La récurrence et la transience sont des propriétés de classe : si les états i et j commu-
niquent, alors i et j sont tous deux récurrents ou tous deux transients.
Démonstration :
Si les états i et j communiquent, il existe des entiers n ≥ 1 et m ≥ 1 tels que P(i, j)n > 0 et P( j, i)m > 0.
La matrice P n+m+k est le produit de trois matrices positives, P n , P m , P k d’où

∀ k ∈ IN, P n+m+k (i, i) ≥ P(i, j)n P( j, j)k P( j, i)m ,

en sommant sur k on a

P k (i, i) ≥ P n+k+m (i, i) ≥ P n (i, j)P( j, i)m P k ( j, j).


X X X
∗ ∗ ∗
k∈IN k∈IN k∈IN

un état i est transient ou récurrent si la série k∈IN∗ P(i, i)k converge ou diverge. L’inégalité ci dessus
P

prouve que la convergence de la série k∈IN∗ P k (i, i) implique celle de k∈IN∗ P k ( j, j) et la divergence
P P

de la série k∈IN∗ P k ( j, j) implique celle de k∈IN∗ P k (i, i), donc les deux séries sont toujours de même
P P

nature.
Proposition 5.2.4 Tous les états d’une même classe récurrente sont visités IP j p.s. une infinité de fois
à partir de n’importe quel état j de la classe : soient i et j deux états appartenant à la même classe
récurrente, alors IP j (T i < +∞) = IP j (N i = +∞) = 1.
Démonstration : Comme les états i et j communiquent, il existe un entier n tel que P n (i, j) > 0. Si
IP j (T i = +∞) > 0, la probabilité de ne pas repasser une fois par i en partant de i est minorée par le
produit IP j (T i = +∞)P n (i, j) > 0, ce qui contredit le fait que i est récurrent. On a donc, IP j (T i = +∞) = 0,
ou encore IP j (T i < +∞) = 1 et en reportant ceci dans l’égalité on obtient pour tout n,

IP j (N i ≥ n + 1) = IP i (N i ≥ n) ≥ IP j (N i = +∞) = 1.

Par passage à la limite, on a IP j (N i + ∞) = 1.


Proposition 5.2.5 La probabilité de sortie d’une classe récurrente est nulle ; plus précisément si i est un
état récurrent et C(i) sa classe,

∀ j ∉ C(i), ∀ n ∈ IN, IP i (X n = j) = P n (i, j) = 0.

Démonstration : Soit j ∉ C(i), supposons qu’il existe un entier n tel P n (i, j) > 0, dans ce cas, pour tout
m P m ( j, i) = 0, sinon les états i et j communiqueraient. Mais la probabilité de non retour à i partant de
i est non nulle car minorée par P n (i, j) > 0, ce qui contredit le fait que i est récurrent.
Proposition 5.2.6 Toute chaîne de Markov homogène sur un espace d’états fini a au moins un état
récurrent. En particulier, toute chaîne irréductible sur un espace d’états fini est récurrente.
Démonstration : Montrons que tout état i transient et pour tout j, l’espérance du nombre de passages
par l’état i, IE j (N i ) est finie. On a
X
IE j (N i ) = IP j (N i ≥ n + 1)
n∈IN
X
= IP j (T i < +∞)P i (N i ≥ n)
n∈IN
X
= IP j (T i < +∞) P i (N i ≥ n)
n∈IN
= IP j (T i < +∞)(1 + IE i (N i ))
28 CHAPITRE 5. CHAÎNES DE MARKOV

donc IE j (N i ) < +∞ pour tout état i transient.


Si tous les états de E fini étaient transients, on aurait
X X
IE j ( Ni ) = IE j (N i ) < +∞,
i ∈E i ∈E
P
ce qui est absurde car i ∈E N i est le nombre total de visites aux états de E, c’est à dire Card(N) = +∞.

5.3 Théorèmes limites


5.3.1 cas transient
P n (i, j) converge, donc le terme général P n (i, j)
P P
Lorsque j est un état transient, alors la série
tend vers zéro, d’où on a

Proposition 5.3.1 Pour tout i de E et pour tout état j transient, on a

lim IP i (X n = j) = lim P n (i, j) = 0,


n−→+∞ n−→+∞

1 Xn
lim I1{ X k (ω)= j} = 0; IP i − p.s.
n−→+∞ n
k=1

5.3.2 Mesures invariantes


Définition 5.3.1 Soit P la matrice de transition d’une chaîne de Markov homogène, on dit qu’une mesure
µ est invariante par P si µ vérifie µ = µP.

Proposition 5.3.2 1. Soit (X n )n∈IN une chaîne de Markov homogène. Si µ est une probabilité inva-
riante et si à un instant k, la loi de X k est µ, alors à tout instant ultérieur m ≥ n, X m est aussi de
loi µ.
2. Si E est un espace d’états fini et si pour tout couple (i, j) de E 2 ,

P n −→ L i ( j),

alors L i est une probabilité invariante par P.

Démonstration :
1. Si µ est la loi de X k , alors µP est la loi de X k+1 , et µ = µP.
2. Si la suite de matrices P n converge vers la matrice L, alors P n+1 converge aussi vers L. Comme
P n+1 = P n P, on a donc L = LP, d’où chacune de ses lignes L i vérifie L i = L i P.

Théorème 5.3.1 Toute chaîne de Markov homogène récurrente irréductible admet une mesure invariant
strictement positive sur E. et toutes les mesures invariantes sont proportionnelles.

Définition 5.3.2 pour tout état i récurrent, le temps T i de retour à i est fini IP i − p.s. et deux cas se
présentent :
— Soit T i est aussi P i − intégrable, on dit alors que i est récurrent positif.
— Soit T i est non intégrable (IE i (T i ) = +∞), on dit alors que i est récurrent nul.

Théorème 5.3.2 Soit X une chaîne de Markov homogène irréductible, les trois propositions suivantes
sont équivalentes :
1. Tous les états sont récurrents positifs
2. il existe au moins un état récurrent positif
3. X admet une probabilité invariante µ.
5.3. THÉORÈMES LIMITES 29

Si l’une de ces conditions est réalisée, µ est unique,

1
∀ i ∈ E, µ i = .
IE i (T i )

Corollaire 5.3.1 Toute chaîne de Markov homogène irréductible, à espace d’états fini est récurrente po-
sitive : elle admet une probabilité unique invariante définie par
1
∀ i ∈ E, µ i =
IE i (T i )

Définition 5.3.3 On appelle période d’un état i l’entier

d(i) = PGCD { n ≥ 1/P n (i, i) > 0}.

Proposition 5.3.3 Soient i et j deux états communicants, montrons que d( j) divise d(i), ce qui suffit
par symétrie pour établir que d(i) divise d( j). Comme i et j communiquent, il existe deux entiers ` et m
tels que P ` (i, j) > 0. Si n est tel que P n (i, i) > 0, alors

P m+n+` (i, j) ≥ P m ( j, i)P n (i, i)P ` (i, j),

donc d( j) divise m + n + `. Mais comme P m+` ( j, j) ≥ P m ( j, i)P ` (i, j) > 0, alors d( j) divise m + ` et donc
la différence m + n + `( m + `) = n. Ainsi, d( j) divise tous les entiers n tels que P n (i, i) > 0, don aussi leur
PGCD d(i).

Définition 5.3.4 On dit qu’une classe est apériodique si tous ses états sont de période 1.

5.3.3 Convergence en loi


Théorème 5.3.3 Soit X une chaîne de Markov homogène irréductible apériodique, pour laquelle il existe
une probabilité invariante µ. Alors, pour toute loi initiale λ ;

IPλ (X n = j) −→ µ j , quand n −→ +∞.

En particulier, pour tout état i,

P n (i, j) −→ µ j , quand n −→ +∞..

5.3.4 Théorème ergodique


Théorème 5.3.4 Soit X une chaîne de Markov homogène irréductible de loi initiale quelconque λ, alors

1 Xn 1
∀ j ∈ E, I1{ X k = j} −→ , IPλ p.s. quand n −→ +∞.
n k=1 IE j (T j )

De plus si X est récurrente positive de probabilité invariante µ, pour toute fonction f : E −→ IR bornée

1 Xn X
f (X k ) −→ µ i f (i) = IEµ ( f (X 0 )) IPλ p.s. quand n −→ +∞.
n k=1 i ∈E

Exercice 5.3.1 Soit (X n )n≥0 une chaîne de Markov sur {1, 2, 3, 4, 5, 6} de matrice de transition
1 1 
2 2 0 0 0 0
 1 3 0 0 0 0
4 4 
 1 1 1 1 0 0
4 4 4 4
P = 1

 4 0 41 14 0 41 

0 0 0 0 1 1 
 
2 2
0 0 0 0 12 21

1. Dessiner la matrice de transition de la chaîne. Combien y-a-t-il de classes irréductibles ?


30 CHAPITRE 5. CHAÎNES DE MARKOV

2. Quels sont les états transients ?


3. On suppose que X 0 = 1. Quelle est la probabilité que la chaîne ne retourne plus à l’état 1?
4. Quelle est la probabilité de premier retour à l’état 1 à l’instant n ? Calculer l’espérance mathéma-
tique de la variable aléatoire instant de premier temps de retour à l’état 1.

Correction :
1. Les classes irréductibles sont {1, 2}, {3, 4}, {5, 6}.
2. Les états 1, 2, 5, 6 sont récurrents. Les états 3, 4 sont transients.
3. L’état 1 étant récurrent, la probabilité de non retour est nulle.
4. On a
1 1 3 1 3 1 3
IP(T1 = 1) = 0; IP(T1 = 2) = ; IP(T1 = 3) = × ; IP(T1 = 4) = ( )2 ; · · · ; IP(T1 = n) = ( )n−2 , n ≥ 2.
8 8 4 8 4 8 4
15
5. L’espérance de T1 est IE(T1 ) = 8 .
Exercice 1 : Soit (X n )n≥0 une chaîne de Markov homogène sur l’espace{1, 2, · · · , 4} de matrice de transi-
tion  
1 0 0 0
0.2 0 0.8 0
P =
 
 0 0.2 0.8 0

0 0 0 1
1. Donner les états transients et reccurents ainsi que leur période
2. La chaîne est-elle irréductible ?
3. Y a-t-il des mesures invariantes ? Si oui, donner les.
4. Même questions pour la chaîne
 1 1 
0 2 2 0 0 0
0 1 1 1
 0 0 3 3 3
1 1 1
0 0 0

P = 3 3 3
1 0 0 0 0 0

 
1 0 0 0 0 0
1 0 0 0 0 0

Exercice 2 : Soit (X n )n≥0 une chaîne de Markov homogène de transition


 
0.5 0 0 0.5
 0 0.5 0 0.5
P =
 
0.5 0.5 0 0 

0 0 0.5 0.5
1. Donner le diagramme de la chaîne
2. Donner les propriétés de la chaîne.
3. Calculer la distribution invariante.
4. Calculer le temps moyen de retour à l’état 2.
Exercice 3 : On considère une chaîne de Markov (X n )n≥0 sur l’ensemble IE = {1, 2, 3, 4, 5} avec la matrice
de transition 1 1

2 0 2 0 0
 1 0 1 1 0
4 2 4 
P =  12 0 12 0 0 
 
 0 0 0 12 21 
 

0 0 0 12 21
1. Dessiner le diagramme de la matrice.
5.3. THÉORÈMES LIMITES 31

2. Donner les états transients et reccurents.


3. La chaîne est-elle irréductible ?
4. Vérifier que si X 0 a une distribution uniforme sur {4, 5}, alors la distribution de X 1 est uniforme
aussi.
Exercice 4 : Soit (X n )n≥0 une chaîne de Markov sur {1, 2, 3, 4, 5, 6} de matrice de transition
1 1 
2 2 0 0 0 0
1 3
0 0 0 0
4 4 
1 1 1 1
0 0
P =  41 4 4 4
 
1 1 1
4 0 4 4 0 4

1 1

0 0 0 0 2 2
1 1
0 0 0 0 2 2

1. Dessiner le diagramme de la matrice. Combien y a-t-il de classes irréductibles ?


2. Quels sont les états transients ?
3. Supposons que X 0 = 1. Quelle est la probabilité que la chaîne ne revienne plus à 1 ?
4. Quelle est la probilité de premier retour à 1 à l’instant n? Calculer le temps moyen de premier
retour à 1.
Exercice 5 : Considérons la matrice de transition d’une chaîne de Markov X n , n ≥ 0.
1 1
0

2 2
1 1
P = 0 2 2
1 1 1
3 3 3

1. La chaîne est-elle irréductible ?


2. Déterminer la période de chaque état
3. Is there a unique invariant probability. If yes, calculate this probability. Y-a-t-il une probabilité
invariante unique ? Si oui calculer la.
4. Calculer les limites suivantes :
1 Xn 1 Xn
lim X k, lim X k2 .
n−→+∞ n n−→+∞ n
k=1 k=1

Exercice 6 : Discuter des propriétés topologiques des graphes de ces chaînes de Markov.
1. µ1 1¶
P= 2 2
1 1
2 2

2. µ1 1¶
P= 2 2
1 0
3. 1 2
3 0 3
P = 0 1 0
1 4
0 5 5

4. µ ¶
0 1
P=
1 0

Exercice 7 :(Random walk) La marche aléatoire Z est définie par : de l’état i on va à l’état i + 1 avec
probilité p, 0 < p < 1, tandis que le saut à l’état i − 1 se fait avec probabilité 1 − p.
1. Montrer que la chaîne est irréductible
2. Déterminer si la chaîne est reccurente ou transiente.
Chapitre 6

Martingales à temps discret

6.1 Définitions et Propriétés


Soient (Ω, A , IP) un espace de probabilité et (An )n∈IN une suite croissante de sous-tribus de A . Une
suite (X n )n∈IN de v.a.r est dite (An ) adaptée si pour tout n ∈ IN, X n est (An ) mesurable. Soit (X n )n∈IN
une suite de v.a.r adaptée, telle que pour tout n ∈ IN, X n soit intégrable. On dit que (X n )n∈IN est
1. une martingale (relativement à (An ) si ∀ n ∈ IN, IE[X n+1 /An )] = X n , p.s

2. une sous- martingale (relativement à (An ) si ∀ n ∈ IN, IE[X n+1 /An )] ≥ X n , p.s

3. une sur-martingale (relativement à (An ) si ∀ n ∈ IN, IE[X n+1 /An )] ≤ X n , p.s

Remarque 6.1.1 1. La suite (X n )n∈IN est


— une martingale si ∀0 ≤ n ≤ m, IE[X m /An )] = X n , p.s

— une sous-martingale si ∀0 ≤ n ≤ m, IE[X m /An )] ≥ X n , p.s

— une sur-martingale si ∀0 ≤ n ≤ m, IE[X m /An )] ≤ X n , p.s

2. Si pour tout n ∈ IN, IE(X n+ ) < +∞ ou IE(X n− ) < +∞, on peut définir des sous-martingales ou des
sur-martingales généralisées.
3. Si on pose Bn = { X m , m ≤ n}, alors (X n )n∈IN est Bn adaptée et que si (X n ) est une martingale (sur-
martingale ou sous-martingale) relativement à (An ), (X n ) est automatiquement une martingale
(sur-martingale ou sous-martingale) relativement à (Bn ).
4. Soit (X n ) une martingale. Si f : IR −→ IR est un fonction convexe (respectivement concave) et si Yn =
f (X n ) est intégrable pour tout n ∈ IN, elle définit une sous-martingale (resp. une sur-martingale).

Définition 6.1.1 On appelle temps d’arrêt de la famille An toute application τ : Ω −→ IN ∪ {+∞} telle
que
∀ n ∈ IN{τ ≤ n} ∈ An .
( On peut aussi dire que τ est temps d’arrêt si ∀ n ∈ IN, {τ = n} ∈ An .) On appelle tribu des événements
antérieurs à τ, l’ensemble Aτ = { A ∈ A tq A ∩ {τ ≤ n} ∈ An , ∀ n ∈ IN}.

6.1.1 Quelques propriétés des temps d’arrêt


1. Si τ est un temps d’arrêt, alors τ est Aτ − mesurable, X τ I1{τ<+∞} est Aτ mesurable (X n ) étant une
suite de v.a.r An adaptée.
2. Si σ et τ sont deux t.a., σ ∧ τ, σ ∨ τ et σ + τ sont des temps d’arrêt.
3. soient τ un t.a et σ une v.a Aτ mesurable telle que σ ≥ τ alors σ est un t.a.

32
6.1. DÉFINITIONS ET PROPRIÉTÉS 33

4. Soient σ et τ deux t.a tq σ ≤ τ alors, Aσ ⊆ Aτ .


5. Soient σ et τ deux t.a et A ∈ Aσ alors, A ∩ (σ ≤ τ) ∈ Aτ .
6. Soient σ et τ deux t.a. Les ensembles suivants (σ ≤ τ), (τ = σ) et (τ < σ) sont dans Aτ et Aσ . De
plus Aτ∨σ ⊂ Aσ , et (σ ∨ τ = σ) = (σ ≤ τ) ∈ Aτ , donc (σ ≤ τ) ∈ Aτ ∩ Aσ .

Théorème 6.1.1 Soit (X n )n∈IN une sur-martingale et soient ν1 et ν2 deux t.a bornés tels que ν1 ≤ ν2 ,
alors,
IE(X ν2 /Aν1 ) ≤ X ν1 , p.s.

Preuve : Prenons ν1 ν2 ≤ p, ν = ν1 ouν2 .


p Z
X
IE(| X ν |) = | X k | dIP ≤ (p + 1)Max{IE(| X k |), k = 0, 1, · · · , p} < +∞.
k=0 {ν= k}

Nous avons à montrer que pour A ⊂ Aν1 on a


Z Z
X ν1 dIP ≥ X ν2 dIP.
A A

1. Supposons d’abord que ν2 − ν1 ≤ 1.


Z p Z
X p Z
X
(X ν2 − X ν2 )dIP = (X ν1 − X ν2 )dIP = (X k − X k+1 )dIP ≥ 0,
A k=0 A ∩(ν1 = k)∩(ν2 >ν1 ) k=0 A ∩(ν1 = k)∩(ν2 >ν1

car A ∩ (ν1 = k) ∩ (ν2 > ν1 ) ∈ Ak .


2. Cas général : Soit ρ n = ν2 ∧ (ν1 + n), alors on a

ρ 0 = ν1 ≤ ρ 1 ≤ · · · ≤ ρ n = ν2 , et ρ 2 − ρ 1 ≤ 1.

Soit A ∈ Aν1 ⊂ Aρ n , ∀ n. On a
Z Z Z Z Z Z
X ν1 dIP = X ρ 0 dIP ≥ X ρ 1 dIP ≥ X ρ 2 dIP ≥ · · · ≥ X ρ p dIP = X ν2 dIP.
A A A A A A

Corollaire 6.1.1 Soient (X n ) une sur-martingale et νn une suite croissante de t.a bornés, alors (X νn ) une
est sur-martingale relativement à Aνn , en particulier

IE(X 0 ) ≥ IE(X ν1 ) ≥ · · · ≥ IE(X νn ) ≥ · · ·

Théorème 6.1.2 Soit (X n )n∈IN une sur-martingale alors, pour tout λ > 0 et tout k ∈ IN, on a
1. λIP(supn≤k X n ≥ λ) ≤ IE(X 0 ) + IE(X k− )
2. λIP(infn≤k X n ≤ −λ) ≤ IE(X k− I1(infn≤k X n ≤−λ) ) ≤ IE(X k− ). donc λIP(supn≤k | X n | ≥ λ) ≤ IE(X 0 ) + 2IE(X k− )

Preuve :
1. Soit ν = [in f { n : X n ≥ λ}] ∧ k, ν est un t.a. borné par k. On a
Z Z
IE(X 0 ) ≥ IE(X ν ) = X ν dIP + X ν dIP
{supn≤k X n ≥λ} {supn<k X n <λ}
Z
≥ λIP(sup X n ≥ λ) + X ν dIP
n≤ k {supn<k X n <λ}

donc on a λIP(supn≤k X n ≥ λ) ≤ IE(X 0 ) − −


R
supn<k X n ≥λ} X ν dIP ≤ IE(X 0 ) + IE(X k ).
2. Soit ν = [in f { n : X n ≤ −λ}] ∧ k, on a
Z Z
IE(X k ) ≤ IE(X ν ) = X ν dIP + X ν dIP
{infn≤k X n ≤−λ} { in f n<k X n >−λ}
Z
≤ −λIP( inf X n ≤ −λ) + X ν dIP
n≤ k {infn<k X n >−λ}

donc on a λIP(infn≤k X n ≤ −λ) ≤ − −


R
{infn<k X n ≤−λ} X ν dIP ≤ IE(X k ). La dernière inégalité du théorème
découle des deux premières.
34 CHAPITRE 6. MARTINGALES À TEMPS DISCRET

Corollaire 6.1.2 (Doob) Soit (X n )n∈IN une martingale dans L p , (1 ≤ p < +∞) alors

1
IP(sup | X n | ≥ λ) ≤ IE[| X k | p ].
n≤ k λp

Preuve : On sait que (−| X n | p )n∈IN est une sur-martingale, donc

λIP( inf (−| X n | p ) ≤ −λ) ≤ IE[| X k | p I1(infn≤k (−| X n | p ≥−λ) ] ≤ IE[| X k | p ].


n≤ k

Corollaire 6.1.3 (Doob) Soit (X n ) une martingale dans L p où p ∈]1, +∞[, alors
p
|| sup | X n ||| p ≤ || X k || p .
n≤ k p−1

Preuve : On a
λIP(sup | X n | ≥ λ) ≤ IE[| X k |I1(supn≤k ≥λ) ].
n≤ k

Posons Y = supn≤k | X n |. Alors, on a


Z +∞ Z +∞
p p−1
IE(Y ) = pλ IP(Y ≥ λ)d λ ≤ pIE(| X k | λ p−2 I1(Y ≥λ) d λ
0 0
p p 1 1 1 1
= IE[| X k |Y p−1 ] ≤ ≤ (IE[| X k | p ]) p (IE[Y ( p−1) q ]) q , où + = 1
p−1 p−1 p q
p 1
1− 1
= (IE[| X k | p ]) p (IE[Y p ]) p
p−1

6.2 Convergence
6.2.1 Nombre de descentes
Soit (X n )n≥0 une suite de v.a.r. et soient −∞ < a < b < +∞, k ∈ IN. On définit D k (ω, [a, b]) = nombre
de descentes du processus (X n ) à travers l’intervalle [a, b] avant l’instant k. C’est le nombre de couples
(p r , q r ) ∈ {0, 1, · · · , k} × {0, 1, · · · , k} tels que

p r ≤ q r , q r ≤ p r+1 , X p r ≥ b, X q r ≤ a.

On définir de même M k (ω, [a, b]) le nombre de montées à travers l’intervalle [a, b] avant l’instant k.
1
Lemme 6.2.1 1. Soit (X n )n≥0 une sous-martingale, alors IE[D k (ω, [a, b])] ≤ +
b−a IE[(X k − b) ].
1
2. Soit (X n )n≥0 une sur-martingale, alors IE[M k (ω, [a, b])] ≤ −
b−a IE[(X k − a) ].

Preuve : Il est évident que 1) et 2) sont équivalent. Montrons alors, 1). Soit (X n )n≥0 une sous-martingale,
posons, X n0 = (X n − a)+ , (X n0 ) est aussi une sous-martingale. De plus D k (., [a, b]) = D 0k (., [0, [b − a]) où D 0k ()
correspond (X n0 ). Soient
ν1 = inf{ n ≥ 0 : X n0 ≥ b − a} ∧ k
ν2 = inf{ n > ν1 : X n0 = 0} ∧ k
..
.
ν2 p−1 = inf{ n > ν2 p−2 : X n0 ≥ b − a} ∧ k
ν2 p = inf{ n > ν2 p−1 : X n0 = 0} ∧ k
Alors, ν` est une suite croissante de t.a. stationnaire à partir d’un certain rang, c’est-à-dire, si ν` = k,
alors ν`+1 = ν`+2 = · · · = k.
Posons S = p≥1 (X ν0 2 p − X ν0 2 p−1 ). Cette somme est finie.
P

Si ν1 = k, alors D 0k (., [0, [b − a]) = S = 0. Si ν1 < k, deux cas se présentent :


1. Il existe p ≥ 1 tel que ν2 p < k et ν2 p+1 = k, alors

S ≤ −(b − a)D 0k (., [0, b − a]).


6.2. CONVERGENCE 35

2. Il existe p ≥ 0 tel que ν2 p+1 < k et ν2 p+2 = k, alors

S ≤ −(b − a)D 0k (., [0, b − a]) + (X k0 − X ν0 2 p+1 ) ≤ −(b − a)D 0k (., [0, b − a]) + (X k0 − (b − a)).

Dans tous les cas, on aura (b − a)D 0k (., [0, b − a]) ≤ −S + (X k0 − (b − a))+ . Puis que (X n0 ) est une sous-
martingale, alors IE(S) ≥ 0 d’où (b − a)IE[D 0k (., [0, b − a])] ≤ IE[(X k − a)+ − (b − a)+ ] ≤ IE[(X k − b)+ ].

Lemme 6.2.2 Soit (X n )n≥0 , une sous-martingale. ALors la condition supn≥0 IE[| X n |] < ∞ est équivalente
à celle supn≥0 IE[X n+ ] < ∞

Preuve : On sait que | X n | = X n+ + X n− ≥ X n+ , par conséquent, si supn≥0 IE[| X n |] < ∞, alors on a IE[| X n+ |] ≤
IE[| X n |] ≤ ∞ et donc supn≥0 IE[X n+ ] < ∞.
Réciproquement on pose c = supn≥0 IE[X n+ ] < ∞, puisque IE[X n ] ≥ IE[X 0 ], et

IE[| X n |] = 2IE[X n+ ] − IE[X n ] ≤ 2IE[X n+ ] − IE[X 0 ].

Ainsi, on déduit que IE[| X n |] ≤ 2c − IE[X 0 ].

Théorème 6.2.1 Soit (X n )n≥0 , une sous-martingale relativement à (Fn ), on suppose que supn≥0 IE[X n+ ] <
∞, alors il existe une v.a. réelle X ∞ (F∞ )− mesurable et intégrable telle que

lim X n = X ∞ , p.s.
n−→+∞

Preuve : D’après le lemme 6.2.1, on a pour tous −∞ < a < b < +∞,

1
IE(D ∞ (., [a, b])) = lim IE[D k (., [a, b])] ≤ (su p k (IE(X k+ ) + b− ) < ∞,
k−→+∞ b−a

donc D ∞ (., [a, b]) < ∞ p.s. Or, on a

limX n < limX n = ∪(a,b)∈IQ×IQ,a<b {(D ∞ (., [a, b])) = +∞}.

Donc, IP(limX n < limX n ) = 0, d’où (X n ) converge p.s.


On a X n = X n+ − X n− , | X n | = X n+ + X n− = − X n + 2X n+ , donc

IE(| X n |) = −IE(X n ) + 2IE(X n+ ) ≤ −IE(X 0 ) + 2su pIE(X n+ ) < ∞.

Enfin, si X ∞ = lim X n , alors on a IE[| X ∞ |] ≤ limIE(| X n |) < ∞.

Théorème 6.2.2 Soit (X n )n≥0 , une sur-martingale relativement à (Fn ), ALors la condition supn≥0 IE[| X n |] <
∞ est équivalente à celle supn≥0 IE[X n− ] < ∞.
On suppose que supn≥0 IE[X n− ] < ∞, alors il existe une v.a. réelle X ∞ (F∞ )− mesurable et intégrable
telle que
lim X n = X ∞ , p.s.
n−→+∞

Preuve : Il suffit de voir que si (X n ) est une sur-martingale, alors (− X n ) est une sous-martingale, on
applique les résultats précédents sur les sous-martingale.

Théorème 6.2.3 Soit (X n )n≥0 , une sur-martingale relativement à (Fn ), positive, alors il existe une v.a.
réelle X ∞ (F∞ )− mesurable et à valeurs dans [0, +∞] telle que

lim X n = X ∞ , p.s.
n−→+∞

De plus, on a IE[X ∞ /Fn ] ≤ X n , p.s., pour tout n ≥ 0.

Preuve : Puis que X n est une sur martingale positive, alors supn≥0 IE[X n− ] < ∞, et on applique le théo-
rème 6.2.2.
36 CHAPITRE 6. MARTINGALES À TEMPS DISCRET

6.3 Théorème de décomposition de Doob-Meyer


Théorème 6.3.1 Soit X = (X n )n∈IN une sous-martingale adaptée à (Fn )n∈IN . Il existe un unique proces-
sus croissant A = (A n )n∈IN vérifiant les propriétés suivantes :
— A 0 , A n ∈ L1 et A n est Fn−1 adapté, pour tout n ≥ 1
— (X n − A n )n∈IN = (M n )n∈IN est une martingale. En effet, (A n ) doit être donné par la formule

A n − A n−1 = IE{(X n − X n−1 )/Fn−1 }, n ≥ 1,

et la condition A 0 = 0 le détermine de manière unique.

Exercice 6.3.1 Soit X n une suite de variables aléatoires indépendantes identiquement distribuées telles
que
1
IP(X n = 1) = IP(X n = −1) = , n ≥ 1.
2
Considère la suite de sous-tribus
Fn = σ{ X i , 1 ≤ i ≤ n}.
Pn
On pose M0 = 0 et M n = i=1 X i , n ≥ 1.
1. Montrer que (M n )n≥0 est une Fn martingale.
2. On pose S n = S 0 eσ M n , n ≥ 0. Montrer qu’il existe r > 0, tel e−rn S n soit une Fn martingale.

Correction :
1. On a ∀ n, IE(| M n |) < +∞, de plus,

IE(M n+1 /Fn ) = M n + IE(X n+1 /Fn ) = M n .

Car, IE(X n+1 /Fn ) = 0 du fait de l’indépendance.


2. On a IE(S n ) < +∞. Pour tout n ∈ IN,

1
IE(S n+1 /Fn ) = S n e−r IE(eσ X n+1 /Fn ) = S n e−r IE(eσ X n+1 ) = S n e−r (eσ + e−σ ).
2
La suite est une martingale si
1 −r σ
e (e + e−σ ) = 1.
2
Le réel r est solution de l’équation 2e r = eσ + e−σ .
Chapitre 7

Martingales à temps continu

7.1 Généralités
Soient (Ω, F , IP) un espace de probabilité et (F t ) t≥0 une famille croissante de sous-tribus de F . On dit
que (F t ) t≥0 est continue à droite si, pour tout t ∈ [0, +∞[ on a F t+ = F t où F t+ = ∩²>0 F t+² . Dans la suite,
on supposera le plus souvent que (F t ) est continue à droite et complète, (F t ) t≥0 est appelée filtration ou
famille de référence. Soient (E, B ) un espace mesurable où E est un espace polonais (espace métrique,
complet, séparable) et B sa tribu borélienne.
Un processus stochastique à valeurs dans E est une famille de v.a. X = (X t ) t≥0 à valeurs (E, B ).
Le processus X est mesurable si l’application

(t, ω) ∈ IR+ × Ω −→ X t (ω) ∈ E,

est BIR+ ⊗ F /B mesurable


Le processus X est continu à droite (resp. à gauche, continu) si pour presque tout ω, la trajectoire
t −→ X t (ω) est continu à droite (resp. à gauche, continu). Soient X = (X t ) t≥0 et Y = (Yt ) t≥0 deux processus
à valeurs dans E. On dit que X et Y sont indistingables si, pour presque tout ω ∈ Ω, les trajectoires
t −→ X t (ω) et t −→ Yt (ω) coïncident.
On dit que Y est un modification de X si, pour tout t ≥ 0 il existe un ensemble négligeable N t , tel

ω ∉ N t =⇒ X t (ω) = Yt (ω).

Soit P la tribu sur IR+ × Ω engendrée par les processus mesurables X = (X t ), F t adaptés et continu à
gauche et soit P la tribu sur IR+ × Ω engendrée par les processus mesurables X = (X t ), O t adaptés et
continu à droite. Un processus X = (X t ) est dit (F t - prévisible si l’application

(t, ω) ∈ IR+ × Ω −→ X t (ω) ∈ E,

est P /B .
Il est dit F t optionnel (ou bien mesurable) si l’application précédente est O /B .

7.1.1 Temps d’arrêt

Soient (Ω, F , IP) et (F t ) t≥0 une filtration. Une application τ : Ω −→ [0, +∞] est un F t temps d’arrêt si

∀ t ≥ 0, {τ ≤ t} ∈ F t .

Pour un temps d’arrêt τ, on définit la tribu des événements antérieurs à τ

Fτ = { A ∈ F tel que ∀ t ≥ 0, A ∩ {τ ≤ t} ∈ F t }.

37
38 CHAPITRE 7. MARTINGALES À TEMPS CONTINU

7.2 Martingales
Soit (Ω, F , (F t ) t≥0 , IP) un espace de probabilité filtré.

Définition 7.2.1 Un processus stochastique à valeurs réelles est appelé martingale (resp. surmartingale,
sous-martingale) si
1. X t est intégrable pour tout t ≥ 0
2. Pour tous 0 ≤ s ≤ t, IE[X t /Fs ] = X s , p.s, (resp. E[X t /Fs ] ≤ X s , E[X t /Fs ] ≥ X s , p.s.

Soient −∞ < a < b < +∞ et A = {0 ≤ t 1 < · · · < t n }. On peut définir le nombre de montées du processus
X = (X t ) t≥0 restreint à A, à travers l’intervalle [a, b] : M(ω, A, [a, b]). Si B ⊆ IR+ est quelconque on pose
M(ω, B, [a, b]) = sup A f ini,A ⊆B M(ω, A, [a, b]).

Théorème 7.2.1 Soient X = (X t ) t≥0 une sur martingale, S ⊆ IR+ , dénombrable, dense et I = [r, s[, 0 <
r < s, alors
1. Pour tout λ > 0, λIP(sup t∈ I ∩S X t > λ) ≤ IE(X r ) + IE(X s− )
λIP(inf t∈ I ∩S X t < −λ) ≤ IE(X s− )
2.
1
IE[M(., I ∩ S, [a, b]) ≤ IE(X s − a)− .
b−a
3. Presque sûrement, la restriction à S de la trajectoire t −→ X t (ω) admet des limites à droite et à
gauche en tout point de IR+ et elle est bornée sur tout intervalle borné.
Si X = (X t ) t≥0 est de plus continue à droite, on peut remplacer I ∩ S par I dans les assertions 1), 2)
et 3).

Démonstration : Les points 1), 2) et 3) sont évidents, en se référant au cas discret.


Soit
H n,a,b = { M(., S ∩ [0, n], [a, b]) = +∞}.

On pose N = dn∈IN,a,b∈IQ,a<b H n,a,b alors N est négligeable et si ω ∉ N les limites existent

Théorème 7.2.2 Soit X = (X t ) t≥0 une su rmartingale continue à droite.


1. Si sup t≥0 IE(X t− ) < +∞, alors X t −→ X ∞ , p.s. quand t −→ +∞ et X ∞ est intégrable
2. Si, pour tout t ≥ 0, X t , p.s. alors X t −→ X ∞ ∈ L1 et IE(X ∞ /F t ) ≤ X t , p.s. pour tout t ≥ 0
3. Si X = (X t ) t≥0 est uniformément intégrable, alors X t −→ X ∞ , p.s. etdansL1 et IE(X ∞ /F t ) ≤ X t , p.s.
pour tout t ≥ 0.

Démonstration : Pour tous −∞ < a < b < +∞, on a

M(., IR+ , [a, b]) = M(., IR+ e IQ, [a, b]) = l im n↑+∞ M(., [0, n[∩IQ, [a, b]),

car X = (X t ) est continue à droite.


Donc, IE(M(., IR+ , [a, b])) ≤ b−1 a supn IE{(X n − a)− ) < ∞ et M(., IR+ , [a, b]) < ∞. On applique les mêmes
conclusions que dans le cas discret.

Proposition 7.2.1 1. Soit X = (X t ) t≥0 une sous-martingale positive continue à droite, telle que, pour
p
tout t ≥ 0, X t ∈ L (p > 1), alors pour tout intervalle I de IR+ , on a

1 1
|| sup X t || p ≤ q sup || X t || p , où + = 1.
t∈ I t∈ I p q

2. Soit X = (X t ) t≥0 une sur martingale continue à droite adaptée à (F t ) t>0 . Si sup t>0 IE(X t ) < ∞, on a
X 0 = lim t↓0 X t existe p.s. et dans L1 , de plus, pour tout t ≥ 0, X 0 ≥ IE{ X t /F0 }, p.s. où F0 = ∩ t>0 F t .
7.2. MARTINGALES 39

7.2.1 Processus de Lévy


Définition 7.2.2 Un processus X = (X t ) t≥0 défini sur (Ω, F , IP) à valeurs dans IRd et à trajectoires cad-
lag est un processus de Lévy si
1. Les incréments sont indépendants : pour toute suite strictement croissante d’instants t 0 , t 1 , · · · , t n ,
les v.a. X t0 , X t1 − X t0 , · · · , X t n − X t n−1 sont indépendantes
2. Ses incréments sont stationnaires : la loi de X t+h − X t ne dépend pas t.
3. Il vérifie la propriété de continuité stochastique : pour tout

² > 0, lim IP(| X t+h − X t | ≥ ²) = 0.


h−→0

Définition 7.2.3 Un processus de comptage est une suite de variables aléatoires N(t), t ≥ 0 telles que
1. N(0) = 0
2. ∀ t ≥ 0, N(t) ≥ 0
3. l’application t −→ N(t) est croissante

Définition 7.2.4 Un processus de Poisson de densité λ > 0 est un processus de comptage (N(t)) t≥0 tel que
1. le processus est à accroissements indépendants, pour toute suite strictement croissante d’instants
t 0 , t 1 , · · · , t n , les variables aléatoires N(t 0 ), N(t 1 ) − N(t 0 ), · · · , N(t n ) − N(t n−1 ) sont indépendantes
2. pour tout (s, t) ∈ IR+ × IR+ , N(t + s) − N(s) suit la loi de Poisson de paramètre λ t.

On voit bien qu’un processus de Poisson est un processus de Lévy


Exercice : Soit p 6= 21 et (S n )n≥0 une suite de marche aléatoire biaisée, i.e. sur Z , S n = X 1 + X 2 · · ·+ X n ,
où les v.a. X i , i = 1, 2, · · · , n sont i.i.d. et IP(X i = 1) = p et IP(X i = −1) = 1 − p.
1. Trouver α pour αS n soient une martingale.
2. Soient a, b ≥ 0 et T = in f { n ≥ 0 : S n = −a, ou S n = b}. On rappelle que T < +∞ p.s. Calculer
IP(S T = b).

Vous aimerez peut-être aussi