Integration-Probabilites-Processus Aleatoires

FIMFA
Integration, Probabilites
et Processus Aleatoires
Jean-Fran cois Le Gall
Septembre 2006
Departement Mathematiques et Applications
Ecole normale superieure de Paris
2
Sommaire
I Integration 7
1 Espaces mesures 9
1.1 Ensembles mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Mesures positives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Classe monotone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Integration par rapport à une mesure 17
2.1 Integration de fonctions positives . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Fonctions integrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Integrales dependant dun paramètre . . . . . . . . . . . . . . . . . . . . . . 26
3 Construction de mesures 29
3.1 Mesures exterieures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 La mesure de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Liens avec lintegrale de Riemann . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Un exemple densemble non mesurable . . . . . . . . . . . . . . . . . . . . . 39
3.5 Integrale de Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Le theorème de representation de Riesz . . . . . . . . . . . . . . . . . . . . . 41
4 Espaces L
p
43
4.1 Denition et inegalite de Holder . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Lespace de Banach L
p
(E, /, ) . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Theorèmes de densite dans les espaces L
p
. . . . . . . . . . . . . . . . . . . . 49
4.4 Le theorème de Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Mesures produits 57
5.1 Generalites sur les espaces produits . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Construction de la mesure-produit . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Le theorème de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Integration par parties . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4.3 Calcul du volume de la boule unite . . . . . . . . . . . . . . . . . . . 67
3
6 Mesures signees 69
6.1 Denition et variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 La decomposition de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3 La dualite L
p
L
q
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4 Le theorème de representation de Riesz . . . . . . . . . . . . . . . . . . . . . 79
7 Formule de changement de variables
et complements 81
7.1 La formule de changement de variables . . . . . . . . . . . . . . . . . . . . . 81
7.2 Mesure de Lebesgue sur la sphère unite . . . . . . . . . . . . . . . . . . . . . 85
II Probabilites 89
8 Fondements de la theorie des probabilites 91
8.1 Denitions generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.1 Espaces de probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.2 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1.3 Esperance mathematique . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.1.4 Exemple : le paradoxe de Bertrand . . . . . . . . . . . . . . . . . . . 96
8.1.5 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.1.6 Fonction de repartition dune variable aleatoire reelle . . . . . . . . . 99
8.1.7 Tribu engendree par une variable aleatoire . . . . . . . . . . . . . . . 100
8.2 Moments de variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.2.1 Moments dordre p et variance . . . . . . . . . . . . . . . . . . . . . . 101
8.2.2 La regression lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.2.3 Fonctions caracteristiques . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2.4 Fonction generatrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9 Independance 109
9.1 Evenements independants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2 Variables aleatoires et tribus independantes . . . . . . . . . . . . . . . . . . 111
9.3 Le lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.4 Sommes de variables aleatoires independantes. . . . . . . . . . . . . . . . . . 119
10 Convergence de variables aleatoires 125
10.1 Les dierentes notions de convergence . . . . . . . . . . . . . . . . . . . . . . 125
10.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.3 La convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.4 Deux applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.4.1 La convergence des mesures empiriques . . . . . . . . . . . . . . . . . 137
10.4.2 Le theorème central limite . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4.3 Extension au cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . 140
4
11 Conditionnement 143
11.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.2 La denition de lesperance conditionnelle . . . . . . . . . . . . . . . . . . . 145
11.2.1 Cas des variables integrables . . . . . . . . . . . . . . . . . . . . . . . 145
11.2.2 Cas des variables positives . . . . . . . . . . . . . . . . . . . . . . . . 147
11.2.3 Le cas particulier des variables de carre integrable . . . . . . . . . . . 150
11.3 Proprietes speciques de lesperance conditionnelle . . . . . . . . . . . . . . . 150
11.4 Calculs desperance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.2 Cas des variables à densite . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.3 Conditionnement gaussien . . . . . . . . . . . . . . . . . . . . . . . . 154
11.5 Probabilites de transition et lois conditionnelles . . . . . . . . . . . . . . . . 157
III Processus aleatoires 161
12 Theorie des martingales
à temps discret 163
12.1 Denitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
12.2 Temps darret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.3 Convergence presque s ure des martingales . . . . . . . . . . . . . . . . . . . 169
12.4 La convergence dans L
p
pour p > 1 . . . . . . . . . . . . . . . . . . . . . . . 176
12.5 Uniforme integrabilite et martingales . . . . . . . . . . . . . . . . . . . . . . 179
12.6 Martingales retrogrades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
13 Chanes de Markov 191
13.1 Denition et premières proprietes . . . . . . . . . . . . . . . . . . . . . . . . 191
13.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
13.2.1 Variables aleatoires independantes . . . . . . . . . . . . . . . . . . . . 193
13.2.2 Marches aleatoires sur Z
d
. . . . . . . . . . . . . . . . . . . . . . . . 194
13.2.3 Marche aleatoire simple sur un graphe . . . . . . . . . . . . . . . . . 194
13.2.4 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . 194
13.3 La chane de Markov canonique . . . . . . . . . . . . . . . . . . . . . . . . . 195
13.4 La classication des etats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.5 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
13.6 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . 211
13.7 Martingales et chanes de Markov . . . . . . . . . . . . . . . . . . . . . . . . 215
14 Introduction au mouvement brownien 219
14.1 Le mouvement brownien comme limite de marches aleatoires . . . . . . . . . 219
14.2 La construction du mouvement brownien . . . . . . . . . . . . . . . . . . . . 222
14.3 La mesure de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.4 Premières proprietes du mouvement brownien . . . . . . . . . . . . . . . . . 227
14.5 La propriete de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
14.6 Fonctions harmoniques et problème de Dirichlet . . . . . . . . . . . . . . . . 233
5
14.7 Fonctions harmoniques et mouvement brownien . . . . . . . . . . . . . . . . 241
6
Partie I
Integration
7
Chapitre 1
Espaces mesures
Lidee de depart de la theorie de la mesure est dassigner un nombre reel positif (la mesure
de ce sous-ensemble) à chaque sous-ensemble dun ensemble donne, de manière à satisfaire
certaines proprietes naturelles dadditivite (la mesure dune reunion disjointe doit etre la
somme des mesures). Pour des raisons profondes, il nest pas possible en general de denir
la mesure de nimporte quel sous-ensemble, et on doit se restreindre à une certaine classe
(tribu) de sous-ensembles, appeles les sous-ensembles mesurables : un ensemble muni dune
tribu est appele espace mesurable. Ce chapitre introduit les notions fondamentales de tribu
(= famille des ensembles mesurables), de mesure sur un espace mesurable, et de fonctions
mesurables, qui sont les fonctions dont on saura plus tard denir lintegrale. Le dernier
paragraphe enonce une forme du lemme de classe monotone, qui joue un role très important
à la fois en theorie de la mesure et en theorie des probabilites.
1.1 Ensembles mesurables
Denition 1.1.1 Soit E un ensemble quelconque. Une tribu (ou -algèbre) sur E est une
famille / de parties de E telle que:
(i) E / ;
(ii) A / A
c
/ ;
(iii) Si A
n
/ pour tout n N, on a aussi
_
nN
A
n
/.
Les elements de / sont appeles parties mesurables, ou parfois /-mesurables sil y a ambigute.
On dit que (E, /) est un espace mesurable.
Enon cons quelques consequences de la denition :
(1) /
(2) Si A
n
/ pour tout n N, on a aussi
nN
A
n
/.
9
(3) Puisquon peut toujours prendre A
n
= pour n assez grand, la propriete (iii) entrane
que / est stable par reunions nies (et de meme par intersection nies).
Exemples.
/ = T(E) ;
/ = , E est la tribu triviale ;
lensemble des parties de E qui sont (au plus) denombrables ou dont le complementaire
est (au plus) denombrable forme une tribu sur E.
Pour donner des exemples plus interessants, on remarque quune intersection quelconque
de tribus est encore une tribu. Ceci conduit à la denition suivante.
Denition 1.1.2 Soit c un sous-ensemble de T(E). Il existe alors une plus petite tribu sur
E qui contienne c. Cette tribu notee (c) peut etre denie par
(c) =
A tribu,CA
/.
(c) est appelee la tribu engendree par c.
Tribu borelienne. Pour donner un premier exemple de linteret de la notion de tribu
engendree, considerons le cas o` u E est un espace topologique.
Denition 1.1.3 Supposons que E est un espace topologique, et soit O la classe des ouverts
de E. La tribu (O) est appelee tribu borelienne et notee B(E).
La tribu borelienne est donc la plus petite tribu qui contienne tous les ouverts de E. Les
elements de B(E) sont appeles boreliens de E.
Dans la suite, à chaque fois que lon considerera un espace topologique, par exemple R
ou R
d
, on supposera sauf indication du contraire quil est muni de sa tribu borelienne.
Exercice. Verier que la tribu B(R) est aussi engendree par les intervalles ]a, b[, a, b R,
a < b, ou par les intervalles ] , a[, a R, ou encore les intervalles ] , a[, a Q (on
peut aussi remplacer intervalles ouverts par intervalles fermes).
Tribu-produit. Un deuxième exemple important de la notion de tribu engendree est la
tribu-produit.
Denition 1.1.4 Soient (E
1
, /
1
) et (E
2
, /
2
) deux espaces mesurables. La tribu-produit est
la tribu sur E
1
E
2
denie par
/
1
/
2
= (A
1
A
2
; A
1
/
1
, A
2
/
2
.
Exercice. Verier que
B(R
2
) = B(R) B(R).
10
1.2 Mesures positives
Soit (E, /) un espace mesurable.
Denition 1.2.1 Une mesure positive sur (E, /) est une application : / [0, ] qui
verie les proprietes suivantes:
(i) () = 0 ;
(ii) Pour toute famille (A
n
)
nN
de parties mesurables disjointes,
_
_
nN
A
n
_
=
nN
(A
n
).
Remarquons quil est important dautoriser la valeur +. La propriete (ii) est appelee
-additivite. Elle contient evidemment le cas particulier o` u les A
n
sont vides à partir dun
certain rang, ce qui donne la propriete dadditivite nie.
Proprietes.
(1) Si A B, (A) (B) et si de plus (A) < ,
(BA) = (B) (A) ;
(2) Si A, B /,
(A) + (B) = (A B) + (A B) ;
(3) Si A
n
/ et A
n
A
n+1
,
(
_
nN
A
n
) = lim
n
(A
n
) ;
(4) Si B
n
/ et B
n+1
B
n
, et si (B
0
) < ,
(
nN
B
n
) = lim
n
(B
n
) ;
(5) Si A
n
/,
(
_
nN
A
n
)
nN
(A
n
).
Demontrons seulement (3),(4) et (5). Pour (3), on pose C
0
= A
0
et pour tout n 1,
C
n
= A
n
A
n1
de sorte que A
n
= C
n
. Puisque les C
n
sont disjoints,
(
_
nN
A
n
) = (
_
nN
C
n
) =
nN
(C
n
) = lim
N
n=0
(C
n
) = lim
N
(A
N
).
11
Pour (4), on pose A
n
= B
0
B
n
pour tout n, de sorte que la suite (A
n
) est croissante.
Alors
(B
0
) (
nN
B
n
) = (B
0
nN
B
n
) = (
_
nN
A
n
) = lim
n
(A
n
) = lim
n
((B
0
) (B
n
)).
La condition (B
0
) < est utilisee notamment pour ecrire (A
n
) = (B
0
) (B
n
).
Enn, pour (5), on pose C
0
= A
0
puis pour tout n 1,
C
n
= A
n
n1
_
k=0
A
k
.
Les ensembles C
n
sont disjoints et donc
(
_
nN
A
n
) = (
_
nN
C
n
) =
nN
(C
n
)
nN
(A
n
).
Exemples.
(1) Si E = N, et / = T(N), la mesure de comptage est denie par
(A) = Card(A).
(On peut denir plus generalement la mesure de comptage sur (E, T(E)) lorsque E est
quelconque.) Cet exemple permet de voir que la condition (B
0
) < est necessaire dans
la propriete (4) ci-dessus : en prenant
B
n
= n, n + 1, n + 2, . . .
on a (B
n
) = alors que B
n
= et donc (B
n
) = 0.
(2) Soit (E, /) quelconque et soit x E. La mesure
x
denie par
x
(A) = 1
A
(x) =
_
1 si x A
0 si x / A
est appelee mesure de Dirac au point x. Plus generalement, si x
n
, n N sont des points de
E et
n
[0, ] on peut considerer la mesure
xn
denie par
(
xn
)(A) =
xn
(A) =
n
1
A
(x
n
).
(3) Mesure de Lebesgue. Il existe une unique mesure positive sur (R, B(R)), notee , telle
que pour tout intervalle ouvert ]a, b[ de R on ait (]a, b[) = b a. Lexistence et lunicite de
cette mesure seront etablies plus loin.
Denitions.
est dite nie si (E) < (la quantite (E) est la masse totale de ).
est une mesure de probabilite si (E) = 1.
est dite -nie sil existe une suite croissante de parties mesurables E
n
telles que
E =
_
nN
E
n
et (E
n
) < pour tout n.
x E est un atome de si (x) > 0 (on suppose que x /).
La mesure est dite diuse si elle na pas datomes.
12
1.3 Fonctions mesurables
Denition 1.3.1 Soient (E, /) et (F, B) deux espaces mesurables. Une application f :
E F est dite mesurable si
B B , f
1
(B) /.
Lorsque E et F sont des espaces topologiques munis de leurs tribus boreliennes, on dit aussi
que f est borelienne.
Proposition 1.3.1 La composition de deux applications mesurables est encore mesurable.
Cest immediat en ecrivant (g f)
1
(C) = f
1
(g
1
(C)).
Proposition 1.3.2 Pour que f soit mesurable, il sut quil existe une sous-classe c de B
telle que (c) = B et telle que la propriete f
1
(B) / soit vraie pour tout B c.
Preuve. Soit
( = B B : f
1
(B) /.
Alors il est facile de verier que ( est une tribu. Par hypothèse c (. Il en decoule que (
contient (c) = B, do` u le resultat recherche.
Exemples. (1) Dans le cas o` u (F, B) = (R, B(R)), il sut pour montrer que f est mesurable
detablir que les ensembles f
1
(]a, b[), ou meme les f
1
(] , a[) sont mesurables.
(2) Dans le cas o` u E et F sont des espaces topologiques munis de leurs tribus boreliennes,
toute application continue est aussi mesurable (prendre pour c la classe des ouverts de F).
Operations sur les fonctions mesurables.
Lemme 1.3.3 Soient f
1
: (E, /) (F
1
, B
1
) et f
2
: (E, /) (F
2
, B
2
) deux applications
mesurables. Alors lapplication produit f : (E, /) (F
1
F
2
, B
1
B
2
) denie par f(x) =
(f
1
(x), f
2
(x)) est aussi mesurable.
Preuve. On applique la dernière proposition en prenant
c = B
1
B
2
; B
1
B
1
, B
2
B
2
.
Puisque f
1
(B
1
B
2
) = f
1
1
(B
1
) f
1
2
(B
2
) / on obtient immediatement le resultat.
Remarque. La reciproque de la proposition (si f est mesurable, f
1
et f
2
le sont aussi) est
vraie et aussi facile.
Corollaire 1.3.4 Si f, g : (E, /) (R, B(R)) sont mesurables, alors les fonctions f + g,
fg, inf(f, g), f
+
= sup(f, 0), f
= sup(f, 0) sont mesurables.

13
La demonstration est facile : par exemple f + g est la composee des deux applications
x (f(x), g(x)) et (a, b) a + b qui sont mesurables, la seconde parce que continue.
Rappelons que si (a
n
) est une suite delements de

R = R , +, on denit
limsup a
n
= lim
n
_
sup
kn
a
k
_
, liminf a
n
= lim
n
_
inf
kn
a
k
_
,
les limites existant dans

R. Alors, limsup a
n
et liminf a
n
sont respectivement la plus grande
et la plus petite valeur dadherence de la suite (a
n
).
Proposition 1.3.5 Si f
n
est une suite de fonctions mesurables de E dans

R, alors
sup
n
f
n
, inf
n
f
n
, limsup f
n
, liminf f
n
sont aussi mesurables. En particulier si la suite f
n
converge simplement, sa limite limf
n
est
mesurable. En general, lensemble x E : limf
n
(x) existe est mesurable.
Preuve. Soit f(x) = inf f
n
(x). Il sut de montrer que pour tout a R, f
1
([, a[) /.
Or
f
1
([, a[) = x : inf f
n
(x) < a =
_
n
x : f
n
(x) < a
do` u le resultat. On traite de meme le cas de sup f
n
.
Il en decoule que
liminf f
n
= sup
n0
_
inf
kn
f
k
_
est mesurable.
Pour la dernière assertion, on ecrit
x E : limf
n
(x) existe = x E : liminf f
n
(x) = limsup f
n
(x) = G
1
()
si Gest lapplication mesurable G(x) = (liminf f
n
(x), limsup f
n
(x)) et designe la diagonale
de

R
2
, qui est mesurable parce que fermee.
Notion de mesure-image.
Denition 1.3.2 Soit f : (E, /) (F, B) une application mesurable, et soit une mesure
positive sur (E, /). La mesure-image de par f, notee f() est la mesure positive sur (F, B)
denie par
f()(B) = (f
1
(B)).
Il est facile de voir que la dernière formule denit bien une mesure sur (F, B). Les mesures
et f() ont meme masse totale, mais il peut arriver que soit -nie sans que f() le soit.
14
1.4 Classe monotone
Denition 1.4.1 Un sous-ensemble / de T(E) est appele classe monotone si
(i) E / ;
(ii) Si A, B / et A B, alors BA / ;
(iii) Si A
n
/ et A
n
A
n+1
, alors
_
n
A
n
/.
Toute tribu est aussi une classe monotone. Comme dans le cas des tribus, on voit
immediatement que toute intersection de classes monotones est encore une classe monotone.
Si c est une partie quelconque de T(E), on peut donc denir la classe monotone engendree
par c, notee /(c), en posant
/(c) =
M classe monotone, CM
/.
Theorème 1.4.1 (Lemme de classe monotone) Si c T(E) est stable par intersec-
tions nies, alors /(c) = (c).
Preuve. Puisque toute tribu est une classe monotone, il est clair quon a /(c) (c).
Pour etablir linclusion inverse, il sut de montrer que /(c) est une tribu. Or une classe
monotone est une tribu si et seulement si elle est stable par intersections nies (en eet,
par passage au complementaire, elle sera alors stable par reunion nies, puis par passage
à la limite croissant par reunion denombrable). Montrons donc que /(c) est stable par
intersections nies.
Soit A c xe. Posons
/
1
= B /(c) : A B /(c).
Puisque c est stable par intersections nies, il est clair que c /
1
. Verions ensuite que
/
1
est une classe monotone:
E /
1
est immediat.
Si B, B
/
1
et B B
, on a A (B
B) = (A B
)(A B) /(c) et donc

B
B /
1
.
Si B
n
/
1
pour tout n et la suite B
n
crot, on a A (B
n
) = (A B
n
) /(c) et
donc B
n
/
1
.
Puisque /
1
est une classe monotone qui contient c, /
1
contient aussi /(c). On a donc
montre
A c, B /(c), A B /(c).
15
Ce nest pas encore le resultat recherche, mais on peut appliquer la meme idee une seconde
fois. Precisement, on xe maintenant B /(c), et on pose
/
2
= A /(c) : A B /(c).
Daprès la première etape de la preuve, c /
2
. En reprenant exactement les memes
arguments que dans la première etape, on montre que /
2
est une classe monotone. Il en
decoule que /(c) /
2
, ce qui montre bien que /(c) est stable par intersections nies et
termine la preuve.
Corollaire 1.4.2 Soient et deux mesures sur (E, /). Supposons quil existe une classe
c / stable par intersections nies, telle que (c) = / et (A) = (A) pour tout A c.
(1) Si (E) = (E) < , on a = .
(2) Sil existe une suite croissante de parties E
n
c telles que E = E
n
et (E
n
) =
(E
n
) < , on a = .
Preuve. (1) Soit ( = A / : (A) = (A). Par hypothèse, c (. Par ailleurs, on
verie aisement que ( est une classe monotone : par exemple, si A, B ( et A B, on a
(BA) = (B) (A) = (B) (A) = (BA), et donc BA E (noter quon utilise ici
le fait que et sont nies).
On conclut que ( contient /(c) = (c) = / (la première egalite daprès le theorème
de classe monotone, la seconde par hypothèse). Donc ( = /, cest-à-dire = .
(2) Notons, pour tout n,
n
la restriction de à E
n
et
n
n
:
A / ,
n
(A) = (A E
n
),
n
(A) = (A E
n
).
On peut appliquer la partie (1) à
n
et
n
, et on trouve
n
=
n
. Finalement, en utilisant
les proprietes de limite croissante des mesures, pour tout A /,
(A) = lim (A E
n
) = lim (A E
n
) = (A).
Consequence. Unicite de la mesure de Lebesgue. Il existe au plus une mesure sur
(R, B(R)) telle que pour tout intervalle ouvert non vide ]a, b[, on ait (]a, b[) = b a. En
eet, si
est une seconde mesure ayant la meme propriete, on peut appliquer à et
la
partie (2) du corollaire precedent, en prenant pour c la classe des intervalles ouverts (dont
on sait quelle engendre la tribu borelienne) et E
n
=] n, n[ pour tout n.
De la meme fa con, on deduit du corollaire precedent quune mesure nie sur R est
caracterisee par les valeurs de (] , a]) pour tout a R.
16
Chapitre 2
Integration par rapport à une mesure
Le premier objectif de ce chapitre est de construire lintegrale de fonctions mesurables. La
denition est facile pour les fonctions dites etagees, qui ne prennent quun nombre ni de
valeurs. Ensuite lintegrale dune fonction mesurable positive est denie comme le supremum
des integrales des fonctions etagees qui la minorent. Pour les fonctions de signe quelconque,
on raisonne par linearite en se limitant aux fonctions dites integrables, dont la valeur absolue
est dintegrale nie. Une fois construite lintegrale, on etablit les trois grands theorèmes de
convergence de la theorie, à savoir le theorème de convergence monotone, le lemme de Fatou
et le theorème de convergence dominee. Ces trois enonces visent à donner des conditions
assurant que lintegrale de la limite dune suite de fonctions est la limite des integrales de
ces fonctions. Le dernier paragraphe donne des applications importantes à la continuite ou
la derivabilite dintegrales dependant dun paramètre.
2.1 Integration de fonctions positives
On se donne un espace mesure, cest-à-dire un espace mesurable (E, /) muni dune mesure
.
Fonctions etagees. Une fonction mesurable f à valeurs dans R est dite etagee si elle ne
prend quun nombre ni de valeurs. Si
1
,
2
, . . . ,
n
sont les valeurs prises par f, quon
peut supposer rangees par ordre croissant
1
<
2
< <
n
, on a alors
f(x) =
n
i=1
i
1
A
i
(x)
o` u, pour chaque i 1, . . . , n, A
i
= f
1
(
i
) /. Lecriture precedente sera appelee
lecriture canonique de f.
Denition 2.1.1 Supposons f à valeurs dans R
+
. Lintegrale de f par rapport à est alors
denie par
_
f d =
n
i=1
i
(A
i
)
avec la convention 0. = 0 dans le cas o` u
i
= 0 et (A
i
) = .
17
On a a priori
_
fd [0, ].
Supposons quon ait une autre ecriture de f sous la forme
f =
m
j=1
j
1
B
j
les ensembles mesurables B
j
formant toujours une partition de E mais les nombres
j
netant
plus necessairement distincts. Alors il est facile de verier quon a aussi
_
f d =
m
j=1
j
(B
j
).
En eet, pour chaque i 1, . . . , n, A
i
doit etre la reunion disjointe des ensembles B
j
pour
les indices j tels que
j
=
i
. Il sut alors dutiliser la propriete dadditivite de la mesure
pour ecrire
(A
i
) =
{j:
j
=
i
}
(B
j
)
ce qui conduit au resultat annonce.
Proprietes. Soient f et g deux fonctions etagees positives.
(1) Pour tous a, b 0,
_
(af + bg)d = a
_
fd + b
_
gd.
(2) Si f g,
_
fd
_
gd.
Preuve. (1) Soient
f =
n
i=1
i
1
A
i
, g =
m
k=1
k
1
A
k
les ecritures canoniques de f et g. En ecrivant chaque A
i
comme la reunion disjointe des
ensembles A
i
A
k
, k 1, . . . , m, et de meme pour chaque A
k
, on voit quon peut ecrire
f =
p
j=1
j
1
B
j
, g =
p
j=1
j
1
B
j
avec les memes ensembles mesurables disjoints B
j
(mais les nombres
j
, resp.
j
, non
necessairement distincts). Daprès la remarque suivant la denition, on a
_
f d =
p
j=1
j
(B
j
) ,
_
g d =
p
j=1
j
(B
j
).
et de meme
_
(af + bg)d =
p
j=1
(a
j
+ b
j
) (B
j
), do` u le resultat voulu.
18
(2) On applique (1) en ecrivant
_
gd =
_
fd +
_
(g f)d
_
f d.
Notons c
+
lespace des fonctions etagees positives.
Denition 2.1.2 Soit f : E [0, ] une fonction mesurable. On pose
_
f d = sup
hE
+
,hf
_
h d.
La propriete (2) ci-dessus montre que cette denition est coherente avec la precedente
quand f est etagee.
On notera indieremment
_
fd =
_
f(x)d(x) =
_
f(x)(dx)
et on trouve parfois la notation , f) ou meme (f).
Proprietes.
(1) Si f g,
_
fd
_
gd (evident sur la denition)
(2) Si (x E : f(x) > 0) = 0, alors
_
fd = 0. (en eet il sut de le verier lorsque
f est etagee, mais alors cest evident sur la denition)
Theorème 2.1.1 (Theorème de convergence monotone) Soit (f
n
) une suite croissante
de fonctions mesurables positives (à valeurs dans [0, ]), et soit f = lim f
n
. Alors
_
fd = lim
n
_
f
n
d.
Preuve. Daprès la propriete (1) ci-dessus, on a
_
fd lim
n
_
f
n
d
et il sut donc detablir lautre inegalite. Pour cela, choisissons une fonction etagee positive
h =
m
i=1
i
1
A
i
avec h f. Soit a [0, 1[, et
E
n
= x E : ah(x) f
n
(x).
Alors E
n
est mesurable. De plus en utilisant le fait que f
n
crot vers f, et la condition a < 1,
on voit que E est la reunion croissante des ensembles E
n
.
19
Ensuite on remarque quon a linegalite f
n
a1
En
h, do` u
_
f
n
d
_
a1
En
h d = a
m
i=1
i
(A
i
E
n
).
Puisque E
n
E on a A
i
E
n
A
i
et (A
i
E
n
) (A
i
) quand n , daprès les proprietes
elementaires des mesures. En passant à la limite croissante il vient
lim
n
_
f
n
d a
m
i=1
i
(A
i
) = a
_
hd.
En faisant tendre a vers 1, on trouve
lim
n
_
f
n
d
_
hd.
Comme
_
fd est denie par le supremum des quantites de droite lorsque h decrit lensemble
des fonctions etagees positives majorees par f, on obtient bien linegalite recherchee.
Dans toute la suite fonction mesurable positive signie fonction mesurable à valeurs
dans [0, ].
Proposition 2.1.2 (1) Soit f une fonction mesurable positive. Il existe une suite croissante
(f
n
) de fonctions etagees positives telle que f
n
f.
(2) Si f et g sont mesurables positives et a, b R
+
,
_
(af + bg)d = a
_
fd + b
_
gd.
(3) Si (f
n
) est une suite quelconque de fonctions mesurables positives,
_

n
f
n
d =
n
_
f
n
d.
Preuve. (1) Pour tout n 1 et tout i 0, 1, . . . , n2
n
1, posons
A
n
= x E : f(x) n
B
n,i
= x E : i2
n
f(x) < (i + 1)2
n
.
Soit ensuite f
n
la fonction etagee
f
n
=
n2
n
1
i=0
i
2
n
1
B
n,i
+ n1
An
.
On verie aisement que f
n
(x) f(x) pour tout x E.
20
(2) On construit deux suites de fonctions etagees positives (f
n
), (g
n
) avec f
n
f, g
n
g.
Alors on a aussi af
n
+ bg
n
af + bg, et en utilisant le theorème de convergence monotone
et les proprietes de lintegrale des fonctions etagees,
_
(af +bg)d = lim
_
(af
n
+bg
n
)d = lim (a
_
f
n
d+b
_
g
n
d) = a
_
fd+b
_
gd.
(3) Cette assertion decoule de (2) (cas dune somme nie) et du theorème de convergence
monotone.
Remarque. Considerons le cas particulier o` u E = N et est la mesure de comptage. Alors
il est facile de voir que
_
f d =
kN
f(k)
et (3) redonne la propriete bien connue enon cant que pour toute suite double (a
n,k
) de reels
positifs,
kN
_
nN
a
n,k
_
=
nN
_
kN
a
n,k
_
.
Corollaire 2.1.3 Soit f mesurable positive, et pour tout A /, soit
(A) =
_
1
A
f d
(not.)
=
_
A
f d.
Alors est une mesure positive sur (E, /), appelee mesure de densite f par rapport à , et
notee = f .
Preuve. Il est immediat que () = 0. Par ailleurs, si (A
n
) est une suite densembles
mesurables disjoints,
_
_
nN
A
n
_
=
_

nN
1
An
f d =
nN
_
1
An
fd =
nN
(A
n
)
en utilisant la propriete (3) ci-dessus.
Remarque. On a (A) = 0 (A) =
_
1
A
f d = 0.
On dit quune propriete est vraie presque partout, ou p.p. ou meme simplement
p.p. sil ny a pas ambigute, si elle est vraie en dehors dun ensemble de mesure nulle. Par
exemple si f et g sont deux fonctions mesurables, f = g p.p. signie
(x E : f(x) ,= g(x)) = 0.
Proposition 2.1.4 Soit f une fonction mesurable positive.
(1) Pour tout a > 0,
(x E : f(x) a)
1
a
_
fd.
21
(2) On a
_
fd < f < p.p.
(3) On a
_
fd = 0 f = 0 p.p.
(4) Si g est une autre fonction mesurable positive,
f = g p.p.
_
fd =
_
gd.
Preuve. (1) Posons A
a
= x E : f(x) a. Alors f a1
Aa
et donc
_
fd
_
a1
Aa
d = a(A
a
).
(2) Pour tout n 1, soit A
n
= x E : f(x) n et soit A
= x E : f(x) = .
Alors, en utilisant (1),
(A
) =
_
n1
A
n
_
= lim
n
(A
n
) lim
n
1
n
_
fd = 0.
(3) Limplication a dejà ete vue. Pour , soit, pour tout n 1, B
n
= x E :
f(x) n
1
. Alors, daprès (1),
(B
n
) n
_
fd = 0
et donc (B
n
) = 0 ce qui entrane (x : f(x) > 0) =
_
_
n1
B
n
_
= 0.
(4) Utilisons la notation f g = sup(f, g) et f g = inf(f, g). Alors f g = f g p.p.,
do` u
_
(f g)d =
_
(f g)d +
_
(f g f g)d =
_
(f g)d,
puisque f g f g = 0 p.p. Puisque f g f f g, et de meme pour g, il en decoule
que
_
fd =
_
(f g)d =
_
gd.
Theorème 2.1.5 (Lemme de Fatou) Soit (f
n
) une suite quelconque de fonctions mesura-
bles positives. Alors,
_
(liminf f
n
)d liminf
_
f
n
d.
22
Preuve. On a
liminf f
n
= lim
k
_
inf
nk
f
n
_
et donc daprès le theorème de convergence monotone,
_
(liminf f
n
)d = lim
k
_
_
inf
nk
f
n
_
d.
Par ailleurs, pour tout entier p k,
inf
nk
f
n
f
p
ce qui entrane
_
_
inf
nk
f
n
_
d inf
pk
_
f
p
d.
En passant à la limite croissante quand k , il vient
lim
k
_
_
inf
nk
f
n
_
d lim
k
inf
pk
_
f
p
d = liminf
_
f
n
d,
ce qui termine la preuve.
2.2 Fonctions integrables
Denition 2.2.1 Soit f : E R une fonction mesurable. On dit que f est integrable par
rapport à (ou -integrable) si
_
[f[ d < .
Dans ce cas on pose
_
f d =
_
f
+
d
_
f
d
o` u f
+
= sup(f, 0), resp. f
= sup(f, 0) est la partie positive, resp. negative, de f. (Noter

que f
+
et f
sont mesurables et que f = f

+
f
et [f[ = f
+
+ f
.)
Remarque. On a
_
f
+
d
_
[f[d < et de meme
_
f
d < , ce qui montre que la

denition de
_
fd a bien un sens. Dans le cas o` u f est positive, cette denition concide
bien s ur avec la precedente.
On note /
1
(E, /, ) lespace des fonctions -integrables. On utilisera parfois la notation
/
1
+
(E, /, ) pour les fonctions -integrables à valeurs positives.
Proprietes.
(a) [
_
fd[
_
[f[d pour f /
1
(E, /, ).
(b) /
1
(E, /, ) est un espace vectoriel et lapplication f
_
fd est une forme lineaire
sur cet espace vectoriel.
(c) Si f, g /
1
(E, /, ) et f g, alors
_
fd
_
gd.
23
(d) Si f, g /
1
(E, /, ) et f = g p.p., alors
_
fd =
_
gd.
Preuve. (a) On ecrit
[
_
fd[ = [
_
f
+
d
_
f
d[ [
_
f
+
d[ +[
_
f
d[ =
_
[f[d.
(b) Soit f /
1
(E, /, ). Pour a R,
_
[af[d = [a[
_
[f[d < .
Si a 0,
_
(af)d =
_
(af)
+
d
_
(af)
d = a
_
fd
et si a < 0,
_
(af)d =
_
(af)
+
d
_
(af)
d = (a)
_
f
d + a
_
f
+
d = a
_
fd.
De plus, si f, g /
1
(E, /, ), linegalite [f + g[ [f[ + [g[ entrane que f + g /
1
. En
outre,
(f + g)
+
(f + g)
= f + g = f
+
f
+ g
+
g
entrane
(f + g)
+
+ f
+ g
= (f + g)
+ f
+
+ g
+
.
En utilisant ladditivite de lintegrale pour les fonctions positives,
_
(f + g)
+
d +
_
f
d +
_
g
d =
_
(f + g)
d +
_
f
+
d +
_
g
+
d,
do` u, puisque toutes les integrales sont nies,
_
(f + g)
+
d
_
(f + g)
d =
_
f
+
d
_
f
d +
_
g
+
d
_
g
d,
ce qui donne bien
_
(f + g)d =
_
fd +
_
gd.
(c) Il sut decrire
_
gd =
_
fd +
_
(g f)d.
(d) Legalite f = g p.p. entrane f
+
= g
+
et f
= g
p.p. Il sut alors dutiliser les

resultats vus dans le cas des fonctions positives.
Remarque. On combine facilement (c) et (d) pour obtenir que, si f, g /
1
(E, /, ) et
f g p.p., alors
_
fd
_
gd.
Extension au cas complexe. Soit f : E C une fonction mesurable (cela equivaut à
dire que Re(f) et Im(f) sont toutes deux mesurables). On dit que f est integrable et on
note f /
1
C
(E, /, ) si
_
[f[d < .
24
On pose alors
_
f d =
_
Re(f)d + i
_
Im(f)d.
Les proprietes (a),(b) et (d) ci-dessus restent vraies si /
1
(E, /, ) est remplace par /
1
C
(E, /, )
(pour montrer (a), remarquer que
[
_
f d[ = sup
aC,|a|=1
a
_
fd
o` u a z designe le produit scalaire dans C identie à R
2
).
Theorème 2.2.1 (Theorème de convergence dominee) Soit (f
n
) une suite de fonc-
tions dans /
1
(E, /, ) (resp. dans /
1
C
(E, /, )). On suppose:
(1) Il existe une fonction f mesurable à valeurs dans R (resp. dans C) telle que
f
n
(x) f(x) p.p.
(2) Il existe une fonction g : E R
+
mesurable telle que
_
gd < et pour tout n,
[f
n
[ g p.p.
Alors f /
1
(E, /, ) (resp. f /
1
C
(E, /, )), et on a
lim
n
_
f
n
d =
_
fd
et
lim
n
_
[f
n
f[d = 0.
Preuve. On suppose dabord que les hypothèses suivantes plus fortes sont veriees:
(1) Pour tout x E,
f
n
(x) f(x)
(2) Il existe une fonction g : E R
+
mesurable telle que
_
gd < et pour tout n
et tout x E
[f
n
(x)[ g(x).
La propriete f /
1
est alors claire puisque [f[ g et
_
gd < . Ensuite, puisque
[f f
n
[ 2g et [f f
n
[ 0, on peut appliquer le lemme de Fatou pour trouver
liminf
_
(2g [f f
n
[) d
_
liminf(2g [f f
n
[) d = 2
_
gd.
Par linearite de lintegrale, il vient
2
_
gd limsup
_
[f f
n
[d 2
_
gd,
25
do` u
limsup
_
[f f
n
[d = 0,
et donc
_
[f f
n
[d 0. Finalement il sut decrire
_
fd
_
f
n
d

_
[f f
n
[d.
Dans le cas general o` u on suppose seulement (1) et (2), on pose
A = x E : f
n
(x) f(x) et pour tout n, [f
n
(x)[ g(x).
Alors (A
c
) = 0, et on peut appliquer la première partie de la preuve aux fonctions
f
n
(x) = 1
A
(x)f
n
(x) ,

f(x) = 1
A
(x)f(x).
On a f =

f p.p., f
n
=

f
n
p.p. et donc
_
f
n
d =
_

f
n
d,
_
fd =
_

fd et
_
[f
n
f[d =
_
[
f
n

f[d. Les resultats recherches decoulent du cas o` u (1) et (2) sont veries.
2.3 Integrales dependant dun paramètre
On se donne un espace metrique (U, d) qui correspond à lespace des paramètres. Soit une
application f : U E R (ou C).
Theorème 2.3.1 Soit u
0
E. Supposons
(i) pour tout u U, lapplication x f(u, x) est mesurable;
(ii) (dx) p.p. lapplication u f(u, x) est continue en u
0
;
(iii) il existe une fonction g /
1
+
(E, /, ) telle que pour tout u U,
[f(u, x)[ g(x) (dx) p.p.
Alors la fonction F(u) =
_
f(u, x)(dx) est bien denie en tout point u U et elle est
continue en u
0
.
Preuve. Lhypothèse (iii) entrane que la fonction x f(u, x) est integrable et donc F(u)
est bien denie. Ensuite, soit (u
n
)
n1
une suite convergeant vers u
0
. Lhypothèse (ii) assure
que
f(u
n
, x)
n
f(u
0
, x) , p.p.
Grace à lhypothèse de domination (iii), on peut appliquer le theorème de convergence
dominee, qui donne
lim
n
_
f(u
n
, x) (dx) =
_
f(u
0
, x) (dx).
26
Exemples. (a) Soit une mesure diuse sur (R, B(R)). Si /
1
(R, B(R), ), la fonction
F(u) =
_
],u]
(x) (dx) =
_
1
],u]
(x)(x) (dx)
est continue. Pour le voir, il sut dappliquer le theorème à f(u, x) = 1
],u]
(x)(x), en
prenant g = [[ et en observant que pour u
0
R xe, la fonction u f(u, x) est continue
en u
0
pour tout x Ru
0
.
(b) Transformee de Fourier. Si /
1
(R, B(R), ), la fonction
(u) =
_
e
iux
(x) (dx)
est continue sur R.
(c) Convolution. Soit /
1
(R, B(R), ), et soit h une fonction continue bornee de R
dans R. Alors la fonction h denie sur R par
h (u) =
_
h(u x) (x) (dx)
est continue (et bornee).
Nous passons maintenant à un theorème de derivabilite sous le signe integrale, et pour
cela nous supposons que U = I est un intervalle ouvert de R. Soit à nouveau une application
f : U E R (ou C).
Theorème 2.3.2 Soit u
0
I. Supposons que
(i) pour tout u I, lapplication x f(u, x) est dans /
1
(E, /, );
(ii) (dx) p.p. lapplication u f(u, x) est derivable en u
0
de derivee notee
f
u
(u
0
, x) ;
1
+
(E, /, ) telle que pour tout u I,
[f(u, x) f(u
0
, x)[ g(x)[u u
0
[ (dx) p.p.
Alors la fonction F(u) =
_
f(u, x)(dx) est derivable en u
0
, de derivee
F
(u
0
) =
_
f
u
(u
0
, x) (dx).
Remarque. A priori la derivee
f
u
(u
0
, x) nest denie (par (ii)) que pour x appartenant
au complementaire dun ensemble de mesure nulle. On peut la prolonger à E tout entier
de manière arbitraire (par exemple par la valeur 0), de fa con à denir lintegrale qui donne
F
(u
0
).
27
Preuve. Soit (u
n
)
n1
une suite dans Iu
0
convergeant vers u
0
, et soit
n
(x) =
f(u
n
, x) f(u
0
, x)
u
n
u
0
.
Grace à (ii),
n
(x) converge vers
f
u
(u
0
, x), (dx) p.p. De plus lhypothèse (iii) permet
dappliquer le theorème de convergence dominee et dobtenir
lim
n
F(u
n
) F(u
0
)
u
n
u
0
= lim
n
_

n
(x) (dx) =
_
f
u
(u
0
, x) (dx).
Remarque. Dans de nombreuses applications, les hypothèses (ii) et (iii) sont remplacees
par les hypothèses plus fortes
(ii) (dx) p.p. lapplication u f(u, x) est derivable sur I;
1
+
(E, /, ) telle que (dx) p.p.,
u I ,
f
u
(u, x)
g(x).
(Noter que (iii)(iii) grace au theorème des accroissements nis.) Sous ces hypothèses, la
fonction F est derivable sur I. Lexercice ci-dessous montre cependant que la forme plus
precise de lenonce du theorème est parfois necessaire.
Exemples. (a) Soit /
1
(R, B(R), ) telle que
_
[x(x)[ (dx) < .
Alors la transformee de Fourier (u) est derivable sur R, et

(u) = i
_
xe
iux
(x) (dx).
(b) Soit /
1
(R, B(R), ), et soit h une fonction de R R une fonction de classe C
1
,
bornee ainsi que sa derivee. Alors la convolution h est derivable sur R, et
(h )
= h
.
On peut bien s ur iterer. Par exemple si h est de classe C
à support compact, h est

aussi de classe C
.
Exercice. Soit une mesure diuse sur (R, B(R)) et soit /
1
(R, B(R), ) telle que
_
[x(x)[ (dx) < .
Pour tout u R, on pose
F(u) =
_
R
(u x)
+
(x) (dx).
Montrer que F est derivable sur R, de derivee
F
(u) =
_
],u]
(x) (dx).
28
Chapitre 3
Construction de mesures
Le chapitre precedent partait de la donnee dune mesure sur un espace mesurable. Nous
montrons maintenant comment on construit des mesures interessantes, et particulièrement
la mesure de Lebesgue. Le premier paragraphe introduit la notion de mesure exterieure,
veriant des proprietes des proprietes plus faibles que celles dune mesure, et montre com-
ment à partir dune mesure exterieure on peut construire une (vraie) mesure sur une tribu
convenable. Cette approche, qui est celle quavait utilisee Lebesgue, permet assez facilement
de construire la mesure de Lebesgue sur R ou sur R
d
. Nous discutons aussi diverses pro-
prietes de la mesure de Lebesgue, ainsi que ses liens avec lintegrale de Riemann. Une autre
application est lintegrale de Stieltjes, qui correspond à lintegrale par rapport à une mesure
nie arbitraire sur la droite reelle.
3.1 Mesures exterieures
Denition 3.1.1 Soit E un ensemble quelconque. Une application
: T(E) [0, ] est

appelee mesure exterieure si
(i)
() = 0;
(ii)
est croissante : A B
(A)
(B);
(iii)
est -sous-additive : pour toute suite A

k
, k N delements de T(E),
(
_
kN
A
k
)
kN
(A
k
).
Les proprietes dune mesure exterieure sont moins contraignantes que celles dune mesure.
Remarquons cependant quune mesure exterieure est denie sur lensemble de toutes les
parties de E et non pas seulement sur une tribu.
Nous verrons plus loin sur des exemples comment on construit des mesures exterieures.
Notre objectif dans ce paragraphe est de montrer comment à partir dune mesure exterieure
on construit une mesure sur une tribu /(
) qui depend de
. Dans la suite de cette

partie, on xe une mesure exterieure
.
29
Denition 3.1.2 Une partie B de E est dite
-mesurable si pour toute partie A de E,
(A) =
(A B) +
(A B
c
).
On note /(
) lensemble des parties
-mesurables.
Remarque. Linegalite
(A)
(A B) +
(A B
c
) est toujours veriee par -sous-
additivite. Pour verier que B est
-mesurable, cest donc linegalite inverse quil importe

de verier.
Theorème 3.1.1 (1) /(
) est une tribu, qui contient toutes les parties B de E telles que
(B) = 0.
(2) La restriction de
à /(
) est une mesure.

Preuve. (1) Notons / = /(
) pour simplier. Si
(B) = 0, linegalite
(A)
(A B
c
) =
(A B) +
(A B
c
)
montre aussitot que B /.
Ensuite on voit immediatement que / et que / est stable par passage au comple-
mentaire. Pour terminer la preuve de la partie (1), il reste ` a montrer que / est stable par
reunion denombrable. On commence par etablir que / est stable par reunion nie. Soient
B
1
, B
2
/. Alors, pour toute A T(E), lhypothèse B
1
/ montre que
(A(B
1
B
2
)) =
(A(B
1
B
2
)B
1
)+
(A(B
1
B
2
)B
c
1
) =
(AB
1
)+
(AB
2
B
c
1
).
Donc en utilisant successivement les proprietes B
2
/ et B
1
/,
(A (B
1
B
2
)) +
(A (B
1
B
2
)
c
)
=
(A B
1
) +
(A B
c
1
B
2
) +
(A B
c
1
B
c
2
) =
(A B
1
) +
(A B
c
1
) =
(A),
ce qui montre bien que B
1
B
2
/. Etant stable par passage au complementaire et
par reunion nie, / est stable par intersection nie. En consequence, si B, B
/,
BB = B
B
c
/.
Compte-tenu de cette dernière remarque, il sut pour completer la preuve de montrer
que si les ensembles B
k
/, k N sont deux à deux disjoints on a
B
k
/. Pour cela
on montre par recurrence que pour tout entier m N et toute partie A de E,
(A) =
m
k=0
(A B
k
) +
(A
_
m
k=0
B
c
k
_
). (3.1)
Pour m = 0, cest la denition de B
0
/. Pour passer de letape m à letape m + 1, il
sut decrire
(A
_
m
k=0
B
c
k
_
) =
(A
_
m
k=0
B
c
k
_
B
m+1
) +
(A
_
m+1
k=0
B
c
k
_
)
=
(A B
m+1
) +
(A
_
m+1
k=0
B
c
k
_
)
30
en utilisant le fait que les B
k
sont disjoints. On deduit de (3.1) que
(A)
m
k=0
(A B
k
) +
(A
_

k=0
B
c
k
_
)
et en faisant tendre m vers ,
(A)
k=0
(A B
k
) +
(A
_

k=0
B
c
k
_
)

(A
_

_
k=0
B
k
_
) +
(A
_

k=0
B
c
k
_
),
par -sous-additivite. Cela sut pour conclure que
_
k=0
B
k
/.
(2) Notons la restriction de
à /. On sait dejà que () = 0. Soient B

k
, k /
des elements disjoints de /. La preuve de (1) montre que pour toute partie A de E,
(A)
k=0
(A B
k
) +
(A
_

k=0
B
c
k
_
)
et donc en prenant A =
_
k=0
B
k
,
_
k=0
B
k
)
k=0
(B
k
).
Comme linegalite inverse est aussi vraie par -sous-additivite, cela termine la preuve.
3.2 La mesure de Lebesgue
Pour toute partie A de R, on denit
(A) = inf
iN
(b
i
a
i
) : A
_
iN
]a
i
, b
i
[.
Linmum porte sur tous les recouvrements denombrables de A par des intervalles ouverts
]a
i
, b
i
[, a
i
b
i
(evidemment il existe toujours de tels recouvrements).
Theorème 3.2.1 (i)
est une mesure exterieure sur R.

(ii) La tribu /(
) contient B(R).
(iii) Pour tous a b,
([a, b]) =
(]a, b[) = b a.
31
La restriction de
à B(R) (ou à /(
)) est la mesure de Lebesgue sur R, et sera

notee simplement . En consequence des resultats de la n du Chapitre 1, cest lunique
mesure sur B(R) qui verie la propriete (]a, b[) = b a pour tout intervalle ]a, b[.
Preuve. (i) Il est immediat que
() = 0 et que
est croissante. Il reste à etablir la

sous-additivite. Pour cela, on se donne une suite (A
n
)
nN
de parties de N. On peut supposer
(A
n
) < pour tout n (sinon il ny a rien à montrer). Soit > 0. Pour tout n N, on
peut trouver une suite dintervalles ]a
(n)
i
, b
(n)
i
[, i N tels que
A
n

_
iN
]a
(n)
i
, b
(n)
i
[
et
iN
(b
(n)
i
a
(n)
i
)
(A
n
) +

2
i
.
Il sut alors de remarquer que les intervalles ]a
(n)
i
, b
(n)
i
[, n N, i N forment un recouvre-
ment denombrable de la reunion des A
n
, et donc
(
_
nN
A
n
)
nN
iN
(b
(n)
i
a
(n)
i
)
nN
(A
n
) + 2,
do` u le resultat puisque est arbitraire.
(ii) Puisque /(
) est une tribu, il sut de montrer quelle contient une famille qui
engendre la tribu borelienne, par exemple la famille des intervalles ] , ], R. On
se donne donc R et on pose B =] , ]. Le problème est de verier que pour toute
partie A de R,
(A)
(A B) +
(A B
c
).
Soit (]a
i
, b
i
[)
iN
un recouvrement de A, et > 0. Les intervalles ]a
i
, (b
i
) + 2
i
[
recouvrent A B, et les intervalles ]a
i
, b
i
[ recouvrent A B
c
. Donc
(A B)
iN
((b
i
) (a
i
)) + 2,
(A B
c
)
iN
((b
i
) (a
i
)).
En faisant la somme on trouve
(A B) +
(A B
c
)
iN
(b
i
a
i
) + 2.
Puisque etait arbitraire, on a
(A B) +
(A B
c
)
iN
(b
i
a
i
),
et comme
(A) est par denition linmum des sommes de droite sur tous les recouvrements
de A, linegalite recherchee en decoule.
32
(iii) Il est immediat par denition que
([a, b]) b a.
Pour linegalite inverse, supposons que
[a, b]
_
iN
]a
i
, b
i
[.
Par compacite, on peut trouver un entier N assez grand tel que
[a, b]
N
_
i=0
]a
i
, b
i
[.
Un raisonnement elementaire montre alors que
b a
N
i=0
(b
i
a
i
)
i=0
(b
i
a
i
).
Cela donne lautre inegalite b a
([a, b]). Il est facile de voir enn que
(]a, b[) =
([a, b]) (par exemple en observant que
(a) =
(b) = 0).
Extension en dimension d.
On appelle pave ouvert (resp. ferme) un sous-ensemble P de R
d
de la forme
P =
d
j=1
]a
j
, b
j
[ , (resp. P =
d
j=1
[a
j
, b
j
]).
Le volume de P est par denition
vol (P) =
d
j=1
(b
j
a
j
).
On denit alors pour toute partie A de R
d
(A) = inf
iN
vol (P
i
) : A
_
iN
P
i
.
o` u linmum porte sur tous les recouvrements denombrables de A par des paves ouverts.
On a alors lanalogue suivant du theorème precedent.
Theorème 3.2.2 (i)
est une mesure exterieure sur R

d
.
(ii) La tribu /(
) contient B(R
d
).
(iii) Pour tous pave (ouvert ou ferme) P,
(P) = vol (P).

33
La restriction de
à B(R
d
) (ou à /(
)) est la mesure de Lebesgue sur R

d
, et sera
notee simplement .
Preuve. La preuve de (i) est exactement la meme que dans le cas d = 1. Pour (ii), il sut
de montrer que si A est un ensemble de la forme
A = R R] , a] R R,
on a A /(
) (il est facile de voir que les ensembles de cette forme engendrent la tribu
B(R
d
)). La demonstration est alors tout à fait semblable à celle du cas d = 1. Enn pour
(iii), on se ramène à montrer que si P est un pave ferme et si
P
n
_
i=1
P
i
o` u les P
i
sont des paves ouverts, on a
vol (P)
n
i=1
vol (P
i
).
Cette assertion est laissee en exercice.
Remarque. On verra plus tard (dans le Chapitre 5) une autre fa con de construire la mesure
de Lebesgue en dimension d à partir du cas de la dimension un.
On peut se demander si la tribu /(
) est beaucoup plus grande que la tribu B(R).

Nous allons voir quen un certain sens ces deux tribus ne sont pas très dierentes. Nous
enon cons dabord une proposition preliminaire.
Proposition 3.2.3 Soit (E, /, ) un espace mesure. La classe des parties negligeables est
par denition
^ = A T(E) : B /, A B et (B) = 0.
La tribu completee de / (par rapport à ) est

/ = (/ ^). Il existe alors une unique
mesure sur (E,

/) qui prolonge .
Preuve. On remarque dabord que la tribu

/ peut etre obtenue de la manière suivante : si
B = A T(E) : B, B
/, B A B
et (B
B) = 0
on a

/ = B. En eet on verie facilement que B est une tribu. Il est clair que / B et
^ B, ce qui entrane que

/ B. Enn, si A B, on choisit B et B
comme dans la
denition et on remarque que A = B(AB), avec B / et AB ^. Linclusion B

/
en decoule.
Une fois acquise legalite

/ = B, on construit le prolongement de à

/ de la manière
suivante. Si A

/ = B, et si B et B
sont comme dans la denition de B ci-dessus,

on pose (A) = (B) = (B
). Cela ne depend pas du choix de B et B
: si

B,

B
est
un autre choix, on a à la fois (

B) (B
) et (

B
) (B) ce qui force les egalites

34
(B) = (B
) = (

B) = (

B
). Enn, il est facile de verier que le prolongement de à
/ est une mesure : si A

n
, n N sont des elements disjoints de

/, on peut pour chaque n
choisir B
n
/, B
n
A
n
de manière que A
n
B
n
soit negligeable, et on a
n
(A
n
) =
n
(B
n
) = (
_
n
B
n
) = (
_
n
A
n
),
la dernière egalite parce que
n
A
n
n
B
n

n
(A
n
B
n
) est negligeable.
Proposition 3.2.4 La tribu /(
) concide avec la completee

B(R
d
) de B(R
d
) par rapport
` a la mesure de Lebesgue .
Preuve. Linclusion

B(R
d
) /(
) est immediate : si A T(R

d
) est tel que A B,
o` u B B(R
d
) et (B) = 0, alors
(A)
(B) = (B) = 0, et daprès le theorème du

paragraphe 1, on sait que cela entrane A /(
).
Inversement, soit A /(
). On veut montrer que A

B(R
d
). Sans perte de generalite,
on peut supposer A ] K, K[
d
(sinon on ecrit A comme la reunion croissante des ensembles
A] n, n[
d
). On a alors
(A) < , et donc pour chaque n 1 on peut trouver une famille

denombrable (P
n
i
, i N) de paves ouverts contenus dans ] K, K[
d
tels que
A
_
i
P
n
i
,
i
vol (P
n
i
)
(A) +
1
n
.
Posons
B
n
=
_
i
P
n
i
, B =
n
B
n
.
Alors B B(R
d
), A B, et dautre part pour chaque n,
(B)
i
vol (P
n
i
)
(A) +
1
n
ce qui implique
(B) =
(A). En rempla cant A par ] K, K[

d
A, on construit de meme
B B(R
d
),

B ] K, K[
d
telle que ] K, K[
d
A

B et
(] K, K[
d
A) =
(

B). Si
B
=] K, K[
d
B, on doit alors avoir B
A et
(B
) =
(A). Finalement on a bien

trouve deux boreliens B et B
avec B
A B et (BB
) = 0.
Theorème 3.2.5 La mesure de Lebesgue sur R
d
est invariante par translation, au sens o` u
pour tout A B(R
d
) et tout x R
d
, on a (x + A) = (A).
Inversement, si est une mesure sur (R
d
, B(R
d
)) nie sur les parties bornees et invari-
ante par translation, il existe une constante c 0 telle que = c.
Preuve. Notons
x
la translation
x
(y) = y x pour tout y R
d
. La mesure-image
x
()
est denie par
A B(R
d
),
x
()(A) = (
1
x
(A)) = (x + A).
35
Legalite
x
()(A) = (A) est vraie pour tout pave A (puisque A et x+A sont deux paves de
meme volume). A laide du lemme de classe monotone du Chapitre 1, il en decoule aussitot
que
x
() = , ce qui est la première assertion du theorème.
Inversement, soit une mesure sur B(R
d
) invariante par translation. Soit
c = ([0, 1[
d
).
Comme [0, 1[
d
est la reunion disjointe de n
d
paves qui sont des translates de [0,
1
n
[
d
, il en
resulte que pour tout entier n 1,
([0,
1
n
[
d
) =
c
n
d
.
Soient ensuite a
1
, . . . , a
d
0. En ecrivant
d
j=1
[0,
[na
j
]
n
[
d
j=1
[0, a
j
[
d
j=1
[0,
[na
j
] + 1
n
[
(o` u [x] designe la partie entière de x), on trouve
(
d
j=1
[na
j
])
c
n
d
= (
d
j=1
[0,
[na
j
]
n
[) (
d
j=1
[0, a
j
[) (
d
j=1
[0,
[na
j
] + 1
n
[) = (
d
j=1
[na
j
] + 1)
c
n
d
.
En faisant tendre n vers , il vient
(
d
j=1
[0, a
j
[) = c
n
j=1
a
j
= c(
d
j=1
[0, a
j
[)
et en utilisant linvariance par translation de on trouve que les mesures et c concident
sur tous les paves de la forme
d
j=1
[a
j
, b
j
[.
Comme dans la première partie de la preuve, cela sut pour conclure que = c.
Proposition 3.2.6 La mesure de Lebesgue sur R
d
est regulière au sens o` u pour tout A
B(R
d
), on a
(A) = inf(U) : U ouvert , A U
= sup(F) : F compact , F A.
Preuve. La quantite inf(U) : U ouvert , A U est toujours plus grande que (A). Pour
lautre inegalite, on peut supposer (A) < . Ensuite, par denition de (A) =
(A), on
peut pour chaque > 0 trouver un recouvrement de A par des paves ouverts P
i
tels que
(P
i
) (A) + . Mais alors louvert U deni comme la reunion des P
i
contient A et on
a (U)
(P
i
) (A) + , ce qui conduit à linegalite voulue.
36
Pour la deuxième egalite de la proposition, on peut supposer A contenu dans un compact
C (sinon on ecrit (A) = lim (A [n, n]
d
)). Pour chaque > 0 on peut grace à la
première partie de la preuve trouver un ouvert U contenant CA, tel que (U) < (CA)+.
Mais alors F = CU est un compact contenu dans A, et
(F) (C) (U) (C) ((CA) + ) = (A) ,
ce qui donne la deuxième egalite.
La proposition precedente peut etre etendue à un cadre beaucoup plus general. Nous
nous limitons au cas des mesures nies.
Proposition 3.2.7 Soit (E, d) un espace metrique, et soit une mesure nie sur (E, B(E)).
Alors, pour tout A B(E),
= sup(F) : F ferme , F A.
Preuve. Notons O la classe des ouverts de E, et soit c la classe des ensembles A B(E)
qui verient la propriete de la proposition. Puisque la tribu borelienne est par denition
engendree par O, il sut de montrer que O c et que c est une tribu.
Si A O, la première egalite est triviale. Pour la seconde, on remarque que pour tout
n 1, lensemble
F
n
= x E : d(x, A
c
)
1
n
est ferme. Par ailleurs A = lim F

n
, ce qui entrane
(A) = lim (F
n
),
ce qui donne bien la seconde egalite et prouve que O c.
Il reste à montrer que c est une tribu. On a c et à cause de la symetrie entre ouverts
et fermes, on voit immediatement que c est stable par passage au complementaire. Soit
ensuite (A
n
)
nN
une suite dans c et soit > 0. Pour chaque n, on peut trouver un ouvert
U
n
contenant A
n
tel que (U
n
) (A
n
) + 2
n
, do` u
_
_
nN
U
n
_
nN
A
n
_
nN
(U
n
A
n
) 2.
Puisque
_
U
n
est ouvert cela donne la première des deux egalites recherchees pour
_
A
n
.
Ensuite, soit N un entier assez grand pour que
(
N
_
n=0
A
n
) (
_
nN
A
n
) .
Pour chaque n 0, 1, . . . , N on peut trouver un ferme F
n
A
n
tel que (A
n
F
n
) 2
n
.
Alors
F =
N
_
n=0
F
n
37
est ferme et
((
N
_
n=0
A
n
)F)
N
n=0
(A
n
F
n
) < 2
do` u
((
_
n=0
A
n
)F) 3.
On conclut que
_
A
n
c, ce qui termine la preuve.
3.3 Liens avec lintegrale de Riemann
Fixons un intervalle [a, b] non trivial de R. Une fonction h : [a, b] R est dite en escalier,
et on note h Esc, sil existe une subdivision a = x
0
< x
1
< < x
N
= b et des reels
y
1
, . . . , y
N
tels que
i 1, . . . , N, x ]x
i1
, x
i
[, f(x) = y
i
.
On pose alors
I(h) =
N
i=1
y
i
(x
i
x
i1
).
Il est immediat que I(h) =
_
[a,b]
h d.
Une fonction bornee f : [a, b] R est dite Riemann-integrable si
sup
hEsc, hf
I(h) = inf
hEsc, hf
I(h)
et cette valeur commune est notee I(f).
Proposition 3.3.1 Soit f une fonction Riemann-integrable sur [a, b]. Alors f est mesurable
pour la tribu completee

B([a, b]), et
I(f) =
_
[a,b]
f d.
Preuve. On peut trouver une suite (h
n
) de fonctions en escalier sur [a, b] telles que h
n
f
et I(h
n
) I(f). Quitte à remplacer h
n
par h
1
h
2
h
n
, on peut supposer la suite (h
n
)
decroissante, ce qui permet de poser
h
= lim h
n
f.
De meme, on peut trouver une suite croissante (
h
n
) de fonctions en escalier avec

h
n
f et
I(
h
n
) I(f), et poser
= lim

h
n
f.
38
Les fonctions h
et

h
sont boreliennes bornees. Par convergence dominee,

_
[a,b]
h
d = lim
_
[a,b]
h
n
d = lim I(h
n
) = I(f),
_
[a,b]
d = lim
_
[a,b]
h
n
d = lim I(
h
n
) = I(f).
Donc,
_
[a,b]
(h
)d = 0.
Puisque h
, cela entrane h
=

h
, p.p. Comme h
f

h
, f concide p.p.
avec une fonction borelienne, et il est facile den deduire que f est

B([a, b])-mesurable. Enn
puisque f = h
p.p. on a
_
[a,b]
f d =
_
[a,b]
h
d = I(f).
3.4 Un exemple densemble non mesurable
Considerons lespace R/Q des classes dequivalence des reels modulo les rationnels. Pour
chaque a R/Q, soit x
a
un representant de a dans lintervalle [0, 1]. On pose
F = x
a
; a R/Q [0, 1].
Alors F nest pas borelien, ni meme mesurable par rapport à la tribu completee

B(R).
Pour le verier, supposons F mesurable et montrons que cela conduit à une contradiction.
Dabord, on a par construction
R
_
qQ
(q + F)
et donc (F) > 0, car sinon R serait contenu dans une reunion denombrable densembles de
mesure nulle.
Par ailleurs, les ensembles q +F, q Q sont disjoints (si q +x
a
= q
+x
a
on a x
a
x
a
=
q
q Q et donc a = a
puis q = q
). De linclusion
_
qQ[0,1]
(q + F) [0, 2]
on deduit donc
qQ[0,1]
(q + F) 2
do` u (F) = 0 ce qui est la contradiction recherchee.
3.5 Integrale de Stieltjes
Le theorème suivant donne une description de toutes les mesures nies sur (R, B(R)). Le
resultat peut etre facilement etendu aux mesures de Radon.
39
Theorème 3.5.1 (i) Soit une mesure nie sur (R, B(R)). Pour tout x R, soit
F
(x) = (] , x]).
La fonction F
est croissante, bornee, continue à droite et F
() = 0.
(ii) Inversement, soit F : R R
+
une fonction est croissante, bornee, continue à droite
et telle que F() = 0. Il existe alors une unique mesure nie sur (R, B(R)) telle que
F = F
.
Remarque. Lorsque F = F
, on note souvent
_
f(x) (dx) =
_
f(x) dF(x).
Cest lintegrale de Stieltjes de f par rapport à F. On a en particulier
_
]a,b]
dF(x) = F(b) F(a),
et _
[a,b]
dF(x) = lim
n
_
]an
1
,b]
dF(x) = F(b) F(a),
o` u F(a) designe la limite à gauche de F en a.
Preuve. (i) La verication des proprietes de F
est facile. Par exemple si x

n
x, les
intervalles ] , x
n
] decroissent vers ] , x], et donc
F
(x
n
) = (] , x
n
]) (] , x]) = F(x).
De meme, si x
n
, les intervalles ] , x
n
] decroissent vers et donc F
(x
n
) 0.
(ii) Lunicite de est une consequence du lemme de classe monotone (cf Chapitre 1) : la
classe c = ] , x]; x R est stable par intersection nie et engendre la tribu B(R).
Pour montrer lexistence, on pose pour tout A R:
(A) = inf
iN
(F(b
i
) F(a
i
)) : A
_
iN
]a
i
, b
i
].
(Noter quon recouvre A par des intervalles ouverts à droite et fermes à gauche, et non plus
des intervalles ouverts comme pour la mesure de Lebesgue.) Les memes arguments que dans
le cas de la mesure de Lebesgue montrent que
est une mesure exterieure. On verie par

la meme methode que dans le cas de la mesure de Lebesgue que les intervalles ] , ] sont
dans /(
) (en fait cest meme plus facile ici). Il en decoule que la tribu /(
) contient la
tribu borelienne, et que la restriction, notee , de
à /(
) est une mesure sur (R, B(R)).

Pour terminer, il reste à montrer que (] , x]) = F(x) pour tout x R. Il sut pour
cela detablir que (]a, b]) = F(b) F(a) pour tous a < b (ensuite faire tendre a vers ).
Linegalite
(]a, b]) F(b) F(a)
40
est immediate par construction de
.
Dans lautre sens, soit (]x
i
, y
i
])
iN
un recouvrement denombrable de ]a, b]. Soit
]0, b a[. Pour chaque i N, on peut trouver y
i
> y
i
tel que F(y
i
) F(y
i
) +2
i
. Ensuite,
on remarque quon peut recouvrir lintervalle compact [a + , b] par une sous-famille nie
(]x
i
, y
i
[)
i{0,1,...,N}
de la famille des intervalles ouverts (]x
i
, y
i
[)
iN
. Un raisonnement simple
montre qualors
F(b) F(a + )
N
i=0
(F(y
i
) F(x
i
))
i=0
(F(y
i
) F(x
i
))
i=0
(F(y
i
) F(x
i
)) + 2.
En faisant tendre vers 0 on trouve
F(b) F(a)
i=0
(F(y
i
) F(x
i
))
ce qui par denition de
donne bien la minoration (]a, b]) F(b) F(a).

Cas des mesures de Radon. La formule
F(x) =
_
(]0, x]) si x 0,
(]x, 0]) si x < 0,
donne une correspondance bijective entre mesures de Radon sur R et fonctions F : R R
croissantes continues à droite et nulles en 0. Ce resultat decoule facilement du cas des mesures
nies. On a encore legalite (]a, b]) = F(b) F(a). Dans le cas particulier F(x) = x la
mesure est la mesure de Lebesgue.
3.6 Le theorème de representation de Riesz
Soit X un espace metrique. On note C
c
(X) lespace des fonctions continues à support
compact sur X. Une forme lineaire J sur C
c
(X) est dite positive si J(f) 0 dès que f 0.
Si est une mesure de Radon sur X, on denit une forme lineaire J sur C
c
(X) en posant
J(f) =
_
f d.
Noter que lintegrale est bien denie puisque [f[ C 1
K
, o` u K est un compact de X, et
est nie sur les compacts. De plus J est positive.
Le theorème de representation de Riesz montre que sous des hypothèses convenables
toute forme lineaire positive sur C
c
(X) est de ce type.
Theorème 3.6.1 Soit X un espace metrique localement compact separable, et soit J une
forme lineaire positive sur C
c
(X). Il existe alors une unique mesure de Radon sur
(X, B(X)) telle que
f C
c
(X), J(f) =
_
f d.
41
La mesure est regulière au sens o` u pour tout A B(X),
= sup(F) : F compact , F A.
De plus, pour tout ouvert U de X,
(U) = supJ(f) : f C
c
(X), 0 f 1
U
.
Exemple. Si X = R, on peut prendre J(f) = I(f), o` u I(f) est comme ci-dessus lintegrale
de Riemann de la fonction f. On verie aisement que J est une forme lineaire positive sur
C
c
(R). La mesure associee est (bien s ur) la mesure de Lebesgue. Cela fournit donc une autre
construction de la mesure de Lebesgue (en supposant construite lintegrale de Riemann des
fonctions continues).
Nous ne donnons pas ici la preuve du Theorème 3.6.1 : voir le Theorème 10.1 de Briane
et Pagès [2] ou le chapitre 2 de Rudin [7], qui donne un enonce un peu plus precis.
42
Chapitre 4
Espaces L
p
Ce chapitre est consacre principalement à letude de lespace L
p
des fonctions dont la valeur
absolue est de puissance p-ième integrable. Les inegalites fondamentales de Holder, de
Minkowski et de Jensen constituent un outil important pour cette etude. On etudie no-
tamment la structure despace de Banach de lespace L
p
, et dans le cas particulier p = 2
la structure despace de Hilbert de L
2
. Les theorèmes de densite montrant quon peut ap-
procher nimporte quelle fonction de L
p
par des fonctions plus regulières jouent un role
important dans beaucoup dapplications en analyse. En application de la structure hilber-
tienne de L
2
, on etablit le theorème de Radon-Nikodym, qui etant donne une mesure de
reference permet de decomposer nimporte quelle autre mesure en la somme dune mesure à
densite par rapport à la mesure de reference et dune mesure etrangère.
4.1 Denition et inegalite de Holder
Dans tout ce chapitre on considère un espace mesure (E, /, ). Pour tout reel p 1 on pose
/
p
(E, /, ) = f : E R mesurable;
_
[f[
p
d <
et on denit aussi
/
(E, /, ) = f : E R mesurable; C R
+
: [f[ C, p.p..
On pourrait aussi considerer les espaces /
p
C
et /
C
obtenus en considerant des fonctions à
valeurs complexes, mais dans ce chapitre nous nous interesserons surtout au cas reel.
Pour chaque p [1, ], on denit une relation dequivalence sur /
p
en posant
f g si et seulement si f = g, p.p.
Cela conduit à denir lespace quotient
L
p
(E, /, ) = /
p
(E, /, )/ .
Un element de L
p
(E, /, ) est donc une classe dequivalence de fonctions egales p.p. Dans
la suite on fera presque systematiquement labus decriture consistant à identier un element
de L
p
(E, /, ) à lun de ses representants.
43
Pour toute fonction f : E R mesurable, on note pour p [1, [,
|f|
p
=
_
_
[f[
p
d
_
1/p
(avec la convention
1/p
= ) et
|f|
= infC [0, ] : [f[ C, p.p.

de fa con que |f| |f|
, p.p. et que |f|
est le plus petit nombre dans [0, ] avec

cette propriete.
Soient p, q [1, ]. On dit que p et q sont des exposants conjugues si
1
p
+
1
q
= 1.
En particulier, p = 1 et q = sont conjugues.
Theorème 4.1.1 (Inegalite de Holder) Soient p et q des exposants conjugues. Alors, si
f et g sont deux fonctions mesurables de E dans R,
_
[fg[ d |f|
p
|g|
q
.
En particulier, fg L
1
(E, /, ) dès que f L
p
(E, /, ) et g L
q
(E, /, ).
Preuve. Si |f|
p
= 0, on a f = 0, p.p., ce qui entrane
_
[fg[d = 0, et linegalite est
triviale. On peut donc supposer |f|
p
> 0 et |g|
q
> 0. Sans perte de generalite on peut
aussi supposer f L
p
(E, /, ) et g L
q
(E, /, ).
Le cas p = 1, q = est facile : on a [fg[ |g|
[f[, p.p., do` u

_
[fg[ d |g|
_
[f[d = |g|
|f|
1
.
Supposons 1 < p < (et donc 1 < q < ).
Soit ]0, 1[. On a pour tout x R
+
x
x 1 .
En eet la fonction
(x) = x
x a pour derivee sur ]0, [,
(x) = (x
1
1) qui
est positive sur ]0, 1[ et negative sur ]1, [. Donc
est maximale en x = 1, ce qui donne

linegalite recherchee. En appliquant cette inegalite à x =
u
v
, o` u u 0 et v > 0, on trouve
u
v
1
u + (1 )v,
inegalite qui reste vraie si v = 0. On prend alors =
1
p
(donc 1 =
1
q
) puis
u =
[f(x)[
p
|f|
p
p
, v =
[g(x)[
q
|g|
q
q
44
pour aboutir à
[f(x)g(x)[
|f|
p
|g|
q
1
p
[f(x)[
p
|f|
p
p
+
1
q
[g(x)[
q
|g|
q
q
.
En integrant cette dernière inegalite par rapport à , il vient
1
|f|
p
|g|
q
_
[fg[d
1
p
+
1
q
= 1.
Exercice. Lorsque 1 < p < , montrer quil y a egalite dans linegalite de Holder ssi il
existe deux reels positifs , non tous deux nuls, tels que [f[
p
= [g[
q
p.p.
Le cas particulier p = q = 2 de linegalite de Holder est linegalite de Cauchy-Schwarz
_
[fg[ d
_
_
[f[
2
d
_
1/2
_
_
[g[
2
d
_
1/2
.
Considerons le cas particulier o` u est nie. En prenant g = 1, on trouve
_
[f[ d (E)
1/q
|f|
p
ce qui montre que L
p
L
1
pour tout p ]1, ]. En rempla cant [f[ par [f[
r
(r 1) et en
posant r
= pr, on trouve pour tous 1 r r

|f|
r
(E)
1
r
1
r
|f|
r
,
et donc L
r
L
r
(toujours dans le cas o` u est nie). Lorsque est une mesure de probabilite
on a |f|
r
|f|
r
pour tous 1 r r
.
Cette dernière inegalite peut etre vue comme un cas particulier de linegalite de Jensen.
Theorème 4.1.2 (Inegalite de Jensen) Supposons que est une mesure de probabilite,
et soit : R R
+
une fonction convexe. Alors, pour f L
1
(E, /, ),
_
f d
_
_
f d
_
.
Remarque. Lintegrale
_
f d est bien denie comme integrale dune fonction mesurable
positive.
Preuve. Soit
c
= (a, b) R
2
: x R, (x) ax + b.
Les proprietes bien connues des fonctions convexes assurent que
x R , (x) = sup
(a,b)E
(ax + b).
45
En consequence,
_
f d sup
(a,b)E
_
(af + b)d
= sup
(a,b)E
_
a
_
fd + b
_
=
_
_
f d
_
Exercice. Montrer que si (E) < on a

|f|
= lim
p
|f|
p
.
4.2 Lespace de Banach L
p
(E, /, )
Theorème 4.2.1 (Inegalite de Minkowski) Soit p [1, ], et soient f, g L
p
(E, /, ).
Alors, f + g L
p
(E, /, ) et
|f + g|
p
|f|
p
+|g|
p
.
Preuve. Les cas p = 1 et p = sont faciles en utilisant simplement linegalite [f + g[
[f[ +[g[. Supposons donc 1 < p < . En ecrivant
[f + g[
p
2
p
([f[
p
+[g[
p
)
on voit que
_
[f + g[
p
d < et donc f + g L
p
. Ensuite, en integrant par rapport à
linegalite
[f + g[
p
[f[ [f + g[
p1
+[g[ [f + g[
p1
on trouve
_
[f + g[
p
d
_
[f[ [f + g[
p1
d +
_
[g[ [f + g[
p1
d.
En appliquant linegalite de Holder aux reels conjugues p et q = p/(p 1), il vient
_
[f + g[
p
d |f|
p
_
_
[f + g[
p
d
_p1
p
+|g|
p
_
_
[f + g[
p
d
_p1
p
.
Si
_
[f + g[
p
d = 0, linegalite du theorème est triviale. Sinon on peut diviser chacun des
deux membres de linegalite precedente par (
_
[f + g[
p
d)
(p1)/p
et on trouve le resultat
recherche.
Theorème 4.2.2 (Riesz) Pour tout p [1, ], lespace L
p
(E, /, ) muni de la norme
f |f|
p
est un espace de Banach (i.e. un espace vectoriel norme complet).
46
Preuve. On se limite au cas 1 p < (le cas p = est plus facile). Verions dabord
que f |f|
p
est une norme sur L
p
. On a
|f|
p
= 0
_
[f[
p
d = 0 f = 0 p.p.
ce qui signie que f = 0 dans L
p
(f appartient à la classe dequivalence de 0). La propriete
|f|
p
= [[|f|
p
pour R est immediate, et linegalite de Minkowski donne linegalite
triangulaire.
Il reste à montrer que L
p
muni de cette norme est complet. Soit (f
n
)
n1
une suite de
Cauchy dans L
p
. Alors on peut choisir une suite dentiers (k
n
) strictement croissante de
fa con que pour tout n 1,
|f
k
n+1
f
kn
|
p
2
n
.
Posons g
n
= f
kn
et remarquons en utilisant le theorème de convergence monotone puis
linegalite de Minkowski que
_
_

n=1
[g
n+1
g
n
[
_
p
d = lim
N
_
_
N
n=1
[g
n+1
g
n
[
_
p
d
lim
N
_
N
n=1
|g
n+1
g
n
|
p
_
p
=
_

n=1
|g
n+1
g
n
|
p
_
p
< .
On a donc
n=1
[g
n+1
g
n
[ < , p.p.
et cela permet de poser
h = g
1
+
n=1
(g
n+1
g
n
)
la serie convergeant absolument sauf sur un ensemble de mesure nulle sur lequel on peut
prendre une denition arbitraire de h (par exemple h = 0). La fonction h est alors mesurable.
Puisque g
N
converge vers h, p.p., on a [h[ = liminf [g
N
[, p.p. et le lemme de Fatou montre
immediatement que
_
[h[
p
d liminf
_
[g
N
[
p
d sup
N1
_
[g
N
[
p
d < ,
puisque la suite f
n
etant de Cauchy est bornee dans L
p
. Enn, à nouveau grace au lemme
de Fatou, on a
|h g
n
|
p
p
=
_
[h g
n
[
p
d liminf
N
_
[g
N
g
n
[
p
d = liminf
N
|g
N
g
n
|
p
p
(2
n+1
)
p
47
en majorant pour N > n, |g
N
g
n
|
p
|g
n+1
g
n
|
p
+ +|g
N
g
N1
|
p
2
n+1
. Linegalite
precedente montre que g
n
converge vers h dans L
p
. Cela entrane que f
n
converge vers h et
termine la preuve.
Exemple. Si E = N et est la mesure de comptage, pour tout p [1, [, lespace L
p
est
lespace des suites a = (a
n
)
nN
de reels tels que
n=0
[a
n
[
p
<
muni de la norme
|a|
p
=
_

n=0
[a
n
[
p
_
1/p
.
Lespace L
est simplement lespace des suites (a

n
)
nN
qui sont bornees, muni de la norme
|a|
= sup(a
n
). Remarquons que dans ce cas il ny a pas densemble non vide de mesure
nulle et donc L
p
concide avec /
p
. Cet espace est en general note
p
=
p
(N). Il joue un role
important dans la theorie des espaces de Banach.
La dernière preuve fait apparatre un resultat intermediaire qui merite detre enonce.
Proposition 4.2.3 Soit p [1, [ et soit (f
n
) une suite qui converge vers f dans L
p
(E, /, ).
Il existe alors une sous-suite (f
kn
) qui converge p.p. vers f.
Remarque. Le resultat est aussi vrai pour p = , mais dans ce cas lextraction dune sous-
suite nest pas necessaire puisque la convergence L
equivaut à une convergence uniforme

sauf sur un ensemble de mesure nulle.
On peut se demander si inversement la convergence p.p. entrane la convergence L
p
.
Cela nest pas vrai, mais le theorème de convergence dominee montre que si :
(i) f
n
f, p.p.
(ii) Il existe une fonction g 0 telle que
_
[f[
p
d < et n, [f
n
[ g, p.p.
alors f
n
f dans L
p
.
Exercice. On suppose (E) < . Soit p [1, [. Montrer que les conditions
(i) f
n
f, p.p.
(ii) Il existe r > p tel que sup
n
_
[f
n
[
r
d <
entranent f
n
f dans L
p
.
Le cas p = 2 du theorème de Riesz est particulièrement important puisque lespace L
2
a
une structure despace de Hilbert.
48
Theorème 4.2.4 Lespace L
2
(E, /, ) muni du produit scalaire
f, g) =
_
fg d
est un espace de Hilbert (reel).
Preuve. Linegalite de Cauchy-Schwarz montre que si f, g L
2
, fg est integrable et donc
f, g) est bien deni. Ensuite il est clair que (f, g) f, g) denit une forme bilineaire
symetrique denie positive, et que la norme associee est la norme |f|
2
. Le caractère complet
decoule du theorème de Riesz.
On peut donc appliquer à L
2
(E, /, ) les resultats classiques sur les espaces de Hilbert.
En particulier, si : L
2
(E, /, ) R est une forme lineaire continue, il existe un (unique)
element g de L
2
(E, /, ) tel que f L
2
, (f) = f, g). Ce resultat nous sera utile dans la
suite de ce chapitre.
Remarque. Comme les resultats precedents, le theorème ci-dessus setend au cas complexe.
Lespace L
2
C
(E, /, ) est un espace de Hilbert complexe pour le produit scalaire
f, g) =
_
f g d.
4.3 Theorèmes de densite dans les espaces L
p
Si (E, d) est un espace metrique, une mesure sur (E, B(E)) est dite exterieurement regulière
si
A B(E) , (A) = inf(U) : U ouvert, A U.
Une fonction f : E R est dite lipschitzienne sil existe une constante K telle que
x, y E , [f(x) f(y)[ K d(x, y).
Theorème 4.3.1 Soit p [1, [.
(1) Lespace des fonctions etagees integrables est dense dans L
p
(E, /, ).
(2) Si (E, d) est un espace metrique, et une mesure exterieurement regulière sur
(E, B(E)), lespace des fonctions lipschitziennes bornees qui sont dans L
p
est dense dans
L
p
(E, B(E), ).
(3) Si (E, d) est un espace metrique localement compact separable, et une mesure de
Radon sur E, alors lespace des fonctions lipschitziennes à support compact est dense dans
L
p
(E, B(E), ).
Preuve. (1) En decomposant f = f
+
f
, il sut de montrer que si f L

p
est positive,
alors f est limite dans L
p
dune suite de fonctions etagees. On sait que
f = lim
n

n
49
o` u pour chaque n, 0
n
f et
n
est etagee. Alors,
_
[
n
[
p
d
_
[f[
p
d < et donc
n
L
p
(ce qui pour une fonction etagee equivaut à
n
L
1
). Puisque [f
n
[
p
f
p
, le
theorème de convergence dominee donne
lim
n
_
[f
n
[
p
d = 0.
(2) Il sut de montrer que toute fonction etagee integrable est limite dans L
p
de fonctions
lipschitziennes bornees. On se ramène aisement au cas f = 1
A
, A B(E), (A) < . Soit
alors > 0. On peut trouver un ouvert O contenant A tel que (OA) < (/2)
p
, et donc
|1
O
1
A
|
p
<

2
.
Ensuite, pour tout k 1, on pose
k
(x) = (k d(x, O
c
)) 1. La fonction
k
est lipschitzienne
et
k
1
O
quand k . Par convergence dominee,
_
[1
O

k
[
p
d 0 quand k ,
et donc on peut choisir k assez grand pour que
|1
O

k
|
p
<

2
.
Finalement,
|1
A
k
|
p
|1
A
1
O
|
p
+|1
O

k
|
p
< .
(3) On utilise le lemme suivant, dont la preuve est repoussee à la n de la demonstration.
Rappelons que si A est un sous-ensemble de E,
A designe linterieur de A.
Lemme 4.3.2 Soit E un espace metrique localement compact separable. Alors il existe une
suite croissante de compacts (L
n
)
n1
tels que, pour tout n, L
n

L
n+1
et E =
_
n1
L
n
=
_
n1
L
n
.
Il est facile de deduire du lemme que toute mesure de Radon sur E est exterieurement
regulière (ce qui a dejà ete vu, sans demonstration, dans lenonce du theorème de representa-
tion de Riesz). En eet, si A est un borelien de E, on peut en considerant la restriction de
à
L
n
(qui est une mesure nie) appliquer un resultat de regularite exterieure du chapitre
precedent et trouver pour chaque n un ouvert O
n

L
n
tel que A
L
n
O
n
et
(O
n
(A
L
n
)) 2
n
.
Alors la reunion O des O
n
est un ouvert de E et
(OA)
n1
(O
n
(A
L
n
)) .
Ensuite, puisque est exterieurement regulière, on peut appliquer la partie (2) du
theorème. On est ainsi ramene à montrer que toute fonction f lipschitzienne bornee telle
50
que
_
[f[
p
d < est limite dans L
p
de fonctions lipschitziennes à support compact (noter
que celles-ci sont automatiquement dans L
p
). Par convergence dominee, on a
lim
n
_
(
Ln)
c
[f[
p
d = 0,
et donc |f f1
L
n
|
p
0. Dautre part, pour chaque n xe, et pour tout k 1, soit
n,k
(x) = k d(x, (
L
n
)
c
) 1.
Alors
n,k
L
p
puisque
n,k
1
L
n
. De plus, par convergence dominee à nouveau, on voit
que pour chaque n xe,
n,k
converge vers 1
L
n
dans L
p
quand k . Finalement, en
ecrivant
|f f
n,k
|
p
|f f1
Ln
|
p
+|f1
Ln
f
n,k
|
p
|f f1
Ln
|
p
+|f|
|1
Ln
n,k
|
p
et en choisissant n puis k assez grands, on approche f dans L
p
par la fonction f
n,k
qui est
lipschitzienne à support compact.
Preuve du lemme. On montre dabord que E est reunion dune suite croissante de com-
pacts (K
n
)
n1
. Pour cela, soit (x
p
)
p0
une suite dense dans E. Introduisons lensemble I de
couples dentiers deni par
I = (p, k) N
2
:

B(x
p
, 2
k
) est compact,
o` u

B(x, r) designe la boule fermee de centre x et de rayon r. En utilisant le fait que E est
localement compact et la densite de la suite (x
p
) il est facile de voir que
E =
_
(p,k)I
B(x
p
, 2
k
).
Par ailleurs, I etant denombrable, on peut trouver une suite croissante de sous-ensembles
nis I
n
, n 1 de I tels que I soit la reunion des I
n
. Alors il sut de poser
K
n
=
_
(p,k)In
B(x
p
, 2
k
)
pour avoir les proprietes recherchees.
Ensuite, on construit la suite (L
n
) par recurrence sur n. On prend L
1
= K
1
. Si on a
construit L
n
, on recouvre le compact K
n+1
L
n
par une reunion nie V
1
V
2
. . . V
p
de voisinages ouverts dadherence compacte de points de K
n+1
L
n
, et on prend L
n+1
=
V
1

V
2
. . .

V
p
.
Consequences. Pour p [1, [, on a :
(i) Lespace C
c
(R
d
) des fonctions continues à support compact sur R
d
est dense dans
L
p
(R
d
, B(R
d
), ). On peut remplacer par nimporte quelle mesure de Radon sur (R
d
, B(R
d
)).
51
(ii) Lensemble des fonctions en escalier (à support compact) est dense dans L
p
(R, B(R), ).
En eet il sut de verier que toute fonction f C
c
(R) est limite dans L
p
de fonctions en
escalier. Cela se voit en ecrivant
f = lim
n
_
kZ
f(
k
n
) 1
[
k
n
,
k+1
n
[
_
.
Application. Si f L
1
(R, B(R), ),
f()
||
0.
On se ramène par densite au cas o` u f est une fonction en escalier : si f est limite dans L
1
dune suite (
n
) de fonctions en escalier,
sup
R
[
f()
n
()[ = sup
R
_
f(x)e
ix
dx
_

n
(x)e
ix
dx
|f
n
|
1
qui tend vers 0 quand n . Ensuite, si f est en escalier, f =
p
j=1
j
1
]x
j
,x
j+1
[
, on a
f() =
p
j=1
j
_
e
ix
j+1
e
ix
j
i
_

||
0,
do` u le resultat voulu.
4.4 Le theorème de Radon-Nikodym
Denition 4.4.1 Soient et deux mesures sur (E, /). On dit que:
(i) est absolument continue par rapport à (notation ) si
A /, (A) = 0 (A) = 0.
(ii) est etrangère à (notation ) sil existe N / tel que (N) = 0 et (N
c
) = 0.
Exemple. Si f est mesurable positive , la mesure = f denie par
(A) =
_
A
f d
est absolument continue par rapport à .
Theorème 4.4.1 (Radon-Nikodym) Soient et deux mesures -nies sur (E, /). Il
existe alors un unique couple (
a
,
s
) de mesures -nies sur (E, /) telles que
52
(1) =
a
+
s
.
(2)
a
et
s
.
De plus, il existe une fonction mesurable g : E R
+
telle que
A /,
a
(A) =
_
A
g d
et la fonction g est unique à un ensemble de -mesure nulle près.
Preuve. On traite dabord en detail le cas o` u les deux mesures et sont nies. Lextension
au cas -ni ne presentera pas de diculte.
Cas o` u . Dans un premier temps, on suppose , cest-à-dire
_
g d
_
g d
pour toute fonction mesurable positive g. Considerons alors lapplication : L
2
(E, /, )
R denie par
(f) =
_
f d.
Remarquons que lintegrale a bien un sens puisque
_
[f[d
_
[f[d
et on sait que pour une mesure nie L
2
() L
1
(). De plus, (f) ne depend pas du
representant de f choisi pour calculer
_
fd :
f =

f, p.p. f =

f, p.p.
_
fd =
_
fd .
Linegalite de Cauchy-Schwarz montre que
[(f)[
_
_
f
2
d
_
1/2
(E)
1/2
_
_
f
2
d
_
1/2
(E)
1/2
= (E)
1/2
|f|
L
2
()
.
Donc est une forme lineaire continue sur L
2
(E, /, ) et on sait alors quil existe une
fonction h L
2
(E, /, ) telle que
f L
2
(E, /, ), (f) = f, h) =
_
fh d.
En particulier, en prenant f = 1
A
,
A /, (A) =
_
A
h d.
On peut aussi remarquer que 0 h 1, p.p. En eet, pour tout > 0,
(x : h(x) 1+) (x : h(x) 1+) =
_
{x:h(x)1+}
hd (1+)(x : h(x) 1+)
53
ce qui implique (x : h(x) 1+) = 0. On montre de meme que h 0 p.p. Remarquons
que quitte à remplacer h par (h 0) 1, on peut supposer 0 h(x) 1 pour tout x E.
Cas general. On applique la première partie de la preuve aux mesures et +. Il existe
donc une fonction mesurable h telle que 0 h 1 et, pour toute fonction f L
2
( + ),
_
f d =
_
fh d( + ).
En particulier, pour toute fonction f mesurable bornee,
_
f d =
_
fh d +
_
fh d
do` u _
f(1 h) d =
_
fh d.
En utilisant le theorème de convergence monotone, on voit que cette dernière egalite est
vraie pour toute fonction f mesurable positive.
Posons N = x E : h(x) = 1. Alors en prenant f = 1
N
, on voit que (N) = 0. La
mesure
s
= 1
N
(A /,
s
(A) = (A N))
est donc etrangère à . Dautre part, en rempla cant f par 1
N
c(1 h)
1
f dans legalite
ci-dessus, on trouve que pour toute fonction f mesurable positive,
_
N
c
f d =
_
N
c
f
h
1 h
d =
_
fg d,
o` u g = 1
N
c
h
1h
. En posant
a
= 1
N
c = g
on a bien les proprietes (1) et (2) du theorème, et la representation annoncee pour
a
.
Lunicite du couple (
a
,
s
) est facile. Si (
a
,
s
) est un autre couple avec les proprietes
(1) et (2), on a
A /,
a
(A)
a
(A) =
s
(A)
s
(A).
Mais comme
s
et
s
sont portees respectivement par des ensembles N et

N de -mesure
nulle, on a
s
(A)
s
(A) =
s
(A(N

N))
s
(A(N

N)) =
a
(A(N

N))
a
(A(N

N)) = 0
à cause de la propriete
a
,
a
. Enn, pour obtenir lunicite de g, on se donne une
autre fonction g avec la meme propriete, et on observe que
_
{ g>g}
g d =
a
( g > g) =
_
{ g>g}
g d,
do` u _
{ g>g}
( g g) d = 0
54
ce qui force g g, p.p. et par symetrie g = g, p.p.
Il reste à saranchir de lhypothèse supplementaire que et sont nies. Si et sont
seulement -nies, on peut construire une partition mesurable denombrable (E
n
)
nN
de E
de manière que (E
n
) < et (E
n
) < pour tout n. Notons
n
n
et
n
n
. En appliquant le debut de la preuve on peut ecrire pour tout
n N,
n
=
n
a
+
n
s
o` u
n
s

n
, et
n
a
= g
n

n
, la fonction mesurable g
n
etant nulle sur E
c
n
(puisque
n
(E
c
n
) = 0,
il est clair quon peut imposer cette dernière condition). On obtient le resultat du theorème
en posant
a
=
nN
n
a
,
s
=
nN
n
s
, g =
nN
g
n
.
(Dans la dernière somme, remarquer que pour chaque x E il y a au plus une valeur de n
pour laquelle g
n
(x) > 0.) La verication des proprietes dunicite ne presente pas de diculte.
55
56
Chapitre 5
Mesures produits
Etant donne deux espaces mesurables munis chacun dune mesure, on peut construire sur
leur produit cartesien une mesure appelee la mesure produit. De plus lintegrale dune
fonction denie sur lespace produit peut etre calculee en integrant dabord par rapport à la
mesure sur le premier espace puis par rapport à la mesure sur le second, ou bien dans lordre
inverse : cest le fameux theorème de Fubini. Outre ses applications importantes en analyse
(integration par parties, convolution, etc.) ou en theorie des probabilites, le theorème de
Fubini est un outil essentiel pour le calcul eectif des integrales.
5.1 Generalites sur les espaces produits
Soient (E, /) et (F, B) deux espaces mesurables. On peut alors munir le produit E F de
la tribu-produit
/B = (AB; A /, B B).
Les ensembles de la forme AB sont appeles paves mesurables. Il est facile de verier que
/B est la plus petite tribu sur EF qui rende mesurables les deux projections canoniques
1
: E F E et
2
: E F F.
Soit (G, c) un troisième espace mesurable, et soit f : G E F. Notons f(x) =
(f
1
(x), f
2
(x)). On a vu dans le Chapitre 1 que f est mesurable (E F etant muni de la
tribu produit) ssi les deux applications f
1
et f
2
le sont.
On etend facilement la denition de la tribu produit au cas dun nombre ni quelconque
despaces mesurables (E
1
, /
1
), . . . , (E
n
, /
n
) :
/
1
/
2
/
n
= (A
1
A
n
; A
i
/
i
)
et on a les proprietes dassociativite attendues, à savoir par exemple pour n = 3,
(/
1
/
2
) /
3
= /
1
(/
2
/
3
) = /
1
/
2
/
3
.
Proposition 5.1.1 Si E et F sont deux espaces metriques separables, on a
B(E F) = B(E) B(F).
57
Preuve. Linclusion B(E F) B(E) B(F) est vraie sans hypothèse de separabilite :
elle decoule de ce que les projections
1
et
2
sont continues donc mesurables pour la tribu
B(E F).
Dans lautre sens, on observe quon peut trouver un ensemble denombrable douverts
| = U
n
, n 1 de E tels que tout ouvert de E soit reunion dune sous-famille de | (si
(x
k
) est une suite dense dans E, il sut de prendre pour | les boules ouvertes de rayon
rationnel centrees en lun des x
k
). Soit 1 = V
n
, n 1 une famille analogue pour F. Pour
tout ouvert O de E F et tout z = (x, y) O, on sait que O contient un ouvert de la
forme U V , o` u U, resp. V , est un ouvert de E, resp. de F, contenant x, resp. y. Il
en decoule que O doit etre reunion (au plus denombrable) dune sous-famille de la famille
U
n
V
m
; n, m 1. Donc tout ouvert de E F est mesurable pour B(E) B(F) et cela
entrane B(E F) B(E) B(F).
On revient au cas o` u (E, /) et (F, B) sont deux espaces mesurables quelconques. Si
C E F, on pose pour x E
C
x
= y F : (x, y) C
et pour y F,
C
y
= x E : (x, y) C.
Si f est une fonction denie sur E F, on note pour x E, f
x
(y) = f(x, y) et pour y F,
f
y
(x) = f(x, y).
Theorème 5.1.2 (i) Soit C /B. Alors, pour tout x E, C
x
B et pour tout y F,
C
y
/.
(ii) Soit f : EF G une application mesurable pour la tribu produit /B. Alors, pour
tout x E, f
x
est B-mesurable, et pour tout y F, f
y
est /-mesurable.
Preuve. (i) Fixons x E et posons
c = C /B : C
x
B.
Alors c contient les paves mesurables (si C = A B, C
x
= B ou C
x
= selon que x A
ou x / A). Par ailleurs il est facile de verier que c est une tribu, et donc c = /B.
(ii) Pour toute partie mesurable D de G,
f
1
x
(D) = y F : (x, y) f
1
(D) = (f
1
(D))
x
qui est dans B daprès (i).
5.2 Construction de la mesure-produit
Theorème 5.2.1 Soient et deux mesures -nies respectivement sur (E, /) et sur
(F, B).
58
(i) Il existe une unique mesure m sur (E F, /B) telle que
A /, B B, m(AB) = (A)(B)
(avec la convention usuelle 0 = 0). Cette mesure est -nie, et est notee m = .
(ii) Pour tout C /B,
(C) =
_
E
(C
x
) (dx) =
_
F
(C
y
) (dy).
Preuve. Unicite. Il existe une suite croissante A
n
/, resp. B
n
B, telle que (A
n
) < ,
resp. (B
n
) < , pour tout n, et E = A
n
, resp. F = B
n
. Alors, si C
n
= A
n
B
n
, on a
aussi
E F =
_
n
C
n
.
Soient m et m
deux mesures sur / B veriant la propriete enoncee en (i) du theorème.

Alors,
m et m
concident sur la classe des paves mesurables, qui est stable par intersection nie
et engendre la tribu /B;
pour tout n, m(C
n
) = (A
n
)(B
n
) = m
(C
n
) < .
Daprès une consequence du lemme de classe monotone vue dans le Chapitre 1, cela sut
pour dire que m = m
.
Existence. On pose pour tout C /B,
m(C) =
_
E
(C
x
) (dx). (5.1)
Remarquons que (C
x
) est bien denie pour tout x E daprès le theorème precedent. Pour
verier que la formule (5.1) a bien un sens il faut aussi montrer que lapplication x (C
x
)
est /-mesurable.
Supposons dabord nie et posons
( = C /B : x (C
x
) est /-mesurable.
Alors
( contient les paves mesurables : si C = AB, (C
x
) = 1
A
(x)(B).
( est une classe monotone : si C C
, on a ((CC
)
x
) = (C
x
) (C
x
) (parce que
est nie !) et si C
n
est une suite croissante, ((C
n
)
x
) = lim ((C
n
)
x
).
Daprès le lemme de classe monotone, on a donc ( = / B, ce qui donne la mesurabilite
recherchee pour lapplication x (C
x
).
Dans le cas general o` u nest pas nie mais seulement -nie, on choisit la suite (B
n
)
comme ci-dessus et on peut remplacer par
n
(B) = (B B
n
), pour obtenir que x
(C
x
) = lim
n
(C
x
) est mesurable pour tout C /B.
59
Il est ensuite facile de montrer que m est une mesure sur /B : si (C
n
) est une famille
de parties disjointes dans /B, les (C
n
)
x
sont aussi disjoints pour tout x E, et donc
m
_
_
n
C
n
_
=
_
E
_
_
n
(C
n
)
x
_
(dx)
=
_
E
n
((C
n
)
x
) (dx)
=
n
_
E
((C
n
)
x
) (dx)
=
n
m(C
n
)
linterversion entre somme et integrale etant justiee par un resultat du Chapitre 2.
Il est immediat que m verie la propriete
m(AB) = (A)(B).
Par ailleurs, si on denit m
par
m
(C) =
_
F
(C
y
) (dy),
les memes arguments montrent que m
est une mesure sur /B qui verie la meme propriete,

ce qui daprès lunicite entrane m = m
. On en deduit lassertion (ii) du theorème, ce qui

complète la preuve.
Remarques. (i) Lhypothèse de -nitude est essentielle au moins pour la partie (ii). En
eet, si on prend (E, /) = (F, B) = (R, B(R)), = et la mesure de comptage, on
remarque que pour C = (x, x) : x R,
=
_
(C
x
) (dx) ,=
_
(C
y
) (dy) = 0.
(ii) Si on a maintenant n mesures -nies
1
, . . . ,
n
, on peut denir le produit
1

n
en posant
1

n
=
1
(
2
(
n
)).
Lordre des parenthèses na en fait pas dimportance car la mesure
1

n
est caracterisee
par ses valeurs sur les paves
1

n
(A
1
A
n
) =
1
(A
1
) . . .
n
(A
n
).
Exemple. Si (E, /) = (F, B) = (R, B(R)), et = = , on verie facilement que est
la mesure de Lebesgue sur R
2
(observer que la mesure de Lebesgue sur R
2
est caracterisee
par ses valeurs sur les rectangles [a, b] [c, d], toujours daprès le lemme de classe monotone).
Ceci se generalise en dimension superieure et montre quil aurait su de construire la mesure
de Lebesgue en dimension un.
60
5.3 Le theorème de Fubini
On commence par donner lenonce qui concerne les fonctions positives. Comme dans le
paragraphe precedent, on considère deux espaces mesurables (E, /) et (F, B), et le produit
E F est muni de la tribu /B.
Theorème 5.3.1 (Fubini-Tonnelli) Soient et deux mesures -nies respectivement
sur (E, /) et sur (F, B), et soit f : E F [0, ] une fonction mesurable.
(i) Les fonctions
x
_
f(x, y) (dy)
y
_
f(x, y) (dx)
sont respectivement /-mesurable et B-mesurable.
(ii) On a
_
EF
f d =
_
E
_
_
F
f(x, y) (dy)
_
(dx) =
_
F
_
_
E
f(x, y) (dx)
_
(dy).
Preuve. (i) Soit C /B. Si f = 1
C
, on a dejà vu que la fonction x
_
f(x, y)(dy) =
(C
x
) est /-mesurable, et de meme y
_
f(x, y)(dx) = (C
y
) est B-mesurable. Par
linearite, on en deduit que le resultat de (i) est vrai pour toute fonction etagee positive.
Enn, si f est quelconque, on peut ecrire f = lim f
n
, o` u les fonctions f
n
sont etagees
positives, et on utilise le fait qualors
_
f(x, y) (dy) = lim
_
f
n
(x, y) (dy)
et de meme pour
_
f(x, y) (dx).
(ii) Pour f = 1
C
, legalite annoncee est
(C) =
_
E
(C
x
) (dx) =
_
F
(C
x
) (dy)
et a dejà ete vue dans le paragraphe precedent. On en deduit par linearite le resultat voulu
quand f est etagee positive, puis par limite croissante pour f quelconque : on remarque par
exemple que si f = lim f
n
,
_
E
_
_
F
f(x, y) (dy)
_
(dx) = lim
_
E
_
_
F
f
n
(x, y) (dy)
_
(dx)
par une double application du theorème de convergence monotone.
Nous passons maintenant au cas de fonctions de signe quelconque. On conserve les
hypothèses du theorème precedent.
61
Theorème 5.3.2 (Fubini-Lebesgue) Soit f /
1
(E F, / B, ) (ou f /
1
C
(E
F, /B, )). Alors
(a) (dx) p.p. la fonction y f(x, y) est dans /
1
(F, B, ),
(dy) p.p. la fonction x f(x, y) est dans /
1
(E, /, ).
(b) Les fonctions x
_
f(x, y) (dy) et y
_
f(x, y) (dx), bien denies sauf sur un
ensemble mesurable de mesure nulle, sont respectivement dans /
1
(E, /, ) et /
1
(F, B, ).
(c) On a
_
EF
f d =
_
E
_
_
F
f(x, y) (dy)
_
(dx) =
_
F
_
_
E
f(x, y) (dx)
_
(dy).
Preuve. (a) En appliquant le theorème precedent à [f[,
_
E
_
_
F
[f(x, y)[ (dy)
_
(dx) =
_
[f[ d < .
cela entrane que (dx) p.p.
_
F
[f(x, y)[ (dy) <
et donc la fonction y f(x, y), dont on sait dejà quelle est mesurable, est dans /
1
(F, B, ).
(b) En ecrivant f = f
+
f
et en utilisant le theorème precedent, on voit que

x
_
f(x, y) (dy) =
_
f
+
(x, y) (dy)
_
f
(x, y) (dy)
est mesurable (pour etre precis, il faudrait donner une valeur arbitraire, par exemple 0, à
lintegrale
_
f(x, y) (dy) pour les x tels que
_
[f(x, y)[ (dy) = , qui forment un ensemble
de mesure nulle). De plus,
_
E
_
F
f(x, y) (dy)
(dx)
_
E
_
_
F
[f(x, y)[ (dy)
_
(dx) =
_
[f[ d < .
(c) Il sut de faire la dierence terme à terme dans les egalites
_
E
_
_
F
f
+
(x, y) (dy)
_
(dx) =
_
EF
f
+
d
_
E
_
_
F
f
(x, y) (dy)
_
(dx) =
_
EF
f
d .
Remarque. Lhypothèse f /
1
() est cruciale. Il peut arriver en eet que les proprietes
(a) et (b) soient toutes les deux satisfaites, et donc que les quantites
_
E
_
_
F
f(x, y) (dy)
_
(dx) et
_
F
_
_
E
f(x, y) (dx)
_
(dy)
62
soient bien denies, sans que ces quantites soient egales. Pour donner un exemple, con-
siderons la fonction
f(x, y) = 2e
2xy
e
xy
denie pour (x, y) ]0, []0, 1]. Alors, pour tout y ]0, 1],
_
]0,[
f(x, y) dx = 2
_

0
e
2xy
dx
_

0
e
xy
dx = 0
et pour tout x > 0,
_
]0,1]
f(x, y)dy = 2
_
1
0
e
2xy
dy
_
1
0
e
xy
dy =
e
x
e
2x
x
.
On voit alors que
_
]0,1]
_
_
]0,[
f(x, y) dx
_
dy = 0
alors que
_
]0,[
_
_
]0,1]
f(x, y)dy
_
dx =
_

0
e
x
e
2x
x
dx > 0.
Evidemment dans cet exemple on a
_
]0,[]0,1[
[f(x, y)[ dxdy = .
En pratique, il faut se souvenir que lapplication du theorème de Fubini est toujours
justiee pour des fonctions mesurables positives, et que dans le cas de fonctions de signe
quelconque, il faut sassurer que
_
[f[ d <
ce qui se fait le plus souvent en appliquant le cas des fonctions positives.
Notation. Lorsque lapplication du theorème de Fubini est justiee (et seulement dans ce
cas), on omet souvent les parenthèses et on ecrit
_
f d =
_
E
_
F
f(x, y) (dx)(dy).
5.4 Applications
5.4.1 Integration par parties
Soient f et g deux fonctions mesurables de R dans R localement integrables (i.e. integrables
sur tout compact pour la mesure de Lebesgue). On pose pour x R,
F(x) =
_
x
0
f(t) dt
_
=
_ _
[0,x]
f(t) dt si x 0
_
[x,0]
f(t) dt si x < 0
_
G(x) =
_
x
0
g(t) dt.
63
Alors, pour tous a < b,
F(b)G(b) = F(a)G(a) +
_
b
a
f(t)G(t)dt +
_
b
a
F(t)g(t)dt.
On voit facilement que cette egalite equivaut à
_
b
a
f(t)(G(t) G(a)) dt =
_
b
a
(F(b) F(t))g(t) dt.
Pour etablir cette dernière egalite, on ecrit
_
b
a
f(t)(G(t) G(a)) dt =
_
b
a
f(t)
_
_
t
a
g(s)ds
_
dt
=
_
b
a
_
_
b
a
1
{st}
f(t)g(s)ds
_
dt
=
_
b
a
_
_
b
a
1
{st}
f(t)g(s)dt
_
ds
=
_
b
a
g(s)
_
_
b
s
f(t)dt
_
ds
=
_
b
a
g(s)(F(b) F(s))ds.
Dans la troisième egalite on a applique le theorème de Fubini-Lebesgue à la fonction
(s, t) = 1
{st}
f(t)g(s)
en observant que, grace au theorème de Fubini-Tonnelli,
_
[a,b]
2
[(s, t)[dsdt
_
[a,b]
2
[f(t)[[g(s)[dsdt =
_
_
[a,b]
[f(t)[dt
__
_
[a,b]
[g(s)[ds
_
< .
5.4.2 Convolution
Si f et g sont deux fonctions mesurables sur R
d
, la convolution
f g(x) =
_
R
d
f(x y)g(y) dy
est bien denie à condition que
_
R
d
[f(x y)g(y)[ dy < .
Dans ce cas, linvariance de la mesure de Lebesgue par translation et par la symetrie y y
entrane aussitot que g f(x) est bien denie et g f(x) = f g(x).
64
Proposition 5.4.1 Soient f, g L
1
(R
d
, B(R
d
), ). Alors, pour presque tout x R
d
, la
convolution f g(x) est bien denie. De plus, f g L
1
() et |f g|
1
|f|
1
|g|
1
.
Remarque. Cela a bien un sens de dire quune fonction denie presque partout est dans
L
1
() : on peut choisir de manière arbitraire le prolongement sur lensemble o` u la fonction
nest pas denie.
Preuve. Daprès le theorème de Fubini-Tonnelli,
_
R
d
_
_
R
d
[f(x t)[[g(t)[dt
_
dx =
_
R
d
_
_
R
d
[f(x t)[[g(t)[dx
_
dt
=
_
R
d
[g(t)[
_
_
R
d
[f(x t)[dx
_
dt
=
_
_
R
d
[g(t)[dt
__
_
R
d
[f(x)[dx
_
<
ce qui montre que
_
R
d
[f(x t)[[g(t)[dt < dx p.p.
et donne la première assertion. Pour la seconde, on utilise encore le calcul precedent pour
ecrire
_
R
d
[f g(x)[dx
_
R
d
_
_
R
d
[f(x t)[[g(t)[dt
_
dx = |f|
1
|g|
1
< .
La proposition suivante donne un autre cadre dans lequel on peut considerer la convolu-
tion de f et g.
Proposition 5.4.2 Soit p [1, [, et soit q ]1, ] tels que
1
p
+
1
q
= 1. Soient f
L
p
((R
d
, B(R
d
), ) et g L
q
(R
d
, B(R
d
), ). Alors, pour tout x R
d
, la convolution f g(x)
est bien denie et f g est uniformement continue et bornee sur R
d
.
Preuve. Linegalite de Holder donne
_
R
d
[f(x y)g(y)[ dy
_
_
[f(x y)[
p
dy
_
1/p
|g|
q
= |f|
p
|g|
q
.
Cela donne la première assertion et montre aussi que f g est bornee par |f|
p
|g|
q
. Pour
luniforme continuite, on utilise le lemme suivant.
Lemme 5.4.3 Notons
x
(y) = y x. Pour f L
p
(R
d
, B(R
d
), ), p [1, [, lapplication
x f
x
est uniformement continue de R
d
dans L
p
(R
d
, B(R
d
), ).
65
Si on admet le lemme, il est facile de completer la preuve de la proposition : pour
x, x
R
d
,
[f g(x) f g(x
)[
_
[f(x y) f(x
y)[[g(y)[ dy
|g|
q
_
_
[f(x y) f(x
y)[
p
dy
_
1/p
= |g|
q
|f
x
f
x
|
p
et on utilise le lemme pour dire que |f
x
f
x
|
p
tend vers 0 quand x x
tend vers
0.
Preuve du lemme. Supposons dabord f C
c
(R
d
). Alors,
_
[f
x
f
y
[
p
d =
_
[f(z x) f(z y)[
p
dz =
_
[f(z) f(z (y x))[
p
dz
qui tend vers 0 quand y x 0 par convergence dominee. Dans le cas general, on peut
trouver une suite f
n
C
c
(R
d
) qui converge vers f dans L
p
() (cf Chapitre 4). Alors
|f
x
f
y
|
p
|f
x
f
n

x
|
p
+|f
n

x
f
n

y
|
p
+|f
n

y
f
y
|
p
= 2|f f
n
|
p
+|f
n

x
f
n

y
|
p
.
Pour > 0, on choisit dabord n tel que |f f
n
|
p
< /4, puis > 0 tel que |f
n

x
f
n
y
|
p
/2 si [xy[ < . Les inegalites precedentes montrent alors que |f
x
f
y
|
p

si [x y[ < .
Approximations de la mesure de Dirac. On dit quune suite
n
dans C
c
(R
d
) est une
approximation de
0
si :
Il existe un compact K tel que supp(
n
) K pour tout n.
Pour tout n,
n
0 et
_
R
d
n
(x) dx = 1.
Pour tout > 0,
lim
n
_
{|x|>}
n
(x) dx = 0.
Il est facile de construire des approximations de
0
. Si : R
d
R
+
est une fonction
continue à support compact telle que
_
(x)dx = 1, il sut de poser
n
(x) = n
d
(nx) , x R
d
.
On peut meme sarranger pour que les fonctions
n
soient de classe C
: prendre par
exemple
(x) = c exp
_
1
1 [x[
2
_
1
{|x|<1}
,
la constante c > 0 etant choisie pour que la condition
_
(x)dx = 1 soit satisfaite.
66
Proposition 5.4.4 Soit (
n
) une approximation de
0
.
(i) Si f : R
d
R est continue, on a
n
f f quand n , uniformement sur tout
compact.
(ii) Si f L
p
(R
d
, B(R
d
), ), avec p [1, [, on a
n
f f dans L
p
.
Preuve. La partie (i) est facile à etablir, en ecrivant
n
f(x) =
_
|y|
f(x y)
n
(y)dy +
_
|y|>
f(x y)
n
(y)dy
et en utilisant la continuite de f. Pour la partie (ii), on observe que si f, g L
p
(R
d
, ),
_
[
n
f(x)
n
g(x)[
p
dx
_
_
_

n
(x y)[f(y) g(y)[dy
_
p
dx
_
_
_

n
(x y)[f(y) g(y)[
p
dy
_
dx
=
_
[f(y) g(y)[
p
_
_

n
(x y)dx
_
dy
=
_
[f(y) g(y)[
p
dy
o` u la deuxième inegalite est une consequence de linegalite de Jensen (observer que
n
(x
y)dy est une mesure de probabilite). Cette majoration permet de se ramener au cas o` u
f C
c
(R
d
), et alors le resultat decoule de (i) et du theorème de convergence dominee.
Application. En dimension d = 1, on peut prendre
n
(x) = c
n
(1 x
2
)
n
1
{|x|1}
o` u la constante c
n
est choisie pour que
_

n
(x)dx = 1. Soit alors [a, b] un intervalle contenu
dans ]0, 1[, et soit f une fonction continue sur [a, b]. On peut facilement prolonger f en une
fonction continue sur R et à support compact contenu dans [0, 1] (prendre par exemple f
ane sur les intervalles [0, a] et [b, 1]. Alors,
n
f(x) = c
n
_
(1 (x y)
2
)
n
1
{|xy|1}
f(y)dy f(x)
uniformement sur [a, b]. Pour x [a, b], on peut clairement enlever lindicatrice 1
{|xy|1}
, et
on voit que f est limite uniforme sur [a, b] de polynomes (theorème de Stone-Weierstrass).
5.4.3 Calcul du volume de la boule unite
On note ici B
d
la boule unite fermee de R
d
, et
d
d
. En vue de
calculer
d
=
d
(B
d
) on observe dabord que pour tout a > 0, limage de
d
par lapplication
x ax est a
d
d
: pour tout A B(R
d
),
d
(a
1
A) = a
d
d
(A)
67
(il sut de le verier lorsque A est un pave, et alors cest evident). En particulier,
d
(aB
d
) = a
d
d
(B
d
).
Ensuite on ecrit en utilisant le theorème de Fubini, si d 2,
d
=
_
R
d
1
B
d
(x)dx =
_
R
d
1
{x
2
1
++x
2
d
1}
dx
1
. . . dx
d
=
_
1
1
_
_
R
d1
1
{x
2
1
++x
2
d1
1x
2
d
}
dx
1
. . . dx
d1
_
dx
d
=
_
1
1
d1
_
_
1 x
2
d
B
d1
_
dx
d
=
d1
_
1
1
(1 x
2
d
)
(d1)/2
dx
d
=
d1
I
d1
à condition de poser pour tout entier n 0,
I
n
=
_
1
1
(1 x
2
)
n/2
dx.
Une integration par parties simple montre que pour n 2,
I
n
=
n
n + 1
I
n2
.
En utilisant les cas particuliers I
0
= 2, I
1
= /2, on en deduit par recurrence que pour tout
d 2,
I
d1
I
d2
=
2
d
.
En consequence, pour d 3,
d
= I
d1
I
d2
d2
=
2
d

d2
.
A partir des cas particuliers
1
= 2,
2
=
1
I
1
= , on en deduit
2k
=

k
k!
,
2k+1
=

k
(k +
1
2
)(k
1
2
)
3
2

1
2
ce quon peut regrouper dans la formule
d
=

d/2
(
d
2
+ 1)
.
68
Chapitre 6
Mesures signees
A la dierence des chapitres precedents, on considère ici des mesures signees, pouvant prendre
aussi bien des valeurs negatives que des valeurs positives. Le resultat principal de ce chapitre
est la decomposition de Jordan, qui fournit une ecriture minimale dune telle mesure signee
comme la dierence de deux mesures positives portees par des ensembles mesurables disjoints.
A titre dapplication, on etablit un theorème important danalyse fonctionnelle, qui arme
que pour deux exposants p et q conjugues (
1
p
+
1
q
= 1) lespace L
q
est le dual topologique de
L
p
.
6.1 Denition et variation totale
Denition 6.1.1 Soit (E, /) un espace mesurable. Une mesure signee sur (E, /) est une
application : / R telle que () = 0 et que pour toute famille (A
n
)
nN
delements
disjoints de /, la serie
nN
(A
n
)
converge absolument, et
_
_
nN
A
n
_
=
nN
(A
n
).
Theorème 6.1.1 Soit une mesure signee sur (E, /). Pour tout A /, posons
[[(A) = sup
_
nN
[(A
n
)[ : A =
_
nN
A
n
, A
n
disjoints
_
o` u le supremum porte sur toutes les ecritures de A comme reunion dune famille denombrable
(A
n
)
nN
de parties mesurables disjointes. Alors [[ est une mesure positive nie sur (E, /),
et pour tout A /, [(A)[ [[(A).
Preuve. On montre dabord que [[ est une mesure positive. Soit (B
i
)
iN
une famille de
parties mesurables disjointes, et B =
iN
B
i
. Par denition, si t
i
[0, [[(B
i
)[ (ou t
i
= 0
69
dans le cas [[(B
i
) = 0), on peut trouver une partition
1
mesurable B
i
=
nN
A
n,i
, de fa con
que
nN
[(A
n,i
)[ t
i
.
Alors (A
n,i
)
n,iN
est une partition denombrable de B, et donc
[[(B)
iN
nN
[(A
n,i
[
iN
t
i
.
Puisque les t
i
peuvent etre choisis arbitrairement proches des [[(B
i
), il en decoule que
[[(B)
iN
[[(B
i
).
Pour obtenir linegalite inverse, soit (A
n
)
nN
une partition de B. Alors
nN
[(A
n
)[ =
nN
[
iN
(A
n
B
i
)[
nN
iN
[(A
n
B
i
)[
=
iN
nN
[(A
n
B
i
)[
iN
[[(B
i
),
la dernière inegalite decoulant du fait que les A
n
B
i
, n N forment une partition de B
i
,
et de la denition de [[(B
i
). En prenant le supremum sur les partitions (A
n
)
nN
de B, on
trouve
[[(B)
iN
[[(B
i
)
ce qui achève de montrer que [[ est une mesure positive.
Comme linegalite [(A)[ [[(A) est immediate, il reste à etablir que [[ est une mesure
nie.
Lemme 6.1.2 Si A / est tel que [[(A) = , alors il existe deux parties mesurables
disjointes B et C telles que A = B C et [(B)[ > 1, [[(C) = .
Preuve du lemme. Puisque [[(A) = , on peut trouver une partition mesurable A =
nN
A
n
de A de fa con que
nN
[(A
n
)[ > 2(1 +[(A)[).
1
On fait un abus de langage puisque dans la denition usuelle dune partition les elements de la partition
sont tous non vides, ce qui nest pas forcement le cas ici.
70
On a alors par exemple
nN
(A
n
)
+
> 1 +[(A)[
(le cas symetrique
nN
(A
n
)
> 1 +[(A)[ se traite de la meme manière). On pose alors

B =
_
{n:(An)>0}
A
n
de fa con que
(B) =
nN
(A
n
)
+
> 1 +[(A)[.
De plus, si C = AB,
[(C)[ = [(A) (B)[ [(B)[ [(A)[ > 1.
Par ailleurs, puisque A = B C et que [[ est une mesure on doit avoir [[(B) = ou
[(C)[ = , ce qui donne le resultat du lemme quitte à echanger les r oles de B et C si
necessaire.
Nous pouvons maintenant completer la preuve du theorème. On suppose que [[(E) =
. Alors, on peut trouver des parties mesurables disjointes B
0
et C
0
avec [(B
0
)[ > 1 et
[[(C
0
) = . En appliquant de meme le lemme à C
0
on trouve B
1
et C
1
disjoints tels que
C
0
= B
1
C
1
, [(B
1
)[ > 1 et [[(C
1
) = . Par recurrence, on construit ainsi une suite de
parties mesurables disjointes (B
n
)
nN
, telle que [(B
n
)[ > 1 pour tout n. Cela contredit le
fait que la serie
nN
(B
n
)
doit converger absolument, daprès la denition dune mesure signee. On conclut que
[[(E) < .
Exemple. Soit une mesure positive sur (E, /), et soit g L
1
(E, /, ). Alors la formule
(A) =
_
A
g d
denit une mesure signee. En eet, si A est la reunion disjointe dune suite (A
n
) de parties
mesurables, legalite
(A) =
nN
(A
n
)
est obtenue en observant que
g 1
A
= lim
k
g 1
nk
An
dans L
1
,
daprès le theorème de convergence dominee. Nous verrons plus loin que dans ce cas [[ =
[g[ .
71
6.2 La decomposition de Jordan
Soit une mesure signee sur (E, /). Alors, on verie immediatement que les formules
+
=
1
2
( +[[),
=
1
2
([[ ),
denissent deux mesures positives nies sur (E, /). De plus, =
+
et [[ =
+
+
.
Theorème 6.2.1 Soit une mesure signee sur (E, /). Il existe une partie mesurable B de
E, unique à un ensemble de [[-mesure nulle près, telle que
+
= 1
B
[[ et
= 1
B
c [[
(de manière equivalente,
+
, resp.
, est la restriction de [[ à B, resp. à B

c
). De plus,
on a pour tout A /,
+
(A) =
+
(A B) = (A B) ,
(A) =
(A B
c
) = (A B
c
).
En consequence,
(A) =
+
(A B)
(A B
c
),
[[(A) =
+
(A B) +
(A B
c
).
Preuve. On verie immediatement que
+
[[ et
[[, et donc les mesures

+
et
sont absolument continues par rapport à [[. Daprès le theorème de Radon-Nikodym,

il existe deux fonctions mesurables positives (nies) h
1
et h
2
telles que
+
= h
1
[[ et
= h
2
[[. Puisque
+
[[ et
[[, on sait que 0 h

1
1 et 0 h
2
1.
Si h = h
1
h
2
, on a alors, pour tout A /,
(A) =
+
(A)
(A) =
_
A
(h
1
h
2
) d[[.
Il est facile de deduire de cette egalite que [h
1
h
2
[ = 1, [[ p.p. En eet, soit r < 1, et soit
(A
n
)
nN
une partition mesurable de E
r
= x E : [h
1
(x) h
2
(x)[ r. Alors
nN
[(A
n
)[ =
nN
_
An
(h
1
h
2
)d[[
nN
_
An
[h
1
h
2
[d[[
nN
r [[(A
n
)
= r [[(E
r
).
De la denition de [[, il decoule alors que [[(E
r
) r [[(E
r
), et donc [[(E
r
) = 0. Comme
cela est vrai pour tout r < 1, on a [h
1
h
2
[ 1 p.p. et linegalite inverse est triviale.
72
Les proprietes 0 h
1
1, 0 h
2
1 et [h
1
h
2
[ = 1 [[ p.p. entranent que
[[(dx) p.p. ou bien h
1
(x) = 1 et h
2
(x) = 0,
ou bien h
1
(x) = 0 et h
1
(x) = 0.
On pose alors B = x E : h
1
(x) = 1. Daprès ce qui precède on a h
1
= 1
B
et
h
2
= 1
B
c, [[ p.p. Cela donne les egalites
+
= 1
B
[[ et
= 1
B
c [[. Lunicite de B est
une consequence de lunicite de la densite dans le theorème de Radon-Nikodym. Les autres
proprietes de lenonce sont ensuite facilement etablies.
Remarque. Si =
1

2
est une autre decomposition de comme dierence de deux
mesures positives nies, on a necessairement
1

+
et
2

. En eet,
1
(A)
1
(A B) (A B) =
+
(A B) =
+
(A).
Integration par rapport à une mesure signee.
Si f /
1
(E, /, [[), on denit
_
f d :=
_
fd
+
_
fd
=
_
f(1
B
1
B
c )d[[.
Il est alors immediat que
_
f d

_
[f[d.
Proposition 6.2.2 Soit une mesure positive sur (E, /), soit g /
1
(E, /, ), et soit la
mesure signee denie par
(A) =
_
A
gd.
Alors [[ = [g[ . De plus, pour toute fonction f /
1
(E, /, [[), on a fg /
1
(E, /, )),
et _
f d =
_
fg d.
Preuve. Avec les notations du theorème precedent, on a pour tout A / :
[[(A) = (A B) (A B
c
) =
_
AB
gd
_
AB
gd =
_
A
gh d,
en posant h = 1
B
1
B
c. En prenant A = x E : g(x)h(x) < 0, on deduit facilement de
cette egalite que gh 0, p.p. Donc gh = [gh[ = [g[, p.p., do` u
[[(A) =
_
A
[g[d.
Ensuite, on a
_
[f[d[[ =
_
[f[ [g[d
73
et donc f /
1
([[) fg /
1
(). Legalite
_
fd =
_
fg d
est vraie par denition si f est etagee. Dans le cas, general, on utilise le fait quon peut
ecrire f = limf
n
, o` u les fonctions f
n
sont etagees et dominees en valeur absolue par [f[. Le
theorème de convergence dominee applique à
+
,
et donne le resultat voulu.

Le theorème de Radon-Nikodym pour les mesures signees.
Soit une mesure positive, et soit une mesure signee. On dit que est absolument
continue par rapport à (notation : ) si
A /, (A) = 0 (A) = 0.
Theorème 6.2.3 Soit une mesure signee et soit une mesure positive -nie. Les trois
proprietes suivantes sont equivalentes :
(i) .
(ii) Pour tout > 0, il existe > 0 tel que
A /, (A) [[(A) .
(iii) Il existe g /
1
(E, /, ) telle que :
A /, (A) =
_
A
gd.
Preuve. (ii)(i) est evident. Montrons (i)(iii). Si , on aussi
+
et
, et
donc le theorème de Radon-Nikodym pour les mesures positives permet decrire
+
= g
1

et
= g
2
avec g
1
, g
2
0,
_
g
1
d =
+
(E) < et
_
g
2
d =
(E) < . On obtient

ainsi (iii) avec g = g
1
g
2
.
Il reste à montrer (iii)(ii). Daprès la proposition precedente, on a [[ = [g[ . De
plus, le theorème de convergence dominee entrane que
lim
n
_
{|g|n}
[g[ d = 0.
Donc, si > 0 est xe, on peut choisir N assez grand de fa con que
_
{|g|N}
[g[ d <

2
.
Alors, en prenant = /(2N), on a, pour tout A / tel que (A) < ,
[[(A) =
_
A
[g[d
_
{|g|N}
[g[ d +
_
A{|g|<N}
[g[ d

2
+ N

2N
= .
74
6.3 La dualite L
p
L
q
Soit une mesure positive sur (E, /). Soit p [1, ] et soit q lexposant conjugue de p.
Alors, si on xe g L
q
(E, /, ), la formule
g
(f) =
_
fg d
denit une forme lineaire continue sur L
p
(E, /, ). En eet, linegalite de Holder montre
dune part que
g
(f) est bien denie, dautre part que
[
g
(f)[ C
g
|f|
p
avec C
g
= |g|
q
. On voit aussi que la norme operateur de
g
, denie par
|
g
| = sup
fp1
[
g
(f)[,
verie |
g
| |g|
q
.
La question est alors de savoir si lon obtient ainsi toutes les formes lineaires continues
sur L
p
(E, /, ) (dans le cas p = q = 2, la theorie des espaces de Hilbert nous dit dejà que la
reponse est oui). Le theorème suivant donne la reponse lorsque p < .
Theorème 6.3.1 Soit une mesure -nie sur (E, /), soit p [1, [ et soit q lexposant
conjugue de p. Alors, si est une forme lineaire continue sur L
p
(E, /, ), il existe une
unique g L
q
(E, /, ) tel que, pour toute f L
p
(E, /, ),
(f) =
_
fg d.
De plus la norme operateur de est
|| = |g|
q
.
Aves les notations precedant le theorème, on voit que lapplication g
g
permet
didentier L
q
() au dual topologique de L
p
() (cest à-dire à lespace vectoriel des formes
lineaires continues sur L
p
(), muni de la norme operateur). Nous verrons en remarque que
cette propriete ne subsiste pas dans le cas p = .
Preuve. Supposons dabord (E) < . Alors, pour tout A /, posons
(A) = (1
A
),
ce qui a bien un sens puisque 1
A
L
p
(). On commence par verier que est une mesure
signee sur (E, /). Soit (A
n
)
nN
une famille denombrable de parties mesurables disjointes.
Si A designe la reunion des A
n
, on a
1
A
= lim
k
nk
1
An
75
dans L
p
() (par convergence dominee, facilement justiee puisque la fonction 1 est dans
L
p
()). En utilisant la continuite de , on obtient ainsi
(A) = lim
k
nk
1
An
_
= lim
k
nk
(A
n
).
La convergence absolue de la serie
(A
n
) est une consequence : en notant A
n
= A
n
si
(A
n
) > 0 et A
n
= sinon, et A
la reunion des A
n
, on a
n
(A
n
)
+
=
n
(A
n
) = lim
k
nk
(A
n
) = (A
) < ,
et de meme pour les termes negatifs de la suite ((A
n
)). Une fois acquise la convergence
absolue de la serie, legalite (A) =
n
(A
n
) decoule de ce qui precède.
Si A / et (A) = 0, on a 1
A
= 0 dans L
p
(E, /, ) et donc (A) = (1
A
) = 0. Donc
et le theorème precedent montre quil existe une fonction g L
1
(E, /, ) telle que
A / , (1
A
) = (A) =
_
A
g d.
Legalite
(f) =
_
fg d
est vraie par linearite lorsque f est etagee, puis lorsque f est seulement mesurable bornee
puisquune telle fonction est limite uniforme (donc dans L
p
() parce que est nie) de
fonctions etagees.
Montrons maintenant que g L
q
().
Si p = 1, alors pour tout A /,
_
A
gd
= [(1
A
)[ || |1
A
|
1
= || (A)
ce qui entrane facilement que [g[ ||, p.p. (pour le voir considerer A = g >
|| + ou A = g < || ), et donc |g|
||.
Si p ]1, [, on pose E
n
= x E : [g(x)[ n, puis f
n
= 1
En
[g[
q1
signe(g). Comme f
n
est bornee, on a
_
En
[g[
q
d =
_
f
n
g d = (f
n
) || |f
n
|
p
= ||
_
_
En
[g[
q
d
_
1/p
,
do` u
_
En
[g[
q
d ||
q
.
En faisant tendre n vers , on trouve par convergence monotone que |g|
q
||.
76
Dans les deux cas, on a obtenu que g L
q
() et |g|
q
||. Vus comme fonctions de
f L
p
(), les deux membres de legalite
(f) =
_
fg d
sont des fonctions continues sur L
p
() qui concident lorsque f appartient au sous-ensemble
dense des fonctions mesurables bornees. Elles concident donc partout.
Par ailleurs, comme explique avant lenonce de theorème, linegalite de Holder entrane
que || |g|
q
, et comme linegalite inverse a ete obtenue ci-dessus, on a || = |g|
q
.
Enn, lapplication qui à g L
q
() associe la forme lineaire f
_
fg d est une
isometrie de L
q
() sur le dual topologique de L
p
() (i.e. lespace des formes lineaires contin-
ues sur L
p
()) et est donc necessairement injective. Cela donne lunicite de g dans lenonce
du theorème.
Il reste à traiter le cas (E) = . Dans ce cas, on peut ecrire E comme la reunion dune
famille denombrable disjointe (E
n
)
nN
de parties mesurables telles que (E
n
) < pour tout
n. Notons
n
n
. Alors lapplication f f1
En
induit une isometrie
de L
p
(
n
) sur un sous-espace de L
p
(). En rempla cant par
n
on peut donc appliquer la
première partie de la preuve à la forme lineaire continue
n
denie sur L
p
(
n
) par
n
(f) = (f1
En
).
Il existe donc une fonction g
n
L
q
(
n
) telle que, pour toute fonction f L
p
(
n
),
(f1
En
) =
_
fg
n
d
n
.
Quitte à remplacer g
n
par g
n
1
En
on peut supposer que g
n
= 0 sur E
c
n
, et reecrire le resultat
precedent sous la forme
(f1
En
) =
_
fg
n
d,
pour toute fonction f L
p
().
Si f L
p
(), on a
f = lim
k
nk
f 1
En
dans L
p
(),
ce qui entrane
(f) = lim
k
_
f
_
nk
g
n
_
d.
Par ailleurs, de linegalite
_
f
_
nk
g
n
_
d = (f
nk
1
En
) || |f|
p
on deduit grace aux memes arguments que dans le cas o` u (E) < que, pour tout entier
k 1,
|
nk
g
n
|
q
||.
77
Posons maintenant pour tout x E,
g(x) =
nN
g
n
(x)
(il y a eu plus un terme non nul dans la somme pour chaque x). Si q = , linegalite
precedente montre que |g|
||. Si q < , la meme inegalite donne

_
[g[
q
d =
nN
_
[g
n
[
q
d = lim
k
nk
_
[g
n
[
q
d ||
q
.
Dans les deux cas on a g L
q
(). Enn,
(f) = lim
k
_
f
_
nk
g
n
_
d =
_
fg d,
o` u dans la deuxième egalite lapplication du theorème de convergence dominee est justiee
par la majoration [
nk
g
n
[ [g[.
Legalite || = |g|
q
et lunicite de g sont maintenant obtenues par les memes arguments
que dans le cas o` u (E) < .
Remarque. Lorsque p = , le resultat du theorème est faux en general : il existe des
formes lineaires continues sur L
(E, /, ) qui ne peuvent pas se representer sous la forme

(f) =
_
fg d avec une fonction g L
1
(E, /, ). Considerons le cas de
, qui est lespace

des suites bornees a = (a
k
)
kN
de reels, muni de la norme |a|
= sup a
k
. Soit H le sous-
espace (ferme) de
deni par
H = a
: lim
k
a
k
existe,
et denissons : H R par
(a) = lim
k
a
k
.
Evidemment [(a)[ |a|
. Le theorème de Hahn-Banach permet alors de prolonger à

une forme lineaire sur
, de fa con que la propriete [(a)[ |a|
reste vraie pour tout

a
. Il est facile de voir quon ne peut pas representer sous la forme

(a) =
kN
a
k
b
k
avec un element b = (b
k
)
kN
de
1
. En eet, si tel etait le cas, en considerant pour tout
n N lelement a
(n)
de
deni par a
(n)
k
= 1
{k=n}
, on trouverait, pour tout n N,
b
n
= (a
(n)
) = 0,
ce qui est absurde.
78
6.4 Le theorème de representation de Riesz
Dans tout ce paragraphe, nous supposons que E est un espace metrique localement compact
separable. On note C
0
(E) lespace des fonctions continues sur E qui tendent vers 0 à linni :
f C
0
(E) si et seulement si f est continue et si pour tout > 0 il existe un compact K de
E tel que [f(x)[ < pour tout x EK. Lespace C
0
(E) est un espace de Banach pour la
norme
|f| = sup
xE
[f(x)[.
Si est une mesure signee sur (E, B(E)), lapplication
(f) =
_
E
fd , f C
0
(E),
denit une forme lineaire continue sur C
0
(E). De plus, cette forme lineaire est continue
puisque
[(f)[
_
E
[f[ d[[ [[(E) |f|.
Cette inegalite montre meme que || [[(E).
Theorème 6.4.1 Soit une forme lineaire continue sur C
0
(E). Il existe alors une unique
mesure signee sur (E, B(E)) telle que
f C
0
(E) , (f) =
_
E
f d.
Nous renvoyons au chapitre 6 de Rudin [7] pour une preuve qui traite en fait le cadre
complexe plus general.
Remarque. Lespace /(E) des mesures signees sur E est un espace vectoriel, et il est facile
de verier que lapplication [[(E) denit une norme sur cet espace vectoriel. De plus,
/(E) est complet pour cette norme. Le theorème precedent peut etre alors reformule en
disant que /(E) est le dual topologique de C
0
(E).
Lorsque E est compact, lespace C
0
(E) concide avec lespace C
b
(E) des fonctions con-
tinues bornees sur E, et donc /(E) est le dual de C
b
(E). Cette assertion devient fausse
lorsque E nest pas compact, par exemple lorsque E = R. Dans ce cas, il existe des formes
lineaires continues sur C
b
(E) qui ne se representent pas par des mesures signees (on peut en
construire en adaptant lexemple de la n de la partie precedente).
79
80
Chapitre 7
Formule de changement de variables
et complements
La formule de changement de variables identie limage par un dieomorphisme de la mesure
de Lebesgue sur un ouvert de R
d
. Après le theorème de Fubini, cest le deuxième outil
fondamental de calcul des integrales. Comme application particulièrement importante, on
donne ici la formule dintegration en coordonnees polaires dans R
d
, ce qui conduit aussi à
introduire la mesure de Lebesgue sur la sphère unite.
7.1 La formule de changement de variables
Nous commen cons par traiter le cas particulier important dune application ane.
Proposition 7.1.1 Soit b R
d
et soit M une matrice d d à coecients reels inversible.
Denissons f : R
d
R
d
par f(x) = Mx + b. Alors, pour tout borelien A de R
d
,
(f(A)) = [det(M)[ (A).
Remarque. Si M nest pas inversible, f(A) f(R
d
) est contenu dans un hyperplan, qui
est de mesure de Lebesgue nulle (exercice !).
Preuve. Remarquons dabord que f(A) = (f
1
)
1
(A) B(R
d
) si A B(R
d
). Grace à
linvariance par translation de la mesure de Lebesgue, on se ramène au cas b = 0. Dans ce
cas, on a pour tous a R
d
et A B(R
d
),
(f(a + A)) = (f(a) + f(A)) = (f(A)),
ce qui montre que la mesure A (f(A)) (mesure-image de par f
1
) est invariante par
translation. Donc il existe une constante c telle que, pour tout A B(R
d
),
(f(A)) = c (A).
Il reste à montrer que c = [det(M)[.
81
Si M est une matrice orthogonale, et B
d
designe la boule unite fermee de R
d
, on a
f(B
d
) = B
d
, do` u il decoule aussitot que c = 1 = [det(M)[ dans ce cas.
Si M est une matrice symetrique denie positive, alors on peut trouver une matrice or-
thogonale P telle que
t
PMP soit diagonale avec coecients diagonaux
i
> 0, i 1, . . . , d.
Alors,
f(P([0, 1]
d
)) = MPx : x [0, 1]
d
= Py : y
d
i=1
[0,
i
],
et donc, en utilisant le cas orthogonal,
c = c (P([0, 1]
d
)) = (f(P([0, 1]
d
))) =
_
Py : y
d
i=1
[0,
i
]
_
=
_
d
i=1
[0,
i
]
_
=
d
i=1
i
.
Dans ce cas on trouve encore c = [det(M)[.
Enn, dans le cas general, on remarque quon peut ecrire M = PS, o` u P est orthogonale
et S est symetrique denie positive (prendre S =
t
MM et P = MS
1
). En utilisant les
deux cas particuliers ci-dessus, on trouve aussitot :
c = [det(P)[ [det(S)[ = [det(M)[.
Soient U et D deux ouverts de R

d
. On dit quune application : U D est un
dieomorphisme de classe C
1
si est bijective et de classe C
1
sur U et si
1
est aussi de
classe C
1
sur D. On sait qualors la derivee
(u) est inversible, pour tout u U.

Theorème 7.1.2 Soit : U D un dieomorphisme de classe C
1
. Alors pour toute
fonction borelienne f : D R
+
,
_
D
f(x) dx =
_
U
f((u)) [J
(u)[ du ,
o` u J
(u) = det(
(u)) est le Jacobien de en u.

Preuve. Par les arguments habituels (passage à la limite croissant) on se ramène au cas o` u
f est etagee positive, puis au cas f = 1
A
, A etant un borelien de D. Dans ce cas, legalite
du theorème secrit :
(A) =
_
1
(A)
[J
(u)[ du.
Quitte à remplacer A par
1
(A), il sut de montrer que, pour tout borelien A de U,
((A)) =
_
A
[J
(u)[ du. (7.1)

(Remarquer que (A) = (
1
)
1
(A) est borelien.)
82
Lemme 7.1.3 Soit K un compact de U et soit > 0. Alors on peut choisir > 0 assez
petit de manière que, pour tout cube C de faces parallèles aux axes, de centre u
0
K et de
cote de longueur inferieure à ,
(1 )[J
(u
0
)[ (C) ((C)) (1 +)[J
(u
0
)[ (C).
Preuve du lemme. En utilisant la continuite de
, on voit quon peut choisir > 0 assez

petit pour que dune part <
1
d
dist(K, U
c
) et dautre part, pour tout u
0
K et tout u R
d
tel que [u u
0
[ < d,
[(u) (u
0
)
(u
0
) (u u
0
)[ [u u
0
[.
Notons f(v) = (u
0
) +
(u
0
) v pour v R
d
. On voit que, si [u u
0
[ < d,
(u) = f(u u
0
) + h(u, u
0
),
avec [h(u, u
0
)[ [u u
0
[. En prenant g(u, u
0
) =
(u
0
)
1
h(u, u
0
), on trouve que
(u) = f(u u
0
+ g(u, u
0
)),
o` u [g(u, u
0
)[ a[u u
0
[, avec a := sup|
(v)
1
|; v K < .
Soit maintenant C un cube centre en u
0
et de cote r . Il decoule de ce qui precède
que
(C) f((1 +da)
C),
o` u

C est le cube translate de C centre en 0. Grace à la proposition ci-dessus, il vient alors
((C)) (f((1 +da)
C)) = [det
(u
0
)[ ((1 +da)
C) = (1 +da)
d
[J
(u
0
)[ (C),
ce qui donne la majoration souhaitee. La preuve de la minoration est analogue : on montre
que pour une constante c
bien choisie, on a
1
(f((1 c
C)) C ,
do` u
f((1 c
C) (C)
et on conclut de la meme manière.
On revient à la preuve du theorème. Soit n 1 un entier. On appelle cube elementaire
dordre n tout cube de la forme
C =
d
j=1
]k
j
2
n
, (k
j
+ 1)2
n
] , k
j
Z.
On note c
n
lensemble des cubes elementaires dordre n.
Soit C
0
un cube elementaire dordre n
0
xe, tel que

C
0
U, et soit > 0. Fixons n n
0
assez grand pour que dune part la conclusion du lemme soit vraie pour K =

C
0
et = 2
n
,
et dautre part, pour tous u, v K tels que [u v[ d,
(1 )[J
(u)[ [J
(v)[ (1 +)[J
(u)[. (7.2)
83
Alors, en notant x
C
le centre dun cube C,
((C
0
)) =
CCn
CC
0
((C))
(1 +)
CCn
CC
0
[J
(x
C
)[ (C)
(1 +)
2
CCn
CC
0
_
C
[J
(u)[ du
= (1 +)
2
_
C
0
[J
(u)[ du.
On a utilise le lemme dans la première inegalite, et (7.2) dans la seconde. On obtient de
meme la minoration
((C
0
)) (1 )
2
_
C
0
[J
(u)[ du.
Comme etait arbitraire, on conclut que
((C
0
)) =
_
C
0
[J
(u)[ du.
On a donc obtenu (7.1) lorsque A est un cube elementaire dadherence contenue dans A.
Le cas general decoule maintenant darguments de classe monotone. Notons la mesure-
image de la mesure de Lebesgue sur D par
1
:
(A) = ((A))
pour tout borelien A de U. Soit aussi
(A) =
_
A
[J
(u)[ du.
On a obtenu que (C) = (C) pour tout cube elementaire C dadherence contenue dans U.
Dautre part, si U
n
designe la reunion (disjointe) des cubes elementaires dordre n dadherence
contenue dans U u : [u[ n, on a U
n
U quand n et (U
n
) = (U
n
) < pour
tout n. Comme la classe des cubes elementaires dadherence contenue dans U est stable par
intersection nie et engendre la tribu borelienne B(U), on peut appliquer le dernier corollaire
du Chapitre 1 pour conclure que = , ce qui etait le resultat recherche.
Application à lintegrale en coordonnees polaires.
On prend d = 2, U =]0, [] , [ et D = R
2
(x, 0); x 0. Alors lapplication
(r, ) = (r cos , r sin ) , (r, ) U
84
est un dieomorphisme de classe C
1
de U sur D. On calcule facilement
(r, ) =
_
cos r sin
sin r cos
_
et donc J
(r, ) = r.
Il decoule du theorème que, pour toute fonction borelienne f : R
2
R
+
,
_
D
f(x, y) dxdy =
_
U
f(r cos , r sin ) r drd =
_

0
_

f(r cos , r sin ) r drd.

Comme la demi-droite negative est de mesure de Lebesgue nulle dans R
2
, on a aussi
_
R
2
f(x, y) dxdy =
_

0
_

f(r cos , r sin ) r drd.

Exemple. Pour f(x, y) = exp(x
2
y
2
), le theorème de Fubini-Tonnelli donne dune part
_
R
2
e
x
2
y
2
dxdy =
_
_
+
e
x
2
dx
_
2
et dautre part
_

0
_

f(r cos , r sin ) r drd = 2

_

0
e
r
2
r dr = ,
ce qui donne la valeur
_
+
e
x
2
dx =
.
7.2 Mesure de Lebesgue sur la sphère unite
Dans cette partie on note
d
d
. Soit S
d1
la sphère unite de R
d
:
S
d1
= x R
d
: [x[ = 1.
Si A B(S
d1
), on note (A) le borelien de R
d
deni par
(A) = rx; r [0, 1] et x A.
Theorème 7.2.1 Pour tout A B(S
d1
), on pose
d
(A) = d
d
((A)).
Alors
d
est une mesure positive nie sur S
d1
, qui est invariante par les isometries vecto-
rielles. De plus, pour toute fonction borelienne f : R
d
R
+
,
_
R
d
f(x) dx =
_

0
_
S
d1
f(rz) r
d1
dr
d
(dz). (7.3)
Enn la masse totale de
d
(volume de la sphère unite) est
d
(S
d1
) =
2
d/2
(d/2)
.
85
Remarque. On peut aussi montrer que toute mesure nie sur S
d1
invariante par les
isometries vectorielles est proportionnelle à
d
.
Preuve. Il est immediat que
d
est une mesure positive nie sur S
d1
: on peut la voir
comme limage de la restriction de d
d
à la boule unite B
d
par lapplication x
x
|x|
. Le
fait que
d
soit invariante par les isometries vectorielles de R
d
(proposition de la partie 1)
entrane facilement que
d
lest aussi. En eet, si est une telle isometrie,
d
((
1
(A))) =
d
(
1
((A))) =
d
((A)).
La masse totale de
d
est
d
(S
d1
) = d
d
(B
d
) = d

d/2
(
d
2
+ 1)
=
2
d/2
(
d
2
)
.
Il reste à etablir (7.3). Il sut de traiter le cas f = 1
B
, o` u B est un borelien de R
d
0.
La formule
(B) =
_

0
_
S
d1
1
B
(rz) r
d1
dr
d
(dz)
denit une mesure sur R
d
0 et le problème est de montrer que =
d
. Considerons
dabord le cas o` u B est de la forme
B = x R
d
0; a < [x[ b et
x
[x[
A,
o` u A est un borelien de S
d1
, et 0 < a b. Alors,
(B) =
d
(A)
_
b
a
r
d1
dr =
b
d
a
d
d

d
(A).
Pour calculer
d
(B), notons =
a
b
]0, 1[, et pour tout entier n 0 posons
n
(A) = y = rx;
n+1
< r
n
et x A.
Alors,
d
(
n
(A)) =
nd
d
(
0
(A)) et par ailleurs
d
((A)) =
n=0
d
(
n
(A)).
Il en decoule aussitot que
d
(
0
(A)) = (1
d
)
d
((A)) =
1
d
d

d
(A),
et puisque B = b
0
(A),
d
(B) = b
d
d
(
0
(A)) =
b
d
a
d
d

d
(A) = (B).
86
Finalement, la classe des ensembles B de la forme ci-dessus est stable par intersections
nies, et on voit facilement quelle engendre la tribu borelienne sur R
d
0. Les arguments
de classe monotone habituels montrent alors que =
d
.
Si f : R
d
R
+
est une fonction radiale, au sens o` u f(x) = f([x[), le theorème montre
que
_
R
d
f(x) dx = c
d
_

0
f(r) r
d1
dr,
avec c
d
=
d
(S
d1
).
87
88
Partie II
Probabilites
89
Chapitre 8
Fondements de la theorie des
probabilites
Ce chapitre introduit les notions fondamentales de la theorie des probabilites : variables
aleatoires, esperance, loi, moments de variables aleatoires, fonctions caracteristiques, etc.
Puisque un espace de probabilite nest rien dautre quun espace mesurable muni dune
mesure de masse totale 1, beaucoup de ces notions correspondent à ce qui a dejà ete vu dans
le cadre de la theorie de lintegration. Par exemple une variable aleatoire nest rien dautre
quune fonction mesurable, et la notion desperance concide avec lintegrale. Cependant, le
point de vue de la theorie des probabilites, qui est explique ci-dessous, est bien dierent,
et une diculte importante est de comprendre ce point de vue. Ainsi, la notion de loi, qui
est un cas particulier de la notion de mesure-image, devient-elle maintenant fondamentale
car elle permet devaluer la probabilite quune variable aleatoire tombe dans un ensemble
donne.
8.1 Denitions generales
8.1.1 Espaces de probabilite
Soit (, /) un espace mesurable, et soit P une mesure de probabilite sur (, /). On dit
alors que (, /) est un espace de probabilite.
Un espace de probabilite est donc un cas particulier despace mesure, pour lequel la masse
totale de la mesure est egale à 1. En fait, le point de vue dière de la theorie de lintegration :
dans le cadre de la theorie des probabilites, on cherche à fournir un modèle mathematique
pour une experience aleatoire.
represente lensemble de toutes les eventualites possibles, toutes les determinations du
hasard dans lexperience consideree.
/ est lensemble des evenements, qui sont les parties de dont on peut evaluer la
probabilite. Il faut voir un evenement A / comme un sous-ensemble de contenant
toutes les eventualites pour lesquelles une certaine propriete est veriee.
91
Pour A /, P(A) represente la probabilite doccurrence de levenement A. Dans les
premiers traites de theorie des probabilites, longtemps avant lintroduction de la theorie
de la mesure, la probabilite P(A) etait denie de la manière suivante : on imagine
quon repète lexperience aleatoire un nombre N de fois, et on note N
A
le nombre
de repetitions pour lesquelles levenement A est realise; alors, la proportion N
A
/N
converge quand N vers la probabilite P(A). Nous verrons plus loin le lien entre
cette denition historique et lapproche moderne.
Exemples. (1) On lance un de deux fois :
= 1, 2, . . . , 6
2
, / = T() , P(A) =
Card(A)
36
.
Le choix de la probabilite correspond à lidee que tous les resultats possibles pour les deux
tirages sont equiprobables.
(2) On lance le de jusquà obtenir un 6. Ici le choix de est dejà moins evident. Comme
le nombre de lancers necessaires nest a priori pas borne, le bon choix est dimaginer quon
fait une innite de lancers :
= 1, 2, . . . , 6
N
de sorte quun element de est une suite = (

1
,
2
, . . .) qui donne les resultats des tirages
successifs. La tribu / sur est la tribu-produit denie comme la plus petite tribu rendant
mesurables tous les ensembles de la forme
:
1
= i
1
,
2
= i
2
, . . . ,
n
= i
n
o` u n 1 et i
1
, . . . , i
n
1, 2, . . . , 6 (/ concide aussi avec la tribu borelienne pour la
topologie produit sur ). Enn P est lunique mesure de probabilite sur telle que, pour
tout choix de n et de i
1
, . . . , i
n
,
P( :
1
= i
1
,
2
= i
2
, . . . ,
n
= i
n
) = (
1
6
)
n
.
Lunicite de P est une consequence simple du lemme de classe monotone. Lexistence est
un cas particulier de la construction de mesures sur des produits innis. On peut aussi
construire P facilement partir de la mesure de Lebesgue sur [0, 1] : si à tout reel x [0, 1]
on associe la suite (
k
)
kN
telle que x =
k=1
(
k
1) 6
k
(cette suite est unique pour
presque tout x), la probabilite P est obtenue comme mesure-image de la mesure de Lebesgue
sur [0, 1] par lapplication x (
k
)
kN
.
(3) On sinteresse au deplacement dans lespace dune particule ponctuelle soumise à des
perturbations aleatoires. Si on se limite à lintervalle de temps [0, 1], lespace de probabilite
naturel est C([0, 1], R
3
) : un element de , une trajectoire possible, est une fonction continue
: [0, 1] R
3
. La tribu sur est alors la plus petite tribu qui rende mesurables toutes
les applications coordonnees (t) pour t R
+
. Cette tribu concide avec la tribu
borelienne pour la topologie de la convergence uniforme sur . Il resterait à construire la
probabilite P, pour laquelle de multiples choix sont possibles. Lexemple le plus important,
92
à la fois du point de vue theorique et pour les applications, est la mesure de Wiener, qui est
la loi du mouvement brownien.
Remarque importante. Très souvent dans la suite, on ne speciera pas le choix de lespace
de probabilite. Les donnees importantes seront les proprietes des fonctions denies sur cet
espace, les variables aleatoires.
8.1.2 Variables aleatoires
Denition 8.1.1 Soit (E, c) un espace mesurable. Une application mesurable X : E
est appelee variable aleatoire (v.a. en abrege) à valeurs dans E.
Exemples. En reprenant les trois exemples ci-dessus :
(1) X((i, j)) = i + j denit une variable aleatoire à valeurs dans 1, 2, . . . , 12.
(2) X() = infj :
j
= 6, avec la convention inf = , denit une v.a. à valeurs dans
N = N . Pour verier la mesurabilite, on observe que, pour tout k 1,

X
1
(k) = :
1
,= 6,
2
,= 6, . . . ,
k1
,= 6,
k
= 6.
(3) Pour t [0, 1] xe, X() = (t) est une v.a. à valeurs dans R
3
. (Remarquons que nous
navons pas construit P dans cet exemple, mais cela nintervient pas pour les questions de
mesurabilite.)
Denition 8.1.2 La loi de la variable aleatoire X est la mesure-image de P par X. Cest
donc la mesure de probabilite sur (E, c), notee P
X
, denie par
P
X
(B) = P(X
1
(B)) , B c.
En pratique on ecrit plutot :
P
X
(B) = P(X B) (= P( : X() B) ).
La loi P
X
permet de calculer la probabilite des evenements qui dependent de la v.a. X. Il
faut comprendre quà chaque on a associe un point aleatoire X() dans E, et que
P
X
(B) est la probabilite que ce point aleatoire tombe dans B.
Remarque. Si est une mesure de probabilite sur R
d
, ou sur un espace plus general, il
existe une manière canonique de construire une variable aleatoire dont la loi est . Il sut
de prendre = R
d
, / = B(R
d
), P = , puis de poser X() = . La loi de X est , de
manière evidente.
Cas particuliers.
Variables aleatoires discrètes. Cest le cas o` u E est denombrable (et c est lensemble
des parties de E). La loi de X est alors
P
X
=
xE
p
x
x
93
o` u p
x
= P(X = x) et
x
designe la la mesure de Dirac en x. En eet,
P
X
(B) = P(X B) = P(
_
_
xB
X = x
_
=
xB
P(X = x) =
xE
p
x
x
(B).
En pratique, trouver la loi dune v.a. discrète, cest donc calculer toutes les probabilites
P(X = x) pour x E.
Exemple. Revenons à lexemple (2) ci-dessus, avec X() = infj :
j
= 6. Alors, pour
tout k 1,
P(X = k) = P
_
_
i
1
,...,i
k1
=6
1
= i
1
, . . . ,
k1
= i
k1
,
k
= 6
_
= 5
k1
(
1
6
)
k
=
1
6
(
5
6
)
k1
.
Remarquons que
k=1
P(X = k) = 1 et donc P(X = ) = 1 P(X N) = 0. Observons
que lensemble X = est loin detre vide puisquil contient toutes les suites (i
1
, i
2
, . . .)
qui ne prennent pas la valeur 6.
Variables aleatoires à densite. Une variable aleatoire X à valeurs dans (R
d
, B(R
d
)) est
dite à densite si P
X
est absolument continue par rapport à la mesure de Lebesgue .
Dans ce cas, le theorème de Radon-Nikodym montre quil existe une fonction borelienne
p : R
d
R
+
telle que
P
X
(B) =
_
B
p(x) dx.
On a en particulier
_
R
d
p(x)dx = P(X R
d
) = 1. La fonction p, qui est unique à en ensemble
de mesure de Lebesgue nulle près, est appelee la densite de (la loi de) X.
Si d = 1, on a en particulier, pour tous ,
P( X ) =
_

p(x) dx.
8.1.3 Esperance mathematique
Denition 8.1.3 Soit X une variable aleatoire reelle (i.e. à valeurs dans R). On note
alors
E[X] =
_
X() P(d),
qui est bien denie dans les deux cas suivants :
si X 0 (alors E[X] [0, ]),
si X est de signe quelconque et E[[X[] =
_
[X[dP < .
On etend cette denition au cas o` u X = (X
1
, . . . , X
d
) est une variable aleatoire à valeurs
dans R
d
en prenant alors E[X] = (E[X
1
], . . . , E[X
d
]), pourvu bien s ur que chacune des
esperances E[X
i
] soit bien denie.
Remarque. Si X = 1
B
, E[X] = P(B). En general, E[X] sinterprète comme la moyenne
de la v.a. X. Dans le cas particulier o` u est ni et P attribue la meme valeur à chaque
singleton, E[X] est bien la moyenne au sens usuel des valeurs prises par X.
94
Proposition 8.1.1 Soit X une variable aleatoire à valeurs dans (E, c). Pour toute fonction
mesurable f : E [0, ], on a
E[f(X)] =
_
E
f(x) P
X
(dx).
Preuve. Cest evidemment une propriete generale des mesures-images dejà rencontree dans
le cours dintegration. On remarque que le resultat est vrai par denition pour f = 1
B
puis
par linearite pour toute fonction etagee positive. Dans le cas general, on utilise le theorème
de convergence monotone et le fait que toute fonction mesurable positive est limite croissante
dune suite de fonctions etagees positives.
Si f est de signe quelconque, la formule de la proposition reste vraie à condition que les
integrales soient bien denies, ce qui revient à E[[f(X)[] < .
La donnee de P
X
permet donc de calculer la valeur moyenne de variables aleatoires de
la forme f(X). Inversement, on utilise souvent la proposition pour calculer la loi dune v.a.
X : si on arrive à ecrire
E[f(X)] =
_
f d
pour toute fonction f susamment generale, alors on peut identier à la loi de X.
Donnons un exemple simple de ce principe.
Proposition 8.1.2 Soit X = (X
1
, . . . , X
d
) une v.a. à valeurs dans R
d
. Supposons que la
loi de X a une densite p(x
1
, . . . , x
d
). Alors, pour tout j 1, . . . , d, la loi de X
j
a une
densite donnee par
p
j
(x) =
_
R
d1
p(x
1
, . . . , x
j1
, x, x
j+1
, . . . , x
d
) dx
1
. . . dx
j1
dx
j+1
. . . dx
d
(par exemple, si d = 2,
p
1
(x) =
_
R
p(x, y) dy , p
2
(y) =
_
R
p(x, y) dx).
Preuve. Soit
j
la projection
j
(x
1
, . . . , x
d
) = x
j
. En utilisant le theorème de Fubini, on
ecrit, pour toute fonction borelienne f : R R
+
,
E[f(X
j
)] = E[f(
j
(X))] =
_
R
d
f(x
j
)p(x
1
, . . . , x
d
) dx
1
. . . dx
d
=
_
R
d
f(x
j
)
_
_
R
d1
p(x
1
, . . . , x
d
) dx
1
. . . dx
j1
dx
j+1
. . . dx
d
_
dx
j
=
_
R
f(x
j
)p
j
(x
j
) dx
j
,
ce qui donne le resultat voulu.
95
Remarque. Si X = (X
1
, . . . , X
d
) est une v.a. à valeurs dans R
d
, les lois P
X
j
, quon appelle
souvent les lois marginales de X, sont determinees par la loi de X, simplement parce que
P
X
j
=
j
(P
X
), avec la notation ci-dessous. Il est important dobserver que :
la reciproque est fausse !
Pour un exemple, considerons une densite de probabilite q sur R, et observons que la fonction
p(x
1
, x
2
) = q(x
1
)q(x
2
) est alors aussi une densite de probabilite sur R
2
. Daprès une remarque
ci-dessus on peut construire une v.a. X = (X
1
, X
2
) à valeurs dans R
2
dont la loi est la
mesure de densite p par rapport à la mesure de Lebesgue. Mais alors les deux v.a. X et
X
= (X
1
, X
1
) ont memes lois marginales (la proposition ci-dessus montre que P
X
1
(dx) =
P
X
2
(dx) = q(x)dx) alors que les lois P
X
et P
X
sont très dierentes, simplement parce que
P
X
est portee par la diagonale de R
2
, qui est de mesure de Lebesgue nulle.
8.1.4 Exemple : le paradoxe de Bertrand
Pour illustrer les notions introduites dans les paragraphes precedents, considerons le problème
suivant. On sinteresse à la probabilite quune corde choisie au hasard sur un cercle ait une
longueur plus grande que le cote du triangle equilateral inscrit. Sans perte de generalite on
peut supposer que le cercle est le cercle unite. Bertrand proposait deux methodes de calcul :
(a) On choisit les deux extremites de la corde au hasard sur le cercle. La première etant
choisie, la longueur de la corde sera plus grande que le cote du triangle equilateral inscrit
si et seulement si la seconde extremite est dans un secteur angulaire douverture 2/3.
La probabilite est donc
2/3
2
=
1
3
.
(b) On choisit le centre de la corde au hasard sur le disque unite. La probabilite desiree
est la probabilite que le centre tombe dans le disque de rayon 1/2 centre à lorigine.
Comme laire de ce disque est un quart de laire du disque unite, on trouve comme
probabilite
1
4
.
On obtient donc un resultat dierent dans les deux cas. Lexplication tient dans le fait
que les deux methodes correspondent à des experiences aleatoires dierentes, representees
par des choix dierents de lespace de probabilite. Il ny a donc aucune raison pour que la
loi de la variable aleatoire que lon considère (la longueur de la corde) soit la meme dans les
deux cas. Pour nous en convaincre, explicitons les choix des espaces de probabilite.
(a) Dans ce cas,
= [0, 2[
2
, / = B([0, 2[
2
) , P(d) =
1
4
2
d d
,
o` u on note = (,
) pour . La longueur de la corde est

X() = 2[ sin(

2
)[.
96
On calcule facilement la loi de X :
E[f(X)] =
_
f(X()) P(d)
=
1
4
2
_
2
0
_
2
0
f(2[ sin(

2
)[) dd
=
1
_

0
f(2 sin(
u
2
)) du
=
1
_
2
0
f(x)
1
_
1
x
2
4
dx.
Donc X est une v.a. reelle à densite : P
X
(dx) = p(x)dx, avec
p(x) =
1
1
_
1
x
2
4
1
[0,2]
(x).
En particulier, la probabilite recherchee est
P(X
3) =
_
2
3
p(x) dx =
1
3
.
(b) Maintenant,
= = (y, z) R
2
: y
2
+ z
2
< 1 , / = B() , P(d) =
1
(y, z) dy dz.
La longueur de la corde est
X() = 2
_
1 y
2
z
2
et pour calculer sa loi on ecrit
E[f(X)] =
1
_
R
2
f(2
_
1 y
2
z
2
) 1
{y
2
+z
2
<1}
dydz
= 2
_
1
0
f(2
1 r
2
) r dr
=
1
2
_
2
0
f(x) xdx.
Donc P
X
(dx) = p(x)dx, avec
p(x) =
1
2
1
[0,2]
(x) xdx.
On peut remarquer que la densite obtenue est très dierente de celle du cas (a). En parti-
culier,
P(X
3) =
_
2
3
p(x) dx =
1
4
.
Exercice. Traiter le cas de la troisième methode proposee par Bertrand : on choisit au
hasard la direction du rayon orthogonal à la corde, puis le centre de la corde uniformement
sur ce rayon.
97
8.1.5 Lois classiques
On donne dans ce paragraphe quelques exemples importants de lois.
Lois discrètes.
(a) Loi uniforme. Si E est un ensemble ni, Card(E) = n, une v.a. X est de loi uniforme
sur E si
P(X = x) =
1
n
, x E.
(b) Loi de Bernoulli de paramètre p [0, 1]. Cest la loi dune v.a. X à valeurs dans 0, 1
telle que
P(X = 1) = p , P(X = 0) = 1 p.
On interprète X comme le resultat du lancer dune pièce truquee qui tombe sur pile
avec probabilite p.
(c) Loi binomiale B(n, p) (n N
, p [0, 1]). Cest la loi dune v.a. X à valeurs dans

1, . . . , n telle que
P(X = k) = C
k
n
p
k
(1 p)
nk
.
On interprète X comme le nombre de piles obtenus en n lancers avec la pièce precedente.
(d) Loi geometrique de paramètre p ]0, 1[. Cest la loi dune v.a. X à valeurs dans N, telle
que
P(X = k) = (1 p) p
k
.
X est le nombre de piles obtenus avant le premier face.
(e) Loi de Poisson de paramètre > 0. X est une v.a. à valeurs dans N, et
P(X = k) =

k
k!
e
, k N.
On calcule facilement E[X] = . La loi de Poisson est très importante aussi bien
du point de vue theorique que dans les applications. Intuitivement, elle correspond
au nombre devenements rares qui se sont produits durant une periode longue. La
traduction mathematique de cette intuition est lapproximation binomiale de la loi de
Poisson : si pour tout n 1, X
n
suit une loi binomiale B(n, p
n
) et si np
n
quand
n , alors pour tout entier k N,
lim
n
P(X
n
= k) =

k
k!
e
.
Lois continues. Dans les trois exemples qui suivent, X est une v.a. à valeurs dans R, à
densite p(x).
(a) Loi uniforme sur [a, b] (a < b).
p(x) =
1
b a
1
[a,b]
(x).
98
(b) Loi exponentielle de paramètre > 0.
p(x) = e
x
1
R
+
(x).
Les lois exponentielles possèdent la propriete caracteristique suivante : si a, b > 0,
P(X > a + b) = P(X > a) P(X > b),
ce quon interprète en disant que la probabilite que X a > b sachant que X > a
concide avec la probabilite que X > b. Cest la propriete dabsence de memoire de
la loi exponentielle, qui explique quelle soit utilisee par exemple pour modeliser les
temps de vie de machine sans usure.
(c) Loi gaussienne, ou normale, ^(m,
2
) (m R, > 0).
p(x) =
1
2
exp
_
(x m)
2
2
2
_
.
Avec la loi de Poisson, cest la loi la plus importante en theorie des probabilites. Sa
densite est la fameuse courbe en cloche. Les paramètres m et sinterprètent comme
m = E[X] ,
2
= E[(X m)
2
].
On remarque aussi que X m suit la loi ^(0,
2
). La loi gaussienne jouera un role
important dans le Chapitre 10.
Par convention on dira quune v.a. constante egale à m suit la loi gaussienne ^(m, 0).
Si X suit la loi ^(m,
2
), pour tous , R, X + suit la loi ^(m+ ,
2
2
).
8.1.6 Fonction de repartition dune variable aleatoire reelle
Si X est une v.a. reelle, la fonction de repartition de X est la fonction F
X
: R [0, 1]
denie par
F
X
(t) = P(X t) = P
X
(] , t]) , t R.
La fonction F
X
est croissante, continue à droite et a pour limite 0 en et 1 en +.
Inversement, si on se donne une fonction F ayant ces proprietes, on a vu dans le cours
dintegration quil existe une (unique) mesure de probabilite telle que (] , t]) = F(t)
pour tout t R. Cela montre quon peut interpreter F comme la fonction de repartition
dune v.a. reelle.
Il decoule des resultats du cours dintegration que F
X
caracterise la loi P
X
de X. On a
en particulier
P(a X b) = F
X
(b) F
X
(a) si a b,
P(a < X < b) = F
X
(b) F
X
(a) si a < b,
et les sauts de F
X
correspondent aux atomes de P
X
.
99
8.1.7 Tribu engendree par une variable aleatoire
Soit X une v.a. à valeurs dans un espace mesurable quelconque (E, c). La tribu engendree
par X, notee (X), est par denition la plus petite tribu sur qui rende X mesurable :
(X) = A = X
1
(B) : B c.
Remarque. On peut generaliser cette denition à une famille quelconque (X
i
)
iI
de v.a.,
X
i
etant à valeurs dans (E
i
, c
i
). Dans ce cas,
(X) = (X
1
i
(B
i
) : B
i
c
i
, i I).
Proposition 8.1.3 Soit X une variable aleatoire à valeurs dans (E, c), et soit Y une v.a.
reelle. Il y a equivalence entre :
(i) Y est (X)-mesurable.
(ii) Il existe une fonction mesurable f de (E, c) dans (R, B(R)) telle que Y = f(X).
Preuve. Limplication (ii)(i) est facile puisquune composee de fonctions mesurables est
mesurable.
Dans lautre sens, supposons que Y est (X)-mesurable. Traitons dabord le cas o` u Y
est etagee :
Y =
n
i=1
i
1
A
i
o` u
i
R et A
i
(X), pour tout i 1, . . . , n. Alors, pour chaque i 1, . . . , n, on
peut trouver B
i
c tel que A
i
= X
1
(B
i
), et on a
Y =
n
i=1
i
1
A
i
=
n
i=1
i
1
B
i
X = f X,
o` u f =
n
i=1
i
1
B
i
est c-mesurable.
Dans le cas general, on sait que Y est limite simple dune suite de v.a. Y
n
etagees et
(X)-mesurables. Daprès la première etape, on peut ecrire, pour tout n, Y
n
= f
n
(X), o` u la
fonction f
n
: E R est mesurable. On pose alors pour tout x E :
f(x) =
_
lim
n
f
n
(x) si la limite existe,
0 sinon.
On sait que la fonction f ainsi denie est mesurable. Par ailleurs, pour tout ,
X() appartient à lensemble des x pour lesquels limf
n
(x) existe (puisque limf
n
(X()) =
limY
n
() = Y ()), et de plus
f(X()) = limf
n
(X()) = Y ()
ce qui donne la representation recherchee Y = f(X).
100
8.2 Moments de variables aleatoires
8.2.1 Moments dordre p et variance
Soit X une v.a. reelle et soit p 1 un entier. Le moment dordre p de X est par denition
la quantite E[X
p
], qui nest denie que si E[[X[
p
] < , ou si X 0. La quantite E[[X[
p
]
est appelee moment absolu dordre p. En particulier le moment dordre 1 est simplement
lesperance de X. On dit que la v.a. reelle X est centree si elle est integrable et si E[X] = 0.
Lesperance mathematique est un cas particulier dintegrale par rapport à une mesure
positive, et on peut donc lui appliquer les theorèmes generaux vus dans ce cadre. En parti-
culier, les theorèmes de convergence sont dun usage frequent :
Convergence monotone : X
n
0, X
n
X E[X
n
] E[X].
Lemme de Fatou : X
n
0, E[liminf X
n
] liminf E[X
n
].
Convergence dominee : [X
n
[ Z E[Z] < , X
n
X p.p. E[X
n
] E[X].
En theorie des probabilites on utilise lexpression presque s urement (p.s. en abrege) plutot
que le presque partout (p.p.) de la theorie de la mesure.
Les espaces L
p
(, /, P) sont denis pour tout p [1, ] comme dans le cours dintegration.
Linegalite de Holder secrit
E[[XY [] E[[X[
p
]
1/p
E[[Y [
q
]
1/q
,
pourvu que
1
p
+
1
q
= 1. En prenant Y = 1 on trouve |X|
1
|X|
p
, ce qui se generalise
aussitot à |X|
r
|X|
p
si r p. En particulier L
p
(, /, P) L
r
(, /, P) si r p.
Linegalite de Cauchy-Schwarz secrit
E[[XY [] E[X
2
]
1/2
E[Y
2
]
1/2
et le cas particulier o` u Y = 1
E[[X[]
2
E[X
2
]
est très souvent utile.
Denition 8.2.1 Soit X L
2
(, /, P). La variance de X est
var(X) = E[(X E[X])
2
]
et lecart-type de X est
X
=
_
var(X).
De manière informelle, var(X) mesure la dispersion de X autour de sa moyenne E[X].
Remarquons que var(X) = 0 si et seulement si X est constante p.s.
101
Proposition 8.2.1 On a aussi var(X) = E[X
2
] (E[X])
2
, et pour tout a R,
E[(X a)
2
] = var(X) + (E[X] a)
2
.
En consequence,
var(X) = inf
aR
E[(X a)
2
].
Preuve. On a
E[(X a)
2
] = E[X
2
] 2a E[X] + a
2
= E[X
2
] (E[X])
2
+ (E[X] a)
2
.
Les deux premières assertions en decoulent aussitot, en prenant a = E[X] pour la première.
Inegalite de Markov. (cf cours dintegration) Si X 0 et a > 0,

P(X a)
1
a
E[X].
Inegalite de Bienayme-Tchebiche. Si X L
2
(, /, P) et a > 0,
P([X E[X][ a)
1
a
2
var(X).
Cette inegalite decoule de linegalite de Markov appliquee à la variable positive (XE[X])
2
.
Denition 8.2.2 Soient X, Y L
2
(, /, P). La covariance de X et Y est
cov(X, Y ) = E[(X E[X])(Y E[Y ])] = E[X(Y E[Y ])] = E[XY ] E[X]E[Y ].
Si X = (X
1
, . . . , X
d
) est une variable aleatoire à valeurs dans R
d
dont toutes les composantes
sont dans L
2
(, /, P) (ce qui equivaut à E[[X[
2
] < ), la matrice de covariance de X est
K
X
=
_
cov(X
i
, X
j
)
_
1id,1jd
.
De manière informelle, la covariance de X et Y mesure la correlation existant entre X
et Y . Remarquons que cov(X, X) = var(X) et que, daprès linegalite de Cauchy-Schwarz,
[cov(X, Y )[
_
var(X)
_
var(Y ).
Lapplication (X, Y ) cov(X, Y ) est une forme bilineaire sur L
2
(, /, P).
Dans le cas vectoriel X = (X
1
, . . . , X
d
), la matrice K
X
est symetrique positive : pour
tous
1
, . . . ,
d
R
d
,
d
i,j=1
j
K
X
(i, j) = var
_
d
i=1
i
X
i
_
0.
Exercice. Si A est une matrice (deterministe) nd et Y = AX, verier que K
Y
= AK
X
t
A.
102
8.2.2 La regression lineaire
Soient X, Y
1
, . . . , Y
n
des variables aleatoires dans L
2
(, /, P). On cherche à trouver la
meilleure approximation de X comme fonction ane de Y
1
, . . . , Y
n
. Precisement, on cherche
à minimiser
E[(X (
0
+
1
Y
1
+ +
n
Y
n
))
2
]
sur tous les choix possibles du (n + 1)-uplet de reels (
0
, . . . ,
n
).
Proposition 8.2.2 On a
inf
0
,...,nR
E[(X (
0
+
1
Y
1
+ +
n
Y
n
))
2
] = E[(X Z)
2
],
o` u
Z = E[X] +
n
j=1
j
(Y
j
E[Y
j
]), (1)
les coecients
j
etant (nimporte quelle) solution du système
n
j=1
j
cov(Y
j
, Y
k
) = cov(X, Y
k
) , 1 k n.
En particulier, si K
Y
est non-degeneree, on a = cov(X, Y ) K
1
Y
en notation matricielle.
Preuve. Soit H le sous-espace vectoriel de L
2
(, /, P) engendre par 1, Y
1
, . . . , Y
n
. Alors,
on sait que la variable aleatoire Z qui minimise |X U|
2
pour U H est la projection
orthogonale de X sur H. On peut ecrire Z sous la forme
Z =
0
+
n
j=1
j
(Y
j
E[Y
j
]).
Par denition de la projection orthogonale, X Z est orthogonal à H. On doit donc avoir
E[(X Z) 1] = 0,
do` u
0
= E[X]. De meme, pour tout k 1, . . . , n,
E[(X Z) (Y
k
E[Y
k
])] = 0,
ce qui equivaut à cov(Z, Y
k
) = cov(X, Y
k
), ou encore à
n
j=1
j
cov(Y
j
, Y
k
) = cov(X, Y
k
).
Inversement, si les coecients
j
verient ce système dequations, il est immediat que la
variable Z denie par le membre de droite de (1) est un element de H tel que X Z soit
orthogonal à H, donc doit concider avec la projection orthogonale de X sur H.
Remarque. Si n = 1 et si on suppose que Y nest pas constante p.s., on trouve que la
meilleure (au sens L
2
) approximation de X par une fonction ane de Y est
Z = E[X] +
cov(X, Y )
var(Y )
(Y E[Y ]).
Cest ce quon appelle parfois la droite de regression de X en Y .
103
8.2.3 Fonctions caracteristiques
Denition 8.2.3 Si X est une variable aleatoire à valeurs dans R
d
, la fonction caracteristique
de X est la fonction
X
: R
d
C denie par
X
() = E[exp(i X)] , R
d
.
On peut aussi ecrire
X
() =
_
e
ix
P
X
(dx)
ce qui permet de voir
X
comme la transformee de Fourier de la loi de X. On ecrit parfois
X
() =

P
X
(). Le theorème de convergence dominee montre que
X
est continue (et
bornee) sur R
d
.
Notre objectif est de montrer que la fonction caracteristique caracterise la loi de X. Nous
commen cons par un calcul important dans un cas particulier.
Lemme 8.2.3 Soit X une variable aleatoire de loi gaussienne ^(0,
2
). Alors,
X
() = exp(
2
2
) , R.
Preuve. On a
X
() =
_
R
1
2
e
x
2
/(2
2
)
e
ix
dx.
On se ramène facilement au cas = 1. Ensuite, un argument de parite montre que la partie
imaginaire de
X
() est nulle. Il reste à calculer
f() =
_
R
1
2
e
x
2
/2
cos(x) dx.
En derivant sous le signe integrale, on a
f
() =
_
R
1
2
xe
x
2
/2
sin(x) dx
(la justication est facile puisque [x sin(x) e
x
2
/2
[ [x[ e
x
2
/2
qui est integrable). En
integrant par parties, il vient
f
() =
_
R
1
2
e
x
2
/2
cos(x) dx = f().
La fonction f est donc solution de lequation dierentielle f
() = f(), avec condition

initiale f(0) = 1. Il en decoule que f() = exp(
2
/2).
Theorème 8.2.4 La fonction caracteristique dune variable aleatoire X à valeurs dans R
d
caracterise la loi de cette variable aleatoire. Autrement dit, la transformee de Fourier denie
sur lespace des mesures de probabilite sur R
d
est injective.
104
Preuve. On traite dabord le cas d = 1. Pour tout > 0, soit g
la densite de la loi
gaussienne ^(0,
2
) :
g
(x) =
1
2
exp(
x
2
2
2
) , x R.
Si est une mesure de probabilite sur R, on pose
f
(x) =
_
R
g
(x y) (dy)
(def)
= g
(x),
(dx) = f
(x) dx.
Pour montrer le resultat du theorème, il sut detablir que
1.
est determinee par .

2. Pour toute fonction C
b
(R),
_
(x)
(dx)
_
(x)(dx) quand 0.
Pour etablir le point 1, on utilise le lemme pour ecrire, pour tout x R,
2 g
(x) = exp(
x
2
2
2
) =
_
R
e
ix
g
1/
() d.
Il vient alors
f
(x) =
_
R
g
(x y) (dy) = (
2)
1
_
R
_
_
R
e
i(xy)
g
1/
() d
_
(dy)
= (
2)
1
_
R
e
ix
g
1/
()
_
_
R
e
iy
(dy)
_
d
= (
2)
1
_
R
e
ix
g
1/
() ()d.
Dans lavant-dernière egalite, on a utilise le theorème de Fubini-Lebesgue, dont la justica-
tion est facile puisque est une mesure de probabilite et que la fonction g
1/
est integrable
pour la mesure de Lebesgue.
Pour le point 2, on ecrit dabord, pour toute fonction continue et bornee sur R,
_
(x)
(dx) =
_
(x)
_
_
g
(y x)(dy)
_
dx =
_
g
(y)(dy),
avec la meme justication pour appliquer le theorème de Fubini-Lebesgue. Ensuite, on utilise
les proprietes
_
g
(x) dx = 1 ,
lim
0
_
{|x|>}
g
(x) dx = 0 , > 0,
pour obtenir que, pour tout y R,
lim
0
g
(y) = (y)
105
(cf les resultats du cours dintegration concernant les approximations de la mesure de Dirac
0
). Par convergence dominee, facile à justier puisque [g
[ sup [[, on obtient

lim
0
_
(x)
(dx) =
_
(x)(dx),
ce qui termine la preuve dans le cas d = 1.
La preuve dans le cas d quelconque est similaire. On utilise les fonctions
g
(d)
(x
1
, . . . , x
d
) =
d
j=1
g
(x
j
)
en remarquant que pour R
d
,
_
R
d
g
(d)
(x) e
ix
dx =
d
j=1
_
g
(x
j
) e
i
j
x
j
dx
j
= (2)
d/2
g
(d)
1/
().
Proposition 8.2.5 Soit X = (X

1
, . . . , X
d
) une v.a. à valeurs dans R
d
et de carre integrable.
Alors
X
est de classe C
2
et
X
() = 1 +i
d
j=1
j
E[X
j
]
1
2
d
j=1
d
k=1
k
E[X
j
X
k
] + o([[
2
)
quand = (
1
, . . . ,
d
) tend vers 0.
Preuve. En derivant sous le signe integrale, on trouve
j
() = i E[X
j
e
iX
],
la justication etant facile puisque [iX
j
e
iX
[ = [X
j
[ et X
j
L
2
L
1
. De meme, puisque
E[[X
j
X
k
[] E[X
2
j
]
1/2
E[X
2
k
]
1/2
< , on peut deriver une seconde fois et trouver que
k
() = E[X
j
X
k
e
iX
].
De plus le theorème de continuite sous le signe integrale assure que

2
k
() est fonction
continue de .
Enn la dernière assertion est simplement le developpement de Taylor de
X
à lordre 2
à lorigine.
Remarque. Si on suppose que X est de puissance p-ième integrable (p 1 entier) le meme
raisonnement montre que
X
est de classe C
p
. Cest cependant le cas p = 2 qui sera le plus
utile dans la suite.
106
8.2.4 Fonction generatrice
Dans le cas de variables aleatoires à valeurs dans N, on utilise les fonctions generatrices
plutot que les fonctions caracteristiques.
Denition 8.2.4 Soit X une v.a. à valeurs dans N. La fonction generatrice de X est la
fonction g
X
denie sur lintervalle [0, 1] par
g
X
(r) = E[r
X
] =
n=0
P(X = n) r
n
.
La fonction g
X
est continue sur [0, 1] (cela decoule par exemple du theorème de conver-
gence dominee), et on a g
X
(0) = P(X = 0) et g
X
(1) = 1. Le rayon de convergence de la serie
entière qui apparat dans la denition est donc superieur ou egal à un. Cela montre que la
fonction generatrice g
X
caracterise la loi de X, puisque les nombres P(X = n) apparaissent
comme les coecients du developpement de Taylor de g
X
en 0.
On voit facilement que g
X
a toujours une derivee à gauche en 1, eventuellement innie,
et que
g
X
(1) = E[X].
Plus generalement, pour tout entier p 1,
lim
r1
g
(p)
X
(r) = E[X(X 1) (X p + 1)]
ce qui montre comment retrouver tous les moments de X à partir de la connaissance de la
fonction generatrice.
107
108
Chapitre 9
Independance
Le concept dindependance est sans doute la première notion importante o` u la theorie
des probabilites se dierencie nettement de lintegration. Sil est plus facile de compren-
dre intuitivement la denition de lindependance de deux evenements ou de deux variables
aleatoires, la notion la plus fondamentale est celle de lindependance de deux (ou plusieurs)
sous-tribus. Un resultat-cle de ce chapitre relie lindependance de deux variables aleatoires au
fait que la loi du couple forme par ces deux variables est la mesure-produit des lois individu-
elles. Avec le theorème de Fubini, cela permet des reformulations souvent utiles de la notion
dindependance. A titre dapplication, on etablit le celèbre lemme de Borel-Cantelli (dont
une application amusante donne des proprietes surprenantes du developpement dyadique
dun nombre reel choisi au hasard) et une première forme de la loi des grands nombres, qui
sut à etablir le lien entre notre approche axiomatique des probabilites et la denition his-
torique (probabilite dun evenement = frequence dapparition de cet evenement lorsquon
repète un grand nombre de fois la meme experience aleatoire).
9.1 Evenements independants
Dans tout ce chapitre on se place sur un espace de probabilite (, /, P). Si A, B / sont
deux evenements, on dit que A et B sont independants si
P(A B) = P(A)P(B).
Au moins lorsque P(B) > 0, on peut interprèter cette denition en disant que la probabilite
conditionnelle
P(A [ B)
(def)
=
P(A B)
P(B)
concide avec P(A) : le fait de savoir que B est realise ne donne pas dinformation sur la
realisation ou non de levenement A (et on peut intervertir les roles de A et B).
Exemples. (i) Lancer de deux des : = 1, 2, . . . , 6
2
, P() = 1/36 pour tout .
Les evenements A = 6 1, 2, . . . , 6 et B = 1, 2, . . . , 6 6 sont independants. En
fait la probabilite P a ete construite precisement pour quun evenement relatif au resultat
du premier lancer soit independant dun evenement relatif au resultat du second.
109
(ii) Lancer dun seul de : = 1, 2, . . . , 6, P() = 1/6 pour tout . Les evenements
A = 1, 2 et B = 1, 3, 5 sont independants.
Denition 9.1.1 On dit que n evenements A
1
, . . . , A
n
sont independants si, pour tout sous-
ensemble non vide j
1
, . . . , j
p
de 1, . . . , n, on a
P(A
j
1
A
j
2
. . . A
jp
) = P(A
j
1
) P(A
j
2
) . . . P(A
jp
).
Remarques. Il ne sut pas que lon ait
P(A
1
A
2
. . . A
n
) = P(A
1
) P(A
2
) . . . P(A
n
).
Il ne sut pas non plus que, pour chaque paire i, j 1, . . . , n, les evenements A
i
et A
j
soient independants. Pour donner un exemple, considerons lespace correspondant à deux
lancers de pile ou face (pièce non truquee) et prenons
A = pile au premier lancer
B = pile au second lancer
C = meme resultat aux deux lancers.
Les evenements A, B, C sont independants deux à deux mais non independants.
Proposition 9.1.1 Les n evenements A
1
, . . . , A
n
sont independants si et seulement si on a
P(B
1
. . . B
n
) = P(B
1
) . . . P(B
n
)
dès que B
i
(A
i
) = , A
i
, A
c
i
, pour tout i 1, . . . , n.
Preuve. Il est clair que la condition donnee est plus forte que celle de la denition : prendre
B
i
= A
i
si i j
1
, . . . , j
p
et B
i
= sinon. Inversement, supposons que A
1
, . . . , A
n
sont
independants. Pour verier la propriete de la proposition, on peut supposer B
i
,= pour
tout i 1, . . . , n. Ensuite, si j
1
, . . . , j
p
= i : B
i
,= , on est ramene à montrer que
P(B
j
1
B
j
2
. . . B
jp
) = P(B
j
1
) P(B
j
2
) . . . P(B
jp
),
dès que B
j
k
= A
j
k
ou A
c
j
k
. Finalement, il sut de montrer que si C
1
, C
2
, . . . , C
p
sont
independants, C
c
1
, C
2
, . . . , C
p
le sont aussi. Mais cela est facile puisque, pour tout sous-
ensemble i
1
, . . . , i
q
de 2, . . . , p,
P(C
c
1
C
i
1
C
iq
) = P(C
i
1
C
iq
) P(C
1
C
i
1
C
iq
)
= P(C
i
1
) . . . P(C
iq
) P(C
1
)P(C
i
1
) . . . P(C
iq
)
= P(C
c
1
)P(C
i
1
) . . . P(C
iq
)
110
9.2 Variables aleatoires et tribus independantes
La notion la plus generale est celle de tribus independantes.
Denition 9.2.1 Soient B
1
, . . . , B
n
n sous-tribus de /. On dit que B
1
, . . . , B
n
sont indepen-
dantes si et seulement si
A
1
B
1
, . . . , A
n
B
n
, P(A
1
A
2
. . . A
n
) = P(A
1
) P(A
2
) . . . P(A
n
).
Soient X
1
, . . . , X
n
n variables aleatoires à valeurs respectivement dans (E
1
, c
1
), . . . , (E
n
, c
n
).
On dit que les variables X
1
, . . . , X
n
sont independantes si les tribus (X
1
), . . . , (X
n
) le sont.
Cela equivaut encore à dire que
F
1
c
1
, . . . , F
n
c
n
, P(X
1
F
1
. . . X
n
F
n
) = P(X
1
F
1
) . . . P(X
n
F
n
)
(9.1)
(en eet on sait que (X
i
) = X
1
i
(F) : F c
i
).
De manière intuitive, les v.a. X
1
, . . . , X
n
sont independantes si la connaissance de cer-
taines dentre elles ne donne pas dinformation sur les autres.
Remarques. (i) Si B
1
, . . . , B
n
sont n sous-tribus independantes, et si, pour tout i
1, . . . , n, X
i
est une v.a. B
i
-mesurable, alors X
1
, . . . , X
n
sont independantes.
(ii) Les n evenements A
1
, . . . , A
n
sont independants si et seulement si les tribus (A
1
), . . . ,
(A
n
) le sont (cf proposition precedente).
Si X
1
, . . . , X
n
sont des variables aleatoires à valeurs dans (E
1
, c
1
), . . . , (E
n
, c
n
) respec-
tivement, le n-uplet (X
1
, . . . , X
n
) est une v.a. à valeurs dans lespace E
1
E
n
muni de
la tribu produit c
1
c
n
.
Theorème 9.2.1 Les n variables aleatoires X
1
, . . . , X
n
sont independantes si et seulement
si la loi du n-uplet (X
1
, . . . , X
n
) est le produit des lois de X
1
, . . . , X
n
:
P
(X
1
,...,Xn)
= P
X
1
P
Xn
.
De plus, on a alors
E
_
n
i=1
f
i
(X
i
)
_
=
n
i=1
E[f
i
(X
i
)]
dès que f
i
est une fonction mesurable positive sur (E
i
, c
i
), pour tout i 1, . . . , n.
Preuve. Soit F
i
c
i
, pour tout i 1, . . . , n. On a dune part
P
(X
1
,...,Xn)
(F
1
F
n
) = P(X
1
F
1
. . . X
n
F
n
)
et dautre part
P
X
1
P
Xn
(F
1
F
n
) =
n
i=1
P
X
i
(F
i
) =
n
i=1
P(X
i
F
i
).
111
En comparant avec (9.1), on voit que X
1
, . . . , X
n
sont independantes si et seulement si les
deux mesures de probabilite P
(X
1
,...,Xn)
et P
X
1
P
Xn
prennent les memes valeurs sur
les paves F
1
F
n
. Mais comme on sait (lemme de classe monotone) quune mesure de
probabilite sur un espace-produit est caracterisee par ses valeurs sur les paves, cela equivaut
encore à dire que P
(X
1
,...,Xn)
= P
X
1
P
Xn
.
La deuxième assertion est ensuite une consequence du theorème de Fubini-Tonnelli :
E
_
n
i=1
f
i
(X
i
)
_
=
_
E
1
En
n
i=1
f
i
(x
i
) P
X
1
(dx
1
) . . . P
Xn
(dx
n
)
=
n
i=1
_
E
i
f
i
(x
i
) P
X
i
(dx
i
)
=
n
i=1
E[f
i
(X
i
)].
Le theorème ci-dessus montre aussi comment construire des v.a. independantes. Con-
siderons le cas de v.a. reelles, et soient
1
, . . . ,
n
des mesures de probabilite sur R
n
. Alors,
comme on la observe dans le Chapitre 8, on peut construire une v.a. Y = (Y
1
, . . . , Y
n
) à
valeurs dans R
n
dont la loi est
1

n
. Daprès le theorème precedent, les composantes
Y
1
, . . . Y
n
de Y sont des v.a. reelles independantes de lois respectives
1
, . . . ,
n
.
Remarques. Si les fonctions f
i
sont de signe quelconque, legalite
E
_
n
i=1
f
i
(X
i
)
_
=
n
i=1
E[f
i
(X
i
)]
reste vraie à condition que E[[f
i
(X
i
)[] < pour tout i 1, . . . , n, et on a alors aussi
E
_
n
i=1
[f
i
(X
i
)[
_
=
n
i=1
E[[f
i
(X
i
)[] <
ce qui justie lexistence du terme de gauche dans la formule precedente.
En particulier, si X
1
, . . . , X
n
sont n v.a. reelles independantes et dans L
1
, on a aussi
X
1
X
n
L
1
, et
E[X
1
X
n
] =
n
i=1
E[X
i
].
Remarquons quen general le produit de v.a. dans L
1
nest pas dans L
1
(lindependance est
une propriete très particulière).
Corollaire 9.2.2 Si X
1
, X
2
sont deux variables aleatoires reelles independantes et dans L
2
,
on a cov(X
1
, X
2
) = 0.
Cela decoule de ce qui precède puisque cov(X
1
, X
2
) = E[X
1
X
2
] E[X
1
]E[X
2
].
112
La reciproque du corollaire est fausse. La propriete de covariance nulle (pour deux v.a.
dans L
2
) est beaucoup plus faible que lindependance. Pour donner un exemple, partons
dune v.a. reelle X
1
dont la loi a une densite notee p(x) symetrique (p(x) = p(x)) et telle
que
_
x
2
p(x)dx < (de sorte que X
1
L
2
). On peut par exemple choisir pour X
1
une v.a.
de loi ^(0,
2
). Soit ensuite une deuxième v.a. à valeurs dans 1, 1, independante de
X
1
et telle que P( = 1) = P( = 1) =
1
2
. Alors, si X
2
= X
1
, on voit immediatement
que cov(X
1
, X
2
) = 0 alors que X
1
et X
2
ne sont pas independantes. En eet, si X
1
et X
2
letaient, [X
1
[ serait independante de [X
2
[ = [X
1
[. Or si une v.a. reelle est independante
delle-meme, elle doit etre constante p.s. (exercice !) et donc sa loi est une mesure de Dirac.
Cest une contradiction puisque la loi de [X
1
[ a une densite donnee par 2 p(x)1
R
+
(x).
Corollaire 9.2.3 Soient X
1
, . . . , X
n
n variables aleatoires reelles.
(i) Supposons dabord que, pour tout i 1, . . . , n, la loi de X
i
a une densite notee p
i
, et
que les variables aleatoires X
1
, . . . , X
n
sont independantes. Alors, la loi de (X
1
, . . . , X
n
) a
une densite donnee par
p(x
1
, . . . , x
n
) =
n
i=1
p
i
(x
i
).
(ii) Inversement, supposons que la loi de (X
1
, . . . , X
n
) a une densite de la forme
p(x
1
, . . . , x
n
) =
n
i=1
q
i
(x
i
),
o` u les fonctions q
i
sont boreliennes positives sur R. Alors les variables aleatoires X
1
, . . . , X
n
sont independantes et pour chaque i 1, . . . , n, la loi de X
i
a une densite p
i
qui secrit
p
i
= C
i
q
i
, o` u C
i
> 0 est une constante.
Preuve. La première partie est une consequence immediate du theorème ci-dessus, puisque
si P
X
i
(dx
i
) = p
i
(x
i
)dx
i
, le theorème de Fubini-Tonnelli montre que
P
X
1
P
Xn
(dx
1
. . . dx
n
) =
_
n
i=1
p
i
(x
i
)
_
dx
1
. . . dx
n
.
Pour la partie (ii), on remarque dabord que, toujours à laide du theorème de Fubini-
Tonnelli, on a
n
i=1
_
_
q
i
(x)dx
_
=
_
R
n
p(x
1
, . . . , x
n
)dx
1
. . . dx
n
= 1,
et en particulier K
i
:=
_
q
i
(x)dx) ]0, [ pour tout i 1, . . . , n. Ensuite, daprès un
resultat du Chapitre 8, la densite de X
i
est
p
i
(x
i
) =
_
R
n1
p(x
1
, . . . , x
n
)dx
1
. . . dx
i1
dx
i+1
. . . , dx
n
=
_
j=i
K
j
_
q
i
(x
i
) =
1
K
i
q
i
(x
i
).
Cela permet de reecrire la densite de (X
1
, . . . , X
n
) sous la forme
p(x
1
, . . . , x
n
) =
n
i=1
q
i
(x
i
) =
n
i=1
p
i
(x
i
)
113
et on voit que P
(X
1
,...,Xn)
= P
X
1
P
Xn
do` u lindependance.
Exemple. Soit U une variable de loi exponentielle de paramètre 1 et soit V une variable
uniforme sur lintervalle [0, 1]. On suppose que U et V sont independantes. Alors, si on
denit
X =
U cos(2V ) , Y =
U sin(2V ),
les deux variables aleatoires X et Y sont independantes. Pour le voir calculons la loi du
couple (X, Y ). Pour toute fonction mesurable positive sur R
2
,
E[(X, Y )] =
_

0
_
1
0
(
ucos(2v),
usin(2v)) e
u
dudv
=
1
_

0
_
2
0
(r cos , r sin ) re
r
2
drd
=
1
_
R
2
(x, y) e
x
2
y
2
dxdy.
On obtient que la loi du couple (X, Y ) a pour densite
1
exp(x
2
y
2
) qui a une forme
produit comme dans la partie (ii) de la proposition. Donc X et Y sont independantes (on
voit aussi que X et Y ont la meme densite
p(x) =
1
exp(x
2
)
et donc X et Y suivent chacune la loi ^(0, 1/2)).
Remarque. Si X
1
, . . . , X
n
sont n variables aleatoires reelles, il y a equivalence entre :
(i) X
1
, . . . , X
n
sont independantes.
(ii) Pour tous a
1
, . . . , a
n
R, P(X
1
a
1
, . . . , X
n
a
n
) =
n
i=1
P(X
i
a
i
).
(iii) Si f
1
, . . . , f
n
sont continues à support compact de R dans R
+
,
E
_
n
i=1
f
i
(X
i
)
_
=
n
i=1
E[f
i
(X
i
)].
(iv) La fonction caracteristique de X est
X
(
1
, . . . ,
n
) =
n
i=1
X
i
(
i
)
(pour montrer (iv)(i), utiliser linjectivite de la transformee de Fourier, cf Chapitre 8).
Nous passons maintenant à un resultat technique très utile.
114
Proposition 9.2.4 Soient B
1
, . . . , B
n
des sous-tribus de /. Pour tout i 1, . . . , n, soit
c
i
B
i
une classe stable par intersections nies, contenant et telle que (c
i
) = B
i
.
Supposons que
C
1
c
1
, . . . , C
n
c
n
, P(C
1
C
2
. . . C
n
) = P(C
1
) P(C
2
) . . . P(C
n
).
Alors, les tribus B
1
, . . . , B
n
sont independantes.
Preuve. Fixons dabord C
2
c
2
, . . . , C
n
c
n
, et posons
/
1
= B
1
B
1
: P(B
1
C
2
. . . C
n
) = P(B
1
) P(C
2
) . . . P(C
n
).
Alors c
1
/
1
par hypothèse, et dautre part on voit facilement que /
1
est une classe
monotone. Le lemme de classe monotone entrane que /
1
contient (c
1
) = B
1
, et on a
montre
B
1
B
1
, C
2
c
2
, . . . , C
n
c
n
, P(B
1
C
2
. . . C
n
) = P(B
1
) P(C
2
) . . . P(C
n
).
Pour continuer, on xe B
1
B
1
, C
3
c
3
, . . . , C
n
c
n
et on pose
/
1
= B
2
B
2
: P(B
1
B
2
C
3
. . . C
n
) = P(B
1
) P(B
2
) P(C
3
) . . . P(C
n
).
A nouveau, /
2
est une classe monotone qui contient c
2
et donc aussi (c
2
) = B
2
. En
raisonnant par recurrence, on arrive facilement au resultat voulu.
Consequence. Regroupement par paquets. Soient B
1
, . . . , B
n
des tribus independantes,
et soient n
0
= 0 < n
1
< < n
p
= n. Alors les tribus
T
1
= B
1
B
n
1
(not)
= (B
1
, . . . , B
n
1
)
T
2
= B
n
1
+1
B
n
2

T
p
= B
n
p1
+1
B
np
sont independantes. Pour le voir, il sut dappliquer la proposition ci-dessus en prenant
pour c
j
la classe des parties de la forme
B
n
j1
+1
B
n
j
o` u B
i
B
i
pour tout i n
j1
+ 1, . . . , n
j
.
1
, . . . , X
n
sont independantes, les v.a.
Y
1
= (X
1
, . . . , X
n
1
), . . . , Y
p
= (X
n
p1
+1
, . . . , X
np
)
sont independantes.
Exemple. Si X
1
, . . . , X
4
sont des v.a. reelles independantes, les v.a.
Z
1
= X
1
X
3
, Z
2
= X
3
2
+ X
4
115
sont independantes.
Independance dune famille innie. Soit (B
i
)
iI
une famille quelconque de sous-tribus
de /. On dit que cette famille est independante si pour tout sous-ensemble ni i
1
, . . . , i
p
de I, les tribus B
i
1
, . . . , B
ip
sont independantes.
Si (X
i
)
iI
est une famille quelconque de variables aleatoires, cette famille est dite indepen-
dante si la famille de tribus ((X
i
))
iI
lest.
Proposition 9.2.5 Soit (X
n
)
nN
une suite de variables aleatoires independantes. Alors,
pour tout entier p N, les deux tribus
B
1
= (X
0
, . . . , X
p
) , B
2
= (X
p+1
, X
p+2
, . . .)
sont independantes.
Preuve. Il sut dappliquer la proposition precedente en prenant
c
1
= (X
0
, . . . , X
p
) = B
1
c
2
=
_
k=p+1
(X
p+1
, X
p+2
, . . . , X
k
) B
2
et en remarquant que lhypothèse est satisfaite grace au principe du regroupement par pa-
quets.
9.3 Le lemme de Borel-Cantelli
Si (A
n
)
nN
est une suite devenements on note
limsup A
n
=
n=0
_

_
k=n
A
k
_
et
liminf A
n
=
_
n=0
_

k=n
A
k
_
Lemme 9.3.1 Soit (A
n
)
nN
une suite devenements.
(i) Si
nN
P(A
n
) < , alors
P(limsup A
n
) = 0
ou de manière equivalente,
p.s. n N : A
n
est ni.
116
(ii) Si
nN
P(A
n
) = et si les evenements A
n
sont independants, alors
P(limsup A
n
) = 1
p.s. n N : A
n
est inni.
Remarque. Lhypothèse dindependance (ou une autre hypothèse convenable) est necessaire
dans (ii), comme le montre lexemple trivial o` u A
n
= A pour tout n N, avec 0 < P(A) < 1.
Preuve. (i) Si
nN
P(A
n
) < , alors
E
_
nN
1
An
_
=
nN
P(A
n
) <
et donc
nN
1
An
< p.s.
(ii) Fixons dabord n
0
N, et observons que si n n
0
,
P
_
n
k=n
0
A
c
k
_
=
n
k=n
0
P(A
c
k
) =
n
k=n
0
(1 P(A
k
)).
La divergence de la serie
P(A
k
) entrane alors que
P
_

k=n
0
A
c
k
_
= 0.
Comme cela est vrai pour tout n
0
N, on a aussi
P
_

_
n
0
=0
_

k=n
0
A
c
k
__
= 0
et, en passant au complementaire,
P
_

n
0
=0
_

_
k=n
0
A
k
__
= 1,
ce qui est le resultat voulu.
Deux applications. (1) Il nexiste pas de mesure de probabilite sur N telle que la probabilite
de lensemble des multiples de n soit egale à 1/n pour tout entier n 1. En eet, supposons
quil existe une telle probabilite, notee P. Soit T lensemble des nombres premiers et pour
tout p T, notons A
p
= pN lensemble des multiples de p. Alors, il est facile de voir que les
A
p
, p T, sont independants. En eet, si p
1
, . . . , p
k
sont des nombres premiers distincts,
P(A
p
1
. . . A
p
k
) = P(p
1
N . . . p
k
N) = P((p
1
. . . p
k
)N) =
1
p
1
. . . p
k
=
k
j=1
P(A
p
j
).
117
Par ailleurs, on sait que
pP
P(A
p
) =
pP
1
p
= .
On peut donc appliquer la partie (ii) du lemme de Borel-Cantelli pour obtenir que presque
tout (au sens de la probabilite P) entier n appartient à une innite densembles A
p
, et donc
est multiple dune innite de nombres premiers distincts. Cest evidemment absurde.
(2) Considerons le cas o` u
(, /, P) = ([0, 1[, B([0, 1[), ).
Pour tout n 1, on pose
[0, 1[, X
n
() = [2
n
] 2[2
n1
],
o` u [x] designe la partie entière dun nombre reel x. Alors X
n
() 0, 1 et on verie
aisement par recurrence sur n que, pour tout [0, 1[,
0
n
k=1
X
k
()2
k
< 2
n
,
ce qui montre que
=
k=1
X
k
() 2
k
.
Les nombres X
k
() sont donc les coecients du developpement dyadique (propre) de . En
explicitant lensemble X
n
= 1 on montre facilement que pour tout n 1,
P(X
n
= 0) = P(X
n
= 1) =
1
2
.
Enn, on observe que la suite (X
n
)
n1
est independante. En eet, il sut ici de verier que,
pour tous i
1
, . . . , i
p
0, 1, on a
P(X
1
= i
1
, . . . , X
p
= i
p
) =
1
2
p
=
p
j=1
P(X
j
= i
j
).
Or, on voit immediatement que
X
1
= i
1
, . . . , X
p
= i
p
= [
p
j=1
i
j
2
j
,
p
j=1
i
j
2
j
+ 2
p
[,
Soit p 1 un entier quelconque, et soient i
1
, . . . , i
p
0, 1. Alors, le lemme de Borel-
Cantelli permet de voir que
p.s. Cardk 0 : X
k+1
= i
1
, . . . , X
k+p
= i
p
= . (9.2)
118
Cela montre quune suite nie donnee de 0 et de 1 apparat une innite de fois dans
le developpement dyadique de presque tout (au sens de la mesure de Lebesgue) reel de
lintervalle [0, 1[. Pour etablir (9.2), il sut de poser, pour tout entier n N,
Y
n
= (X
np+1
, X
np+2
, . . . , X
np+p
).
Le principe du regroupement par paquets montre que la suite (Y
n
)
nN
est independante, et
le resultat recherche decoule dune application du lemme de Borel-Cantelli à la suite des
evenements
A
n
= Y
n
= (i
1
, . . . , i
p
)
qui sont independants et tous de probabilite 2
p
.
Puisquune reunion denombrable densembles de probabilite nulle est encore de proba-
bilite nulle, on peut renforcer (9.2) sous la forme
p.s. p 1, i
1
, . . . , i
p
0, 1, Cardk 0 : X
k+1
= i
1
, . . . , X
k+p
= i
p
= .
Autrement dit, pour presque tout reel x de [0, 1[, nimporte quelle suite nie de 0 et de 1
apparat une innite de fois dans le developpement dyadique de x.
9.4 Sommes de variables aleatoires independantes.
Les sommes de variables aleatoires independantes jouent un role important en theorie des
probabilites, et seront etudiees dans le chapitre suivant. Nous regroupons dabord quelques
proprietes importantes sous la forme dune proposition. Si et sont deux mesures de
probabilite sur R
d
, on note la mesure-image de par lapplication (x, y) x+y :
pour toute fonction mesurable positive sur R
d
,
_
R
d
(z) (dz) =
_
R
d
_
R
d
(x + y) (dx)(dy).
Proposition 9.4.1 Soient X et Y deux variables aleatoires independantes à valeurs dans
R
d
.
(i) La loi de X + Y est P
X
P
Y
. En particulier, si X a une densite notee p
X
et Y a une
densite notee p
Y
, X + Y a pour densite p
X
p
Y
.
(ii) La fonction caracteristique de X+Y est
X+Y
() =
X
()
Y
(). (De manière equivalente,
si et sont deux mesures de probabilite sur R
d
, = .)
(iii) Si X et Y sont de carre integrable, K
X+Y
= K
X
+ K
Y
; En particulier, si d = 1,
var(X + Y ) = var(X) + var(Y ).
Preuve. (i) Si X et Y sont independantes, on sait que P
(X,Y )
= P
X
P
Y
, et donc, pour
toute fonction mesurable positive sur R
d
,
E[(X+Y )] =
_
(x+y) P
(X,Y )
(dxdy) =
_ _
(x+y) P
X
(dx)P
Y
(dy) =
_
(z) P
X
P
Y
(dz)
119
par denition de P
X
P
Y
. Si de plus X et Y ont une densite,
E[(X + Y )] =
_ _
(x + y) p
X
(x)p
Y
(y)dxdy =
_
(z)
_
_
p
X
(x)p
Y
(z x)dx
_
dz,
ce qui montre bien que X + Y a pour densite p
X
p
Y
(remarquer que p
X
p
Y
est ici bien
denie presque partout comme convolution de deux fonctions de L
1
(R
d
, )).
(ii) Il sut decrire
X+Y
() = E[e
iX
e
iY
] = E[e
iX
] E[e
iY
] =
X
()
Y
().
(iii) Si X = (X
1
, . . . , X
d
) et Y = (Y
1
, . . . , Y
d
), lindependance de X et Y entrane que
cov(X
i
, Y
j
) = 0 pour tous i, j 1, . . . , d. En consequence, par bilinearite,
cov(X
i
+ Y
i
, X
j
+ Y
j
) = cov(X
i
, X
j
) + cov(Y
i
, Y
j
)
ce qui donne bien K
X+Y
= K
X
+ K
Y
.
Theorème 9.4.2 (Loi faible des grands nombres) Soit (X
n
)
n1
une suite de variables
aleatoires reelles independantes et de meme loi. Si E[X
2
1
] < , on a
1
n
(X
1
+ + X
n
)
L
2
n
E[X
1
].
Preuve. Par linearite,
E
_
1
n
(X
1
+ + X
n
)
_
= E[X
1
].
En consequence,
E
__
1
n
(X
1
+ + X
n
) E[X
1
]
_
2
_
=
1
n
2
var(X
1
+ + X
n
) =
1
n
2
n
j=1
var(X
j
) =
1
n
var(X
1
)
qui tend vers 0 quand n .
Remarque. La preuve montre que le resultat reste vrai sous des hypothèses bien plus faibles.
Au lieu de supposer que les v.a. X
n
ont meme loi, il sut de demander que E[X
n
] = E[X
1
]
pour tout n et que la suite E[X
2
n
] soit bornee. Au lieu de lindependance, il sut quon ait
cov(X
n
, X
m
) = 0 dès que n ,= m, ce qui est beaucoup plus faible.
Le mot faible dans la loi faible des grands nombres renvoie au fait que la convergence
du theorème a lieu dans L
2
, alors que dun point de vue probabiliste il est plus signicatif
davoir une convergence presque s ure, cest-à-dire une convergence simple en dehors dun
ensemble de probabilite nulle (on parle alors de loi forte). Nous donnons un premier enonce
allant dans ce sens, qui sera considerablement ameliore dans le chapitre suivant.
Proposition 9.4.3 Reprenons les hypothèses du theorème precedent, et supposons de plus
que E[X
4
1
] < . Alors on a presque s urement
1
n
(X
1
+ + X
n
)
n
E[X
1
].
120
Preuve. Quitte à remplacer X
n
par X
n
E[X
n
], on peut supposer que E[X
n
] = 0. Alors,
E[(
1
n
(X
1
+ + X
n
))
4
] =
1
n
4
i
1
,...,i
4
{1,...,n}
E[X
i
1
X
i
2
X
i
3
X
i
4
].
En utilisantlindependance et la propriete E[X
k
] = 0, on voit que les seuls termes non nuls
de la somme sont ceux pour lesquels chaque valeur prise par une composante du quadruplet
(i
1
, i
2
, i
3
, i
4
) apparat au moins deux fois dans ce quadruplet. En utilisant le fait que les X
k
ont meme loi, on trouve
E[(
1
n
(X
1
+ + X
n
))
4
] =
1
n
4
_
nE[X
4
1
] + 3n(n 1)E[X
2
1
X
2
2
]
_
C
n
2
pour une certaine constante C < . Il en decoule que
n=1
E[(
1
n
(X
1
+ + X
n
))
4
] < .
En intervertissant somme et esperance, on obtient
E
_

n=1
(
1
n
(X
1
+ + X
n
))
4
_
< ,
do` u
n=1
(
1
n
(X
1
+ + X
n
))
4
< , p.s.
ce qui entrane lassertion de la proposition.
Corollaire 9.4.4 Si (A
n
)
n1
est une suite devenements independants de meme probabilite,
on a
1
n
n
i=1
1
A
i
p.s.
n
P(A
1
).
Ce corollaire fait le lien entre notre approche axiomatique moderne et la denition his-
torique de la probabilite comme frequence dapparition dun evenement quand on repète un
grand nombre de fois une experience aleatoire.
Revenons à la deuxième application du lemme de Borel-Cantelli donnee ci-dessus, qui
concernait le developpement dyadique
=
k=1
X
k
() 2
k
dun reel [0, 1[. Si p 1 est xe, on a vu que les v.a. Y
1
= (X
1
, . . . , X
p
), Y
2
=
(X
p+1
, . . . , X
2p
), . . . sont independantes et de meme loi. On deduit alors du corollaire que,
pour tous i
1
, . . . , i
p
0, 1,
d p.s.
1
n
Cardj n : Y
j
() = (i
1
, . . . , i
p
)
n
1
2
p
.
121
Pour chaque 1, . . . , p, le meme argument applique aux v.a. (X
, X
+1
, . . . , X
p+1
),
(X
p+
, X
p++1
, . . . , X
2p+1
), . . . conduit à
d p.s.
1
n
Cardj n : X
jp+
() = i
1
, . . . , X
(j+1)p+1
() = i
p

n
1
2
p
.
En combinant ces resultats on trouve
d p.s.
1
n
Cardk n : X
k+1
() = i
1
, . . . , X
k+p
() = i
p

n
1
2
p
.
Comme une reunion denombrable densembles de probabilite nulle est encore de probabilite
nulle, on a aussi, pour tout [0, 1[ sauf sur un ensemble de mesure nulle :
p 1, i
1
, . . . , i
p
0, 1,
1
n
Cardk n : X
k+1
() = i
1
, . . . , X
k+p
() = i
p

n
1
2
p
.
(9.3)
Autrement dit, pour presque tout reel de [0, 1[, la frequence dapparition de nimporte
quel bloc de longueur nie de 0 et de 1 dans le developpement dyadique de existe et est
egale à 2
p
si p est la longueur du bloc. Remarquons quil nest pas facile dexhiber un reel
pour lequel la propriete (9.3) soit vraie. En fait, le moyen le plus rapide pour prouver
que de tels reels existent est très certainement le raisonnement qui precède. Ceci est typique
de lapplication des probabilites à des problèmes dexistence : pour etablir lexistence dun
objet ayant certaines proprietes, on montre quun objet pris au hasard (selon une loi de
probabilite bien choisie) verie les proprietes en question.
Semigroupes de convolution
Soit I = N ou I = R
+
.
Denition 9.4.1 Soit (
t
)
tI
une famille de mesures de probabilite sur R (ou sur R
d
). On
dit que (
t
)
tI
est un semigroupe de convolution si
0
=
0
et si
t

t
=
t+t
, t, t
I.
Linterpretation probabiliste est que si X a pour loi
t
, Y a pour loi
t
et si X et Y sont
independantes, alors X + Y a pour loi
t+t
(cf la première proposition de cette partie).
Lemme 9.4.5 Pour que (
t
)
tI
soit un semigroupe de convolution, il sut quil existe une
fonction : R C telle que :
si I = N,
t
() = ()
t
, t I;
si I = R,
t
() = exp(t()), t I.
La preuve est immediate puisque si
t
a la forme donnee, on a immediatement

t+t
=
t

t
=
t

t
et linjectivite de la transformee de Fourier donne

t+t
=
t

t
.
122
Exemples.
(1) I = N et, pour tout n N
,
n
est la loi binomiale B(n, p) (on a xe p [0, 1]).
La propriete
n+m
=
n

m
est immediate à partir de linterpretation probabiliste de
la loi binomiale. Alternativement on peut utiliser le lemme en remarquant que
n
() =
(pe
i
+ 1 p)
n
.
(2) I = R
+
et, pour tout t R
+
,
t
est la loi de Poisson de paramètre t. Dans ce cas,

t
() =
k=0
t
k
k!
e
ik
e
t
= exp(t(1 e
i
)).
(3) I = R
+
et, pour tout t > 0,
t
est la loi Gaussienne ^(0, t). On a dejà calcule dans
le Chapitre 8

t
() = exp(
t
2
2
).
Consequence importante. Si X et Y sont deux v.a. reelles independantes et
si X suit la loi de Poisson de paramètre et X
la loi de Poisson de paramètre
, alors
X + X
suit la loi de Poisson de paramètre +
;
si X suit la loi gaussienne ^(m,
2
) et X
suit la loi gaussienne ^(m
,
2
), alors X +X
suit la loi gaussienne ^(m + m
,
2
+
2
). (On se ramène au cas m = m
= 0 en
considerant X m et X
.)
Plus generalement toute combinaison lineaire de variables aleatoires gaussiennes indepen-
dantes est encore gaussienne.
123
124
Chapitre 10
Convergence de variables aleatoires
La première partie de ce chapitre presente les dierentes notions de convergence de variables
aleatoires, et les liens existant entre ces notions. On etablit ensuite la loi forte des grands
nombres, qui est lun des deux theorèmes limites fondamentaux de la theorie des probabilites.
Le troisième paragraphe presente la convergence en loi des variables aleatoires : ce type de
convergence est sans doute le plus delicat à comprendre, en partie parce quil sagit dune
convergence de mesures (ce sont les lois des variables aleatoires qui convergent et non les
variables elle-memes). La notion de convergence en loi, et le theorème important reliant
cette convergence à celle des fonctions caracteristiques, permettent darriver au deuxième
theorème limite fondamental qui est le theorème central limite.
10.1 Les dierentes notions de convergence
Soient (X
n
)
n1
, X des variables aleatoires à valeurs dans R
d
, denies sur un espace de
probabilite (, /, P). On a dejà rencontre plusieurs notions de convergence de la suite (X
n
)
vers X. En particulier
X
n
p.s.
n
X si P( : X() = lim
n
X
n
()) = 1,
et, pour p [1, [,
X
n
L
p
n
X si lim
n
E[[X
n
X[
p
] = 0.
Denition 10.1.1 On dit que la suite (X
n
) converge en probabilite vers X, et on note
X
n
(P)
n
X
si pour tout > 0,
lim
n
P([X
n
X[ > ) = 0.
Proposition 10.1.1 Soit /
0
R
d
(, /, P) lespace de toutes les variables aleatoires à valeurs
dans R
d
, et soit L
0
R
d
(, /, P) son quotient par la relation dequivalence X Y ssi X = Y
p.s. Alors, la formule
d(X, Y ) = E[[X Y [ 1]
125
denit une distance sur L
0
R
d
(, /, P) qui est compatible avec la convergence en probabilite,
au sens o` u une suite (X
n
) converge en probabilite vers X ssi d(X
n
, X) tend vers 0. De plus,
lespace L
0
R
d
(, /, P) est complet pour la distance d.
Preuve. Il est facile de verier que d est une distance. De plus, si la suite (X
n
) converge
en probabilite vers X, on a pour tout > 0,
E[[X
n
X[1] E[[X
n
X[1
{|XnX|}
]+E[([X
n
X[1)1
{|XnX|>}
] +P([X
n
X[ > ).
Daprès la denition de la convergence en probabilite, cela entrane limsup d(X
n
, X) , et
puisque etait arbitraire on a d(X
n
, X) 0. Inversement, si d(X
n
, X) 0, alors, pour
tout ]0, 1],
P([X
n
X[ > )
1
E[[X
n
X[ 1] =
1
d(X
n
, X)
n
0.
Il reste à voir que L
0
est complet pour la distance d. Soit donc (X
n
) une suite de Cauchy
pour la distance d. On peut trouver une sous-suite Y
k
= X
n
k
telle que, pour tout k 1,
d(Y
k
, Y
k+1
) 2
k
.
Alors
E[
k=1
([Y
k+1
Y
k
[ 1)] =
k=1
d(Y
k
, Y
k+1
) < ,
ce qui entrane
k=1
([Y
k+1
Y
k
[ 1) < p.s., et donc aussi
k=1
[Y
k+1
Y
k
[ < p.s.
(p.s. il ne peut y avoir quun nombre ni de valeurs de k pour lesquelles [Y
k+1
Y
k
[ 1).
On denit ensuite une v.a. X dans L
0
en posant
X = Y
1
+
k=1
(Y
k+1
Y
k
).
Par construction, la suite (Y
k
) converge p.s. vers X, et cela entrane
d(Y
k
, X) = E[[Y
k
X[ 1]
k
0,
par convergence dominee. Donc la suite (Y
k
) converge en probabilite vers X, et cela est aussi
vrai pour la suite de depart (X
n
).
La preuve precedente montre en particulier que de toute suite qui converge en probabilite
on peut extraire une sous-suite qui converge p.s. (vers la meme limite). Nous reprenons cette
propriete dans lenonce suivant.
Proposition 10.1.2 Si la suite (X
n
) converge p.s., ou dans L
p
, vers X, elle converge aussi
en probabilite vers X. Inversement, si la suite (X
n
) converge en probabilite vers X, il existe
une sous-suite (X
n
k
) qui converge p.s. vers X.
126
Preuve. La deuxième assertion a dejà ete vue. Pour la première, si X
n
converge p.s. vers
X,
d(X
n
, X) = E[[X
n
X[ 1]
n
0,
par convergence dominee. Si X
n
converge dans L
p
vers X,
d(X
n
, X) |X
n
X|
1
|X
n
X|
p

n
0.
En resume la convergence en probabilite est plus faible ` a la fois que la convergence p.s. et
que la convergence dans L
p
pour nimporte quel p [1, [ (et a fortiori pour p = ). Dans
lautre sens, la convergence en probabilite entrane la convergence p.s. pour une sous-suite,
et la proposition ci-dessous donne des conditions qui permettent de deduire la convergence
L
p
de la convergence en probabilite.
n
) une suite de v.a. convergeant en probabilite vers X. Sup-
posons quil existe r ]1, [ tel que la suite (X
n
) soit bornee dans L
r
. Alors, pour tout
p [1, r[, la suite (X
n
) converge vers X dans L
p
.
Preuve. Par hypothèse, il existe une constante C telle que E[[X
n
[
r
] C pour tout n. Le
lemme de Fatou entrane alors E[[X[
r
] C et donc X L
r
. Ensuite, en utilisant linegalite
de Holder, on a pour tout p [1, r[ et tout > 0,
E[[X
n
X[
p
] = E[[X
n
X[
p
1
{|XnX|}
] + E[[X
n
X[
p
1
{|XnX|>}
]

p
+ E[[X
n
X[
r
]
p/r
P([X
n
X[ > )
1p/r

p
+ 2
p
C
p/r
P([X
n
X[ > )
1p/r
.
En utilisant lhypothèse de convergence en probabilite, il vient
limsup
n
E[[X
n
X[
p
]
p
do` u le resultat annonce puisque est arbitraire.
10.2 La loi forte des grands nombres
Notre objectif est de montrer que si (X
n
) est une suite de v.a. independantes et de meme loi,
dans L
1
, alors les moyennes
1
n
(X
1
+ + X
n
) convergent p.s. vers E[X
1
]. Nous avons dejà
obtenu ce resultat sous lhypothèse supplementaire que E[[X
1
[
4
] < , mais nous cherchons
maintenant à letablir sous des hypothèses optimales. Nous commen cons par un resultat
preliminaire important.
Theorème 10.2.1 (Loi du tout ou rien) Soit (X
n
)
n1
une suite de variables aleatoires
independantes, à valeurs dans des espaces mesurables quelconques. Pour tout n 1 soit B
n
la tribu
B
n
= (X
k
; k n).
127
Alors la tribu asymptotique B
denie par
B
n=1
B
n
est grossière, au sens o` u P(B) = 0 ou 1 pour tout B B
.
Preuve. Posons
T
n
= (X
k
; k n).
On a observe dans le Chapitre 9 que pour tout n, T
n
est independante de B
n+1
, donc a
fortiori de B
. Ainsi,
A
_
n=1
T
n
, B B
, P(A B) = P(A)P(B).
Puisque la classe
n=1
T
n
est stable par intersections nies, un autre resultat du Chapitre
9 permet alors de conclure que B
est independante de
_

_
n=1
T
n
_
= (X
n
; n 1).
En particulier, B
est independante delle-meme, et pour tout B B
, P(B) = P(BB) =
P(B)
2
, ce qui nest possible que si P(B) = 0 ou 1.
On verie aisement quune v.a. reelle mesurable par rapport à une tribu grossière est
constante p.s. (sa fonction de repartition ne peut prendre que les deux valeurs 0 ou 1). On
peut appliquer le theorème precedent à toute suite (X
n
)
n1
de v.a. reelles independantes. Il
est facile de voir que la v.a.
limsup
n
1
n
(X
1
+ + X
n
)
est mesurable par rapport à B
, et cela entrane que cette variable (à valeurs dans [, ])

est constante p.s. En particulier, si on sait que la suite
1
n
(X
1
+ + X
n
) converge p.s. la
limite est constante (p.s.).
Avant dutiliser la loi du tout ou rien pour etablir la loi forte des grands nombres, nous
donnons dabord une application plus facile au jeu de pile ou face.
n
)
n1
une suite de variables aleatoires independantes , de meme
loi donnee par P(X
n
= 1) = P(X
n
= 1) =
1
2
. Pour tout n 1, posons
S
n
= X
1
+ X
2
+ + X
n
.
Alors,
p.s. sup
n1
S
n
= + et inf
n1
S
n
= .
En particulier, il existe p.s. des entiers n arbitrairement grands tels que S
n
= 0.
128
En dautres termes si on imagine un jeu o` u à chaque instant entier le joueur gagne ou
perd un Euro avec probabilite 1/2, S
n
represente le gain (positif ou negatif) accumule après
n instants. La proposition montre que quand n , S
n
prend tantot des valeurs positives
tantot des valeurs negatives, de plus en plus grandes en valeur absolue.
Preuve. On commence par montrer que, pour tout entier p 1,
P(p inf
n
S
n
sup
n
S
n
p) = 0.
Pour cela on xe un entier k > 2p, et on remarque que
_
j=0
X
jk+1
= X
jk+2
= = X
jk+k
= 1 (p inf
n
S
n
sup
n
S
n
p)
c
.
Or une application du lemme de Borel-Cantelli (cf le Chapitre 9 pour des raisonnements
analogues) montre que lensemble de gauche a probabilite 1, ce qui donne le resultat annonce.
En faisant tendre p vers , on trouve
P(inf
n
S
n
> sup
n
S
n
< ) = 0,
do` u
P(inf
n
S
n
= sup
n
S
n
= ) = 1,
et en particulier
P(inf
n
S
n
= ) + P(sup
n
S
n
= ) 1.
Un argument de symetrie montre que
P(inf
n
S
n
= ) = P(sup
n
S
n
= )
et daprès ce qui precède ces deux probabilites sont strictement positives. Pour conclure, on
remarque que
sup
n
S
n
= B
.
En eet, pour tout entier k 1,
sup
n
S
n
= = sup
nk
(X
k
+ X
k+1
+ + X
n
) = B
k
et donc levenement sup
n
S
n
= est mesurable par rapport à lintersection des tribus B
k
,
cest-à-dire B
. La loi du tout ou rien montre alors que P(sup

n
S
n
= ) = 1.
Nous passons maintenant au resultat principal de ce paragraphe.
Theorème 10.2.3 (Loi forte des grands nombres) Soit (X
n
)
n1
une suite de variables
aleatoires independantes, de meme loi, dans L
1
. Alors,
1
n
(X
1
+ + X
n
)
p.s.
n
E[X
1
].
129
Remarques. (i) Lhypothèse dintegrabilite est optimale dans le sens o` u elle est necessaire
pour que la limite E[X
1
] soit bien denie (et nie). Dans le cas o` u les v.a. X
n
sont positives
et E[X
1
] = , on montre facilement que
1
n
(X
1
+ + X
n
)
p.s.
n
+
en appliquant le theorème aux v.a. X
n
K.
(ii) On peut montrer que la convergence du theorème a aussi lieu dans L
1
. Nous ne donnerons
pas la preuve ici (elle sera donnee à la n du chapitre 12 en application de la theorie des
martingales). Du point de vue probabiliste, cest la convergence presque s ure qui a le plus
de signication.
Preuve. Pour alleger les notations on pose S
n
= X
1
+ +X
n
, S
0
= 0. Soit a > E[X
1
], et
M = sup
nN
(S
n
na)
qui est une v.a. à valeurs dans [0, ]. Nous allons montrer que
M < , p.s. (10.1)
Puisque linegalite S
n
na + M est vraie pour tout n, il en decoule aussitot que
limsup
n
1
n
S
n
a , p.s.
En considerant une suite de valeurs de a qui decrot vers E[X
1
], on trouve alors
limsup
n
1
n
S
n
E[X
1
] , p.s.
En rempla cant X
n
par X
n
, on obtient linegalite inverse
liminf
n
1
n
S
n
E[X
1
] , p.s.
et lenonce du theorème decoule de ces deux dernières inegalites.
Il reste à montrer (10.1). On remarque dabord que, avec les notations de la loi du tout
ou rien, levenement M < est dans la tribu B
. En eet, il sut decrire pour tout

entier k 0,
M < = sup
nN
(S
n
na) < = sup
nk
(S
n
S
k
(n k)a) <
et de remarquer que le dernier evenement est mesurable pour la tribu (X
k+1
, X
k+2
, . . .).
Pour conclure il sura donc de montrer que P(M < ) > 0, ou de manière equivalente que
P(M = ) < 1, ce que nous ferons en raisonnant par labsurde.
130
Commen cons par quelques notations. Pour tout entier k N, posons
M
k
= sup
0nk
(S
n
na),
M
k
= sup
0nk
(S
n+1
S
1
na).
Alors M
k
et M
k
ont meme loi : en eet dune part les vecteurs (X
1
, . . . , X
k
) et (X
2
, . . . , X
k+1
)
ont meme loi et dautre part on peut ecrire M
k
= F
k
(X
1
, . . . , X
k
) et M
k
= F
k
(X
2
, . . . , X
k+1
)
avec la meme fonction (deterministe) F
k
: R
k
R. Il en decoule que
M = lim
k
M
k
et
M
= lim
k
M
k
ont aussi meme loi (ecrire P(M
x) = lim P(M
k
x) = lim P(M
k
x) = P(M x)).
Par ailleurs, il decoule des denitions que pour tout k 1,
M
k+1
= sup
_
0, sup
1nk+1
(S
n
na)
_
= sup(0, M
k
+ X
1
a),
ce quon peut encore reecrire sous la forme
M
k+1
= M
k
inf(a X
1
, M
k
).
Puisque M
k
a meme loi que M
k
(et que ces deux v.a. sont clairement dans L
1
), on trouve
E[inf(a X
1
, M
k
)] = E[M
k
] E[M
k+1
] = E[M
k
] E[M
k+1
] 0
grace à linegalite triviale M
k
M
k+1
. On peut maintenant appliquer le theorème de
convergence dominee à la suite des v.a. inf(aX
1
, M
k
), qui sont dominees en valeur absolue
par [a X
1
[ (rappelons que M
k
0). Il vient alors
E[inf(a X
1
, M
)] = lim
k
E[inf(a X
1
, M
k
)] 0.
Si on avait P(M = ) = 1, on aurait aussi P(M
= ) = 1, puisque les v.a. M et M
ont
meme loi, et donc inf(a X
1
, M
) = a X
1
p.s. Mais alors linegalite precedente donnerait
E[aX
1
] 0, ce qui est absurde puisquon a choisi a > E[X
1
]. Cette contradiction termine
la preuve.
10.3 La convergence en loi
Rappelons que C
b
(R
d
) designe lespace des fonctions continues bornees de R
d
dans R, quon
munit de la norme sup
|| = sup
xR
d
[(x)[.
131
Denition 10.3.1 Une suite (
n
) de mesures de probabilite sur R
d
converge etroitement
vers une mesure de probabilite sur R
d
(on note
n
(e)
) si
C
b
(R
d
) ,
_
d
n

n
_
d.
Une suite (X
n
) de v.a. à valeurs dans R
d
converge en loi vers une v.a. X à valeurs dans R
d
(on note X
n
(loi)
X) si la suite (P
Xn
) converge etroitement vers P
X
. Cela equivaut encore à
C
b
(R
d
) , E[(X
n
)]
n
E[(X)].
Remarques. (i) Il y a un abus de langage à dire que la suite de v.a. (X
n
) converge en loi vers
X, car la v.a. limite X nest pas denie de manière unique : seule sa loi P
X
lest (pour cette
raison on ecrira parfois quune suite de v.a. (X
n
) converge en loi vers mesure de probabilite
sur R
d
, et il faudra evidemment comprendre que la suite (P
Xn
) converge etroitement vers ).
Notons aussi quon peut considerer la convergence en loi de v.a. denies sur des espaces de
probabilite dierents (ici nous supposerons toujours implicitement quelles sont denies sur
le meme espace de probabilite), ce qui rend la convergence en loi très dierente des autres
convergences discutees ci-dessus.
(ii) Lespace des mesures de probabilite sur R
d
peut etre vu comme un sous-ensemble du
dual C
b
(R
d
)
. La convergence etroite correspond alors à la topologie faible * sur le dual

(topologie de la convergence simple, les elements du dual etant vus comme des fonctions sur
C
b
(R
d
)).
Exemples. (a) Si les v.a. X
n
et X sont à valeurs dans Z
d
, alors X
n
converge en loi vers X
si et seulement si
x Z
d
, P(X
n
= x)
n
P(X = x)
(limplication demande un petit raisonnement : largument est facile si on sait, ce qui sera
etabli plus tard, quon peut remplacer C
b
(R
d
) par C
c
(R
d
) dans la denition de la convergence
etroite).
(b) Si les X
n
sont des v.a. à densite, P
Xn
(dx) = p
n
(x)dx, si on suppose
p
n
(x) p(x) , dx p.p.
et sil existe une fonction q 0 telle que
_
R
d
q(x)dx < et
n , p
n
(x) q(x) , dx p.p.
alors p est une densite de probabilite sur R
d
, et X
n
converge en loi vers la loi p(x)dx. Cela
decoule du theorème de convergence dominee.
(c) Si X
n
est de loi uniforme sur
1
2
n
,
2
2
n
, . . . ,
2
n
2
n
, alors X
n
converge en loi vers la loi uniforme
sur [0, 1]. Ce resultat decoule de lapproximation de lintegrale dune fonction continue par
ses sommes de Riemann.
(d) Si X
n
est de loi gaussienne ^(0,
2
n
) et si
n
0, alors X
n
converge en loi vers la v.a.
constante egale à 0.
132
Proposition 10.3.1 Si la suite (X
n
) converge en probabilite vers X alors la suite (X
n
)
converge en loi vers X.
Preuve. Supposons dabord que X
n
converge p.s. vers X. Alors, pour toute fonction
C
b
(R
d
), (X
n
) converge p.s. vers (X) et donc le theorème de convergence dominee
entrane E[(X
n
)] E[(X)], do` u la convergence en loi recherchee.
Dans le cas general, raisonnons par labsurde en supposant que X
n
ne converge pas en loi
vers X, donc quil existe une fonction C
b
(R
d
) telle que E[(X
n
)] ne converge pas vers
E[(X)]. On peut trouver une sous-suite (n
k
) et > 0 tels que [E[(X
n
k
)] E[(X)][
pour tout k. Mais, daprès un resultat de la partie 1, il existe une sous-sous-suite (n
k
)
telle que (X
n
k
) converge p.s. vers X. La première partie de la preuve donne alors une

contradiction.
Remarque. Il existe un cas o` u la reciproque de la proposition est vraie. Cest le cas o` u la
v.a. limite X est constante (p.s.). En eet, si X
n
converge en loi vers a R
d
, il decoule de
la propriete (ii) de la proposition qui suit que pour tout > 0,
liminf
n
P
Xn
(B(a, )) 1
o` u B(a, ) est la boule ouverte de centre a et de rayon . Cest exactement dire que X
n
converge en probabilite vers a.
Si (X
n
) est une suite de v.a. convergeant en loi vers X, il nest pas toujours vrai quon
ait
P(X
n
B) P(X B)
pour tout borelien B de R
d
(prendre B = 0 dans lexemple (d) ci-dessus). On a cependant
le resultat suivant.
Proposition 10.3.2 Soient (
n
), des mesures de probabilite sur R
d
. Les quatre assertions
suivantes sont equivalentes.
(i) La suite (
n
) converge etroitement vers .
(ii) Pour tout ouvert G de R
d
,
liminf
n
(G) (G).
(iii) Pour tout ferme F de R
d
,
limsup
n
(F) (F).
(iv) Pour tout borelien B de R
d
tel que (B) = 0,
lim
n
(B) = (B).
Preuve. Commen cons par montrer (i)(ii). Si G est un ouvert de R
d
, on peut trouver une
suite (
p
) de fonctions continues bornees telles que 0
p
1
G
et
p
1
G
(par exemple
p
(x) = p dist(x, G
c
) 1 ). Alors,
liminf
n
n
(G) sup
p
_
liminf
n
_

p
d
n
_
= sup
p
_
_

p
d
_
= (G).
133
Lequivalence (ii)(iii) est immediate par passage au complementaire.
Montrons que (ii) et (iii) entranent (iv). Si B B(R
d
),
limsup
n
(B) limsup
n
(B) (B)
liminf
n
(B) liminf
n
(
B) (
B).
Si (B) = 0 on a (B) = (
B) = (B) et on obtient (iv).

Il reste à montrer limplication (iv)(i). Soit C
b
(R
d
). Quitte à decomposer =
on peut supposer 0. Soit K > 0 tel que 0 K. Alors le theorème de

Fubini montre que
_
(x)(dx) =
_
_
_
K
0
1
{t(x)}
dt
_
(dx) =
_
K
0
(E
t
)dt,
o` u E
t
= x R
d
: (x) t. De meme, pour tout n,
_
(x)
n
(dx) =
_
K
0
n
(E
t
)dt.
Remarquons que E
t
x R
d
: (x) = t, et quil existe au plus une innite denombrable
de valeurs de t telles que
(x R
d
: (x) = t) > 0
(en eet il y a au plus k valeurs distinctes de t telles que (x R
d
: (x) = t)
1
k
). Donc
(iv) entrane
n
(E
t
)
n
(E
t
) , dt p.p.
et par convergence dominee on obtient
_
(x)
n
(dx) =
_
K
0
n
(E
t
)dt
n
_
K
0
n
(E
t
)dt =
_
(x)(dx).
Consequence. Une suite (X

n
) de v.a. reelles converge en loi vers une v.a. X si et seulement
si les fonctions de repartition F
Xn
(x) convergent vers F
X
(x) en tout point x o` u F
X
est
continue. Limplication decoule immediatement de la propriete (iv) ci-dessus. Dans
lautre sens, on observe que sous la condition de convergence des fonctions de repartition (en
tout point o` u F
X
est continue), on a pour tout x R,
liminf F
Xn
(x) F
X
(x),
limsup F
Xn
(x) F
X
(x).
Il decoule de cette observation que la condition (ii) de la proposition est satisfaite pour
n
= P
Xn
et = P
X
lorsque G est un intervalle ouvert. Il sut ensuite decrire un ou-
vert quelconque comme reunion denombrable disjointe dintervalles ouverts pour aboutir au
resultat desire.
Rappelons la notation C
c
(R
d
) pour lespace des fonctions continues à support compact
sur R
d
.
134
Proposition 10.3.3 Soient (
n
) et des mesures de probabilite sur R
d
. Soit H un sous-
ensemble de C
b
(R
d
) dont ladherence (pour la norme sup) contient C
c
(R
d
). Les proprietes
suivantes sont equivalentes :
(i) La suite (
n
) converge etroitement vers .
(ii) On a
C
c
(R
d
) ,
_
d
n

n
_
d.
(iii) On a
H ,
_
d
n

n
_
d.
Preuve. Il est evident que (i)(ii) et (i)(iii). Supposons ensuite que (ii) est satisfaite.
Soit C
b
(R
d
) et soit (f
k
) une suite de fonctions dans C
c
(R
d
) telles que 0 f
k
1 et
f
k
1 quand k . Alors pour tout k, f
k
C
c
(R
d
) et donc
_
f
k
d
n

n
_
f
k
d.
Par ailleurs,
_
d
n
_
f
k
d
n

_
sup
xR
[(x)[
__
1
_
f
k
d
n
_
,
_
d
_
f
k
d

_
sup
xR
[(x)[
__
1
_
f
k
d
_
.
Donc, pour tout k,
limsup
n
_
d
n
_
d

_
sup
xR
[(x)[
__
limsup
n
(1
_
f
k
d
n
) + (1
_
f
k
d)
_
= 2
_
sup
xR
[(x)[
_
(1
_
f
k
d)
_
.
Il sut maintenant de faire tendre k vers pour trouver que
_
d
n
converge vers
_
d,
et on a etabli (i).
Il reste à montrer (iii)(ii). On suppose donc que la propriete (iii) est satisfaite. Ensuite,
si C
c
(R
d
), on peut pour chaque entier k 1 trouver une fonction
k
H telle que
|
k
| 1/k. Mais alors, pour tout k 1,
limsup
n
[
_
d
n
_
d[
limsup
n
_
[
_
d
n
_

k
d
n
[ +[
_

k
d
n
_

k
d[ +[
_

k
d
_
d[
_
2
k
.
Comme k est arbitraire cela donne
_
d
n

_
d, do` u la propriete (ii).
135
Theorème 10.3.4 (Levy) Une suite (
n
) de mesures de probabilite sur R
d
converge etroite-
ment vers une mesure de probabilite sur R
d
si et seulement si
R
d
,
n
()
n
().
De manière equivalente, une suite (X
n
) de variables aleatoires à valeurs dans R
d
converge
en loi vers X si et seulement si
R
d
,
Xn
()
n
X
().
Preuve. Il sut de montrer la première assertion. Dabord, si on suppose que la suite (
n
)
converge etroitement vers , la denition meme de cette convergence assure que
R
d
,
n
() =
_
e
ix
n
(dx)
n
_
e
ix
(dx) = ().
Supposons inversement que
n
() () pour tout R
d
et montrons qualors la suite
(
n
) converge etroitement vers . Pour alleger lecriture on traite seulement le cas d = 1.
Soit f C
c
(R) et pour tout > 0 soit
g
(x) =
1
2
exp(
x
2
2
2
).
Alors on a dejà observe à la n du Chapitre 8 que g
f converge simplement vers f quand

0. En fait on verie aisement que cette convergence est uniforme sur R.
Par ailleurs, si est une mesure de probabilite sur R, on a vu dans la preuve du theorème
dinjectivite de la transformee de Fourier (n du Chapitre 8) que
_
g
f d =
_
f(x) g
(x)dx =
_
f(x)
_
(
2)
1
_
e
ix
g
1/
() ()d
_
dx.
Puisque
n
() () pour tout R, le theorème de convergence dominee entrane que
_
e
ix
g
1/
()
n
()d
n
_
e
ix
g
1/
() ()d,
et puisque ces quantites sont bornees en module par 1, on peut utiliser la formule precedente
et à nouveau le theorème de convergence dominee pour obtenir que
_
g
f d
n

n
_
g
f d.
Finalement, soit H le sous-espace de C
b
(R
d
) deni par
H = = g
f : > 0 et f C
c
(R
d
).
Alors ladherence de H dans C
b
(R
d
) contient C
c
(R
d
) (on a remarque que si f C
c
(R
d
),
|g
f f| tend vers 0 quand 0) et on vient de montrer que

_
d
n

_
d
pour toute fonction H. Daprès la proposition precedente, cela sut pour donner la
convergence etroite de la suite (
n
) vers .
136
10.4 Deux applications
10.4.1 La convergence des mesures empiriques
Soit (X
n
)
n1
une suite de variables aleatoires à valeurs dans R
d
, independantes et de meme
loi. Ces variables peuvent representer les resultats successifs dune meme experience aleatoire
repetee de manière independante. Un problème statistique fondamental est destimer la loi
de X
1
à partir de la donnee de X
1
(), X
2
(), . . . , X
n
() pour une seule valeur de .
Exemple : theorie des sondages. Imaginons quon a une population de N individus
numerotes 1, 2, . . . , N . Lentier N est suppose très grand (on peut penser à la population
fran caise). A lindividu i est attache un paramètre a(i) R
d
(par exemple, lage de lindividu,
son intention de vote, son revenu mensuel, etc.). Si A B(R
d
), on sinteresse alors à la
quantite
(A) =
1
N
N
i=1
1
A
(a(i))
qui est la proportion dindividus dans la population dont le paramètre est dans A (par
exemple la proportion dindividus de plus de cinquante ans qui ont lintention de voter
Chirac et ont un revenu mensuel superieur à 2000 Euros).
Comme N est très grand, il est hors de question de calculer exactement (A). Le principe
dun sondage est alors de choisir un echantillon de la population, cest-à-dire de prendre au
hasard n individus (n grand mais petit devant N) en esperant que la proportion dindividus
choisis dans cet echantillon pour lesquels le paramètre est dans A sera proche de la meme pro-
portion calculee pour la population totale. Pour rendre ceci precis en termes mathematiques,
on se donne une famille Y
1
, . . . , Y
n
de variables aleatoires independantes de loi uniforme
sur 1, . . . , N (ce sont les individus de notre echantillon). La valeur du paramètre pour
lindividu Y
j
est X
j
= a(Y
j
). Les v.a. X
1
, . . . , X
n
sont evidemment independantes et de
meme loi. De plus, cette loi est
P
X
1
(A) = P(a(Y
1
) A) =
1
N
N
i=1
1
A
(a(i)) = (A).
Par ailleurs, la proportion calculee sur les individus de lechantillon est
1
n
n
j=1
1
A
(X
j
()) =
1
n
n
j=1
X
j
()
(A)
Finalement, la question de savoir si la proportion calculee sur lechantillon est proche de
la proportion reelle (A) se ramène à verier que la mesure, dite mesure empirique,
1
n
n
j=1
X
j
()
est proche de P
X
1
quand n . Le theorème suivant apporte une reponse à cette question.
137
Theorème 10.4.1 Soit (X
n
)
n1
une suite de variables aleatoires independantes et de meme
loi, à valeurs dans R
d
. Pour tout et tout n 1, soit
n,
la mesure de probabilite sur
R
d
denie par
n,
=
1
n
n
i=1
X
i
()
.
Alors, p.s.,
n,
(e)
n
P
X
1
.
Remarque. Dun point de vue pratique, le theorème precedent na aucun interet si on na
pas destimation de la vitesse de convergence. En revenant ` a lexemple donne avant lenonce
du theorème, il faut que la mesure empirique
n,
soit susamment proche de P
X
1
pour
des valeurs de n grandes mais petites devant la taille N de la population (en pratique, N est
de lordre de 10
7
et n seulement de lordre de 10
3
).
Preuve. Soit H un sous-ensemble denombrable dense de C
c
(R
d
). Si H, la loi forte des
grands nombres appliquee aux v.a. (X
i
) assure que
1
n
n
i=1
(X
i
)
p.s.
n
E[(X
1
)].
On peut reecrire cela sous la forme
_
d
n,
p.s.
n
_
dP
X
1
.
Puisque H est denombrable, quitte à ecarter une reunion denombrable densembles de prob-
abilite nulle, on obtient
p.s. H,
_
d
n,

n
_
dP
X
1
.
Daprès une proposition du paragraphe precedent, cela sut pour dire que p.s.
n,
converge
etroitement vers P
X
1
.
10.4.2 Le theorème central limite
Soit (X
n
)
n1
une suite de variables aleatoires reelles independantes et de meme loi, dans L
1
.
La loi forte des grands nombres montre que
1
n
(X
1
+ + X
n
)
p.s.
n
E[X
1
].
On cherche alors à savoir à quelle vitesse cette convergence a lieu, cest-à-dire quel est lordre
de grandeur de la dierence
1
n
(X
1
+ + X
n
) E[X
1
]
138
quand n est grand.
Sous lhypothèse supplementaire que les variables X
i
sont dans L
2
, on devine la reponse
en calculant, comme dans la preuve de la loi faible des grands nombres,
E[(X
1
+ + X
n
nE[X
1
])
2
] = var(X
1
+ + X
n
) = nvar(X
1
).
Ce calcul indique que la valeur moyenne de (X
1
+ + X
n
nE[X
1
])
2
crot lineairement
avec n, donc suggère fortement que lordre de grandeur de X
1
+ +X
n
nE[X
1
] est

n,
ou encore que lordre de grandeur de
1
n
(X
1
+ + X
n
) E[X
1
] est 1/
n. Le theorème
central limite rend ceci plus precis.
Theorème 10.4.2 (Theorème central limite) Soit (X
n
)
n1
une suite de variables aleatoires
reelles independantes et de meme loi, dans L
2
. Soit
2
= var(X
1
). Alors,
1
n
(X
1
+ + X
n
nE[X
1
])
(loi)
n
^(0,
2
)
o` u ^(0,
2
) designe la loi gaussienne centree de variance
2
. De manière equivalente, pour
tous a, b

R avec a < b,
lim
n
P(X
1
+ + X
n
[nE[X
1
] + a
n, nE[X
1
] + b
n]) =
1
2
_
b
a
exp(
x
2
2
2
) dx.
Preuve. La deuxième partie de lenonce est une consequence de la première, compte-tenu
de la formulation de la convergence en loi en termes des fonctions de repartition (noter ici
que la fonction de repartition de la variable limite est continue). Pour montrer la première
partie de lenonce, on remarque dabord quon peut supposer E[X
1
] = 0, quitte à remplacer
X
n
par X
n
E[X
n
]. Posons alors
Z
n
=
1
n
(X
1
+ + X
n
).
La fonction caracteristique de Z
n
est
Zn
() = E
_
exp
_
i(
X
1
+ + X
n
n
)
__
= E
_
exp
_
i

n
X
1
__
n
=
X
1
(

n
)
n
,
o` u, dans la seconde egalite, on a utilise le fait que les v.a. X
i
sont independantes et de meme
loi. Daprès un resultat du Chapitre 8, on a
X
1
() = 1 +iE[X
1
]
1
2
2
E[X
2
1
] + o(
2
) = 1

2
2
2
+ o(
2
)
quand 0. Pour R xe, on a donc aussi
X
1
(

n
) = 1

2
2
2n
+ o(
1
n
)
139
quand n . En combinant avec ce qui precède, on a pour tout R,
lim
n
Zn
() = lim
n
(1

2
2
2n
+ o(
1
n
))
n
= exp(
2
2
) =
U
().
si U suit la loi ^(0,
2
). Le theorème de Levy permet maintenant de conclure que Z
n
converge en loi vers U, ce qui est le resultat du theorème.
Cas particulier : Theorème de de Moivre. On suppose que les X
n
sont des variables
de Bernoulli de paramètre
1
2
(i.e. P(X
n
= 1) = P(X
n
= 0) =
1
2
) independantes. Alors
S
n
= X
1
+ + X
n
suit une loi binomiale B(n,
1
2
) :
P(S
n
= k) = C
k
n
2
n
.
Comme
2
= 1/4 dans ce cas particulier, le theorème entrane que, pour tous a < b,
2
n
n
2
+a
nk
n
2
+b
n
C
k
n

n
_
2
_
b
a
e
2x
2
dx.
Cette dernière convergence peut etre veriee directement (avec certains eorts) à laide de
la formule de Stirling. On montre en fait un resultat plus precis de la forme
n2
n
C
k
n
=
_
2
exp(
2
n
(k
n
2
)
2
) + o(1)
avec un reste o(1) uniforme quand k varie dans 0, 1, . . . , n.
10.4.3 Extension au cas vectoriel
Supposons maintenant que (X
n
)
n1
est une suite de variables aleatoires independantes de
meme loi à valeurs dans R
d
et integrables. Alors, on peut appliquer la loi forte des grands
nombres coordonnee par coordonnee pour obtenir
1
n
(X
1
+ + X
n
)
p.s.
n
E[X
1
],
o` u la limite E[X
1
] sinterprète evidemment comme le vecteur (E[X
1
1
], . . . , E[X
d
1
]) si on a
ecrit X = (X
1
1
, . . . , X
d
1
). Supposons de plus que les v.a. X
n
sont de carre integrable. Il
nest pas aussi facile dobtenir une version multidimensionnelle du theorème central limite :
contrairement à ce qui se passe pour la convergence presque s ure, il ne sut pas pour
obtenir la convergence en loi dune suite de v.a. à valeurs dans R
d
de savoir que chaque
suite coordonnee converge en loi (on peut aussi remarquer que la loi de la limite nest pas
determinee par la connaissance de chacune de ses marginales).
Pour etendre le theorème central limite au cas de v.a. à valeurs dans R
d
, nous devons
commencer par generaliser la notion de loi gaussienne.
140
Denition 10.4.1 Soit C une matrice d d à coecients reels, symetrique positive. Une
v.a. X à valeurs dans R
d
, de carre integrable, est appelee vecteur gaussien centre de covari-
ance C si
R
d
,
X
() = E[e
iX
] = exp(
1
2
t
C).
On dit aussi que X suit la loi ^(0, C).
Remarque. Soit a R
d
. On dit plus generalement que X suit la loi ^(a, C) si X a suit
la loi ^(0, C).
On a vu dans le Chapitre 8 que si X = (X
1
, . . . , X
d
) est une v.a. à valeurs dans R
d
et
de carre integrable, on a le developpement limite
X
() = 1 +i
d
j=1
j
E[X
j
]
1
2
d
j=1
d
k=1
k
E[X
j
X
k
] + o([
2
[)
quand 0. On en deduit immediatement que si X suit la loi ^(0, C) on a E[X] = 0 et
K
X
= C.
Proposition 10.4.3 Soit C une matrice symetrique positive. Il existe un vecteur gaussien
centre de covariance C.
Preuve. Rappelons dabord (voir la n du Chapitre 9) quune combinaison lineaire de v.a.
gaussiennes independantes est encore gaussienne.
On pose A =
C de sorte que A est une matrice symetrique positive et A

2
= C. Soient
ensuite Y
1
, . . . , Y
d
d v.a. reelles independantes de loi ^(0, 1). Soit Y la v.a. à valeurs dans
R
d
dont les coordonnees sont Y
1
, . . . , Y
d
. Alors, X = AY suit la loi ^(0, C). Pour le voir,
considerons R
d
et observons que X est une combinaison lineaire des v.a. Y
1
, . . . , Y
d
,
et est donc une v.a. gaussienne centree. Precisement, X suit la loi ^(0,
2
) avec
2
= E[( X)
2
] = E[
t
AY
t
Y A] =
t
AE[Y
t
Y ] A =
t
A
2
=
t
C,
en calculant de manière matricielle, et en utilisant le fait que E[Y
t
Y ] = Id puisque les
coordonnees de Y sont des v.a. de loi ^(0, 1) independantes. Finalement, grace à la formule
pour la fonction caracteristique dune v.a. de loi ^(0,
2
), on a pour tout u > 0,
E[e
iuX
] = exp(
2
u
2
2
) = exp(
u
2
2
t
C)
et en prenant u = 1 on a le resultat voulu.
Remarques. (i) Avec les notations de la preuve ci-dessus, Y suit la loi ^(0, Id).
(ii) Une v.a. X à valeurs dans R
d
est un vecteur gaussien centre si et seulement si toute
combinaison lineaire de ses composantes est gaussienne centree : en eet on a alors E[e
iX
] =
exp(
1
2
E[( X)
2
]) = exp(
1
2
t
K
X
).
Exercice. Soit X un vecteur gaussien centre. Montrer que X a une densite si et seulement
si K
X
est non degeneree, et calculer alors la densite de X.
141
Theorème 10.4.4 (Theorème central limite vectoriel) Soit (X
n
)
n1
est une suite de
variables aleatoires independantes de meme loi à valeurs dans R
d
, de carre integrable. Alors,
1
n
(X
1
+ + X
n
nE[X
1
])
(loi)
n
^(0, K
X
1
)
Preuve. Cest la meme que dans le cas reel. On peut supposer E[X
1
] = 0. Ensuite, pour
tout R
d
,
E
_
exp
_
i (
X
1
+ + X
n
n
)
__
= E
_
exp
_
i

n
X
1
__
n
=
X
1
(

n
)
n
.
Dautre part, on sait que
X
1
(

n
) = 1
1
2n
t
K
X
1
+ o(
1
n
).
On conclut que
lim
n
E
_
exp
_
i (
X
1
+ + X
n
n
)
__
= exp(
1
2
t
K
X
1
),
do` u le resultat grace au theorème de Levy.
142
Chapitre 11
Conditionnement
Ce chapitre est consacre à la construction et aux proprietes de lesperance conditionnelle.
Intuitivement, lesperance conditionnelle dune variable aleatoire reelle donnee par rapport
à une sous-tribu est la variable aleatoire mesurable pour cette sous-tribu qui est la plus
proche de la variable aleatoire donnee. Pour de nombreux problèmes concrets (prediction,
observation incomplète, etc.) il est important de pouvoir estimer une variable aleatoire sur
laquelle on na quune information partielle, et lon comprend dès lors limportance de la
notion desperance conditionnelle. La denition axiomatique de cette notion (dans laquelle
la propriete caracteristique joue un role essentiel) est motivee par le cas discret traite dans
le premier paragraphe. Le calcul explicite des esperances conditionnelles, qui est en general
un problème dicile, est illustre sur plusieurs cas, dont le cas gaussien particulièrement
important pour les applications. La notion de loi conditionnelle, utile dans ce cours dun
point de vue conceptuel surtout, est introduite à la n du chapitre.
11.1 Conditionnement discret
Comme dans les chapitres precedents on se place sur un espace de probabilite (, /, P). Soit
B / un evenement tel que P(B) > 0. On peut denir une nouvelle probabilite sur (, /),
appelee probabilite conditionnelle sachant B, en posant pour tout A /,
P(A[ B) =
P(A B)
P(B)
.
De meme, pour toute v.a. X 0, ou pour X L
1
(, /, P), lesperance conditionnelle de
X sachant B est denie par
E[X[ B] =
E[X 1
B
]
P(B)
.
Cette quantite est aussi lesperance de X sous la probabilite P( [ B), et elle sinterprète
comme la valeur moyenne de X quand B est realise.
Nous cherchons ensuite à denir lesperance conditionnelle sachant une variable aleatoire
(et non plus sachant un evenement). Considerons une v.a. Y à valeurs dans un espace E
143
denombrable. Soit E
= y E : P(Y = y) > 0. Pour tout y E
, et pour toute v.a.

X L
1
(, /, P), on peut denir, comme cas particulier de ce qui precède,
E[X[ Y = y] =
E[X 1
{Y =y}
]
P(Y = y)
.
Denition 11.1.1 Soit X L
1
(, /, P). Lesperance conditionnelle de X sachant Y est
la variable aleatoire reelle denie par
E[X[ Y ] = (Y ),
o` u la fonction : E R est donnee par
(y) =
_
E[X[ Y = y] si y E
,
0 si y EE
.
Remarque. Le choix de la valeur de sur EE
est arbitraire : de toute fa con ce choix

ninuence la denition de E[X[ Y ] que sur un ensemble de probabilite nulle, puisque
P(Y EE
) =
yE\E
P(Y = y) = 0.
On pourrait changer la denition de sur EE
et cela donnerait la meme v.a. E[X[ Y ] à

un ensemble de mesure nulle près. Dans les situations plus generales que nous rencontrerons
plus tard, les esperances conditionnelles (sachant une v.a. ou une tribu) seront toujours
denies à un ensemble de probabilite nulle près.
En comparant avec le conditionnement par rapport à un evenement, on observe que
lesperance conditionnelle E[X[ Y ] est maintenant une variable aleatoire : cest la v.a. qui
donne la valeur moyenne de X quand on connait Y : p.s.,
E[X[ Y ]() = E[X[ Y = y] , si Y () = y.
Remarquons aussi que E[X[ Y ] est une fonction de Y donc une v.a. (Y )-mesurable. Dans
un sens qui sera precise plus loin, cest la meilleure approximation de X par une fonction de
Y .
Exemple. Lancer dun de. On prend = 1, 2, . . . , 6 et P() =
1
6
pour tout .
Soient
Y () =
_
1 si est impair,
0 si est pair,
et X() = . Alors,
E[X[ Y ]() =
_
3 si 1, 3, 5,
4 si 2, 4, 6.
Proposition 11.1.1 On a E[[E[X[ Y ][] E[[X[]. En particulier, E[X[ Y ] L
1
(, /, P).
De plus, pour toute v.a. Z (Y )-mesurable bornee,
E[ZX] = E[Z E[X[ Y ]].
144
Preuve. Daprès la denition de lesperance conditionnelle E[X[ Y ], on a
E[[E[X[ Y ][] =
yE
P(Y = y)
[E[X 1
{Y =y}
][
P(Y = y)

yE
E[[X[ 1
{Y =y}
] = E[[X[].
Pour la dernière assertion, on utilise le fait quon peut ecrire Z = (Y ), avec une fonction
bornee. Alors,
E[(Y ) E[X[ Y ]] =
yE
(y) E[X 1
{Y =y}
] =
yE
E[(Y )X 1
{Y =y}
] = E[(Y )X].
Consequence. Si Y
est une autre v.a. discrète telle que (Y ) = (Y
), on a
E[X[ Y ] = E[X[ Y
] p.s.
En eet, en appliquant la proposition avec Z = 1
{E[X|Y ]>E[X|Y
]}
, qui est bien mesurable pour
(Y ) = (Y
) puisque E[X[ Y ] et E[X[ Y
] le sont, on trouve
E[1
{E[X|Y ]>E[X|Y
]}
(E[X[ Y ] E[X[ Y
])] = 0
do` u E[X[ Y ] E[X[ Y
] p.s., et on obtient de meme lautre inegalite. Cela montre aussi que

la dernière propriete de la proposition caracterise E[X[ Y ] parmi les v.a. (Y )-mesurables
et integrables.
Lobservation precedente conduit à dire que la bonne notion de conditionnement est
la notion de conditionnement par rapport à une tribu. Cest cette notion que nous allons
developper dans les paragraphes suivants en nous basant sur la propriete de la proposition
ci-dessus.
11.2 La denition de lesperance conditionnelle
11.2.1 Cas des variables integrables
Theorème et denition 11.2.1 Soit B une sous-tribu de /, et soit X L
1
(, /, P). Il
existe alors une unique variable aleatoire dans L
1
(, B, P), notee E[X[ B], telle que
B B , E[X 1
B
] = E[E[X[ B] 1
B
]. (11.1)
On a plus generalement, pour toute variable aleatoire Z B-mesurable bornee
E[X Z] = E[E[X[ B] Z]. (11.2)
Si X 0 on a aussi E[X[ B] 0.
Le point crucial est le fait que E[X[ B] est mesurable pour la tribu B. Lune ou lautre
des proprietes (11.1) et (11.2) caracterise lesperance conditionnelle E[X [ B] dans la classe
145
des v.a. de L
1
(, B, P). Dans la suite nous ferons reference à lune ou lautre comme à la
propriete caracteristique de lesperance conditionnelle.
Dans le cas particulier o` u la tribu B est engendree par une variable aleatoire Y , on ecrira
indieremment
E[X[ B] = E[X[ (Y )] = E[X[ Y ].
Cette notation est coherente avec le cas discret traite dans la partie precedente : comparer
(11.2) et la proposition ci-dessus.
Preuve. Commen cons par lunicite. Soient X
et X
deux v.a. dans L

1
(, B, P) telles que
B B , E[X
1
B
] = E[X 1
B
] = E[X
1
B
].
En prenant B = X
> X
(qui est bien B-mesurable puisque X
et X
le sont), on trouve
E[(X
)1
{X
>X
}
] = 0
do` u X
p.s., et de meme X
p.s.
Pour lexistence, supposons dabord X 0, et soit Q la mesure nie sur (, B) denie
par
B B , Q(B) = E[X 1
B
].
Alors, si on voit aussi P comme une mesure de probabilite sur (, B), il est immediat quon
a Q P. Le theorème de Radon-Nikodym, applique sur lespace mesurable (, B), assure
donc lexistence dune v.a.

X B-mesurable positive telle que
B B , E[X 1
B
] = Q(B) = E[
X 1
B
].
En prenant B = , on voit que E[
X] = E[X] < , donc X L

1
(, B, P). Finalement,
E[X[ B] =

X verie la propriete de lenonce. Lorsque X est de signe quelconque, il sut de
prendre
E[X[ B] = E[X
+
[ B] E[X
[ B].
Enn, le passage de (11.1) à (11.2) se fait en utilisant lapproximation usuelle des fonctions
mesurables par des fonctions etagees.
Exemple. Prenons =]0, 1], / = B(]0, 1]) et P(d) = d. Soit B la tribu engendree par
les intervalles ]
i1
n
,
i
n
], i 1, . . . , n, o` u n 1 est xe. Un element f de L
1
(, /, P) est une
fonction mesurable f :]0, 1] R telle que
_
1
0
[f()[d < . Alors on verie très facilement
que
E[f [ B] =
n
i=1
f
i
1
]
i1
n
,
i
n
]
,
o` u f
i
= n
_
i/n
(i1)/n
f()d est la moyenne de f sur ]
i1
n
,
i
n
].
Proprietes de lesperance conditionnelle.
(a) Si X est B-mesurable, E[X[ B] = X.
(b) Lapplication X E[X[ B] est lineaire.
146
(c) E[E[X[ B]] = E[X].
(d) [E[X[ B][ E[[X[ [ B] p.s., et en consequence E[[E[X[ B][] E[[X[].
(e) X X
E[X[ B] E[X
[ B] p.s.
Preuve. (a) decoule immediatement de lunicite dans le theorème ci-dessus. Il en va de
meme pour (b) en observant que, si X, X
L
1
(, /, P) et ,
R, la v.a.
E[X[ B] +
E[X
[ B]
satisfait la propriete caracteristique (11.1) pour X +
. La propriete (c) est le cas

particulier B = dans (11.1). Pour (d), rappelons que si X 0 on a E[X [ B] 0. Cela
entrane
[E[X[ B][ = [E[X
+
[ B] E[X
[ B][ E[X
+
[ B]] + E[X
[ B] = E[[X[ [ B].
Enn, (e) est immediat par linearite.
11.2.2 Cas des variables positives
Theorème 11.2.2 Soit X une variable aleatoire à valeurs dans [0, ]. La formule
E[X[ B] = lim
n
E[X n[ B] p.s.
denit une variable aleatoire à valeurs dans [0, ], qui est caracterisee (à un ensemble de
probabilite nulle près) par la propriete suivante : pour toute variable aleatoire Z B-mesurable
positive,
E[XZ] = E[E[X[ B]Z]. (11.3)
Dans le cas o` u X est aussi integrable, en comparant la dernière propriete du theorème
avec (11.1), on voit immediatement que lon retrouve la meme denition de E[X [ B] que
dans le paragraphe ci-dessus. De meme que dans le cas des variables integrables, la propriete
(11.3) sera appelee propriete caracteristique de lesperance conditionnelle.
Preuve. La croissance de la limite dans la denition de E[X [ B] decoule de la propriete
(e) ci-dessus. Ensuite, si Z est B-mesurable positive, le theorème de convergence monotone
entrane que
E[E[X[ B]Z] = lim
n
E[E[X n[ B](Z n)] = lim
n
E[(X n)(Z n)] = E[XZ].
Il reste à etablir lunicite. Soient donc X
et X
deux variables aleatoires B-mesurables à

valeurs dans [0, ] telles que
E[X
Z] = E[X
Z]
pour toute v.a. Z B-mesurable positive. Prenons
Z = 1
{X
a<bX
}
147
o` u on a xe a, b Q
+
, avec a < b. Il vient
a P(X
a < b X
) b P(X
a < b X
)
ce qui nest possible que si P(X
a < b X
) = 0. On a donc
P
_
_
a,bQ
+
a<b
X
a < b X
_
= 0
ce qui entrane X
p.s. Par un raisonnement symetrique on a aussi X
p.s.
Remarque. On peut avoir X < p.s. et simultanement P(E[X [ B] = ) > 0. Par
exemple, si B = , , on verie aisement que E[X [ B] = E[X], qui peut bien s ur etre
inni pour des v.a. X nies p.s. Pour donner un exemple moins trivial, reprenons le cas o` u
=]0, 1], B = (]
i1
n
,
i
n
]; i 1, . . . , n) et P(d) = d. Alors, si X() =
1
, on a
E[X[ B] = 1
]0,
1
n
]
+
n
i=2
n log(
i
i 1
) 1
]
i1
n
,
i
n
]
.
Proprietes.
(a) Si X et X
sont des v.a. positives et a, b 0,

E[aX + bX
[ B] = a E[X[ B] + b E[X
[ B].
(b) Si X est B-mesurable, E[X[ B] = X.
(c) Si (X
n
) est une suite croissante de v.a. positives, et X = lim X
n
,
E[X[ B] = lim
n
E[X
n
[ B] , p.s.
(d) Si (X
n
) est une suite de v.a. positives,
E[liminf X
n
[ B] liminf E[X
n
[ B] , p.s.
(e) Soit (X
n
) une suite de v.a. integrables convergeant p.s. vers X. Supposons quil existe
une v.a. positive Z telle que [X
n
[ Z p.s. pour tout n, et E[Z] < . Alors,
E[X[ B] = lim
n
E[X
n
[ B] , p.s. et dans L
1
.
(f) Si f est convexe positive, et si X L
1
,
E[f(X)[ B] f(E[X[ B]).
148
Remarque. La mention p.s. devrait gurer dans chaque enonce impliquant une esperance
conditionnelle, puisque celle-ci nest denie quà un ensemble de probabilite nulle près. Le
plus souvent cependant, cette mention est sous-entendue, comme dans (a),(b) et (f) ci-dessus.
Preuve. (a) et (b) sont faciles en utilisant la caracterisation de E[X [ B] donnee dans le
theorème.
(c) Il decoule de (a) que si X
1
X
2
0 on a E[X
1
[ B] E[X
2
[ B]. Sous les hypothèses
de (c), on peut donc poser X
= lim E[X
n
[ B], qui est une v.a. B-mesurable à valeurs dans
[0, ]. On a alors, pour toute v.a. Z B-mesurable positive,
E[ZX
] = lim E[Z E[X

n
[ B]] = lim E[Z X
n
] = E[ZX]
ce qui daprès la caracterisation du theorème entrane X
= E[X[ B].
(d) On ecrit, en utilisant (c),
E[liminf X
n
[ B] = E
_
lim
k
_
inf
nk
X
n
_
B
_
= lim
k
E
_
inf
nk
X
n
B
_
lim
k
_
inf
nk
E[X
n
[ B]
_
= liminf E[X
n
[ B].
(e) Il sut dappliquer (d) deux fois :
E[liminf(Z X
n
)[ B] E[Z[ B] limsup E[X
n
[ B]
E[liminf(Z + X
n
)[ B] E[Z[ B] + liminf E[X
n
[ B]
ce qui conduit à
E[X[ B] liminf E[X
n
[ B] limsup E[X
n
[ B] E[X[ B],
do` u la convergence p.s. recherchee. La convergence L
1
est maintenant une consequence
du theorème de convergence dominee, puisque [E[X
n
[ B][ E[[X
n
[ [ B] E[Z [ B] et
E[E[Z[ B]] = E[Z] < .
(f) Notons
E
f
= (a, b) R
2
: x R, f(x) ax + b.
Alors, il est facile de verier que
x R
2
, f(x) = sup
(a,b)E
f
(ax + b) = sup
(a,b)E
f
Q
2
(ax + b).
En utilisant le fait que Q
2
est denombrable, on en deduit que p.s.
E[f(X)[ B] = E
_
sup
(a,b)E
f
Q
2
(aX + b)
B
_
sup
(a,b)E
f
Q
2
E[aX + b[ B] = f(E[X[ B]).
Remarque. Par analogie avec la formule P(A) = E[1

A
], on ecrira souvent pour A /,
P(A[ B) := E[1
A
[ B].
Prendre garde cependant que P(A[ B) ainsi denie est une variable aleatoire.
149
11.2.3 Le cas particulier des variables de carre integrable
Dans le cas o` u X est de carre integrable, il existe une autre interpretation remarquable de
E[X[ B]. Avant denoncer le resultat, observons que L
2
(, B, P) sidentie à un sous-espace
ferme de L
2
(, /, P), à savoir lespace des elements de L
2
(, /, P) dont un representant au
moins est B-mesurable.
Theorème 11.2.3 Si X L
2
(, /, P), alors E[X [ B] est la projection orthogonale de X
sur L
2
(, B, P).
Preuve. La propriete (f) ci-dessus montre que E[X[ B]
2
E[X
2
[ B] p.s. Cela entrane que
E[E[X[ B]
2
] E[X
2
] < , et donc la v.a. E[X[ B] est dans L
2
(, B, P).
Par ailleurs, pour toute v.a. Z B-mesurable bornee,
E[Z(X E[X[ B])] = E[ZX] E[ZE[X[ B]] = 0,
toujours daprès la propriete caracteristique de E[X[ B]. Donc X E[X[ B] est orthogonal
à toutes les v.a. bornees B-mesurables, et par un argument de densite, X E[X [ B] est
orthogonal à L
2
(, B, P). Le resultat annonce en decoule.
On peut utiliser le theorème precedent pour donner une autre construction de lesperance
conditionnelle, evitant le recours au theorème de Radon-Nikodym, en commen cant par le
cas des v.a. de carre integrable. Observons aussi que ce theorème donne une interpretation
interessante de lesperance conditionnelle : si X est de carre integrable, E[X [ B] est la
meilleure (au sens de la norme L
2
) approximation de X par une v.a. B-mesurable.
11.3 Proprietes speciques de lesperance condition-
nelle
Les proprietes etablies ci-dessus sont analogues aux proprietes de lesperance (ou de lintegrale
de fonctions mesurables). Nous etablissons dans ce paragraphe des proprietes plus parti-
culières à lesperance conditionnelle.
Proposition 11.3.1 Soit X une variable aleatoire reelle, et soit Y une variable aleatoire
B-mesurable. Alors,
E[Y X[ B] = Y E[X[ B]
dès que les esperances conditionnelles sont bien denies, cest-à-dire si X et Y sont positives,
ou si X et Y X L
1
.
Preuve. Supposons X 0 et Y 0. Alors, pour toute v.a. Z B-mesurable positive,
E[Z(Y E[X[ B])] = E[(ZY )E[X[ B]] = E[ZY X].
Puisque Y E[X[ B] est une v.a. B-mesurable positive, cette egalite sut pour conclure que
Y E[X[ B] = E[Y X[ B].
Dans le cas o` u X et Y X sont integrables, on obtient le resultat en decomposant X =
X
+
X
et Y = Y
+
Y
.
150
Proposition 11.3.2 Soient B
1
et B
2
deux sous-tribus de / telles que B
1
B
2
. Alors, pour
toute variable aleatoire X positive ou integrable,
E[E[X[ B
2
] [ B
1
] = E[X[ B
1
].
Remarque. On a aussi E[E[X[ B
1
] [ B
2
] = E[X[ B
1
] sous les memes hypothèses, mais cela
est evident puisque E[X[ B
1
] est B
2
-mesurable.
Preuve. Traitons le cas o` u X 0. Soit Z une v.a. B
1
-mesurable positive. Alors, puisque
Z est aussi B
2
-mesurable,
E[Z E[E[X[ B
2
] [ B
1
]] = E[Z E[X[ B
2
]] = E[ZX].
Cela sut pour etablir legalite annoncee.
Theorème 11.3.3 Deux sous-tribus B
1
et B
2
sont independantes si et seulement si, pour
toute v.a. X B
2
-mesurable positive (ou pour toute v.a. X L
1
(, B
2
, P), ou bien pour toute
v.a. X de la forme X = 1
A
, avec A B
2
), on a
E[X[ B
1
] = E[X].
Preuve. Supposons dabord que B
1
et B
2
sont independantes. Alors, si X est une v.a.
B
2
-mesurable positive, on a pour toute v.a. Z B
1
-mesurable positive,
E[ZX] = E[Z]E[X] = E[Z E[X]],
et donc la v.a. constante E[X] satisfait la propriete caracteristique de lesperance condition-
nelle E[X[ B
1
]. Dans le cas o` u X est integrable, il sut dutiliser la linearite de lesperance
conditionnelle.
Supposons inversement que
A B
2
, E[1
A
[ B
1
] = E[1
A
] = P(A).
Alors, pour tout B B
1
,
P(A B) = E[1
A
1
B
] = E[E[1
A
[ B
1
] 1
B
] = E[P(A) 1
B
] = P(A)P(B)
ce qui montre que les tribus B
1
et B
2
sont independantes.
Remarque. Soient X et Y deux v.a. reelles. Puisque les v.a. mesurables par rapport
à la tribu (X) sont les fonctions de X, le theorème precedent montre que X et Y sont
independantes si et seulement si
E[h(X)[ Y ] = E[h(X)]
pour toute fonction borelienne h telle que E[[h(X)[] < (rappelons que E[h(X) [ Y ] =
E[h(X)[ (Y )]). Si X est integrable on a donc en particulier
E[X[ Y ] = E[X].
151
Cependant cette dernière propriete seule ne sut pas pour donner lindependance de X et
Y . Pour sen convaincre, il sut de traiter le cas o` u X suit une loi ^(0, 1), et Y = [X[.
Alors, toute v.a. Z (Y )-mesurable bornee secrit Z = g(Y ), avec une fonction g bornee, et
donc
E[ZX] = E[g([X[)X] =
1
2
_

dy e
y
2
/2
g([y[)y = 0,
ce qui montre que E[X[ Y ] = 0 = E[X], alors que X et Y ne sont bien s ur pas independantes.
Nous enon cons maintenant un autre theorème reliant esperance conditionnelle et indepen-
dance, qui est très souvent utile pour les calculs explicites desperance conditionnelle.
Theorème 11.3.4 Soient X et Y deux variables aleatoires à valeurs respectivement dans
les espaces mesurables E et F. Supposons que X est independante de B et que Y est B-
mesurable. Alors, pour toute fonction mesurable g : E F R
+
,
E[g(X, Y ) [ B] =
_
g(x, Y ) P
X
(dx),
o` u P
X
designe la loi de X. Le terme de droite est la composee de la variable aleatoire Y par
lapplication : y
_
g(x, y) P
X
(dx) ( est mesurable grace au theorème de Fubini).
Remarque. De manière informelle on peut expliquer le theorème de la manière suivante.
Si on conditionne par rapport à la sous-tribu B, la v.a. Y , qui est B-mesurable, se comporte
comme une constante et comme par ailleurs la connaissance de B ne donne aucune infor-
mation sur X la meilleure approximation de g(X, Y ) est obtenue en integrant g(, Y ) par
rapport à la loi de X.
Preuve. Il sut de montrer que pour toute v.a. Z B-mesurable positive,
E[g(X, Y )Z] = E[(Y )Z].
Notons P
(X,Y,Z)
la loi du triplet (X, Y, Z), qui est une mesure de probabilite sur EF R
+
.
Comme X est independante de (Y, Z), on a
P
(X,Y,Z)
= P
X
P
(Y,Z)
et donc, en utilisant le theorème de Fubini,
E[g(X, Y )Z] =
_
g(x, y)z P
(X,Y,Z)
(dxdydz)
=
_
g(x, y)z P
X
(dx)P
(Y,Z)
(dydz)
=
_
FR
+
z
_
_
E
g(x, y)P
X
(dx)
_
P
(Y,Z)
(dydz)
=
_
FR
+
z(y) P
(Y,Z)
(dydz)
= E[(Y )Z]
ce qui etait le resultat recherche.
152
11.4 Calculs desperance conditionnelle
11.4.1 Conditionnement discret
Soit Y une v.a. à valeurs dans un espace denombrable E, et soit X L
1
(, /, P). Alors on
a dejà vu que
E[X[ Y ] = (Y )
o` u
(y) =
E[X 1
{Y =y}
]
P(Y = y)
pour tout y E tel que P(Y = y) > 0 (et (y) peut etre choisie de manière arbitraire
lorsque P(Y = y) = 0).
11.4.2 Cas des variables à densite
Soient X et Y deux v.a. à valeurs respectivement dans R
m
et dans R
n
. Supposons que le
couple (X, Y ) a pour densite p(x, y) : pour toute fonction borelienne f : R
m
R
n
R
+
,
E[f(X, Y )] =
_
R
m
R
n
f(x, y) p(x, y) dxdy.
Alors la densite de Y est la fonction
q(y) =
_
R
m
p(x, y) dx
(en toute rigueur il faut prendre q(y) = 0 pour les valeurs de y telles que
_
p(x, y) dx = ,
qui forment un ensemble de mesure nulle; nous negligerons cependant ce point de detail dans
les calculs qui suivent).
Soit maintenant h : R
m
R
+
une fonction mesurable. Alors on calcule E[h(X)[ Y ] de
la fa con suivante. Pour toute fonction g : R
n
R
+
borelienne, on a
E[h(X)g(Y )] =
_
R
m
R
n
h(x) g(y) p(x, y) dxdy
=
_
R
n
_
_
R
m
h(x) p(x, y) dx
_
g(y) dy
=
_
R
n
_
_
R
m
h(x) p(x, y) dx
q(y)
_
g(y) q(y)1
{q(y)>0}
dy
=
_
R
n
(y) g(y) q(y)1
{q(y)>0}
dy
= E[(Y ) g(Y )],
o` u on a pose
(y) =
_
_
1
q(y)
_
R
m
h(x) p(x, y) dx si q(y) > 0,
h(0) si q(y) = 0
153
(la valeur de (y) lorsque q(y) = 0 est arbitraire : le choix de la valeur h(0) sera commode
dans lenonce qui suit). Dans le calcul qui precède, on a utilise implicitement le fait que si
q(y) = 0 on a p(x, y) = 0 dx p.p., et donc
_
h(x) p(x, y) dx = 0.
Il decoule du calcul ci-dessus et de la caracterisation de lesperance conditionnelle que
E[h(X)[ Y ] = (Y ).
Nous reenon cons ce resultat sous une forme un peu dierente.
Proposition 11.4.1 Pour tout y R
n
, soit (y, dx) la mesure de probabilite sur R
m
denie
par
(y, dx) =
_
_
_
1
q(y)
p(x, y) dx si q(y) > 0,
0
(dx) si q(y) = 0.
Alors, pour toute fonction h : R
m
R
+
borelienne,
E[h(X)[ Y ] =
_
(Y, dx) h(x).
On ecrit souvent, de manière un peu abusive, pour tout y R,
E[h(X)[ Y = y] =
_
(y, dx) h(x) =
1
q(y)
_
h(x) p(x, y) dx
et on dit que (y, dx) est la loi conditionnelle de X sachant que Y = y. La fonction
x
p(x, y)
q(y)
est appelee densite conditionnelle de X sachant que Y = y.
Exercice. Sous les hypothèses precedentes, montrer plus generalement que, pour toute
fonction borelienne h : R
m
R
n
R
+
, on a
E[h(X, Y )[ Y ] =
_
h(x, Y ) (Y, dx).
11.4.3 Conditionnement gaussien
Soient X, Y
1
, . . . , Y
p
p +1 variables aleatoires reelles dans L
2
(, /, P). Comme cela a ete vu
dans le paragraphe 2.3 ci-dessus, lesperance conditionnelle
E[X[ Y
1
, . . . , Y
p
]
est la projection orthogonale de X sur lespace L
2
(, (Y
1
, . . . , Y
p
), P) qui est de dimen-
sion innie sauf dans des cas triviaux. Cette projection orthogonale est aussi la meilleure
approximation de X, au sens de la norme L
2
, par une v.a. de la forme (Y
1
, . . . , Y
p
).
154
Par ailleurs, nous avons aussi etudie, dans le Chapitre 8, la meilleure approximation de
X par une fonction ane de Y
1
, . . . , Y
p
, qui est la projection orthogonale de X sur lespace
vectoriel (de dimension nie) engendre par 1, Y
1
, . . . , Y
p
. En general cette dernière projection
est très dierente de lesperance conditionnelle E[X[ Y
1
, . . . , Y
p
] qui fournit une bien meilleure
approximation de X. Nous allons cependant etudier une situation o` u les deux concident, ce
qui a lenorme avantage de ramener les calculs desperance conditionnelle à des projections
en dimension nie.
Nous avons vu dans le Chapitre 10 quune v.a. Z = (Z
1
, . . . , Z
k
) à valeurs dans R
k
est un
vecteur gaussien centre si toute combinaison lineaire de Z
1
, . . . , Z
k
est gaussienne centree, ce
qui equivaut encore à
R
k
, E[exp(i Z)] = exp(
1
2
t
K
Z
).
Cest par exemple le cas si les composantes Z
1
, . . . , Z
k
sont des v.a. gaussiennes independantes.
1
, . . . , X
m
, Y
1
, . . . , Y
n
) un vecteur gaussien centre. Alors les
vecteurs (X
1
, . . . , X
m
) et (Y
1
, . . . , Y
n
) sont independants si et seulement si
cov(X
i
, Y
j
) = 0 , i 1, . . . , m, j 1, . . . , n. (11.4)
Preuve. Il sut de montrer que, sous la condition (11.4), (X
1
, . . . , X
m
) est independant de
(Y
1
, . . . , Y
n
) (linverse est toujours vrai). Or, pour = (
1
, . . . ,
m
,
1
, . . . ,
n
) R
n+m
,
E[exp(i (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
))] = exp(
1
2
t
K
(X
1
,...,Xm,Y
1
,...,Yn)
)
et, sous la condition (11.4),
t
K
(X
1
,...,Xm,Y
1
,...,Yn)
=
m
j,k=1
k
cov(X
j
, X
k
) +
n
j,k=1
k
cov(Y
j
, Y
k
).
Cela entrane
E[exp(i (X
1
, . . . , X
m
, Y
1
, . . . , Y
n
))] = E[exp(i
m
j=1
j
X
j
)] E[exp(i
n
j=1
j
Y
j
)],
soit encore
P
(X
1
,...,Xm,Y
1
,...,Yn)
(
1
, . . . ,
m
,
1
, . . . ,
n
) =

P
(X
1
,...,Xm)
(
1
, . . . ,
m
)

P
(Y
1
,...,Yn)
(
1
, . . . ,
n
).
En utilisant linjectivite de la transformee de Fourier, on a donc
P
(X
1
,...,Xm,Y
1
,...,Yn)
= P
(X
1
,...,Xm)
P
(Y
1
,...,Yn)
ce qui est lindependance recherchee.
Consequence. Soit (X
1
, . . . , X
n
) un vecteur gaussien centre tel que cov(X
j
, X
k
) = 0 si
j ,= k. Alors, les v.a. X
1
, . . . , X
n
sont independantes. En eet, la proposition precedente
155
entrane dabord que X
n
est independant de (X
1
, . . . , X
n1
), puis que X
n1
est independant
de (X
1
, . . . , X
n2
), etc., ce qui permet de conclure.
Plus generalement, si la matrice de covariance de (X
1
, . . . , X
n
) est diagonale par blocs
de tailles respectives i
1
, . . . , i
(avec i
1
+ + i
= n) les sous-vecteurs (X
1
, . . . , X
i
1
),
(X
i
1
+1
, . . . , X
i
1
+i
2
), . . . , (X
i
1
++i
1
+1
, . . . , X
n
) sont independants.
Theorème 11.4.3 Soit (Y
1
, . . . , Y
n
, X) un vecteur gaussien centre. Alors, E[X[ Y
1
, . . . , Y
n
]
concide avec la projection orthogonale de X sur lespace vectoriel engendre par Y
1
, . . . , Y
n
.
Il existe donc des reels
1
, . . . ,
n
tels que
E[X[ Y
1
, . . . , Y
n
] =
n
j=1
j
Y
j
.
De plus, pour toute fonction borelienne h : R R
+
,
E[h(X)[ Y
1
, . . . , Y
n
] =
_
R
h(x) q
P
n
j=1
j
Y
j
,
2 (x) dx,
o` u
2
= E[(X
n
j=1
j
Y
j
)
2
]
et pour tout m R,
q
m,
2 (x) =
1
2
exp(
(x m)
2
2
2
)
est la densite de la loi ^(m,
2
).
Remarque. Le cas = 0 se produit si et seulement si X =
n
j=1
j
Y
j
, et alors X est
mesurable par rapport à (Y
1
, . . . , Y
n
), de sorte que la deuxième formule du theorème doit
sinterpreter comme E[h(X)[ Y
1
, . . . , Y
n
] = h(X). Nous ecartons ce cas trivial dans la preuve
qui suit.
Preuve. Soit

X =
n
j=1
j
Y
j
la projection orthogonale de X sur lespace vectoriel engendre
par Y
1
, . . . , Y
n
. Alors, pour tout j 1, . . . , n,
cov(X

X, Y
j
) = E[(X

X)Y
j
] = 0
par denition de la projection orthogonale. Puisque le vecteur (Y
1
, . . . , Y
n
, X

X) est
gaussien centre (toute combinaison lineaire de ses composantes est une combinaison lineaire
de Y
1
, . . . , Y
n
, X), la proposition precedente montre que X
X est independant de Y
1
, . . . , Y
n
.
Donc,
E[X[ Y
1
, . . . , Y
n
] = E[X

X[ Y
1
, . . . , Y
n
] +

X = E[X

X] +

X =

X.
On a utilise le fait que

X est mesurable par rapport à (Y
1
, . . . , Y
n
), puis lindependance de
de X

X et de (Y
1
, . . . , Y
n
) qui entrane E[X

X[ Y
1
, . . . , Y
n
] = E[X

X] = 0.
156
Pour la dernière assertion, notons Z = X

X, de sorte que Z est independante de
(Y
1
, . . . , Y
n
) et suit la loi ^(0,
2
) (Z est gaussienne centree et par denition
2
= E[Z
2
]).
On utilise alors le theorème 11.3.4 qui montre que
E[h(X)[ Y
1
, . . . , Y
n
] = E[h(
n
j=1
j
Y
j
+ Z)[ Y
1
, . . . , Y
n
] =
_
h(
n
j=1
j
Y
j
+ z) P
Z
(dz).
En ecrivant P
Z
(dz) = q
0,
2 (z)dz et en faisant un changement de variables evident, on aboutit
à la formule de lenonce.
11.5 Probabilites de transition et lois conditionnelles
Les calculs precedents desperance conditionnelle peuvent etre reenonces de manière plus
agreable à laide de la notion de probabilite de transition.
Denition 11.5.1 Soient (E, c) et (F, T) deux espaces mesurables. On appelle probabilite
de transition (ou parfois noyau de transition) de E dans F une application
: E T [0, 1]
qui verie les deux proprietes suivantes :
(i) pour tout x E, (x, ) est une mesure de probabilite sur (F, T);
(ii) pour tout A T, lapplication x (x, A) est c-mesurable.
De manière intuitive, à chaque fois que lon xe un point x du premier espace E, la
mesure de probabilite (x, ) donne le moyen de choisir de manière aleatoire un point y du
deuxième espace F. Dans la theorie des chanes de Markov, sur laquelle nous reviendrons,
on etudie levolution au cours du temps dun phenomène aleatoire dans lequel letat y à
linstant n+1 depend de letat x à linstant n, et dautres paramètres aleatoires non connus
à linstant n : la loi de letat à linstant n+1 connaissant letat à linstant n est alors fournie
par une probabilite de transition (x, dy).
Exemple. Soit une mesure positive -nie sur (F, T), et soit f : E F R
+
une
application mesurable telle que
_
F
f(x, y) (dy) = 1 , x E.
Alors
(x, A) =
_
A
f(x, y) (dy)
denit une probabilite de transition de E dans F. La propriete (ii) de la denition decoule
en particulier du theorème de Fubini.
157
Proposition 11.5.1 (i) Si h est une fonction mesurable positive (ou bornee) sur (F, T),
alors
(x) :=
_
(x, dy) h(y) , x E
est une fonction mesurable positive (ou bornee) sur E.
(ii) Si est une mesure de probabilite sur (E, c), alors
(A) :=
_
(dx) (x, A) , A T
est une mesure de probabilite sur (F, T).
La verication de ces proprietes est facile. Dans (i), on suppose dabord h etagee, puis
on utilise un passage à la limite croissant.
Nous en venons maintenant au lien entre la notion de probabilite de transition et lesperance
conditionnelle.
Denition 11.5.2 Soient X et Y deux variables aleatoires à valeurs respectivement dans
(E, c) et dans (F, T). On appelle loi conditionnelle de Y sachant X toute probabilite de
transition de E dans F telle que, pour toute fonction h mesurable positive sur (F, T), on
ait
E[h(Y )[ X] =
_
(X, dy) h(y).
Remarque. La v.a.
_
(X, dy) h(y) est obtenue en composant X et lapplication x
_
(x, dy) h(y), qui est mesurable daprès la proposition precedente. Cest donc bien une
fonction de X, comme doit letre lesperance conditionnelle E[h(Y )[ X].
Par denition, si est une loi conditionnelle de Y sachant X, on a pour tout A T,
P(Y A[ X) = (X, A) , p.s.
Il est tentant de remplacer cette egalite de variables aleatoires par legalite de nombres reels
P(Y A[ X = x) = (x, A),
pour tout x E. Bien quexpliquant lintuition de la notion de loi conditionnelle, cette
dernière egalite na en general pas de sens (sauf si X est une v.a. discrète) puisque quon
aura souvent P(X = x) = 0 pour tout x, ce qui interdit de denir P(Y A[ X = x). La
seule formulation correcte est donc la première egalite P(Y A[ X) = (X, A).
Discutons maintenant lunicite de la loi conditionnelle de Y sachant X. Si et
sont
deux lois conditionnelles, on aura, pour tout A T,
(X, A) = P(Y A[ X) =
(X, A) , p.s.
ce qui equivaut encore à dire que, pour tout A T,
(x, A) =
(x, A) , P
X
(dx) p.s.
158
Supposons que lespace mesurable (F, T) soit tel quune mesure de probabilite sur (F, T)
soit caracterisee par ses valeurs sur une famille denombrable densembles mesurables (cest le
cas pour (R
d
, B(R
d
)), en considerant les paves à coordonnees rationnelles). Alors on conclut
que
(x, ) =
(x, ) , P
X
(dx) p.s.
Il y a donc unicite en ce sens (et clairement on ne peut pas esperer mieux). Par abus de
langage on parlera cependant souvent de la loi conditionnelle de Y sachant X.
Considerons maintenant le problème de lexistence de lois conditionnelles.
Theorème 11.5.2 Supposons que (E, c) et (F, T) soient des espaces metriques complets
separables munis de leur tribu borelienne. Alors il existe toujours une loi conditionnelle de
Y sachant X.
Nous ne demontrerons pas ce theorème qui est un resultat assez dicile de theorie de la
mesure. Dans la suite de ce cours, nous naurons de toute fa con pas besoin du Theorème
11.5.2, car une construction directe permet deviter le recours au theorème dexistence. Pour
illustrer cela reprenons les exemples traites dans la partie precedente (attention les roles de
X et Y sont intervertis).
(1) Si X est une v.a. discrète, cest-à-dire si E est denombrable, alors on peut denir (x, A)
par
(x, A) = P(Y A[ X = x) si x E
:= a E : P(X = a) > 0)
(x, A) =
y
0
(A) si x / E
o` u y
0
est un point xe de F, dont le choix est arbitraire.
(2) Supposons que X et Y sont à valeurs respectivement dans R
m
et dans R
n
et que le couple
(X, Y ) a pour densite p(x, y), (x, y) R
m
R
n
. La densite de X est alors
q(x) =
_
R
n
p(x, y) dy.
La Proposition 11.4.1 montre quon peut denir la loi conditionnelle de Y sachant X par
(x, A) =
1
q(x)
_
A
dy p(x, y) si q(x) > 0
(x, A) =
0
(A) si q(x) = 0.
(3) Supposons enn que (X
1
, . . . , X
n
, Y ) soit un vecteur gaussien centre, et notons
n
j=1
j
X
j
la projection orthogonale de Y sur lespace vectoriel engendre par X
1
, . . . , X
n
. Notons aussi
2
= E[(Y
n
j=1
j
X
j
)
2
].
159
Le Theorème 11.4.3 montre que la loi conditionnelle de Y sachant X = (X
1
, . . . , X
n
) est
(x
1
, . . . , x
n
; A) =
_
A
q
P
n
j=1
j
x
j
,
2(y) dy
o` u q
m,
2 est la densite de la loi gaussienne ^(m,
2
). De manière legèrement abusive on dit
que conditionnellement à (X
1
, . . . , X
n
), Y suit la loi ^(
n
j=1
j
X
j
,
2
).
160
Partie III
Processus aleatoires
161
Chapitre 12
Theorie des martingales
à temps discret
12.1 Denitions et exemples
On se place sur un espace de probabilite (, T, P). Par denition un processus aleatoire est
une suite (X
n
)
nN
de variables aleatoires denies sur (, T, P). Dans ce chapitre, tous les
processus aleatoires seront à valeurs reelles.
Denition 12.1.1 Une ltration de (, T, P) est une suite croissante (T
n
)
nN
de sous-
tribus de T. On a donc
T
0
T
1
T
2
T
On dit aussi que (, T, (T
n
)
nN
, P) est un espace de probabilite ltre.
On interprète souvent le paramètre n comme un temps. La tribu T
n
correspond alors à
linformation acquise au temps n.
Exemples. (a) Si (X
n
)
nN
est une suite quelconque de v.a. denies sur (, T, P), on denit
T
X
n
comme etant la plus petite tribu rendant mesurables les v.a. X
1
, X
2
, . . . , X
n
:
T
X
n
= (X
0
, X
1
, . . . , X
n
).
Alors (T
X
n
)
nN
est une ltration appelee ltration canonique du processus aleatoire (X
n
)
nN
.
(b) Supposons que = [0, 1[, T est la tribu borelienne sur [0, 1[, et P est la mesure de
Lebesgue. Posons
T
n
= ([
i 1
2
n
,
i
2
n
[; i = 1, 2, . . . , 2
n
).
Alors (T
n
)
nN
est une ltration appelee ltration dyadique de [0, 1[.
Denition 12.1.2 Un processus (X
n
)
nN
est dit adapte à la ltration (T
n
)
nN
si pour tout
n N, X
n
est mesurable par rapport à la tribu T
n
.
163
La ltration canonique est par construction la plus petite ltration qui rende le processus
adapte.
Dans toute la suite du chapitre (à lexception de la partie 6), on xe un espace de
probabilite ltre (, T, (T
n
)
nN
, P), dont le choix sera parfois precise dans les exemples. Les
notions qui suivent sont bien entendu relatives à cet espace.
Denition 12.1.3 Soit (X
n
)
nN
un processus adapte, tel que E[[X
n
[] < pour tout n N.
On dit que le processus (X
n
)
nN
est:
une martingale si, pour tout n N,
E[X
n+1
[ T
n
] = X
n
;
une surmartingale si, pour tout n N,
E[X
n+1
[ T
n
] X
n
;
une sous-martingale si, pour tout n N,
E[X
n+1
[ T
n
] X
n
.
Une consequence immediate de la denition dune martingale est la propriete apparem-
ment plus forte : pour tous 0 n m,
E[X
m
[ T
n
] = X
n
(12.1)
Cela est facile à verier par recurrence sur la valeur de m n : si m = n, la propriete est
triviale, si m = n + 1, cest la denition, et si m n 2, une propriete bien connue des
esperance conditionnelles donne
E[X
m
[ T
n
] = E[E[X
m
[ T
m1
] [ T
n
] = E[X
m1
[ T
n
].
Remarquons que (12.1) entrane E[X
m
] = E[X
n
] = E[X
0
].
De meme, si (X
n
)
nN
) est une surmartingale (resp. une sous-martingale), on a pour tous
0 n m,
E[X
m
[ T
n
] X
n
(resp. E[X
m
[ T
n
] X
n
),
et donc E[X
m
] E[X
n
] (resp. E[X
m
] E[X
n
]).
Il est souvent utile dinterpreter une martingale comme un jeu equitable : la variable X
n
correspond à lavoir du joueur à linstant n, et T
n
est linformation dont dispose le joueur
à cet instant (en particulier les resultats des jeux precedents). La propriete de martingale
E[X
n+1
[ T
n
] = X
n
traduit donc le fait que la valeur moyenne de lavoir à linstant n + 1,
lorsquon connait le passe jusquà linstant n, est lavoir à linstant n (en moyenne le joueur
ne perd ni ne gagne). De la meme fa con, une surmartingale correspond à un jeu defavorable.
Il est evident que si (X
n
)
nN
est une surmartingale, (X
n
)
nN
est une sous-martingale.
Pour cette raison, la plupart des resultats qui suivent et sont enonces seulement pour des
surmartingales ont un analogue immediat pour des sous-martingales (ou bien inversement).
164
Exemples. (i) Si X L
1
(, T, P) on pose
X
n
= E[X [ T
n
].
Alors (X
n
)
nN
est une martingale :
E[X
n+1
[ T
n
] = E[E[X [ T
n+1
] [ T
n
] = E[X [ T
n
] = X
n
.
Une martingale de ce type est dite fermee.
(ii) Si (X
n
)
nN
est une suite decroissante et adaptee de v.a. integrables, alors (X
n
)
nN
est
une surmartingale :
E[X
n+1
[ T
n
] E[X
n
[ T
n
] = X
n
.
(iii) Marche aleatoire sur R. Soit x R et soit (Y
n
)
n1
une suite de v.a. reelles independantes
et de meme loi , telle que E[[Y
1
[] < . On pose
X
0
= x et X
n
= x + Y
1
+ Y
2
+ . . . + Y
n
si n 1.
On denit aussi la ltration (T
n
)
nN
par
T
0
= , et T
n
= (Y
1
, . . . , Y
n
) si n 1
(cest en fait la ltration canonique de (X
n
)
nN
). Alors (X
n
)
nN
est
une martingale si E[Y
1
] = 0;
une surmartingale si E[Y
1
] 0;
une sous-martingale si E[Y
1
] 0.
En eet, par exemple dans le cas E[Y
1
] = 0, on a
E[X
n+1
[ T
n
] = E[X
n
+ Y
n+1
[ T
n
] = X
n
+ E[Y
n+1
] = X
n
,
puisque par construction Y
n+1
est independant de T
n
.
Le processus (X
n
)
nN
est appele marche aleatoire sur R de loi de saut , issue de x.
(iv) Reprenons lexemple (b) despace de probabilite ltre donne ci-dessus. Soit une mesure
nie sur [0, 1[, et rappelons que P = est la mesure de Lebesgue sur [0, 1[. Pour tout entier
n N, posons
f
n
=
d
d|Fn
qui designe la derivee de Radon-Nikodym de par rapport à , lorsque et sont vues
comme des mesures sur la tribu T
n
(sur la tribu T
n
, toutes les mesures sont absolument
continues par rapport à ). Il est facile de verier que
f
n
() =
2
n
i=1
([(i 1)2
n
, i2
n
[)
2
n
1
[(i1)2
n
,i2
n
[
().
165
Alors (f
n
)
nN
est une martingale : si A T
n
,
E[1
A
f
n+1
] =
_
1
A
() f
n+1
() d = (A) =
_
1
A
() f
n
() d = E[1
A
f
n
],
ce qui sut pour obtenir f
n
= E[f
n+1
[ T
n
].
Dans le cas particulier o` u est absolument continue par rapport à (sur T), la martingale
(f
n
)
nN
est du type considere en (i) ci-dessus : on verie aisement que
f
n
= E[f [ T
n
],
o` u f est la derivee de Radon-Nikodym de par rapport à .
Deux transformations de martingales.
Proposition 12.1.1 Soit : R R
+
une fonction convexe, et soit (X
n
)
nN
un processus
adapte, tel que E[(X
n
)] < pour tout n N.
(i) Si (X
n
) est une martingale, ((X
n
)) est une sous-martingale.
(ii) Si (X
n
) est une sous-martingale et si est croissante, ((X
n
)) est une sous-martingale.
n
est une martingale, [X
n
[ est une sous-martingale (ainsi que X
2
n
si
E[X
2
n
] < pour tout n) et si X
n
est une sous-martingale, X
+
n
est encore une sous-martingale.
Preuve. (i) Daprès linegalite de Jensen pour les esperances conditionnelles,
E[(X
n+1
) [ T
n
] (E[X
n+1
[ T
n
]) = (X
n
).
(ii) De meme, puisque X
n
E[X
n+1
[ T
n
] et est croissante,
E[(X
n+1
) [ T
n
] (E[X
n+1
[ T
n
]) (X
n
).
Denition 12.1.4 Une famille (H
n
)
n1
de v.a. reelles est dite previsible si, pour tout n 1,
H
n
est bornee et T
n1
-mesurable.
n
)
nN
un processus adapte, et (H
n
)
n1
une famille previsible.
On pose (H X)
0
= 0 et pour tout entier n 1,
(H X)
n
= H
1
(X
1
X
0
) + H
2
(X
2
X
1
) + + H
n
(X
n
X
n1
).
Alors,
(i) Si (X
n
) est une martingale, ((H X)
n
) est aussi une martingale.
(ii) Si (X
n
) est une surmartingale (resp. une sous-martingale), et si H
n
0 pour tout
n 1, ((H X)
n
) est une surmartingale (resp. une sous-martingale).
166
Preuve. (i) Puisque les v.a. H
n
sont bornees, il est facile de verier que les v.a. (H X)
n
sont integrables. De plus le processus ((H X)
n
) est adapte par construction. Il sut ensuite
de verier que, pour tout n N,
E[(H X)
n+1
(H X)
n
[ T
n
] = 0.
Or (H X)
n+1
(H X)
n
= H
n+1
(X
n+1
X
n
) et puisque H
n+1
est T
n
-mesurable, on a
E[H
n+1
(X
n+1
X
n
) [ T
n
] = H
n+1
E[X
n+1
X
n
[ T
n
] = 0.
La preuve de (ii) est analogue.
Si on interprète (dans le cas dune martingale) X
n
comme lavoir du joueur à linstant n,
la dierence X
n+1
X
n
sinterprète comme le gain realise entre les instants n et n + 1. On
peut imaginer que le joueur à linstant n modie sa mise en la multipliant par H
n+1
(qui doit
etre T
n
-mesurable). Le jeu reste equitable, mais le nouveau gain realise entre les instants
n et n + 1 est H
n+1
(X
n+1
X
n
). Ceci fournit une explication intuitive de la denition de
(H X)
n
.
12.2 Temps darret
Denition 12.2.1 Une v.a. T : N = N + est appelee temps darret (de la
ltration (T
n
)) si pour tout entier n N, on a
T = n T
n
.
Il est très facile de voir que cela est equivalent à imposer que pour tout n N on a
T n T
n
. Dans la suite nous utiliserons indieremment lune ou lautre denition.
Il est important de noter que la valeur + est autorisee. En ecrivant
T = + =
_
nN
T = n
on voit que T = + T
, o` u
T
nN
T
n
=
_
_
nN
T
n
_
.
En revenant à linterpretation en termes de jeu, les temps darret sont les instants
aleatoires auxquels on peut decider de sarreter : le point-cle est que pour decider de sarreter
à linstant n, on na à sa disposition que linformation acquise à cet instant, cest-à-dire les
evenements de T
n
. Pour prendre une image tiree de la Bourse, il est impossible de decider
de vendre ses actions au moment o` u elles vont etre à leur cours maximum de lannee (cela
demanderait de connatre le futur à cet instant !).
Exemples. (i) Si k N, le temps constant T = k est evidemment un temps darret.
(ii) Si (Y
n
)
nN
est un processus adapte, et si A est un borelien de R,
T
A
:= infn N : Y
n
A
167
est un temps darret, appele temps dentree dans A. En eet, pour tout entier n 0,
T
A
= n = Y
0
/ A, Y
1
/ A, . . . , Y
n1
/ A, Y
n
A T
n
.
Remarquons que, dans la denition de T
A
, on fait la convention inf = +. Cette conven-
tion sera constamment utilisee dans la suite.
(iii) En revanche, si on xe N > 0 et on pose
L
A
:= supn N : Y
n
A (sup = 0 par convention)
L
A
nest en general pas un temps darret. En eet, pour n 1, . . . , N 1,
L
A
= n = Y
n
A, Y
n+1
/ A, . . . , Y
N
/ A
nest a priori pas dans T
n
.
Proposition 12.2.1 (i) Si S et T sont deux temps darret, S T et S T sont aussi des
temps darret.
(ii) Si (T
k
)
kN
est une suite de temps darret, alors inf(T
k
), sup(T
k
), limsup(T
k
) et liminf(T
k
)
sont aussi des temps darret.
Preuve. (i) On ecrit ST n = S nT n et ST n = S nT n.
(ii) De meme, inf(T
k
) n = T
k
n et, par exemple,
liminf(T
k
) n =
m=0
_

_
k=m
T
k
n
_
.
Denition 12.2.2 Soit T un temps darret. La tribu du passe jusquà linstant T est
T
T
= A T : n N, A T = n T
n
.
On verie aisement que T
T
est une tribu et que T
T
= T
n
si T = n.
Proposition 12.2.2 Soient S et T deux temps darret avec S T. Alors, T
S
T
T
.
Preuve. Soit A T
S
. Alors, pour tout n N,
A T = n =
n
_
k=0
(A S = k) T = n T
n
.
Proposition 12.2.3 Soit (Y
n
)
nN
un processus adapte, et soit T un temps darret. Alors la
v.a. 1
{T<}
Y
T
denie par
1
{T<}
Y
T
() =
_
Y
n
() si T() = n N
0 si T() = +
est T
T
-mesurable.
168
Preuve. Soit B un borelien de R. Alors, pour tout n N,
1
{T<}
Y
T
B T = n = Y
n
B T = n T
n
,
ce qui montre que 1
{T<}
Y
T
B T
T
. Si 0 B, il sut decrire 1
{T<}
Y
T
B =
1
{T<}
Y
T
B
c
c
.
Lorsque le temps darret T est ni p.s. on ecrira bien s ur simplement Y
T
au lieu de
1
{T<}
Y
T
. En particulier, si T est un temps darret quelconque, n T est aussi un temps
darret (lemme 12.2.1) et on deduit de la proposition que Y
nT
est T
nT
-mesurable donc
aussi T
n
-mesurable daprès la proposition 12.2.2.
Theorème 12.2.4 (Theorème darret) Soit (X
n
)
nN
une martingale (resp. une surmartin-
gale) et soit T un temps darret. Alors (X
nT
)
nN
est aussi une martingale (resp. une
surmartingale). En particulier, si le temps darret T est borne, on a X
T
L
1
, et
E[X
T
] = E[X
0
] (resp. E[X
T
] E[X
0
]).
Preuve. Pour tout n 1, posons
H
n
= 1
{Tn}
= 1 1
{Tn1}
.
Alors la famille (H
n
)
n1
est previsible. Puisque
X
nT
= X
0
+ (H X)
n
la première partie du theorème decoule de la proposition 12.1.2. Ensuite, si le temps darret
est borne par N, on a E[X
T
] = E[X
NT
] = E[X
0
] (resp. E[X
0
] dans le cas dune
surmartingale).
Lhypothèse que T est borne est necessaire comme le montre lexemple simple suivant.
Considerons la marche aleatoire X
n
= Y
1
+ +Y
n
issue de 0 et de loi de saut P(Y
1
= 1) =
P(Y
1
= 1) = 1/2 (cest ce quon appelle la marche aleatoire simple sur Z, ou encore pile ou
face). Alors il decoule dun exemple precedent que (X
n
)
nN
est une martingale. Cependant,
si on pose
T = infn 0 : X
n
= 1
on a T < p.s. (cf Proposition 10.2.2 une autre demonstration sera donnee dans la partie
suivante) mais
1 = E[X
T
] ,= E[X
0
] = 0.
Bien s ur le temps darret T nest pas borne, et il ny a pas de contradiction avec le theorème.
12.3 Convergence presque s ure des martingales
Nous allons maintenant etudier la convergence presque s ure dune martingale ou dune sous-
martingale quand n . Considerons dabord une suite numerique = (
n
)
nN
. Pour
169
tous les reels a < b on introduit deux suites de temps S
k
() et T
k
() appartenant à N, qui
sont denies de la manière suivante : on pose
S
1
() = infn 0 :
n
a
T
1
() = infn S
1
() :
n
b
puis, par recurrence,
S
k+1
() = infn T
k
() :
n
a
T
k+1
() = infn S
k+1
() :
n
b.
Bien entendu, on utilise toujours la convention inf = + dans ces denitions. On pose
ensuite pour tout entier n,
N
n
([a, b], ) =
k=1
1
{T
k
()n}
,
N
([a, b], ) =
k=1
1
{T
k
()<}
.
La quantite N
([a, b], ) est le nombre de montees eectuees le long de lintervalle [a, b] par
la suite (
n
)
nN
. Nous utiliserons le lemme simple danalyse suivant.
Lemme 12.3.1 La suite (
n
)
nN
converge dans R ssi pour tout choix des rationnels a et b
tels que a < b, on a N
([a, b], ) < .

Considerons maintenant un processus adapte (X
n
)
nN
. Alors les quantites S
k
(X), T
k
(X)
deviennent des v.a. à valeurs dans N, et plus precisement il est facile de verier que ce sont
des temps darret. En eet, on a par exemple
T
k
(X) n =
_
0m
1
<n
1
<<m
k
<n
k
n
X
m
1
a, X
n
1
b, . . . , X
m
k
a, X
n
k
b,
ce qui montre que T
k
(X) n T
n
.
Il en decoule en particulier que N
n
([a, b], X) est T
n
-mesurable.
Lemme 12.3.2 (Inegalite des nombres de montees de Doob) Supposons que (X
n
)
nN
est une sous-martingale. Alors, pour tous les reels a < b et pour tout n N,
(b a) E[N
n
([a, b], X)] E[(X
n
a)
+
(X
0
a)
+
].
Preuve. On pose Y
n
= (X
n
a)
+
. Daprès la proposition 12.1.1, (Y
n
)
nN
est encore une
sous-martingale.
Pour alleger les notations posons N
n
= N
n
([a, b], X), et ecrivons S
k
, T
k
au lieu de
S
k
(X), T
k
(X). Denissons alors une famille previsible (H
n
)
n1
en posant
H
n
=
k=1
1
{S
k
<nT
k
}
1
170
(observer que levenement S
k
< n T
k
= S
k
n 1T
k
n 1 est dans T
n1
,
parce que S
k
et T
k
sont des temps darret). Alors, on verie facilement que
(H Y )
n
=
Nn
k=1
(Y
T
k
Y
S
k
) +1
{S
Nn+1
<n}
(Y
n
Y
S
Nn+1
)
Nn
k=1
(Y
T
k
Y
S
k
) N
n
(b a).
La première inegalite est vraie parce que Y
S
Nn+1
= 0 sur lensemble S
Nn+1
< , et Y
n
0.
On a donc en particulier
E[(H Y )
n
] (b a) E[N
n
].
Par ailleurs, si K
n
= 1H
n
, (K
n
)
nN
est une famille previsible positive, et la proposition
12.1.2 montre que (K Y ) est une sous-martingale, do` u E[(K Y )
n
] E[(K.Y )
0
] = 0.
On observe ensuite que
(K Y )
n
+ (H Y )
n
= ((K + H) Y )
n
= Y
n
Y
0
,
et donc
(b a) E[N
n
] E[(H Y )
n
] E[(K Y )
n
+ (H Y )
n
] = E[Y
n
Y
0
]
ce qui est linegalite du lemme.
n
)
nN
une sous-martingale telle que
sup
nN
E[(X
n
)
+
] < . (12.2)
Alors la suite X
n
converge p.s. quand n . De plus sa limite X
verie E[[X
[] < .
Remarque. En ecrivant E[X
n
] = E[(X
n
)
+
] E[(X
n
)
], et en rappelant quune sous-

martingale verie E[X
n
] E[X
0
], on voit que, pour tout k 0,
E[(X
k
)
]
_
sup
nN
E[(X
n
)
+
]
_
E[X
0
].
Lhypothèse (12.2) est donc equivalente à imposer que
sup
nN
E[[X
n
[] <
cest-à-dire que la suite (X
n
) est bornee dans L
1
.
Preuve. Soient a, b Q tels que a < b. Daprès le lemme 12.3.2, on a pour tout n 1,
(b a) E[N
n
([a, b], X)] E[(X
n
a)
+
] [a[ + E[(X
n
)
+
] [a[ + sup
kN
E[(X
k
)
+
].
En faisant tendre vers +, et en utilisant (12.2), on trouve
(b a) E[N
([a, b], X)] <

171
et donc N
([a, b], X) < p.s. Quitte à ecarter une reunion denombrable densembles de
probabilite nulle, on obtient ainsi que p.s., pour tous les rationnels a < b, N
([a, b], X) < .

Daprès le lemme 12.3.1, cela sut pour armer que p.s. la suite X
n
converge dans R.
Ensuite, à laide du lemme de Fatou, et de la remarque suivant lenonce, on a
E[[X
[] liminf
n
E[[X
n
[] sup
nN
E[[X
n
[] <
et en particulier [X
[ < p.s.
Corollaire 12.3.4 Soit (X
n
)
nN
une surmartingale positive. Alors X
n
converge p.s. Sa
limite X
est dans L
1
et verie X
n
E[X
[ T
n
] pour tout n N.
Preuve. On applique le theorème 12.3.3 à X
n
= X
n
, en remarquant que lhypothèse
(12.2) est alors trivialement veriee. La dernière assertion decoule du lemme de Fatou pour
les esperances conditionnelles :
X
n
liminf
m
E[X
m
[ T
n
] E[liminf
m
X
m
[ T
n
] = E[X
[ T
n
].
Exemples. (1) Soit Y
n
= 1 +Z
1
+ +Z
n
une marche aleatoire simple (pile ou face) issue
de 1. On a vu que (Y
n
)
nN
est une martingale par rapport à sa ltration canonique. Posons
ensuite
T = infn 0 : Y
n
= 0.
Alors T est un temps darret. Du theorème 12.2.4 on deduit que X
n
= Y
nT
est une
martingale positive, à laquelle on peut appliquer le corollaire. Donc X
n
converge p.s. vers
X
tel que X
< . Puisque sur lensemble T = on a [X

n+1
X
n
[ = [Y
n+1
Y
n
[ = 1
pour tout n, cela nest possible que si T < p.s. Modulo un argument de symetrie
evident, cela demontre la propriete qui avait ete utilisee dans le dernier exemple de la partie
precedente.
Dans ce cas on a X
= 0 p.s. et donc linegalite X

n
E[X
[ T
n
] = 0 nest pas une
egalite, bien que la suite (X
n
) soit une martingale.
Cet exemple montre aussi que la convergence du corollaire (ou du theorème precedent)
na pas forcement lieu dans L
1
: ici E[X
n
] = 1 pour tout n alors que E[X
] = 0.
(2) Processus de branchement. Soit une mesure de probabilite sur N, telle que
m =
k=1
k (k) < .
On exclut les cas particuliers o` u est la mesure de Dirac en 1 ou la mesure de Dirac en 0.
Soit ensuite (
n,j
)
n,jN
une famille de v.a. independantes de loi . On xe aussi un entier
1 et on denit par recurrence une suite (X
n
) de v.a. à valeurs dans N en posant
X
0
=
X
n+1
=
Xn
j=1
n,j
, n N.
172
La quantite X
n
sinterprète comme le nombre dindividus dans une population à la generation
n, sachant que le nombre denfants de chaque individu suit la loi (et les nombres denfants
des dierents individus sont des v.a. independantes).
Alors la suite m
n
X
n
est une martingale relativement à la ltration
T
0
= ,
T
n
= (
k,j
: k < n, j N) , si n 1.
En eet, il est facile de voir que le processus (X
n
) est adapte (la denition de X
n
ne fait
intervenir que les
k,j
pour k < n). Ensuite, pour tout n 0,
E[X
n+1
[ T
n
] = E[
j=1
1
{jXn}
n,j
[ T
n
] =
j=1
1
{jXn}
E[
n,j
[ T
n
] = mX
n
puisque
n,j
est independante de T
n
, et donc E[
n,j
[ T
n
] = E[
n,j
] = m. En consequence,
E[m
(n+1)
X
n+1
[ T
n
] = m
n
X
n
.
Cela montre dabord que les v.a. X
n
sont dans L
1
(une recurrence immediate montre que
E[X
n
] = m
n
) et ensuite que la suite m
n
X
n
est une martingale positive.
Distinguons maintenant trois cas :
m < 1. Puisque X
n
est à valeurs entières, la convergence de m
n
X
n
vers une quantite
nie nest possible que si X
n
= 0 pour tout n assez grand (extinction presque s ure de la
population).
m = 1. Dans ce cas X
n
est une martingale positive et on a la meme conclusion
(extinction presque s ure) une fois que lon a verie que
P(N 1, p 1 : n N, X
n
= p) = 0.
Cette dernière assertion est obtenue comme une consequence facile du lemme de Borel-
Cantelli (on utilise le fait que (1) < 1).
m > 1. On a
m
n
X
n

n
Z (12.3)
et sur lensemble Z > 0 on voit que X
n
est de lordre de m
n
quand n est grand. On voudrait
alors verier que P(Z > 0) > 0 (et aussi que Z > 0 p.s. sur lensemble liminf X
n
> 0 de
non-extinction). Remarquons que si la convergence (12.3) a lieu dans L
1
on a P(Z > 0) > 0,
puisque dans ce cas E[Z] = limm
n
E[X
n
] = . On peut montrer (theorème de Kesten-
Stygum) que la convergence (12.3) a lieu dans L
1
ssi
k=1
k log(k) (k) <
et qualors Z > 0 p.s. sur lensemble de non-extinction. Nous verrons un resultat un peu
plus faible dans la partie 4 ci-dessous.
Si (X
n
)
nN
est une martingale bornee dans L
1
, on peut lui appliquer le theorème 12.3.3
et obtenir que X
n
converge p.s. vers X
. Les exemples precedents montrent quil ny a pas

necessairement convergence dans L
1
. Le theorème suivant caracterise les martingales pour
lesquelles cest le cas.
173
n
)
nN
une martingale. Les deux conditions suivantes sont equiva-
lentes:
(i) X
n
converge vers X
p.s. et dans L
1
.
(ii) Il existe une v.a. Z L
1
(, T, P) telle que X
n
= E[Z [ T
n
] pour tout n N.
De plus, si ces conditions sont satisfaites, on peut prendre Z = X
dans (ii). On dit alors

que la martingale (X
n
)
nN
est fermee.
Preuve. Supposons dabord (i). En ecrivant
X
n
= E[X
m
[ T
n
] , m > n
et en utilisant le fait que lapplication Y E[Y [ T
n
] est une contraction de L
1
(i.e.
E[[E[Y [ T
n
][] E[[Y []), on trouve en faisant tendre m vers que X
n
= E[X
[ T
n
].
Inversement, supposons (ii). La suite (X
n
)
nN
est alors bornee dans L
1
et donc converge
p.s. daprès le theorème 12.3.3. Pour obtenir la convergence L
1
, traitons dabord le cas o` u
la v.a. Z est bornee par une constante K < . Alors, toutes les v.a. X
n
sont aussi bornees
par K, et le theorème de convergence dominee donne le resultat voulu. Dans le cas general,
xons > 0, et choisissons M > 0 assez grand pour que
E[[Z Z 1
{|Z|M}
[] < .
Alors, pour tout n,
E[[X
n
E[Z 1
{|Z|M}
[ T
n
][] = E[[E[Z Z 1
{|Z|M}
[ T
n
][] < .
Daprès le cas borne, la martingale E[Z 1
{|Z|M}
[ T
n
] converge dans L
1
. Donc on peut
choisir n
0
assez grand pour que, pour tous m, n n
0
,
E[[E[Z 1
{|Z|M}
[ T
m
] E[Z 1
{|Z|M}
[ T
n
][] < .
En combinant ceci avec la majoration precedente, on trouve que, pour tous m, n n
0
,
E[[X
m
X
n
[] < 3.
Comme etait arbitraire, la suite (X
n
) est de Cauchy dans L
1
.
Corollaire 12.3.6 Soit Z L
1
(, T, P). La martingale X
n
= E[Z [ T
n
] converge p.s. et
dans L
1
vers X
= E[Z [ T
], o` u T
n=1
T
n
.
Preuve. Compte-tenu du theorème precedent, il reste à montrer que X
= E[Z [ T
].
Remarquons dabord que X
est T
-mesurable puisque les v.a. X

n
le sont. Ensuite, pour
tout n N et A T
n
, on a
E[Z 1
A
] = E[X
n
1
A
] = E[X
1
A
].
174
Un argument simple de classe monotone (cf Theorème 1.4.1) montre que legalite E[Z 1
A
] =
E[X
1
A
], vraie pour A
_
n=1
T
n
, reste vraie pour A
_

_
n=1
T
n
_
= T
. Le resultat
recherche decoule ensuite de la propriete caracteristique de lesperance conditionnelle.
Exemple. Reprenons lexemple (iv) de la partie 1 : = [0, 1[, T est la tribu borelienne sur
[0, 1[, et P = est la mesure de Lebesgue. On considère la ltration dyadique
T
n
= ([
i 1
2
n
,
i
2
n
[; i = 1, 2, . . . , 2
n
).
Soit une mesure nie sur [0, 1[, et pour tout entier n N,
f
n
() =
d
d|Fn
() =
2
n
i=1
([(i 1)2
n
, i2
n
[)
2
n
1
[(i1)2
n
,i2
n
[
().
On a dejà remarque que (f
n
)
nN
est une martingale (positive), et on a donc (Corollaire
12.3.4)
f
n
p.s.
n
f
avec
_
f
d < . De plus f
n
E[f
[ T
n
], ce qui montre que, pour tout A T
n
,
(A) =
_
f
n
1
A
d
_
E[f
[ T
n
]1
A
d =
_
f
1
A
d.
En utilisant la densite dans L
1
des fonctions continues à support compact (cf Theorème
4.3.1), on verie aisement que lespace des combinaisons lineaires à coecients positifs de
fonctions indicatrices dintervalles dyadiques est dense dans lespace L
1
+
([0, 1[, ) des fonc-
tions -integrables positives, pour toute mesure nie sur [0, 1[. On deduit alors de linegalite
precedente que, pour toute fonction g mesurable positive bornee sur [0, 1[, on a
_
g d
_
gf
d.
Il en decoule que = f
est une mesure positive sur [0, 1[.

Montrons que est etrangère à . Pour tout n 0, posons
h
n
=
d
d|Fn
= f
n
E[f
[ T
n
].
Dans cet exemple on a T
= T et donc le corollaire 12.3.6 montre que E[f
[ T
n
] f
p.s. En consequence h
n
0 p.s. et donc
__
x [0, 1[: limsup
n
h
n
(x) > 0
__
= 0. (12.4)
Dautre part, pour tout > 0,
(x [0, 1[: h
n
(x) ) =
_
1
{hn}
h
n
d ,
175
ce qui entrane
__
x [0, 1[: limsup
n
h
n
(x) <
__

_

_
N=1
n=N
h
n

_
.
On obtient ainsi
__
x [0, 1[: limsup
n
h
n
(x) = 0
__
= 0
et en comparant avec (12.4) on voit que et sont portees par des boreliens disjoints.
Finalement lecriture = f
+ est la decomposition de Lebesgue de la mesure

comme somme dune mesure absolument continue et dune mesure etrangère à la mesure de
Lebesgue. De plus, est absolument continue par rapport à ssi = 0 ce qui equivaut à
dire que la martingale (f
n
) est fermee.
12.4 La convergence dans L
p
pour p > 1
Notre but est maintenant detudier sous quelles conditions une martingale (X
n
) converge
dans L
p
lorsque p > 1. Cela nous amènera à obtenir des estimations importantes pour la
probabilite de grandes valeurs du supremum sup
nN
X
n
.
Lemme 12.4.1 Soit (X
n
)
nN
une sous-martingale, et soient S et T deux temps darret
bornes tels que S T. Alors
E[X
S
] E[X
T
].
Remarque. Le cas S = 0 a dejà ete vu dans le theorème 12.2.4.
Preuve. On sait dejà que X
S
et X
T
sont dans L
1
. On denit ensuite une famille previsible
en posant, pour tout n 1,
H
n
= 1
{S<nT}
= 1
{Sn1}
1
{Tn1}
.
Alors, si N est un entier choisi pour que S T N, on a
(H X)
N
= X
T
X
S
et E[(H.X)
N
] 0 puisque H.X est une sous-martingale (theorème 12.1.2).
Theorème 12.4.2 (Inegalite maximale de Doob) Soit (X
n
)
nN
une sous-martingale. Alors,
pour tout a > 0 et tout n N,
a P
_
sup
0kn
X
k
a
_
E
_
X
n
1
{sup
0kn
X
k
a}
_
E[X
+
n
].
Preuve. Introduisons le temps darret
T = infn 0 : X
n
a.
176
Alors, si
A = sup
0kn
X
k
a
on a A = T n. Par ailleurs, en appliquant le lemme precedent aux temps darret T n
et n, on a
E[X
Tn
] E[X
n
]
et dautre part,
X
Tn
a 1
A
+ X
n
1
A
c.
En combinant ces deux inegalites, on trouve
E[X
n
] aP(A) + E[X
n
1
A
c]
do` u la première inegalite du theorème. La seconde est immediate.
Proposition 12.4.3 Soit p > 1 et soit (X
n
)
nN
une sous-martingale positive. Posons
X
n
= sup
0kn
X
k
.
Alors, pour tout n 0,
E[(
X
n
)
p
] (
p
p 1
)
p
E[(X
n
)
p
].
En consequence, si (Y
n
)
nN
est une martingale et si
Y
n
= sup
0kn
[Y
k
[
on a pour tout n 0 :
E[(Y

n
)
p
] (
p
p 1
)
p
E[[Y
n
[
p
].
Preuve. La deuxième partie de la proposition decoule de la première appliquee à la sous-
martingale X
n
= [Y
n
[. Pour la première partie, on peut supposer E[(X
n
)
p
] < , car sinon il
ny a rien à montrer. Alors, linegalite de Jensen pour les esperances conditionelles montre
que, pour tout 0 k n, on a
E[(X
k
)
p
] E[E[X
n
[ T
k
]
p
] E[E[(X
n
)
p
[ T
n
]] = E[(X
n
)
p
]. (12.5)
On a donc aussi E[(
X
n
)
p
] < .
Daprès le theorème 12.4.2, on a pour tout a > 0
a P(
X
n
a) E[X
n
1
{
e
Xna}
].
on multiplie chaque membre de cette inegalite par a
p2
et on intègre par rapport à la mesure
de Lebesgue da sur ]0, [. A gauche, il vient
_

0
a
p1
P(
X
n
a) da = E
_
_
e
Xn
0
a
p1
da
_
=
1
p
E[(
X
n
)
p
]
177
en utilisant le theorème de Fubini. De meme, à droite on a
_

0
a
p2
E[X
n
1
{
e
Xna}
]da = E
_
X
n
_
e
Xn
0
a
p2
da
_
=
1
p 1
E[X
n
(
X
n
)
p1
]
1
p 1
E[(X
n
)
p
]
1
p
E[(
X
n
)
p
]
p1
p
.
daprès linegalite de Holder. Il vient donc
1
p
E[(
X
n
)
p
]
1
p 1
E[(X
n
)
p
]
1
p
E[(
X
n
)
p
]
p1
p
do` u linegalite de la première partie de la proposition (on utilise le fait que E[(
X
n
)
p
] < ).
Si (X
n
)
nN
est un processus aleatoire, on note
X
= sup
nN
[X
n
[.
n
)
nN
une martingale. Supposons quil existe p > 1 tel que
sup
nN
E[[X
n
[
p
] < .
Alors, X
n
converge p.s. et dans L
p
vers une v.a. X
telle que
E[[X
[
p
] = sup
nN
E[[X
n
[
p
]
et on a
E[(X
)
p
] (
p
p 1
)
p
E[[X
[
p
].
Preuve. La martingale (X
n
) etant bornee dans L
1
, on sait dejà que X
n
converge p.s. vers
X
. De plus, la proposition 12.4.3 montre que, pour tout n N,

E[(X
n
)
p
] (
p
p 1
)
p
sup
kN
E[[X
k
[
p
].
En passant à la limite croissante qund n , on a
E[(X
)
p
] (
p
p 1
)
p
sup
kN
E[[X
k
[
p
] <
et donc X
L
p
. Puisque toutes les v.a. [X
n
[ sont dominees par X
, le theorème de
convergence dominee montre que la suite X
n
converge dans L
p
vers X
. Enn, puisque la
suite E[[X
n
[
p
] est croissante (cf (12.5)) on a
E[[X
[
p
] = lim
n
E[[X
n
[
p
] = sup
nN
E[[X
n
[
p
].
178
Exemple. Revenons au processus de branchement (X
n
)
nN
introduit dans la partie prece-
dente. On suppose que la loi de reproduction satisfait
m =
k=0
k (k) ]1, [
et
k=0
k
2
(k) < .
On pose aussi
2
= var() =
k
2
(k) m
2
. On a vu que m
n
X
n
est une martingale.
Verions que cette martingale est bornee dans L
2
. On calcule facilement
E[X
2
n+1
[ T
n
] = E
_

j,k=1
1
{jXn,kXn}
n,j
n,k
[ T
n
_
=
j,k=1
1
{jXn,kXn}
E[
n,j
n,k
]
=
j,k=1
1
{jXn,kXn}
(m
2
+
2
1
{j=k}
)
= m
2
X
2
n
+
2
X
n
.
On a donc
E[X
2
n+1
] = m
2
E[X
2
n
] +
2
m
n
.
En posant a
n
= m
2n
E[X
2
n
], on obtient
a
n+1
= a
n
+
2
m
n2
et puisque m > 1 la suite (a
n
) converge. En consequence, la martingale m
n
X
n
est bornee
dans L
2
. Daprès le theorème 12.4.4, cette martingale converge dans L
2
vers Z. En partic-
ulier, E[Z] = E[X
0
] = et donc P(Z > 0) > 0 (il nest pas très dicile de voir quon a en
fait Z > 0 p.s. sur lensemble de non-extinction de la population).
12.5 Uniforme integrabilite et martingales
Denition 12.5.1 Une famille (X
i
)
iI
de v.a. dans L
1
(, T, P) est dite uniformement
integrable (u.i. en abrege) si
lim
a+
_
sup
iI
E[[X
i
[1
{|X
i
|>a}
]
_
= 0.
Il est immediat quune famille uniformement integrable est bornee dans L
1
: il sut de
choisir a assez grand pour que
_
sup
iI
E[[X
i
[1
{|X
i
|>a}
]
_
1
179
et decrire ensuite E[[X
i
[] E[[X
i
[1
{|X
i
|a}
] + E[[X
i
[1
{|X
i
|>a}
] a + 1. La reciproque est
fausse : une famille bornee dans L
1
nest pas necessairement u.i.
Exemples. (1) Une famille reduite à un singleton est u.i. (cest une consequence sim-
ple du theorème de convergence dominee). Plus generalement, tout sous-ensemble ni de
L
1
(, T, P) est u.i.
(2) Si Z est une v.a. positive dans L
1
(, T, P), lensemble des v.a. X telles que [X[ Z
est u.i. (il sut en eet de majorer E[[X[1
{|X|>a}
] E[Z1
{Z>a}
] et dutiliser lexemple (1)).
(3) Soit : R
+
R
+
une fonction telle que x
1
(x) + quand x +. Alors,
pour tout C > 0,
X L
1
(, T, P) : E[([X[)] C
est u.i. En eet, il sut decrire
E[[X[1
{|X|>a}
] (sup
x>a
x
(x)
) E[([X[)].
(4) Si p > 1, tout sous-ensemble borne de L
p
(, T, P) est u.i. Cest le cas particulier de (3)
o` u (x) = x
p
.
Le nom uniformement integrable est justie par la proposition suivante.
i
)
iI
une famille bornee dans L
1
. Il y a equivalence entre :
(i) La famille (X
i
)
iI
est u.i.
(ii) Pour tout > 0, on peut choisir > 0 de facon que, pour tout evenement A T de
probabilite P(A) < , on ait
i I, E[[X
i
[1
A
] < .
Preuve. (i)(ii) Soit > 0. On peut choisir a > 0 assez grand tel que
sup
iI
E[[X
i
[1
{|X
i
|>a}
] <

2
.
Si on pose = /(2a), alors la condition P(A) < entrane que, pour tout i I,
E[[X
i
[1
A
] E[[X
i
[1
A{|X
i
|a}
] + E[[X
i
[1
{|X
i
|>a}
] aP(A) +

2
< .
(ii)(i) Soit C = sup
iI
E[[X
i
[]. Daprès linegalite de Markov, pour tout a > 0,
i I, P([X
i
[ > a)
C
a
.
Soit > 0 et choisissons pour que la propriete de (ii) soit veriee. Alors si a est assez
grand pour que C/a < , on a
i I, E[[X
i
[1
{|X
i
|>a}
] <
do` u luniforme integrabilite.
180
Corollaire 12.5.2 Soit X L
1
(, T, P). Alors la famille des esperances conditionnelles
E[X [ (] quand ( decrit toutes les sous-tribus de T est u.i.
Preuve. Soit > 0. Puisque le singleton X est u.i., la proposition precedente permet de
choisir > 0 tel que, pour tout A T avec P(A) < on ait
E[[X[1
A
] .
Ensuite, pour tout a > 0,
P([E[X [ (][ > a)
1
a
E[[E[X [ (][]
E[[X[]
a
.
Donc, si a est susamment grand pour que E[[X[]/a < , on a en utilisant la propriete
caracteristique de lesperance conditionnelle,
E[[E[X [ (][1
{|E[X|G]|>a}
] E[E[[X[ [ (]1
{|E[X|G]|>a}
] = E[[X[1
{|E[X|G]|>a}
] <
ce qui donne luniforme integrabilite recherchee.
n
)
nN
une suite de v.a. dans L
1
qui converge en probabilite vers
X
. Alors il y a equivalence entre :

(i) La suite (X
n
)
nN
converge dans L
1
vers X
.
(ii) La suite (X
n
)
nN
est uniformement integrable.
Remarque. Le theorème de convergence dominee arme quune suite (X
n
)
n
convergeant
p.s. (donc aussi en probabilite) converge dans L
1
à condition que [X
n
[ Z pour tout n,
o` u Z 0 est telle que E[Z] < . Cette hypothèse de domination est bien s ur plus forte
que luniforme integrabilite (cf exemple (2) ci-dessus), qui donne une condition necessaire et
susante pour la convergence dans L
1
.
Preuve. (i)(ii) Dabord, la suite (X
n
)
nN
est bornee dans L
1
. Ensuite, soit > 0. On
peut choisir N assez grand tel que, pour tout n N,
E[[X
n
X
N
[] <

2
.
Puisque lensemble ni X
0
, X
1
, . . . , X
N
est u.i. on peut choisir > 0 assez petit de fa con
que, pour tout evenement A de probabilite P(A) < ,
n 0, 1, . . . , N, E[[X
n
[1
A
] <

2
.
Mais alors, si n > N, on a aussi
E[[X
n
[1
A
] E[[X
N
[1
A
] + E[[X
n
X
N
[] < .
On a verie la condition (ii) de la proposition 12.5.1, do` u luniforme integrabilite.
181
(ii)(i) En utilisant la caracterisation de luniforme integrabilite fournie par la proposition
12.5.1(ii), on voit immediatement que la famille (X
n
X
m
)
n,mN
est aussi u.i. Donc, si > 0
est xe, on peut choisir a assez grand pour que, pour tous m, n N,
E[[X
n
X
m
[1
{|XnXm|>a}
] < .
Alors, pour tous m, n N,
E[[X
n
X
m
[]
E[[X
n
X
m
[1
{|XnXm|}
] + E[[X
n
X
m
[1
{<|XnXm|a}
] + E[[X
n
X
m
[1
{|XnXm|>a}
]
2 + a P([X
n
X
m
[ > ).
La convergence en probabilite de la suite (X
n
) entrane que
P([X
n
X
m
[ > ) P([X
n
X
[ >

2
) + P([X
m
X
[ >

2
)
n,m
0.
On a ainsi obtenu
limsup
m,n
E[[X
n
X
m
[]
et puisque etait arbitraire, cela montre que la suite (X
n
)
nN
est de Cauchy pour la norme
L
1
.
Remarque. En consequence du theorème, si une suite (X
n
)
n
converge en probabilite et
est bornee dans L
p
pour une valeur p > 1, alors elle converge dans L
1
, et meme dans L
q
pour tout q < p (appliquer le theorème à [X
n
X
[
q
).
Application aux martingales. En combinant le theorème precedent avec le theorème
12.3.5, on obtient que les trois conditions suivantes sont equivalentes pour une martingale
(X
n
)
nN
:
(i) X
n
converge vers X
p.s. et dans L
1
.
(ii) La suite (X
n
)
nN
(iii) La martingale est fermee : il existe une v.a. Z L
1
(, T, P) telle que X
n
= E[Z [ T
n
]
pour tout n N.
Remarquons que (ii) decoule aussi de (iii) via le corollaire 12.5.2. En particulier toute
martingale uniformement integrable est fermee, et inversement. Rappelons que dans ce cas
on a X
n
= E[X
[ T
n
] pour tout n.
Theorèmes darret. Si (X
n
)
nN
est un processus adapte qui converge p.s. vers X
, on
denit X
T
pour tout temps darret T ni ou non en posant
X
T
=
n=0
1
{T=n}
X
n
+1
{T=}
X
.
Une extension facile de la proposition 12.2.3 montre que X
T
est T
T
-mesurable.
182
n
)
nN
une martingale uniformement integrable. Alors, pour tout
temps darret T ni ou non,
X
T
= E[X
[ T
T
],
et en particulier E[X
T
] = E[X
] = E[X
n
] pour tout n N. Si S et T sont deux temps
darret tels que S T, on a
X
S
= E[X
T
[ T
S
].
Remarques. (i) Une consequence du theorème et du corollaire 12.5.2 est que la famille
X
T
, T temps darret est u.i.
(ii) Pour une martingale quelconque (X
n
)
nN
, on peut appliquer le theorème, pour tout
entier N 0 xe, à la martingale arretee (X
nN
)
nN
qui est u.i. On retrouve ainsi certains
des resultats precedents.
Preuve. Verions dabord que X
T
L
1
:
E[[X
T
[] =
n=0
E[1
{T=n}
[X
n
[] + E[1
{T=}
[X
[]
=
n=0
E[1
{T=n}
[E[X
[ T
n
][] + E[1
{T=}
[X
[]
n=0
E[1
{T=n}
E[[X
[ [ T
n
]] + E[1
{T=}
[X
[]
=
n=0
E[1
{T=n}
[X
[] + E[1
{T=}
[X
[]
= E[[X
[] < .
De plus, si A T
T
,
E[1
A
X
T
] =
nN{}
E[1
A{T=n}
X
T
]
=
nN{}
E[1
A{T=n}
X
n
]
=
nN{}
E[1
A{T=n}
X
]
= E[1
A
X
].
Dans la première egalite on utilise le fait que X
T
L
1
pour appliquer le theorème de Fubini et
echanger somme et integrale, et dans la troisième egalite on utilise legalite X
n
= E[X
[ T
n
]
et la propriete de denition A T = n T
n
. Puisque X
T
est T
T
-mesurable, lidentite
precedente sut à montrer que X
T
= E[X
[ T
T
].
Les autres assertions sont faciles : pour la dernière, linclusion T
S
T
T
entrane que
X
S
= E[X
[ T
S
] = E[E[X
[ T
T
] [ T
S
] = E[X
T
[ T
S
].
183
n
)
nN
une surmatingale. Supposons que lune des deux conditions
suivantes soit veriee :
(i) X
n
0 pour tout n N.
(ii) La suite (X
n
)
nN
Alors, pour tout temps darret T, ni ou non, on a X
T
L
1
. De plus, si S et T sont deux
temps darret tels que S T, on a :
dans le cas (i), 1
{S<}
X
S
E[1
{T<}
X
T
[ T
S
];
dans le cas (ii), X
S
E[X
T
[ T
S
].
Preuve. Traitons dabord le cas (i). On a vu que si le temps darret T est borne, on a
E[X
T
] E[X
0
] (theorème 12.2.4). Le lemme de Fatou montre alors que pour un temps
darret quelconque,
E[X
T
] liminf
k
E[X
Tk
] E[X
0
]
et donc X
T
L
1
. Soient ensuite S et T deux temps darret tels que S T. Supposons
dabord que S et T sont bornes par lentier N. Alors le lemme 12.4.1 montre que E[X
S
]
E[X
T
]. Plus generalement, pour tout evenement A T
S
, on peut considerer le temps darret
S
A
() =
_
S() si A,
N si / A,
et de meme le temps darret T
A
(noter que A T
T
). En ecrivant E[X
S
A] E[X
T
A], on
trouve
A T
S
, E[X
S
1
A
] E[X
T
1
A
].
Revenons au cas general o` u S et T sont des temps darret quelconques avec S T, et soit
B T
S
. En appliquant ce qui precède aux temps darret S k, T k et A = B S k,
on trouve
E[X
Sk
1
B{Sk}
] E[X
Tk
1
B{Sk}
] E[X
Tk
1
B{Tk}
]
puisque S k T k et X
Tk
0. Donc,
E[X
S
1
B{Sk}
] E[X
T
1
B{Tk}
]
et en faisant tendre k vers on trouve par convergence dominee
E[X
S
1
B{S<}
] E[X
T
1
B{T<}
].
En notant

X
S
= 1
{S<}
X
S
et

X
T
= 1
{T<}
X
T
on a donc, pour tout B T
S
,
E[
X
S
1
B
] E[
X
T
1
B
] = E[E[
X
T
[ T
S
]1
B
].
Puisque

X
S
est T
S
-mesurable, cela entrane facilement

X
S
E[
X
T
[ T
S
].
184
Traitons maintenant le cas (ii). Puisque (X
n
)
nN
est u.i., (X
n
)
nN
est bornee dans L
1
, et
donc converge p.s. vers X
. La convergence a aussi lieu dans L

1
grace au theorème 12.5.3.
La convergence L
1
permet de passer à la limite m dans linegalite X
n
E[X
n+m
[ T
n
],
et dobtenir, pour tout n N,
X
n
E[X
[ T
n
].
Par ailleurs, le corollaire 12.3.6 montre que la martingale fermee Z
n
= E[X
[ T
n
] converge
p.s. vers X
(noter que X
est T
-mesurable). Si on pose Y
n
= X
n
Z
n
, (Y
n
)
nN
est
une surmartingale positive, telle que Y
= 0. Du cas (i) (et du theorème 12.5.4) on deduit

dabord que X
T
= Y
T
+ Z
T
est dans L
1
, puis que
Y
S
E[Y
T
[ T
S
]
(les fonctions indicatrices sont superues puisque Y
= 0). De plus, en appliquant le

theorème 12.5.4 à la martingale u.i. Z
n
, on a aussi
Z
S
= E[Z
T
[ T
S
].
En combinant les deux relations obtenues on trouve bien
X
S
E[X
T
[ T
S
].
Exemple. Ruine du joueur. Considerons à nouveau une marche aleatoire simple (pile ou
face) avec X
0
= k 0. Soit m 1 un entier tel que 0 k m. On pose
T = infn 0 : X
n
= 0 ou X
n
= m.
Il decoule dun exemple traite dans la partie 3 que T < p.s. La martingale Y
n
= X
nT
est uniformement integrable, puisque bornee, et on a donc E[Y
] = E[Y
0
] = k, soit
mP(X
T
= m) = k
do` u on deduit facilement que
P(X
T
= m) =
k
m
, P(X
T
= 0) = 1
k
m
.
On peut generaliser au pile ou face biaise : on suppose que X
n
= k +Y
1
+. . . +Y
n
, o` u les
v.a. Y
i
sont independantes et de meme loi
P(Y
1
= 1) = p , P(Y
1
= 1) = 1 p = q,
o` u p ]0, 1[
1
2
. Alors il est facile de verier que
Z
n
= (
q
p
)
Xn
est une martingale. Si T est deni comme ci-dessus, le fait que la martingale Z
nT
converge
entrane que T < p.s. Ensuite en appliquant le theorème darret à la martingale bornee
Z
nT
, on trouve
(
q
p
)
k
= E
_
(
q
p
)
X
T
_
= (
q
p
)
m
P(X
T
= m) + P(X
T
= 0)
do` u
P(X
T
= m) =
(
q
p
)
k
1
(
q
p
)
m
1
, P(X
T
= 0) =
(
q
p
)
m
(
q
p
)
k
(
q
p
)
m
1
.
185
12.6 Martingales retrogrades
Une ltration retrograde est une famille (T
n
)
nN
indexee par les entiers negatifs de sous-
tribus de T, telle que, pour tous m, n N,
n m T
n
T
m
.
On notera
T
nN
T
n
qui est encore une sous-tribu de T. Remarquons que, à la dierence du cas direct etudie
precedemment, la tribu T
n
devient de plus en plus petite quand n .
Un processus (X
n
)
nN
indexe par les entiers negatifs est une martingale retrograde (resp.
une surmartingale retrograde, une sous-martingale retrograde) relativement à la ltration
(T
n
)
nN
si X
n
est T
n
-mesurable et E[[X
n
[] < pour tout n N, et si, pour tous
m, n N,
n m X
n
= E[X
m
[ T
n
] (resp. X
n
E[X
m
[ T
n
], X
n
E[X
m
[ T
n
]).
n
)
nN
une surmartingale retrograde. Supposons que
sup
nN
E[[X
n
[] < . (12.6)
Alors la suite (X
n
)
nN
est uniformement integrable et converge p.s. et dans L
1
vers X
quand n . De plus, pour tout n N,

E[X
n
[ T
] X
.
Remarques. (a) Dans le cas dune martingale retrograde, la condition (12.6) est automa-
tiquement satisfaite puisquon a X
n
= E[X
0
[ T
n
] et donc E[[X
n
[] E[[X
0
[] pour tout
n N. Pour la meme raison, luniforme integrabilite de la suite (X
n
)
nN
, dans le cas
dune martingale, decoule du corollaire 12.5.2.
(b) Dans le cas direct etudie precedemment, le fait quune surmartingale (ou une mar-
tingale) soit bornee dans L
1
nentrane pas son uniforme integrabilite : en ce sens le cas
retrograde est très dierent du cas direct.
Preuve. Nous commen cons par etablir la convergence p.s. de la suite (X
n
)
nN
, qui decoule
à nouveau de linegalite sur les nombres de montees de Doob. Fixons un entier K 1 et
posons pour tout n 0, 1, . . . , K
Y
K
n
= X
K+n
,
(
K
n
= T
K+n
.
Pour n > K, on prend aussi Y
K
n
= X
0
et (
K
n
= T
0
. Alors (Y
K
n
)
nN
est une surmartingale
relativement à la ltration ((
K
n
)
nN
. En appliquant le lemme 12.3.2 à la sous-martingale
Y
K
n
, on trouve pour tous a < b,
(b a) E[N
K
([a, b], Y
N
)] E[(Y
K
K
a)
+
] = E[(X
0
a)
+
] [a[ + E[[X
0
[].
186
On verie aisement que quand K , N
K
([a, b], Y
N
) crot vers
N([a, b], X) := supk N : m
1
< n
1
< < m
k
< n
k
0,
X
m
1
a, X
n
1
b, . . . , X
m
k
a, X
n
k
b
qui est le nombre total de montees de (X
n
)
nN
le long de [a, b]. Le theorème de convergence
monotone entrane donc
(b a) E[N([a, b], X)] [a[ + E[[X
0
[] < .
On obtient ainsi que N([a, b], X) < pour tous les rationnels a < b, p.s. Par une adaptation
evidente du lemme 12.3.1 cela entrane la convergence presque s ure de la suite (X
n
)
nN
quand n , et le lemme de Fatou montre que la limite X
verie E[[X
[] < .
Montrons maintenant que la suite (X
n
)
nN
est uniformement integrable. Soit > 0.
La suite (E[X
n
])
nN
etant croissante et majoree (grace à (12.6)) on peut choisir un entier
K 0 assez petit de fa con que, pour tout n K,
E[X
n
] E[X
K
] +

2
.
La famille nie (X
K
, X
K+1
, . . . , X
1
, X
0
) etant uniformement integrable, on peut choisir
a > 0 assez grand de manière que, pour tout n K, K + 1, . . . , 1, 0,
E[[X
n
[1
{|Xn|>a}
] < .
De plus, on peut choisir > 0 assez petit de fa con que, pour tout A T tel que P(A) <
on ait
E[[X
K
[1
A
] <

2
.
Ensuite, si n < K,
E[[X
n
[1
{|Xn|>a}
] = E[X
n
1
{Xn<a}
] + E[X
n
1
{Xn>a}
]
= E[X
n
1
{Xn<a}
] + E[X
n
] E[X
n
1
{Xna}
]
E[E[X
K
[ T
n
]1
{Xn<a}
] + E[X
K
] +

2
E[E[X
K
[ T
n
]1
{Xna}
]
= E[X
K
1
{Xn<a}
] + E[X
K
] +

2
E[X
K
1
{Xna}
]
= E[X
K
1
{Xn<a}
] + E[X
K
1
{Xn>a}
] +

2
E[[X
K
[1
{|Xn|>a}
] +

2
.
Dans la première inegalite ci-dessus, on a utilise la propriete E[X
n
] E[X
K
] + /2 et
linegalite de surmartingale X
n
E[X
K
[ T
n
]. On observe maintenant que
P([X
n
[ > a)
1
a
E[[X
n
[]
C
a
187
o` u C = sup E[[X
k
[] est ni par hypothèse. Quitte à choisir a encore plus grand, on peut
supposer que C/a < , de sorte que
E[[X
K
[1
{|Xn|>a}
] <

2
et en combinant avec ce qui precède,
E[[X
n
[1
{|Xn|>a}
] < ,
pour tout n < K. Comme cette inegalite est aussi vraie pour n K, K + 1, . . . , 1, 0,
cela termine la preuve de luniforme integrabilite de la suite (X
n
)
nN
.
Le reste de la preuve est facile. Luniforme integrabilite et la convergence p.s. entranent
la convergence dans L
1
. Ensuite, en ecrivant
E[X
n
1
A
] E[X
m
1
A
]
pour m n et A T
T
m
, et en passant à la limite m , on trouve
E[X
n
1
A
] E[X
1
A
] , A T
.
On a donc aussi
E[E[X
n
[ T
]1
A
] E[X
1
A
] , A T
.
et puisque X
est clairement T
-mesurable, cela sut pour entraner E[X

n
[ T
] X
Corollaire 12.6.2 Soit Z une v.a. dans L

1
, et soit ((
n
)
nN
une suite decroissante de tribus.
Alors,
E[Z [ (
n
]
p.s.,L
1
n
E[Z [ (
]
o` u
(
nN
(
n
.
Preuve. Pour tout n N, posons X
n
= E[Z [ (
n
] et T
n
= (
n
. Alors (X
n
)
nN
est une
martingale relativement à la ltration retrograde (T
n
)
nN
. Le theorème assure donc que
X
n
1
quand n . De plus, grace à la dernière assertion du
theorème, X
= E[X
0
[ T
] = E[E[Z [ T
0
] [ T
] = E[Z [ T
].
Applications. (A) La loi forte des grands nombres. Soit
1
,
2
, . . . une suite de v.a. reelles
independantes et de meme loi, dans L
1
. On pose S
0
= 0 et pour tout n 1,
S
n
=
1
+ +
n
.
On remarque que
E[
1
[ S
n
] =
1
n
S
n
. (12.7)
188
En eet, on sait quil existe une fonction mesurable g telle que E[
1
[ S
n
] = g(S
n
). Si
k 1, . . . , n, le couple (
k
, S
n
) a meme loi que (
1
, S
n
), de sorte que, pour toute fonction
h mesurable bornee,
E[
k
h(S
n
)] = E[
1
h(S
n
)] = E[g(S
n
)h(S
n
)]
ce qui montre quon a aussi E[
k
[ S
n
] = g(S
n
). Il en resulte que
ng(S
n
) = E[
1
+ +
n
[ S
n
] = S
n
do` u lidentite annoncee (12.7).
On a aussi, pour tout n 1,
E[
1
[ S
n
,
n+1
,
n+2
, . . .] =
1
n
S
n
. (12.8)
Cela decoule immediatement de (12.7) et du lemme suivant, applique en prenant Z =
1
,
H
1
= (S
n
) et H
2
= (
n+1
,
n+2
, . . .).
Lemme 12.6.3 Soit Z une v.a. dans L
1
et soient H
1
et H
2
deux sous-tribus de T. Sup-
posons que H
2
est independante de (Z) H
1
. Alors,
E[Z [ H
1
H
2
] = E[Z [ H
1
]
La preuve de ce lemme est une application simple du lemme de classe monotone (Theorème
1.4.1) : on voit immediatement que la propriete E[1
A
Z] = E[1
A
E[Z [ H
1
]] est vraie pour
les ensembles A H
1
H
2
de la forme A = B C, avec B H
1
, C H
2
, et il en decoule
que cette propriete est vraie pour tout A H
1
H
2
.
On peut maintenant appliquer le corollaire 12.6.2 en prenant Z =
1
et pour tout n 0,
(
n
= (S
n
,
n+1
,
n+2
, . . .),
de sorte que
1
n
S
n
= E[Z [ (
n
] par (12.8). On obtient que la suite
1
n
S
n
converge p.s. et
dans L
1
. La loi du tout ou rien de Kolmogorov (Theorème 10.2.1) assure que la limite est
constante et donc egale à lim
1
n
E[S
n
] = E[
1
].
(B) La loi du tout ou rien de Hewitt-Savage. Soit
1
,
2
, . . . une suite de v.a. independantes et
de meme loi à valeurs dans un espace mesurable (E, c). Lapplication (
1
(),
2
(), . . .)
denit une v.a. à valeurs dans lespace produit E
N
, qui est muni de la plus petite tribu

rendant mesurables les applications coordonnees (x
1
, x
2
, . . .) x
i
pour tout i N
. Une
fonction mesurable F denie sur E
N
est dite symetrique si

F(x
1
, x
2
, x
3
, . . .) = F(x
(1)
, x
(2)
, x
(3)
, . . .)
pour toute permutation de N
à support ni.
Theorème 12.6.4 Si F est une fonction symetrique sur E
N
la variable aleatoire F(
1
,
2
, . . .)
est constante p.s.
189
Exemple. Supposons les v.a.
1
,
2
, . . . à valeurs dans R
d
, et considerons la marche aleatoire
(en dimension d)
X
n
=
1
+ +
n
.
Si B est un borelien de R
d
,
1
{Card{n1:XnB}=}
est une fonction symetrique de
1
,
2
, . . .. On a donc
P(Cardn 1 : X
n
B = ) = 0 ou 1.
Preuve. Sans perte de generalite on peut supposer F bornee. On pose
T
n
= (
1
, . . . ,
n
) , (
n
= (
n+1
,
n+2
, . . .).
On note Y = F(
1
,
2
, . . .) et on pose pour tout n N
X
n
= E[Y [ T
n
] , Z
n
= E[Y [ (
n
].
Alors le corollaire 12.3.6 assure que X
n
1
vers E[Y [ T
] = Y ,
cependant que le corollaire 12.6.2 montre que Z
n
1
vers E[Y [ (
] =
E[Y ] puisque (
est grossière (loi du tout ou rien de Kolmogorov). Donc pour tout > 0,
on peut choisir n assez grand de fa con que
E[[X
n
Y [] < , E[[Z
n
E[Y ][] < . (12.9)
Dautre part, il existe une fonction mesurable g : E
n
R telle que X
n
= g(
1
, . . . ,
n
),
et la première borne de (12.9) se traduit par :
E[[F(
1
,
2
, . . .) g(
1
, . . . ,
n
)[] < .
Puisque la suite (
n+1
, . . . ,
2n
,
1
, . . . ,
n
,
2n+1
, . . .) a meme loi que (
1
,
2
. . .), cette borne
entrane aussi que
E[[F(
n+1
, . . . ,
2n
,
1
, . . . ,
n
,
2n+1
, . . .) g(
n+1
, . . . ,
2n
)[] < .
Mais F(
n+1
, . . . ,
2n
,
1
, . . . ,
n
,
2n+1
, . . .) = F(
1
, . . . ,
n
,
n+1
, . . . ,
2n
,
2n+1
, . . .) = Y grace
à la symetrie de F, et on a donc obtenu
E[[Y g(
n+1
, . . . ,
2n
)[] < . (12.10)
En prenant lesperance conditionnelle par rapport à (
n
, on a
E[[E[Y [ (
n
] E[g(
n+1
, . . . ,
2n
) [ (
n
][] < ,
soit
E[[Z
n
g(
n+1
, . . . ,
2n
)[] < . (12.11)
En combinant (12.10) et (12.11) avec la deuxième borne de (12.9), on trouve
E[[Y E[Y ][] < 3.
Puisque etait arbitraire on a donc Y = E[Y ] p.s.
190
Chapitre 13
Chanes de Markov
13.1 Denition et premières proprietes
Dans tout ce chapitre, E est un espace ni ou denombrable, qui est muni comme dhabitude
de la tribu T(E). Une matrice stochastique sur E est une famille (Q(x, y), x, y E) de
nombres reels satisfaisant les deux conditions :
(i) 0 Q(x, y) 1 pour tous x, y E;
(ii) pour tout x E,
yE
Q(x, y) = 1.
Cette notion est equivalente à celle de probabilite de transition de E dans E : si on pose
(x, A) =
yA
Q(x, y) , x E, A E,
on voit que est une probabilite de transition de E dans E (voir le Chapitre 11), et inverse-
ment si on part dune telle probabilite de transition , la formule Q(x, y) = (x, y) denit
une matrice stochastique sur E.
Pour tout entier n 1, on peut denir Q
n
= (Q)
n
: Q
1
= Q, et ensuite par recurrence,
Q
n+1
(x, y) =
zE
Q
n
(x, z)Q(z, y).
On verie que Q
n
est encore une matrice stochastique sur E. On pose aussi Q
0
(x, y) = 1
{x=y}
.
Pour toute fonction f : E R
+
, on notera Qf la fonction denie par
Qf(x) =
yE
Q(x, y)f(y).
Denition 13.1.1 Soit Q une matrice stochastique sur E, et soit (X
n
)
nN
un processus
aleatoire à valeurs dans E. On dit que (X
n
)
nN
est une chane de Markov de matrice de tran-
sition Q si pour tout entier n 0, la loi conditionnelle de X
n+1
connaissant (X
0
, X
1
, . . . , X
n
)
est Q(X
n
, y). De manière equivalente, cela signie que
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = Q(x
n
, y),
pour tous x
0
, x
1
, . . . , x
n
, y E tels que P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) > 0.
191
Remarques. (i) En general, la loi conditionnelle de X
n+1
connaissant X
0
, X
1
, . . . , X
n
depend de toutes les variables X
0
, X
1
, . . . , X
n
et pas seulement de la dernière X
n
. Le fait
quici cette loi conditionnelle ne depende que de X
n
est ce quon appelle la propriete de
Markov : pour predire le futur (X
n+1
) la connaissance du passe (X
0
, X
1
, . . . , X
n
) ne donne
pas plus dinformation que celle du present (X
n
). Nous verrons plus tard dautres formes
plus precises de la propriete de Markov, qui correspondent à la meme idee.
(ii) La fonction Q(x, ) donnant la loi conditionnelle de X
n+1
sachant que X
n
= x ne depend
pas de lentier n : cest le caractère homogène de la chane de Markov. On pourrait aussi
considerer des chanes de Markov inhomogènes, pour lesquelles le mecanisme de transition
entre les instants n et n + 1 depend de n.
Proposition 13.1.1 Un processus (X
n
)
nN
à valeurs dans E est une chane de Markov de
matrice de transition Q ssi, pour tout n 0 et pour tous x
0
, x
1
, . . . , x
n
E,
P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = P(X
0
= x
0
)Q(x
0
, x
1
)Q(x
1
, x
2
) Q(x
n1
, x
n
). (13.1)
En particulier, on a si P(X
0
= x
0
) > 0,
P(X
n
= x
n
[ X
0
= x
0
) = Q
n
(x
0
, x
n
).
Preuve. Si (X
n
)
nN
est une chane de Markov de matrice de transition Q la formule donnee
est immediate par recurrence sur n en ecrivant
P(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
, X
n+1
= x
n+1
) =
= P(X
0
= x
0
, . . . , X
n
= x
n
) P(X
n+1
= x
n+1
[ X
0
= x
0
, . . . , X
n
= x
n
).
Inversement, si la formule donnee est vraie, on verie immediatement que
P(X
n+1
= y [ X
0
= x
0
, . . . , X
n
= x
n
) =
P(X
0
= x
0
)Q(x
0
, x
1
) Q(x
n1
, x
n
)Q(x
n
, y)
P(X
0
= x
0
)Q(x
0
, x
1
) Q(x
n1
, x
n
)
= Q(x
n
, y).
La dernière assertion sobtient en remarquant que
Q
n
(x
0
, x
n
) =
x
1
,x
2
,...,x
n1
E
Q(x
0
, x
1
)Q(x
1
, x
2
) Q(x
n1
, x
n
).
Remarque. La formule (13.1) montre que pour une chane de Markov (X
n
)
nN
, la loi de
(X
0
, X
1
, . . . , X
n
) est complètement determinee par la connaissance de la loi initiale (la loi de
X
0
) et de la matrice de transition Q.
La proposition suivante rassemble dautres proprietes simples des chanes de Markov.
Dans (ii) ci-dessous, on utilise la notation P(A [ Z) pour designer lesperance conditionnelle
E[1
A
[ Z].
n
)
nN
une chane de Markov de matrice de transition Q.
192
(i) Pour tout entier n 0 et toute fonction mesurable f : E R
+
,
E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] = E[f(X
n+1
) [ X
n
] = Qf(X
n
).
Plus generalement, pour tout sous-ensemble ni i
1
, . . . , i
k
de 0, 1, . . . , n 1, on a
E[f(X
n+1
) [ X
i
1
, . . . , X
i
k
, X
n
] = Qf(X
n
).
(ii) Pour tous les entiers n 0, p 1 et pour tous y
1
, . . . , y
p
E,
P(X
n+1
= y
1
, . . . , X
n+p
= y
p
[ X
0
, . . . , X
n
) = Q(X
n
, y
1
)Q(y
1
, y
2
) . . . Q(y
p1
, y
p
),
et donc
P(X
n+p
= y
p
[ X
n
) = Q
p
(X
n
, y
p
).
Si on pose Y
p
= X
n+p
pour tout p N, le processus (Y
p
)
pN
est encore une chane de
Markov de matrice de transition Q.
Preuve. (i) Daprès la denition,
E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] =
yE
Q(X
n
, y)f(y) = Qf(X
n
).
Ensuite, si i
1
, . . . , i
k
est un sous-ensemble ni de 0, 1, . . . , n 1, on a
E[f(X
n+1
) [ X
i
1
, . . . , X
i
k
, X
n
] = E[E[f(X
n+1
) [ X
0
, X
1
, . . . , X
n
] [ X
i
1
, . . . , X
i
k
, X
n
]
= E[Qf(X
n
) [ X
i
1
, . . . , X
i
k
, X
n
]
= Qf(X
n
).
(ii) Il decoule immediatement de (13.1) que
P(X
n+1
= y
1
, . . . , X
n+p
= y
p
[ X
0
= x
0
, . . . , X
n
= x
n
) = Q(x
n
, y
1
)Q(y
1
, y
2
) Q(y
p1
, y
p
).
La formule pour P(X
n+p
= y
p
[ X
n
) en decoule en sommant sur les choix possibles de
y
1
, . . . , y
p1
. Enn, pour la dernière assertion, on deduit de ce qui precède que
P(Y
0
= y
0
, Y
1
= y
1
, . . . , Y
p
= y
p
) = P(X
n
= y
0
)Q(y
0
, y
1
)Q(y
1
, y
2
) . . . Q(y
p1
, y
p
),
et on utilise la caracterisation donnee dans la proposition 13.1.1.
13.2 Quelques exemples
13.2.1 Variables aleatoires independantes
Si (X
n
)
nN
est une suite de v.a. independantes à valeurs dans E, de meme loi , alors
(X
n
)
nN
est une chane de Markov de matrice de transition
Q(x, y) = (y), x, y E.
La verication est immediate. Ce nest pas lexemple le plus interessant de chane de Markov !
193
13.2.2 Marches aleatoires sur Z
d
Soient ,
1
,
2
, . . . ,
n
, . . . des v.a. independantes à valeurs dans Z
d
. On suppose que
1
,
2
, . . .
ont meme loi et on pose pour tout n 0,
X
n
= +
1
+
2
+ +
n
.
Alors (X
n
)
nN
est une chane de Markov de matrice de transition
Q(x, y) = (y x), x, y E.
En eet, en remarquant que
n+1
est independante de (X
0
, X
1
, . . . , X
n
), on a
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
n+1
= y x
n
[ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
n+1
= y x
n
)
= (y x
n
).
Soit (e
1
, . . . , e
d
) la base canonique de R
d
. Dans le cas o` u (e
i
) = (e
i
) =
1
2d
pour tout
i 1, . . . , d, la chane de Markov obtenue est appelee la marche aleatoire simple sur Z
d
.
13.2.3 Marche aleatoire simple sur un graphe
Soit T
2
(E) lensemble des parties de E à deux elements, et soit A un sous-ensemble de
T
2
(E). Pour tout x E, on note
A
x
= y E : x, y A.
On suppose que A
x
est ni et non vide pour tout x E. On denit alors une matrice de
transition Q sur E en posant pour tous x, y E,
Q(x, y) =
_
_
_
1
Card A
x
si x, y A
0 sinon.
Une chane de Markov de matrice de transition Q est appelee marche aleatoire simple sur le
graphe (E, A).
13.2.4 Processus de branchement
Rappelons la denition de ces processus dejà etudies dans le chapitre precedent. Si est
une mesure de probabilite sur N, et N, on denit par recurrence une suite (X
n
) de v.a.
à valeurs dans N en posant
X
0
=
X
n+1
=
Xn
j=1
n,j
, n N,
194
o` u les v.a.
n,j
, n, j N sont independantes et de loi . Alors, (X
n
)
nN
est une chane de
Markov sur E = N de matrice de transition
Q(x, y) =
x
(y), x, y N,
o` u
x
est la convolution de x fois avec elle-meme, ou de manière equivalente la loi de la
somme de x v.a. independantes de loi (en particulier
0
est la mesure de Dirac en 0). En
eet, en observant que les v.a.
n,j
, j N sont independantes de X
0
, . . . , X
n
, on a
P(X
n+1
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
xn
j=1
n,j
= y [ X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
)
= P(
xn
j=1
n,j
= y)
=
xn
(y).
13.3 La chane de Markov canonique
Nous commen cons par un resultat dexistence de chane de Markov associee à une matrice
de transition donnee.
Proposition 13.3.1 Soit Q une matrice stochastique sur E. On peut trouver un espace de
probabilite (
, T
, P
) sur lequel il existe, pour tout x E, un processus (X

x
n
)
nN
qui est une
chane de Markov de matrice de transition Q, issue de X
x
0
= x.
Preuve. On peut prendre
= [0, 1[, muni de la tribu borelienne et de la mesure de

Lebesgue. A partir du developpement dyadique (propre) dun reel [0, 1[,
=
n=0
n
() 2
n1
,
n
() 0, 1
on construit une suite (
n
)
nN
de v.a. independantes de meme loi P(
n
= 1) = P(
n
= 0) =
1/2. Si est une injection de NN dans N, les v.a.
i,j
=
(i,j)
, i, j N sont (evidemment)
encore independantes et de meme loi. En posant
U
i
=
j=0
i,j
2
j1
on obtient une suite U
0
, U
1
, U
2
, . . . de v.a. independantes de loi uniforme sur [0, 1] (pour voir
que U
i
suit la loi uniforme, noter que
p
j=0
i,j
2
j1
a meme loi que
p
n=0
n
2
n1
, pour
tout entier p, et faire tendre p vers ).
Soit y
1
, y
2
, . . . , y
k
, . . . une enumeration des elements de E. Fixons aussi x E. On pose
X
x
0
= x puis
X
x
1
= y
k
si
1j<k
Q(x, y
j
) < U
1

1jk
Q(x, y
j
)
195
de sorte quil est clair que P(X
x
1
= y) = Q(x, y) pour tout y E. On continue par recurrence
en posant
X
x
n+1
= y
k
si
1j<k
Q(X
x
n
, y
j
) < U
n+1

1jk
Q(X
x
n
, y
j
).
En utilisant lindependance des v.a. U
i
, on verie très facilement que pour tout k 1,
P(X
x
n+1
= y
k
[ X
x
0
= x
0
, X
x
1
= x
1
, . . . X
x
n
= x
n
)
= P(
1j<k
Q(x
n
, y
j
) < U
n+1

1jk
Q(x
n
, y
j
) [ X
x
0
= x
0
, X
x
1
= x
1
, . . . X
x
n
= x
n
)
= P(
1j<k
Q(x
n
, y
j
) < U
n+1

1jk
Q(x
n
, y
j
))
= Q(x
n
, y
k
),
de sorte que (X
x
n
)
nN
est une chane de Markov de transition Q.
Dans la suite, il sera utile de faire un choix canonique de lespace de probabilite sur lequel
sera denie la chane de Markov etudiee. On prendra
= E
N
.
Un element de est donc une suite = (
0
,
1
,
2
, . . .) delements de E. Les applications
coordonnees X
n
, n N sont alors denies par
X
n
() =
n
.
On munit de la plus petite tribu, notee T, qui rende mesurables les applications coor-
donnees. Cest aussi la tribu engendree par les cylindres, cest-à-dire les ensembles C de
la forme
C = :
0
= x
0
,
1
= x
1
, . . . ,
n
= x
n
o` u n N et x
0
, x
1
, . . . x
n
E.
Lemme 13.3.2 Soit (G, () un espace mesurable, et soit une application de G dans .
Alors est mesurable ssi X
n
lest pour tout n N.
Preuve. Il sut bien s ur de montrer que si X
n
est mesurable pour tout n, alors lest
aussi. Or,
A T :
1
(A) (
est une tribu sur qui par hypothèse contient tous les ensembles de la forme X
1
n
(y), y E,
donc rend mesurables toutes les applications coordonnees X
n
. Cette tribu est necessairement
T tout entière.
Theorème 13.3.3 Soit Q une matrice stochastique sur E. Pour tout x E, il existe une
unique probabilite, notee P
x
, sur = E
N
telle que sous P
x
, le processus des coordonnees
(X
n
)
nN
est une chane de Markov de matrice de transition Q, et P
x
(X
0
= x) = 1.
196
Preuve. Soit x E. La proposition 13.3.1 permet de construire sur un espace de probabilite
(
, T
, P
) un processus (X
x
n
)
nN
qui est une chane de Markov de transition Q telle que
X
x
0
= x. On denit alors P
x
comme la mesure image de P
par lapplication
(X
x
n
(
))
nN
.
Cette application est mesurable grace au lemme precedent. On a P
x
(X
0
= x) = P
(X
x
0
=
x) = 1 et de plus pour tous x
0
, x
1
, . . . , x
n
E,
P
x
(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
) = P
(X
x
0
= x
0
, X
x
1
= x
1
, . . . , X
x
n
= x
n
)
= P
(X
x
0
= x
0
)Q(x
0
, x
1
) . . . Q(x
n1
, x
n
)
= P
x
(X
0
= x
0
)Q(x
0
, x
1
) . . . Q(x
n1
, x
n
)
ce qui montre que sous P
x
le processus des coordonnees est une chane de Markov de transition
Q (cf proposition 13.1.1).
Pour lunicite, on remarque que si P
x
est une autre mesure de probabilite satisfaisant la
propriete du theorème, les mesures P
x
et P
x
concident sur les cylindres. Or les cylindres
forment une classe stable par intersection nie et qui engendre la tribu T. Le lemme de
classe monotone montre alors que P
x
= P
x
(cf Corollaire 1.4.2).
Remarques. (a) De la dernière assertion de la proposition 13.1.1, on deduit que, pour tout
n 0 et tous x, y E,
P
x
(X
n
= y) = Q
n
(x, y).
(b) Si est une mesure de probabilite sur E, on notera
P
xE
(x) P
x
qui denit une mesure de probabilite sur . En ecrivant la formule explicite pour P
(X
0
=
x
0
, . . . , X
n
= x
n
), on verie immediatement que sous P
, (X
n
)
nN
est une chane de Markov
de transition Q, et X
0
a pour loi .
(c) Si (X
n
)
nN
est une chane de Markov de matrice de transition Q et de loi initiale , alors
pour toute partie mesurable B de = E
N
, on a
P((X
n
)
nN
B) = P
(B).
En eet cette egalite est vraie lorsque B est un cylindre, et on peut ensuite utiliser le meme
argument quà la n de la preuve ci-dessus. Cette egalite montre que tous les resultats
que nous etablirons dans la suite pour la chane de Markov canonique (celle fournie par le
theorème 13.3.3) se transporteront à une chane de Markov quelconque de meme matrice de
transition.
Lun des avantages importants de la chane de Markov canonique est de pouvoir utiliser
les operateurs de translation. Pour tout k N on denit lapplication
k
: en posant
k
((
n
)
nN
) = (
k+n
)
nN
.
197
Le lemme 13.3.2 montre que ces applications sont mesurables.
On note T
n
= (X
0
, X
1
, . . . , X
n
) la ltration canonique sur . On utilise aussi la notation
E
x
pour designer lesperance sous la probabilite P
x
.
Theorème 13.3.4 (Propriete de Markov simple) Soient F et G deux fonctions mesurables
positives sur et soit n 0. Supposons que F est T
n
-mesurable. Alors, pour tout x E,
E
x
[F G
n
] = E
x
[F E
Xn
[G]].
De manière equivalente,
E
x
[G
n
[ T
n
] = E
Xn
[G],
ce quon peut traduire en disant que la loi conditionnelle de
n
() connaissant (X
0
, X
1
, . . . , X
n
)
est P
Xn
.
Remarque. Cet enonce se generalise aussitot au cas o` u on remplace E
x
par E
pour
nimporte quelle loi initiale . Il en sera de meme pour lenonce suivant.
Preuve. Il sut de montrer la première assertion, et pour cela de traiter le cas o` u
F = 1
{X
0
=x
0
,X
1
=x
1
,...,Xn=xn}
pour x
0
, x
1
, . . . , x
n
E. Considerons dabord le cas o` u G est du meme type :
G = 1
{X
0
=y
0
,X
1
=y
1
,...,Xp=yp}
o` u p 0 et y
0
, . . . , y
p
E. Dans ce cas, si y E,
E
y
[G] = 1
{y
0
=y}
Q(y
0
, y
1
) . . . Q(y
p1
, y
p
)
et par ailleurs
E
x
[F G
n
] = P
x
(X
0
= x
0
, X
1
= x
1
, . . . , X
n
= x
n
, X
n
= y
0
, X
n+1
= y
n+1
, . . . , X
n+p
= y
p
)
= 1
{x
0
=x}
Q(x
0
, x
1
) . . . Q(x
n1
, x
n
) 1
{y
0
=xn}
Q(y
0
, y
1
) . . . Q(y
p1
, y
p
)
de sorte quon obtient facilement le resultat. Un argument de classe monotone montre ensuite
que le resultat reste vrai pour toute fonction G = 1
A
, A T, ce qui permet de conclure.
Le theorème precedent donne une forme generale de la propriete de Markov (simple) :
la loi conditionnelle du futur
n
() connaissant le passe (X
0
, X
1
, . . . , X
n
) ne depend que
du present X
n
. Il sera très important de pouvoir etendre cette propriete au cas o` u n est
remplace par un temps aleatoire T.
Pour illustrer linteret de cette extension, considerons le problème de savoir si partant
dun point x la chane y revient inniment souvent. Autrement dit, en notant
N
x
=
n=0
1
{Xn=x}
198
a-t-on P
x
(N
x
= ) = 1 ? Il sut en fait de verier que la chane revient au moins une fois
en x. Si
H
x
= infn 1 : X
n
= x
avec la convention habituelle inf = +, on a lequivalence
P
x
(N
x
= ) = 1 P
x
(H
x
< ) = 1.
Limplication est triviale. Dans lautre sens, supposons P
x
(H
x
< ) = 1. Mod-
ulo lextension de la propriete de Markov mentionnee ci-dessus, on sait que
Hx
() =
(
Hx()+n
)
nN
a pour loi P
x
. Mais alors, en ecrivant
N
x
() = 1 +N
x
(
Hx
())
on voit que N
x
a meme loi que 1 +N
x
sous P
x
, ce qui nest possible que si N
x
= , P
x
p.s.
Le theorème qui suit permet de rendre ce raisonnement rigoureux (le resultat obtenu sera
repris et detaille dans la partie suivante).
Theorème 13.3.5 (Propriete de Markov forte) Soit T un temps darret de la ltration
(T
n
). Soient F et G deux fonctions mesurables positives sur . Supposons que F est T
T
-
mesurable. Alors, pour tout x E,
E
x
[1
{T<}
F G
T
] = E
x
[1
{T<}
F E
X
T
[G]].
De manière equivalente,
E
x
[1
{T<}
G
T
[ T
T
] = 1
{T<}
E
X
T
[G].
Remarque. La v.a. X
T
, denie sur lensemble T
T
-mesurable T < , est T
T
-mesurable
(cf Proposition 12.2.3 - dans le chapitre precedent on considère des processus à valeurs reelles,
mais largument reste le meme). La v.a. E
X
T
[G], denie aussi sur lensemble T < , est
la composee des applications X
T
() et x E
x
[G].
Preuve. Pour tout entier n 0,
E
x
[1
{T=n}
F G
T
] = E
x
[1
{T=n}
F G
n
] = E
x
[1
{T=n}
F E
Xn
[G]]
daprès la propriete de Markov simple (theorème 13.3.4) appliquee en observant que 1
{T=n}
F
est T
n
-mesurable parce que F est T
T
-mesurable (cf denition de la tribu T
T
dans le chapitre
precedent). Il sut ensuite de sommer legalite obtenue sur toutes les valeurs de n N.
Corollaire 13.3.6 Soit T un temps darret tel que P
x
(T < ) = 1. Supposons quil existe
y E tel que P
x
(X
T
= y) = 1. Alors sous P
x
,
T
() est independant de T
T
et de loi P
y
.
Preuve. Avec les notations du theorème, on a
E
x
[F G(
T
())] = E
x
[F E
X
T
[G]] = E
x
[F E
y
[G]] = E
x
[F] E
y
[G]
do` u les assertions de lenonce.
199
13.4 La classication des etats
A partir de maintenant, on utilise uniquement (sauf exception, notamment dans les exem-
ples) la chane de Markov canonique construite dans le paragraphe precedent. Rappelons la
notation : pour x E,
H
x
= infn 1 : X
n
= x
N
x
=
n=0
1
{Xn=x}
.
Proposition 13.4.1 (et denition) Soit x E. On a :
ou bien P
x
(H
x
< ) = 1, et alors
N
x
= , P
x
p.s.
dans ce cas x est dit recurrent;
ou bien P
x
(H
x
< ) < 1, et alors
N
x
< , P
x
p.s.
et plus precisement E
x
[N
x
] = 1/P
x
(H
x
= ) < ; dans ce cas x est dit transitoire.
Preuve. Pour tout entier k 1, la propriete de Markov forte montre que
P
x
(N
x
k + 1) = E
x
[1
{Hx<}
1
{Nxk}

Hx
]
= E
x
[1
{Hx<}
E
x
[1
{Nxk}
]]
= P
x
(H
x
< ) P
x
(N
x
k).
Puisque P
x
(N
x
1) = 1, une recurrence immediate donne P
x
(N
x
k) = P
x
(H
x
< )
k1
.
Si P
x
(H
x
< ) = 1 il en decoule aussitot que P
x
(N
x
= ) = 1. Si P
x
(H
x
< ) < 1, on
trouve
E
x
[N
x
] =
k=1
P
x
(N
x
k) =
1
P
x
(H
x
= )
< .
Denition 13.4.1 Le noyau potentiel de la chane est la fonction U : E E [0, ]
denie par
U(x, y) = E
x
[N
y
].
Proposition 13.4.2 (i) Pour tous x, y E,
U(x, y) =
n=0
Q
n
(x, y).
(ii) U(x, x) = si et seulement si x est recurrent.
(iii) Pour tous x, y E, avec x ,= y,
U(x, y) = P
x
(H
y
< ) U(y, y).
200
Preuve. La propriete (i) est obtenue en ecrivant :
U(x, y) = E
x
_

n=0
1
{Xn=y}
_
=
n=0
P
x
(X
n
= y) =
n=0
Q
n
(x, y).
La propriete (ii) est une consequence immediate de la proposition 13.4.1 et de la denition
de U.
Enn (iii) decoule de la propriete de Markov forte :
E
x
[N
y
] = E
x
[1
{Hy<}
N
y

Hy
] = E
x
[1
{Hy<}
E
y
[N
y
]] = P
x
(H
y
< ) U(y, y).
Exemple. Considerons la chane de Markov sur Z
d
de matrice de transition
Q((x
1
, . . . , x
d
), (y
1
, . . . , y
d
)) =
1
2
d
d
i=1
1
{|y
i
x
i
|=1}
(cest un cas particulier de marche aleatoire sur Z
d
). Cette chane de Markov issue de 0 a
meme loi que (Y
1
n
, . . . , Y
d
n
)
nN
, o` u les processus Y
1
, . . . , Y
d
sont des copies independantes de
la marche aleatoire simple (pile ou face) sur Z, issue de 0. En consequence,
Q
n
(0, 0) = P(Y
1
n
= 0, . . . , Y
d
n
= 0) = P(Y
1
n
= 0)
d
.
Or P(Y
1
n
= 0) = 0 si n est impair, et si n = 2k est pair, un argument de denombrement
simple montre que
P(Y
1
2k
= 0) = 2
2k
C
k
2k
.
En consequence,
U(0, 0) =
k=0
Q
2k
(0, 0) =
k=0
(2
2k
C
k
2k
)
d
.
La formule de Stirling montre que
2
2k
C
k
2k

k
(
2k
e
)
2k
4k
2
2k
((
k
e
)
k
2k)
2
k
_
1
k
.
Donc 0 est recurrent si d = 1 ou 2, et transitoire si d 3.
On note R lensemble des etats (points) recurrents.
Lemme 13.4.3 Soit x R et soit y un autre point de E tel que U(x, y) > 0. Alors y R
et P
y
(H
x
< ) = 1, donc en particulier U(y, x) > 0.
Preuve. Montrons dabord que P
y
(H
x
< ) = 1. Pour cela on ecrit
0 = P
x
(N
x
< ) P
x
(H
y
< , H
x

Hy
= )
= E
x
[1
{Hy<}
1
{Hx=}

Hy
]
= E
x
[1
{Hy<}
P
y
(H
x
= )]
= P
x
(H
y
< ) P
y
(H
x
= ).
201
Lhypothèse U(x, y) > 0 entrane P
x
(H
y
< ) > 0. On conclut que P
y
(H
x
= ) = 0.
Ensuite, on peut trouver des entiers n
1
, n
2
1 tels que Q
n
1
(x, y) > 0, et Q
n
2
(y, x) > 0.
Pour tout entier p 0, on a alors
Q
n
2
+p+n
1
(y, y) Q
n
2
(y, x)Q
p
(x, x)Q
n
1
(x, y)
et donc
U(y, y)
p=0
Q
n
2
+p+n
1
(y, y) Q
n
2
(y, x)
_

p=0
Q
p
(x, x)
_
Q
n
1
(x, y) =
puisque x R entrane
p=0
Q
p
(x, x) = U(x, x) = .
En consequence du lemme, si x R et y ER on a U(x, y) = 0 : on ne peut pas passer
dun point recurrent à un point transitoire. Cette propriete joue un role important dans le
theorème suivant.
Theorème 13.4.4 (Classication des etats) Il existe une partition de R
R =
_
iI
R
i
telle quon ait les proprietes suivantes :
si x R, et si i I est tel que x R
i
, on a P
x
p.s.
N
y
= +, y R
i
;
N
y
= 0 , y ER
i
;
si x ER et T = infn 0 : X
n
R, on a P
x
p.s.
ou bien T = et N
y
< , y E;
ou bien T < et il existe un indice (aleatoire) j I tel que : n T, X
n
R
j
.
Preuve. Pour x, y R, notons x y si U(x, y) > 0. Il decoule du lemme precedent quon
ainsi deni une relation dequivalence sur R (pour la transitivite, on observe que Q
n
(x, y) > 0
et Q
m
(y, z) > 0 entranent Q
n+m
(x, z) > 0. La partition du theorème correspond alors aux
classes dequivalence pour cette relation dequivalence, quon appelle aussi les classes de
recurrence de la chane de Markov.
Soit i I et x R
i
. On a U(x, y) = 0 pour tout y ER
i
(dans le cas y ER on
utilise le lemme) et donc N
y
= 0, P
x
p.s. pour tout y ER
i
. En revanche, si y R
i
, on a
P
x
(H
y
< ) = 1 daprès le lemme, et la propriete de Markov forte montre que
P
x
(N
y
= ) = E
x
(1
{Hy<}
1
{Ny=}

Hy
] = P
x
(H
y
< ) P
y
(N
y
= ) = 1.
Si x ER et T = , alors on deduit facilement de la propriete de Markov forte que
N
y
< pour tout y ER. Si T < , notons j lindice (aleatoire) tel que X
T
R
j
. En
appliquant la propriete de Markov forte en T, et la première partie de lenonce, on obtient
aisement que X
n
R
j
pour tout n T.
202
Denition 13.4.2 La chane est dite irreductible si U(x, y) > 0 pour tous x, y E.
Corollaire 13.4.5 Si la chane est irreductible :
ou bien tous les etats sont recurrents, il existe une seule classe de recurrence et on a pour
tout x E,
P
x
(N
y
= , y E) = 1.
ou bien tous les etats sont transitoires et alors, pour tout x E,
P
x
(N
y
< , y E) = 1.
Lorsque E est ni, seul le premier cas peut se produire.
Preuve. Sil existe un etat recurrent, le lemme 13.4.3 montre aussitot que tous les etats
sont recurrents, et puisque U(x, y) > 0 pour tous x, y E, on voit aussi quil y a une seule
classe de recurrence. Le reste decoule du theorème, à lexception de la dernière assertion :
si E est ni et si on suppose que tous les etats sont transitoires, on a
P
x
p.s. ,
yE
N
y
<
ce qui est absurde puisque
yE
N
y
=
yE
n=0
1
{Xn=y}
=
n=0
yE
1
{Xn=y}
= .
Une chane de Markov irreductible dont les etats sont recurrents sera dite recurrente
irreductible.
Exemples. Nous reprenons maintenant les dierents exemples introduits ci-dessus pour
discuter dans chaque cas la classication des etats. Avant cela, insistons sur le fait que les
resultats obtenus pour la chane de Markov canonique se traduisent immediatement pour
une chane de Markov quelconque (Y
n
)
nN
de transition Q (et inversement). Par exemple, si
Y
0
= y, en notant N
Y
x
=
n=0
1
{Yn=x}
, on a pour tout k N,
P(N
Y
x
= k) = P
y
(N
x
= k))
puisque le terme de gauche secrit aussi bien
P((Y
n
)
nN
B)
avec B = E
N
: N
x
() = k, et il sut dutiliser la remarque (b) suivant le theorème
13.3.3.
(1) Cas de variables aleatoires independantes de loi . Dans ce cas Q(x, y) = (y).
On voit facilement que y est recurrent ssi (y) > 0, et il y a une seule classe de recurrence.
La chane est irreductible ssi (y) > 0 pour tout y E.
203
(2) Marche aleatoire sur Z. On a
Y
n
= Y
0
+
n
i=1
i
o` u les v.a.
i
, à valeurs dans Z, sont independantes et de loi (et independantes de Y
0
).
Dans ce cas, puisque Q(x, y) = (y x), on voit aisement que U(x, y) est fonction de y x,
et donc tous les etats sont du meme type, recurrent ou transitoire.
Theorème 13.4.6 Supposons E[[
1
[] < et soit m = E[
1
].
(i) Si m ,= 0, tous les etats sont transitoires.
(ii) Si m = 0, tous les etats sont recurrents. De plus, la chane est irreductible ssi le
sous-groupe engendre par y Z : (y) > 0 est Z tout entier.
Preuve. (i) Si m ,= 0, la loi forte des grands nombres montre aussitot que [Y
n
[ p.s.
et donc tous les etats sont transitoires.
(ii) Supposons que m = 0 et que 0 est transitoire, donc U(0, 0) < . Nous allons voir que
ceci conduit à une contradiction. Sans perte de generalite, on suppose dans la suite que
Y
0
= 0. On observe que, pour tout x Z,
U(0, x) U(x, x) = U(0, 0)
la première inegalite decoulant de la proposition 13.4.2(iii). En consequence, pour tout
n 1,
|x|n
U(0, x) (2n + 1)U(0, 0) Cn (13.2)
avec C = 3U(0, 0) < .
Dautre part, on sait que n
1
Y
n
converge p.s., donc aussi en probabilite, vers 0. Si on
pose = (4C)
1
, on peut trouver N assez grand pour que, pour tout n N,
P([Y
n
[ n) >
1
2
,
|x|n
Q
n
(0, x) >
1
2
.
Si n p N, on a aussi
|x|n
Q
p
(0, x)
|x|p
Q
p
(0, x) >
1
2
puis en sommant sur p,
|x|n
U(0, x)
n
p=N
|x|p
Q
p
(0, x) >
n N
2
.
204
Mais dautre part, daprès (13.2), si n 1,
|x|n
U(0, x) Cn =
n
4
.
On obtient une contradiction dès que n est assez grand.
Il reste à etablir la dernière assertion. Notons G le sous-groupe engendre par x Z :
(x) > 0. Il est immediat que
P(Y
n
G, n N) = 1
(rappelons que nous avons pris Y
0
= 0). Cela montre que si G ,= Z, la chane nest pas
irreductible. Inversement, supposons que G = Z. Alors, notons
H = x Z : U(0, x) > 0
et observons que H est un sous-groupe de Z :
si x, y H, linegalite
Q
n+p
(0, x + y) Q
n
(0, x) Q
p
(x, x + y) = Q
n
(0, x) Q
p
(0, y)
montre que x + y H;
si x H, comme 0 est recurrent, la condition U(0, x) > 0 entrane U(x, 0) > 0 (lemme
13.4.3) et puisque U(x, 0) = U(0, x) on a bien x H.
Finalement, puisque H contient x Z : (x) > 0, on a forcement H = Z.
Par exemple, si =
1
2
2
+
1
2
2
, tous les etats sont recurrents, mais il y a deux classes de
recurrence, les entiers pairs et les entiers impairs.
(3) Marche aleatoire sur un graphe. On considère ici le cas dun graphe ni : E est ni
et A est un sous-ensemble de T
2
(E) tel que, pour tout x E, A
x
:= y E : x, y A
est non vide. Le graphe est dit connexe si pour tous x, y E, on peut trouver un entier
p 0 et des elements x
0
= x, x
1
, . . . , x
p1
, x
p
= y de E tels que x
i1
, x
i
A pour tout
i 1, . . . , p.
Proposition 13.4.7 La marche aleatoire simple sur un graphe ni connexe est recurrente
irreductible.
Preuve. Le caractère irreductible de la chane decoule de la connexite du graphe. Il sut
ensuite dappliquer le corollaire 13.4.5.
(4) Processus de branchement. Dans ce cas E = N et Q(x, y) =
x
(y). On remarque
que letat 0 est toujours absorbant, au sens o` u
P
0
(n N, X
n
= 0) = 1.
En consequence 0 est aussi recurrent.
Dans la proposition suivante, nous ecartons le cas trivial =
1
, o` u tous les etats sont
absorbants.
205
Proposition 13.4.8 0 est le seul etat recurrent. En consequence, on a p.s.
ou bien N : n N , X
n
= 0.
ou bien X
n
+ quand n .
Remarque. On a vu dans le chapitre precedent que le premier cas se produit avec probabilite
1 si m =
k(k) 1, et que le second cas se produit avec probabilite strictement positive

si m > 1 (sous lhypothèse supplementaire que a un moment dordre 2).
Preuve. Supposons dabord que (0) > 0. Si x 1, U(x, 0) P
x
(X
1
= 0) = (0)
x
> 0
alors que U(0, x) = 0. Cela nest possible que si x est transitoire. Traitons ensuite le cas o` u
(0) = 0. Comme nous excluons le cas =
1
, il existe alors k 2 tel que (k) > 0. Alors,
pour tout x 1, P
x
(X
1
> x) > 0, ce qui entrane quil existe y > x tel que U(x, y) > 0.
Comme on a clairement U(y, x) = 0, on conclut encore que x est transitoire. Les autres
assertions decoulent maintenant du theorème 13.4.4.
13.5 Mesures invariantes
Denition 13.5.1 Soit une mesure positive sur E, telle que (x) < pour tout x E
et nest pas la mesure identiquement nulle. On dit que est invariante pour la matrice de
transition Q (ou simplement invariante sil ny a pas ambigute) si
y E , (y) =
xE
(x)Q(x, y).
Sous forme matricielle, la condition dinvariance secrit Q = . Puisque pour tout n,
Q
n
= (Q)
n
, on peut iterer cette relation et obtenir que Q
n
= pour tout n N.
Interpretation. Supposons de plus que (E) < (ce qui sera toujours le cas si E est ni).
Quitte à remplacer par (E)
1
, on peut supposer (E) = 1. Alors, pour toute fonction
f : E R
+
,
E
[f(X
1
)] =
xE
(x)
yE
Q(x, y)f(y) =
yE
f(y)
xE
(x)Q(x, y) =
yE
(y)f(y)
, X
1
a meme loi que X
0
. En utilisant la relation Q
n
= Q, on
obtient de meme que pour tout n N la loi de X
n
sous P
est . Plus precisement, pour

toute fonction F : R
+
mesurable,
E
[F
1
] = E
[E
X
1
[F]] =
xE
(x) E
x
[F] = E
[F]
, (X
1+n
)
nN
a meme loi que (X
n
)
nN
(et de meme, pour tout entier
k 0, (X
k+n
)
nN
a meme loi que (X
n
)
nN
).
Exemple. Pour toute marche aleatoire sur Z
d
(Q(x, y) = (yx) ne depend que la dierence
y x), on verie immediatement que la mesure de comptage sur Z
d
est invariante.
206
Denition 13.5.2 Soit une mesure positive non triviale sur E, telle que (x) < pour
tout x E. On dit que est reversible si
x, y E , (x)Q(x, y) = (y)Q(y, x).
Proposition 13.5.1 Toute mesure reversible est invariante.
Preuve. Si est reversible,
xE
(x)Q(x, y) =
xE
(y)Q(y, x) = (y).
En revanche, il existe des mesures invariantes qui ne sont pas reversibles : nous avons
vu que la mesure de comptage est invariante pour toute marche aleatoire sur Z
d
, cependant
elle nest reversible que si la loi de saut est symetrique ((x) = (x)).
Exemples. (a) Pile ou face biaise. Cest la marche aleatoire sur Z de matrice de transition
Q(i, i + 1) = p
Q(i, i 1) = q = 1 p
o` u p ]0, 1[. Dans ce cas, on verie aisement que la mesure
(i) = (
p
q
)
i
, i Z
est reversible, donc invariante. Remarquons que est dierente de la mesure de comptage
(qui est aussi invariante) sauf dans le cas p = 1/2.
(b) Marche aleatoire sur un graphe. La mesure
(x) = Card(A
x
)
est reversible. En eet, si x, y A,
(x)Q(x, y) = Card(A
x
)
1
Card(A
x
)
= 1 = (y)Q(y, x).
(c) Modèle durne dEhrenfest. Cest la chane de Markov dans 0, 1, . . . , k de matrice
de transition
Q(j, j + 1) =
kj
k
si 0 j k 1
Q(j, j 1) =
j
k
si 1 j k.
Une mesure est reversible ssi
(j)
k j
k
= (j + 1)
j + 1
k
pour tout 0 j k 1. On trouve aisement que
(j) = C
j
k
convient.
207
Theorème 13.5.2 Soit x un point recurrent. La formule
(y) = E
x
_
Hx1
k=0
1
{X
k
=y}
_
denit une mesure invariante. De plus, (y) > 0 ssi y appartient à la classe de recurrence
de x.
Preuve. Remarquons dabord que si y nest pas dans la classe de recurrence de x on a
E
x
[N
y
] = U(x, y) = 0, et donc a fortiori (y) = 0.
Ensuite, on ecrit pour tout y E,
(y) = E
x
_
Hx
k=1
1
{X
k
=y}
_
=
zE
E
x
_
Hx
k=1
1
{X
k1
=z, X
k
=y}
_
=
zE
k=1
E
x
_
1
{kHx, X
k1
=z}
1
{X
k
=y}
_
=
zE
k=1
E
x
_
1
{kHx, X
k1
=z}
_
Q(z, y)
=
zE
E
x
_
Hx
k=1
1
{X
k1
=z}
_
Q(z, y)
=
zE
(z)Q(z, y).
Dans la quatrième egalite, on a utilise le fait que levenement k H
x
, X
k1
= z est
T
k1
-mesurable pour appliquer la propriete de Markov à linstant k 1.
On a obtenu lidentite Q = , quon peut iterer pour avoir Q
n
= pour tout entier
n 0. En particulier, pour tout entier n 0,
(x) = 1 =
zE
(z)Q
n
(z, x).
Soit y un point de la classe de recurrence de x. Alors, il existe n 0 tel que Q
n
(y, x) > 0, et
la formule precedente montre que (y) < . On peut aussi trouver m tel que Q
m
(x, y) > 0,
et on a
(y) =
zE
(z)Q
m
(z, y) Q
m
(x, y) > 0.
Remarque. Sil existe plusieurs classes de recurrence R
i
, i I, alors en choisissant pour
chaque i I un point x
i
R
i
et en posant
i
(y) = E
x
i
_
Hx
i
1
k=0
1
{X
k
=y}
_
208
on construit des mesures invariantes à supports disjoints.
Theorème 13.5.3 Supposons la chane recurrente irreductible. Alors la mesure invariante
est unique à une constante multiplicative près.
Preuve. Soit une mesure invariante. On montre par recurrence que, pour tout entier
p 0, pour tous x, y E,
(y) (x) E
x
_
p(Hx1)
k=0
1
{X
k
=y}
_
. (13.3)
Dabord, si y = x, linegalite est immediate (avec meme une egalite). On suppose donc
y ,= x. Si p = 0, linegalite (13.3) est triviale. On suppose que (13.3) est vraie à lordre p.
Alors,
(y) =
zE
(z) Q(z, y)
(x)
zE
E
x
_
p(Hx1)
k=0
1
{X
k
=z}
_
Q(z, y)
= (x)
zE
p
k=0
E
x
_
1
{X
k
=z, kHx1}
_
Q(z, y)
= (x)
zE
p
k=0
E
x
_
1
{X
k
=z, kHx1}
1
{X
k+1
=y}
_
= (x)E
x
_
p(Hx1)
k=0
1
{X
k+1
=y}
_
= (x)E
x
_
(p+1)Hx
k=1
1
{X
k
=y}
_
,
ce qui donne le resultat voulu à lordre p +1. De manière analogue à la preuve du theorème
precedent, on a utilise le fait que levenement X
k
= z, k H
x
1 est T
k
-mesurable pour
appliquer la propriete de Markov à linstant k.
En faisant tendre p vers + dans (13.3) on trouve
(y) (x) E
x
_
Hx1
k=0
1
{X
k
=y}
_
.
Fixons x E. La mesure
x
(y) = E
x
_
Hx1
k=0
1
{X
k
=y}
_
209
est invariante (theorème 13.5.2), et on a (y) (x)
x
(y) pour tout y E. Donc, pour tout
n 1,
(x) =
zE
(z)Q
n
(z, x)
zE
(x)
x
(z)Q
n
(z, x) = (x)
x
(x) = (x),
ce qui montre que legalite (z) = (x)
x
(z) a lieu pour tout z tel que Q
n
(z, x) > 0.
Lirreductibilite assure que pour tout z E on peut trouver un entier n tel que Q
n
(z, x) > 0,
et on conlut donc que = (x)
x
, ce qui termine la preuve.
Corollaire 13.5.4 Supposons la chane recurrente irreductible. Alors :
(i) Ou bien il existe une mesure de probabilite invariante , et on a pour tout x E,
E
x
[H
x
] =
1
(x)
.
(ii) Ou bien toute mesure invariante a une masse totale innie, et on a pour tout x E,
E
x
[H
x
] = .
La chane est dite recurrente positive dans le cas (i) et recurrente nulle dans le cas (ii).
Remarque. Si E est ni seul le cas (i) se produit.
Preuve. Daprès le theorème 13.5.3, toutes les mesures invariantes sont proportionnelles.
Donc ou bien elles sont toutes de masse totale innie (cas (ii)) ou bien elles sont toutes nies,
et on peut normaliser pour en trouver une qui soit une mesure de probabilite (cas (i)). Dans
le cas (i), soit lunique mesure de probabilite invariante et soit x E. Alors, si
x
designe
la mesure invariante fournie par le theorème 13.5.2,
x
(y) = E
x
_
Hx1
k=0
1
{X
k
=y}
_
,
est proportionnelle à
x
: = C
x
avec C > 0. En ecrivant 1 = (E) = C
x
(E), on
trouve C = (
x
(E))
1
, do` u
(x) =

x
(x)
x
(E)
=
1
x
(E)
.
Or
x
(E) =
yE
E
x
_
Hx1
k=0
1
{X
k
=y}
_
= E
x
_
Hx1
k=0
_
yE
1
{X
k
=y}
__
= E
x
[H
x
].
Dans le cas (ii),
x
est innie, et donc, par le meme calcul,
E
x
[H
x
] =
x
(E) = .
Proposition 13.5.5 Supposons la chane irreductible. Sil existe une mesure invariante
nie, la chane est recurrente (et donc recurrente positive).
210
Preuve. Soit une mesure invariante nie, et soit y E tel que (y) > 0. Pour tout
x E, la proposition 13.4.2(iii) donne linegalite
n=0
Q
n
(x, y) = U(x, y) U(y, y).
On multiplie les deux membres de cette inegalite par (x) et on somme sur toutes les valeurs
de x E. Il vient
n=0
Q
n
(y) (E) U(y, y).
Puisque est invariante on a Q
n
(y) = (y) > 0 pour tout n 0. On conclut donc que
(E) U(y, y) = .
Comme (E) < , cela entrane que U(y, y) = . Donc y est recurrent et puisque la chane
est irreductible elle est recurrente (corollaire 13.4.5).
Remarque. Lexistence dune mesure invariante innie ne permet pas de conclure : con-
siderer par exemple le pile ou face biaise (exemple (1) ci-dessus après la proposition 13.5.1)
qui nest recurrent que si p = 1/2.
Exemple. Soit p ]0, 1[. Considerons la chane de Markov sur E = N de matrice de
transition
Q(k, k + 1) = p , Q(k, k 1) = 1 p , si k 1,
Q(0, 1) = 1.
Cette chane est irreductible. De plus on verie immediatement que la mesure denie par
(k) =
_
p
1 p
_
k1
, si k 1,
(0) = 1 p ,
est reversible donc invariante.
Si p <
1
2
, la mesure est nie, et la proposition 13.5.5 entrane que la chane est recurrente
positive. (Exercice : Montrer que la chane est recurrente nulle si p =
1
2
, et transitoire si
p >
1
2
.)
13.6 Comportement asymptotique
Nous continuons à considerer la chane de Markov canonique associee à une matrice de
transition Q.
Theorème 13.6.1 Supposons la chane recurrente irreductible, et soit une mesure invari-
ante. Soient f et g deux fonctions positives sur E telles que
_
f d < et 0 <
_
g d < .
Alors, pour tout x E on a P
x
p.s.
n
k=0
f(X
k
)
n
k=0
g(X
k
)

n
_
f d
_
g d
.
211
Remarque. Le resultat reste vrai si (f) = . Il sut dutiliser un argument de compa-
raison en ecrivant f = lim f
k
, avec des fonctions positives f
k
telles que
_
f
k
d < .
Corollaire 13.6.2 Si la chane de Markov est irreductible et recurrente positive, et si
designe lunique probabilite invariante, on a P
x
p.s.
1
n
n
k=0
f(X
k
)
n
_
f d.
Le corollaire decoule immediatement du theorème en prenant g = 1 dans lenonce.
Preuve du theorème 13.6.1. On denit les temps darret
T
0
= 0 , T
1
= H
x
et par recurrence
T
n+1
= infk > T
n
: X
k
= x.
Le temps T
n
est linstant du n-ième retour en x de la chane. Puisque letat x est recurrent,
tous ces temps darret sont nis p.s. On pose aussi pour tout k 0,
Z
k
(f) =
T
k+1
1
n=T
k
f(X
n
).
Lemme 13.6.3 Les v.a. Z
k
(f), k = 0, 1, 2, . . ., sont independantes et de meme loi.
Preuve. Soient g
0
, g
1
, g
2
, . . . des fonctions mesurables bornees sur R
+
. Il sut de montrer
que, pour tout entier k 0, on a
E
x
_
k
i=0
g
i
(Z
i
(f))
_
=
k
i=0
E
x
[g
i
(Z
0
(f))].
On demontre cette identite par recurrence sur k. Pour k = 0 il ny a rien à montrer. Pour
passer de lordre k 1 à lordre k, on observe que :
les v.a. Z
0
(f), Z
1
(f), . . . , Z
k1
(f) sont T
T
k
-mesurables (exercice !);
la suite translatee
T
k
() est independante de T
T
k
et de loi P
x
, daprès le corollaire 13.3.6;
on a Z
k
(f) = Z
0
(f)
T
k
, par construction.
Il decoule de tout ceci que
E
x
_
k
i=0
g
i
(Z
i
(f))
_
= E
x
__
k1
i=0
g
i
(Z
i
(f))
_
g
k
(Z
0
(f)
T
k
)
_
= E
x
_
k1
i=0
g
i
(Z
i
(f))
_
E
x
[g
k
(Z
0
(f))],
do` u le resultat voulu à lordre k.
212
Nous revenons à la preuve du theorème. Si
x
designe comme precedemment la mesure
invariante construite dans le theorème 13.5.2, on a = (x)
x
puisque
x
(x) = 1 et que
toutes les mesures invariantes sont proportionnelles (theorème 13.5.3). On observe alors que
E
x
[Z
0
(f)] = E
x
_
Hx1
k=0
yE
f(y) 1
{X
k
=y}
_
=
yE
f(y)
x
(y) =
_
f d
(x)
.
Le lemme 13.6.3 et la loi forte des grands nombres montrent ensuite que P
x
p.s.
1
n
n1
k=0
Z
k
(f)
n
_
f d
(x)
. (13.4)
Pour tout entier n, notons N
x
(n) le nombre de retours en x eectues par la chane avant
linstant n, de sorte que T
Nx(n)
n < T
Nx(n)+1
. En ecrivant
T
Nx(n)
1
k=0
f(X
k
)
N
x
(n)

n
k=0
f(X
k
)
N
x
(n)

T
Nx(n)+1
1
k=0
f(X
k
)
N
x
(n)
ce qui equivaut à
Nx(n)1
j=0
Z
j
(f)
N
x
(n)

n
k=0
f(X
k
)
N
x
(n)

Nx(n)
j=0
Z
j
(f)
N
x
(n)
on deduit de la convergence (13.4) que P
x
p.s.
1
N
x
(n)
n
k=0
f(X
k
)
n
_
f d
(x)
.
Il sut ensuite dutiliser le meme resultat avec f remplacee par g pour nir la preuve.
Corollaire 13.6.4 Supposons la chane recurrente irreductible. Alors, pour tout x E,
(i) dans le cas recurrent positif,
1
n
n1
k=0
1
{X
k
=x}
p.s.
n
(x),
o` u est lunique probabilite invariante;
(ii) dans le cas recurrent nul,
1
n
n1
k=0
1
{X
k
=x}
p.s.
n
0.
213
Dans les deux cas la convergence a lieu pour toute loi initiale de la chane.
Denition 13.6.1 Soit x un point recurrent, et
L
x
= n 0 : Q
n
(x, x) > 0.
La periode de x, notee d(x), est le PGCD de L
x
.
Remarque. Puisque L
x
est stable par addition (Q
n+m
(x, x) Q
n
(x, x)Q
m
(x, x)), le sous
groupe engendre par L
x
est L
x
L
x
= d(x)Z.
Proposition 13.6.5 Supposons la chane recurrente irreductible.
(i) Tous les points ont la meme periode, appelee la periode de la chane et notee d.
(ii) Si d = 1 (la chane est alors dite aperiodique), pour tous x, y E, il existe un entier
n
0
tel que Q
n
(x, y) > 0 pour tout n n
0
.
Preuve. (i) Soient x, y E. Puisque la chane est irreductible, il existe deux entiers n
1
et
n
2
tels que Q
n
1
(x, y) > 0 et Q
n
2
(y, x) > 0. Mais alors, si n L
x
, on a n
1
+ n + n
2
L
y
, ce
qui entrane que L
x
L
x
L
y
L
y
et donc d(y) divise d(x). Par symetrie on a d(y) = d(x).
(ii) Clairement, il sut de traiter le cas o` u y = x. Puisque d(x) = 1, on peut trouver deux
entiers n
1
, m
1
0 tels que 1 = n
1
m
1
et
Q
n
1
(x, x) > 0, Q
m
1
(x, x) > 0.
Si m
1
= 0, donc n
1
= 1 le resultat est evident avec n
0
= 0. Si m
1
1, alors, pour tout
j 0, 1, . . . , m
1
1, on a
Q
m
2
1
+j
(x, x) = Q
jn
1
+(m
1
j)m
1
(x, x) > 0.
Il en decoule que, si n
0
= m
2
1
on a pour tout entier j 0,
Q
n
0
+j
(x, x) > 0.
Theorème 13.6.6 Supposons la chane irreductible, recurrente positive et aperiodique. Alors,
si designe lunique probabilite invariante, on a pour tout x E,
yE
[P
x
(X
n
= y) (y)[
n
0.
Preuve. La formule
Q((x
1
, x
2
), (y
1
, y
2
)) = Q(x
1
, y
1
)Q(x
2
, y
2
)
denit une matrice stochastique sur le E E. On note ((X
1
n
, X
2
n
)
nN
, (P
(x
1
,x
2
)
)
(x
1
,x
2
)EE
)
la chane de Markov canonique associee.
Remarquons que Q est irreductible : si (x
1
, x
2
), (y
1
, y
2
) EE, la proposition 13.6.5(ii)
permet de trouver deux entiers n
1
et n
2
tels que Q
n
(x
1
, y
1
) > 0 pour tout n n
1
, et
Q
n
(x
2
, y
2
) > 0 pour tout n n
2
. Si n n
1
n
2
, on a par denition Q
n
((x
1
, x
2
), (y
1
, y
2
)) > 0.
214
De plus la mesure produit est invariante pour Q :
(x
1
,x
2
)EE
(x
1
)(x
2
)Q(x
1
, y
1
)Q(x
2
, y
2
) =
x
1
E
(x
1
)Q(x
1
, y
1
)
x
2
E
(x
2
)Q(x
2
, y
2
)
= (y
1
)(y
2
).
La proposition 13.5.5 permet de conclure que la chane (X
1
n
, X
2
n
) est recurrente positive.
Observons maintenant que
P
x
(X
n
= y) (y) = P
x
(X
2
n
= y) P
x
(X
1
n
= y) = E
x
[1
{X
2
n
=y}
1
{X
1
n
=y}
].
Introduisons le temps darret T = infn 0 : X
1
n
= X
2
n
. Alors, legalite precedente montre
que
P
x
(X
n
= y) (y) = E
x
[1
{T>n}
(1
{X
2
n
=y}
1
{X
1
n
=y}
)]
+
n
k=0
zE
E
x
[1
{T=k,X
1
k
=X
2
k
=z}
(1
{X
2
n
=y}
1
{X
1
n
=y}
)]. (13.5)
Mais, pour tout k 0, 1, . . . , n et tout z E, la propriete de Markov entrane que
E
x
[1
{T=k,X
1
k
=X
2
k
=z}
1
{X
2
n
=y}
] = E
x
[1
{T=k,X
1
k
=X
2
k
=z}
] Q
nk
(z, y)
= E
x
[1
{T=k,X
1
k
=X
2
k
=z}
1
{X
1
n
=y}
],
et donc le deuxième terme de la somme dans (13.5) est nul. On obtient ainsi que
yE
[P
x
(X
n
= y) (y)[ =
yE
[E
x
[1
{T>n}
(1
{X
2
n
=y}
1
{X
1
n
=y}
)][
yE
E
x
[1
{T>n}
(1
{X
2
n
=y}
+1
{X
1
n
=y}
)]
= 2 P
x
(T > n),
qui tend vers 0 quand n , grace à la recurrence de la chane (X
1
n
, X
2
n
).
13.7 Martingales et chanes de Markov
On considère toujours la chane de Markov canonique de matrice de transition Q.
Denition 13.7.1 Une fonction f : E R
+
est dite harmonique (resp. surharmonique)
si on a pour tout x E,
f(x) = Qf(x) (resp. f(x) Qf(x)).
Plus generalement, si F E, on dit que f est harmonique sur F (resp. surharmonique sur
F) si la propriete f(x) = Qf(x) (resp. f(x) Qf(x)) est vraie pour x F.
215
Remarque. On pourrait considerer plus generalement des fonctions harmoniques ou surhar-
moniques de signe quelconque.
Proposition 13.7.1 (i) La fonction f est harmonique (resp. surharmonique) ssi, pour tout
x E, le processus (f(X
n
))
nN
est une martingale (resp. une surmartingale) sous P
x
,
relativement à la ltration (T
n
).
(ii) Soit F E et G = EF. On note T
G
le temps darret
T
G
= infn 0 : X
n
G.
Alors si f est harmonique (resp. surharmonique) sur F, le processus (f(X
nT
G
))
nN
est une
martingale (resp. une surmartingale) sous P
x
, pour tout x F.
Preuve. (i) Supposons dabord f harmonique. Alors, daprès la proposition 13.1.2(i),
E
x
[f(X
n+1
) [ T
n
] = Qf(X
n
) = f(X
n
)
et en consequence E
x
[f(X
n
)] = E
x
[f(X
0
)] = f(x), donc f(X
n
) L
1
.
Inversement, supposons que f(X
n
) est une martingale sour P
x
. Il vient immediatement
que
f(x) = E
x
[f(X
0
)] = E
x
[f(X
1
)] = Qf(x).
Le cas dune fonction surharmonique est traite de la meme fa con.
(ii) Traitons le cas dune fonction harmonique. On ecrit pour x F
E
x
[f(X
(n+1)T
G
) [ T
n
] = E
x
[f(X
n+1
) 1
{T
G
>n}
[ T
n
] +E
x
[f(X
T
G
) 1
{T
G
n}
[ T
n
]
= 1
{T
G
>n}
E
x
[f(X
n+1
) [ T
n
] + f(X
T
G
) 1
{T
G
n}
= 1
{T
G
>n}
Qf(X
n
) + f(X
T
G
) 1
{T
G
n}
= 1
{T
G
>n}
f(X
n
) + f(X
T
G
) 1
{T
G
n}
= f(X
nT
G
)
On a utilise le fait que f(X
T
G
) 1
{T
G
n}
= f(X
T
G
n
) 1
{T
G
n}
est T
n
-mesurable.
Theorème 13.7.2 Soit F un sous-ensemble non vide de E et G = EF. Soit g : G R
+
une fonction bornee.
(i) La fonction
h(x) = E
x
[g(X
T
G
) 1
{T
G
<}
], x E
est harmonique sur F.
(ii) Supposons T
G
< , P
x
p.s. pour tout x F. Alors la fonction h est lunique fonction
bornee sur E qui
est harmonique sur F,
concide avec g sur G.
216
Preuve. (i) On remarque que si x F on a P
x
p.s.
g(X
T
G
) 1
{T
G
<}
= g(X
T
G

1
) 1
{T
G
1
<}
.
Autrement dit, si U() = g(X
T
G
()) 1
{T
G
()<}
, on a U = U
1
, P
x
p.s. Donc, pour x F,
daprès le theorème 13.3.4,
h(x) = E
x
[U] = E
x
[U
1
] = E
x
[E
X
1
[U]] = E
x
[h(X
1
)] = Qh(x),
ce qui montre que h est harmonique sur F.
(ii) Il est trivial que h(x) = g(x) si x G. Soit h
une autre fonction harmonique

sur F, bornee sur E et concidant avec g sur G. Si x F, daprès la proposition 13.7.1,
Y
n
= h
(X
nT
G
) est une martingale sous P
x
. Cette martingale est bornee, donc uniformement
integrable, et converge P
x
p.s. vers h
(X
T
G
) = g(X
T
G
). Daprès les resultats du chapitre 12,
on a donc
h
(x) = E
x
[Y
0
] = E
x
[Y
] = E
x
[g(X
T
G
)] = h(x).
Exemple. Problème de Dirichlet discret. Soit F une partie nie de Z
d
. La frontière de F
est
F = y Z
d
F : x F, [y x[ = 1.
On note F = F F.
Une fonction h denie sur F est dite harmonique (au sens discret) sur F si pour tout
x F, h(x) est egal à la moyenne des valeurs de h sur les 2d plus proches voisins de x.
On retrouve la notion precedente en prenant comme chane de Markov la marche aleatoire
simple sur Z
d
: Q(x, x e
j
) =
1
2d
pour j = 1, . . . , d, o` u (e
1
, . . . , e
d
) est la base canonique.
Alors, le theorème precedent conduit au resultat suivant : pour toute fonction (positive)
g denie sur F, la seule fonction h : F R
+
telle que :
h est harmonique sur F,
h(y) = g(y), y F,
est donnee par
h(x) = E
x
[g(X
T
F
)] , x F,
o` u
T
F
= infn 0 : X
n
F.
Noter que pour appliquer le theorème 13.7.2, on a a priori besoin de denir g sur Z
d
F et
non pas seulement sur F : cependant le choix des valeurs de g sur Z
d
F ninue pas sur
les valeurs de h sur F.
217
218
Chapitre 14
Introduction au mouvement brownien
14.1 Le mouvement brownien comme limite de marches
aleatoires
Lexplication physique du mouvement brownien justie le mouvement très desordonne et
imprevisible dune particule brownienne par les nombreux chocs que cette particule re coit
du milieu environnant, qui provoquent des changements de direction continuels. Dun point
de vue mathematique, cela suggère de considerer le deplacement à temps discret, sur le
reseau Z
d
, dune particule ponctuelle qui à chaque instant choisit de manière independante
du passe une nouvelle direction.
Precisement on considère une marche aleatoire (S
n
)
nN
sur Z
d
, issue de 0:
S
n
= Y
1
+ + Y
n
o` u les v.a. Y
1
, Y
2
, . . . sont independantes à valeurs dans Z
d
, et de meme loi . On suppose
que verie les proprietes suivantes :
kZ
d
[k[
2
(k) < ;
kZ
d
k(k) = 0 ( est centree).
On ajoute aussi à ces deux hypothèses principales la condition disotropie suivante :
il existe une constante > 0 telle que pour tous i, j 1, . . . , d,
kZ
d
k
i
k
j
(k) =
2
ij
.
La marche aleatoire simple sur Z
d
(cf chapitre precedent) verie ces hypothèses, avec
2
= 1/d, et il existe beaucoup dautres exemples.
219
On va sinteresser au comportement global de la fonction k S
k
sur un long
intervalle de temps. Pour cela on introduit le changement dechelle suivant. Pour tout entier
n 1, pour tout reel t 0, on pose
S
(n)
t
=
1
n
S
[nt]
o` u [x] designe la partie entière du nombre reel x.
Proposition 14.1.1 Pour tout choix de lentier p 1 et des nombres reels 0 = t
0
< t
1
<
< t
p
, on a
(S
(n)
t
1
, S
(n)
t
2
, . . . , S
(n)
tp
)
(loi)
n
(U
1
, U
2
, . . . , U
p
)
et la loi limite est caracterisee comme suit:
les v.a. U
1
, U
2
U
1
, . . . , U
p
U
p1
sont independantes;
pour tout j 1, . . . , p, U
j
U
j1
est un vecteur gaussien centre de matrice de covariance
2
(t
j
t
j1
)Id (par convention, U
0
= 0).
Remarque. La densite de la loi limite est facile à ecrire explicitement. La densite de
U
j
U
j1
est p
2
(t
j
t
j1
)
(x), o` u, pour tout a > 0,
p
a
(x) =
1
(2a)
d/2
exp
_
[x[
2
2at
_
, x R
d
est la densite du vecteur gaussien de covariance a Id (rappelons que les coordonnees dun tel
vecteur sont des v.a. reelles ^(0, a) independantes, voir la Proposition 11.4.2 et la remarque
suivant cette proposition). Grace à lindependance des v.a. U
1
, U
2
U
1
, . . . , U
p
U
p1
, on
obtient que la densite de (U
1
, U
2
U
1
, . . . , U
p
U
p1
) est
g(x
1
, . . . , x
p
) = p
2
t
1
(x
1
)p
2
(t
2
t
1
)
(x
2
) p
2
(tpt
p1
)
(x
p
),
et par un changement de variables facile, la densite de (U
1
, U
2
, . . . , U
p
) est
f(y
1
, . . . , y
p
) = g(y
1
, y
2
y
1
, . . . , y
p
y
p1
) = p
2
t
1
(y
1
)p
2
(t
2
t
1
)
(y
2
y
1
) p
2
(tpt
p1
)
(y
p
y
p1
).
Preuve. Il sut de montrer que, pour tous
1
, . . . ,
p
R
d
,
E
_
exp
_
i
p
j=1
j
S
(n)
t
j
__

n
E
_
exp
_
i
p
j=1
j
U
j
__
.
Cela equivaut à dire que, pour tous
1
, . . . ,
p
R
d
,
E
_
exp
_
i
p
j=1
j
(S
(n)
t
j
S
(n)
t
j1
)
__

n
E
_
exp
_
i
p
j=1
j
(U
j
U
j1
)
__
. (14.1)
220
Or on sait dejà, grace à lindependance des v.a. U
1
, U
2
U
1
, . . . , U
p
U
p1
, que
E
_
exp
_
i
p
j=1
j
(U
j
U
j1
)
__
=
p
i=1
E
_
exp
_
i
j
(U
j
U
j1
)
__
= exp
_
j=1
2
[
j
[
2
(t
j
t
j1
)
2
_
(on utilise la formule pour la transformee de Fourier de la loi gaussienne). Dautre part,
S
(n)
t
j
S
(n)
t
j1
=
1
n
[nt
j
]
k=[nt
j1
]+1
Y
k
ce qui montre dune part que les v.a. S
(n)
t
j
S
(n)
t
j1
, 1 j p sont independantes, dautre
part que pour chaque j xe
S
(n)
t
j
S
(n)
t
j1
(loi)
=
1
n
S
[nt
j
][nt
j1
]
=
_
[nt
j
] [nt
j1
]
n
1
_
[nt
j
] [nt
j1
]
S
[nt
j
][nt
j1
]
.
Grace au theorème central limite vectoriel, cette dernière variable converge en loi quand
n vers

t
j
t
j1
N, o` u N est un vecteur gaussien de covariance
2
Id (on utilise aussi
la propriete simple suivante : si X
n
converge en loi vers X et si (a
n
) est une suite de reels
convergeant vers a, alors a
n
X
n
converge en loi vers aX). En consequence, pour chaque j
xe,
E
_
exp
_
i
j
(S
(n)
t
j
S
(n)
t
j1
)
__

n
E[exp(i
_
t
j
t
j1
j
N)] = exp
_

2
[
j
[
2
(t
j
t
j1
)
2
_
.
Lindependance des v.a. S
(n)
t
j
S
(n)
t
j1
, 1 j p, permet maintenant de conclure au resultat
recherche (14.1).
Denition 14.1.1 On appelle mouvement brownien (en dimension d, issu de 0) une famille
(B
t
)
tR
+
de v.a. à valeurs dans R
d
, denies sur un espace de probabilite (, T, P), telles
que :
(P1) On a B
0
= 0 p.s. De plus, pour tout choix de lentier p 1 et des nombres reels
0 = t
0
< t
1
< < t
p
, les v.a. B
t
1
, B
t
2
B
t
1
, . . . , B
tp
B
t
p1
sont independantes,
et, pour tout j 1, . . . , p, B
t
j
B
t
j1
est un vecteur gaussien centre de covariance
(t
j
t
j1
)Id.
(P2) Pour tout , la fonction t B
t
() est continue.
Remarques. (i) En admettant lexistence du mouvement brownien (etablie ci-dessous), on
peut reformuler la Proposition 14.1.1 en disant que, pour tout choix de t
1
< < t
p
,
(S
(n)
t
1
, S
(n)
t
2
, . . . , S
(n)
tp
)
(loi)
n
(B
t
1
, B
t
2
, . . . , B
tp
).
A la multiplication par le scalaire près, le mouvement brownien apparat donc comme la
limite continue de marches aleatoires discrètes convenablement changees dechelle. Dune
221
certaine manière, cette limite correspond, pour le phenomène physique appele mouvement
brownien, au passage de lexplication microscopique aux observations macroscopiques.
(ii) Comme on la vu ci-dessus, la loi de (B
t
1
, B
t
2
, . . . , B
tp
) est donnee par
P
_
(B
t
1
, B
t
2
, . . . , B
tp
) A
_
=
_
A
dy
1
. . . dy
p
p
t
1
(y
1
)p
t
2
t
1
(y
2
y
1
) p
tpt
p1
(y
p
y
p1
),
(14.2)
pour toute partie brelienne A de (R
d
)
p
.
14.2 La construction du mouvement brownien
Theorème 14.2.1 Le mouvement brownien existe. Autrement dit on peut construire sur
un espace de probabilite convenable une famille (B
t
)
tR
+
de v.a. satisfaisant (P1) et (P2).
Preuve. On traite dabord le cas d = 1, et dans un premier temps on va construire la
famille (B
t
)
t[0,1]
. Le choix de lespace de probabilite (, T, P) ne pose pas de problème : il
sut de disposer sur cet espace dune suite de v.a. gaussiennes ^(0, 1) independantes (on
a vu dans le chapitre precedent quen prenant = [0, 1] on pouvait construire une suite
de v.a. independantes de loi uniforme, quil est facile de transformer en une suite de v.a.
gaussiennes ^(0, 1) independantes).
Introduisons les fonctions de Haar. On pose
h
0
(t) = 1, t [0, 1]
puis, pour tout entier n 0 et pour tout k 0, 1, . . . , 2
n
1,
h
k
n
(t) = 2
n/2
1
[(2k)2
n1
,(2k+1)2
n1
[
2
n/2
1
[(2k+1)2
n1
,(2k+2)2
n1
[
, t [0, 1].
On verie que les fonctions h
0
, h
k
n
forment un système orthonorme de L
2
([0, 1], B([0, 1]), )
o` u designe la mesure de Lebesgue. De plus ce système est total : toute fonction en escalier
constante sur les intervalles de la forme [i2
n
, (i+1)2
n
[ (pour n xe) est combinaison lineaire
des fonctions h
0
et h
k
p
pour p < n. On conclut que la famille
h
0
, (h
k
n
)
n0,0k2
n
1
forme une base orthonormee de L
2
([0, 1], B([0, 1]), ).
Notons f, g) =
_
1
0
f(t)g(t)dt le produit scalaire dans L
2
([0, 1], B([0, 1]), ). Alors, pour
toute fonction f L
2
([0, 1], B([0, 1]), ) on a
f = f, h
0
)h
0
+
n=0
2
n
1
k=0
f, h
k
n
)h
k
n
.
Dautre part, nous disposons sur notre espace de probabilite (, T, P) dune suite de v.a.
^(0, 1) independantes. Quitte à la renumeroter on peut ecrire cette suite sous la forme
N
0
, (N
k
n
)
n0,0k2
n
1
.
222
Il est immediat de verier que cette famille constitue un système orthonorme dans L
2
(, T, P).
Il existe alors une (unique) isometrie, notee B, de L
2
([0, 1], B([0, 1]), ) dans L
2
(, T, P) telle
que B(h
0
) = N
0
et B(h
k
n
) = N
k
n
pour tous n 0, 0 k 2
n
1. Precisement,
B(f) = f, h
0
)N
0
+
n=0
2
n
1
k=0
f, h
k
n
)N
k
n
,
pour toute f L
2
([0, 1], B([0, 1]), ) (la serie converge dans L
2
(, T, P)). Remarquons que
E[B(f)
2
] = |f|
2
2
par la propriete disometrie, et que E[B(f)] = 0 puisque les v.a. N
0
, N
k
n
sont toutes centrees.
De plus le lemme suivant montrera que B(f) suit une loi gaussienne.
Lemme 14.2.2 Soit (U
n
) une suite de v.a. gaussiennes qui converge dans L
2
vers U. Alors
U est aussi gaussienne.
Preuve. Soit m
n
= E[U
n
] et
2
n
= var(U
n
). La convergence dans L
2
assure que m
n
m =
E[U] et
2
n

2
= var(U). Mais dautre part, puisque la convergence dans L
2
entrane la
convergence en loi on a aussi pour tout R,
e
imn
2
n
2
/2
= E[e
iUn
] E[e
iU
]
ce qui montre que la fonction caracteristique de U secrit
E[e
iU
] = e
im
2
2
/2
et donc que U suit la loi ^(m,
2
).
En ecrivant
B(f) = lim
m
_
f, h
0
)N
0
+
m
n=0
2
n
1
k=0
f, h
k
n
)N
k
n
_
,
et en utilisant le fait quune combinaison lineaire de v.a. gaussiennes independantes est
encore gaussienne, on deduit du lemme que B(f) suit la loi ^(0, |f|
2
2
). Remarquons aussi
que, pour f, f
L
2
([0, 1], B([0, 1]), ),
cov(B(f), B
(f)) = E[B(f)B(f
)] = f, f
)
grace à la propriete disometrie.
On pose alors, pour tout t [0, 1],
B
t
= B(1
[0,t]
).
En particulier, B
0
= B(1
{0}
) = B(0) = 0 p.s.
Verions dabord que la famille (B
t
)
t[0,1]
verie la propriete (P1), restreinte à lintervalle
de temps [0, 1]. On se donne donc 0 = t
0
< t
1
< < t
p
1. Par linearite, on a
B
t
i
B
t
i1
= B(1
]t
i1
,t
i
]
)
223
qui suit une loi ^(0, t
i
t
i1
). De plus, si i ,= j,
cov(B
t
i
B
t
i1
, B
t
j
B
t
j1
) = E[(B
t
i
B
t
i1
)(B
t
j
B
t
j1
)] = 1
]t
i1
,t
i
]
, 1
]t
j1
,t
j
]
) = 0.
Or il est facile de verier que le vecteur (B
t
1
, B
t
2
B
t
1
, . . . , B
tp
B
t
p1
) est un vecteur
gaussien : si
1
, . . . ,
p
R,
p
j=1
j
(B
t
j
B
t
j1
) = B
_
p
j=1
j
1
]t
j1
,t
j
]
_
suit une loi gaussienne. Daprès la Proposition 11.4.2, le fait que la matrice de covariance
(cov(B
t
i
B
t
i1
, B
t
j
B
t
j1
))
i,j=1,...,p
soit diagonale entrane lindependance des v.a. B
t
1
, B
t
2
B
t
1
, . . . , B
tp
B
t
p1
, ce qui achève la preuve de (P1).
Il reste à etablir la propriete de continuite (P2). Pour linstant, B
t
= B(1
[0,t]
) est deni
comme un element de L
2
(, T, P), donc une classe dequivalence de variables egales p.s. Pour
que la verication de (P2) ait un sens, il est necessaire de specier un representant dans cette
classe dequivalence, et cela pour chaque t [0, 1] (ce choix navait pas dinuence sur la
validite ou non de (P1) mais il en a pour (P2)). A cette n, nous allons etudier de plus près
la serie qui denit B
t
. On commence par introduire les fonctions de Schauder
g
0
(t) = 1
[0,t]
, h
0
) = t
g
k
n
(t) = 1
[0,t]
, h
k
n
) =
_
t
0
h
k
n
(s)ds.
Par construction, on a pour tout t [0, 1],
B
t
= B(1
[0,t]
) = tN
0
+
n=0
2
n
1
k=0
g
k
n
(t)N
k
n
o` u la serie converge a priori dans L
2
(, T, P) pour chaque t [0, 1] xe. Nous allons montrer
bien plus, à savoir que la serie converge uniformement sur lintervalle [0, 1], pour tout ,
sauf peut-etre pour appartenant à un ensemble A T de probabilite nulle. On denit
alors B
t
() comme la somme de la serie precedente si A
c
et on prend B
t
() = 0 pour
tout t [0, 1] si A (puisque si une suite de v.a. converge p.s. et dans L
2
les limites p.s.
et L
2
sont les memes, il est clair quon a ainsi simplement specie un choix dans la classe
dequivalence de v.a. egales p.s. à B(1
[0,t]
), et on na rien change à la validite de (P1)). On
obtiendra la continuite des applications t B
t
() en observant quune limite uniforme de
fonctions continues est continue.
On remarque dabord que 0 g
k
n
2
n/2
et que pour n xe les fonctions g
k
n
, 0 k
2
n
1 sont à supports disjoints (g
k
n
(t) > 0 seulement si k2
n
< t < (k + 1)2
n
). Donc,
sup
t[0,1]
2
n
1
k=0
g
k
n
(t)N
k
n
2
n/2
sup
0k2
n
1
[N
k
n
[.
224
Lemme 14.2.3 Si N suit la loi ^(0, 1), on a pour tout a 1,
P([N[ a) e
a
2
/2
.
Preuve. Il sut decrire
P([N[ a) =
2
2
_

a
dxe
x
2
/2
2
_

a
dx
x
a
e
x
2
/2
=
2
a
2
e
a
2
/2
.
Puisque les v.a. N

k
n
sont toutes de loi ^(0, 1), on peut utiliser le lemme pour majorer
P
_
sup
0k2
n
1
[N
k
n
[ > 2
n/4
_
2
n
1
k=0
P([N
k
n
[ > 2
n/4
) 2
n
exp(2
n
2
1
).
En posant
A
n
=
_
sup
0k2
n
1
[N
k
n
[ > 2
n/4
_
on deduit du lemme de Borel-Cantelli et de lestimation precedente que
P(limsup A
n
) = 0.
Donc si A = limsup A
n
on a P(A) = 0 et dautre part si / A, alors pour tout n assez
grand
sup
0k2
n
1
[N
k
n
[ 2
n/4
do` u
sup
t[0,1]
2
n
1
k=0
g
k
n
(t)N
k
n
2
n/4
ce qui assure que la serie de la denition de B
t
converge uniformement sur lintervalle [0, 1].
Cela termine la verication de (P2). On peut aussi remarquer que cette construction donne
B
0
() = 0 pour tout et pas seulement p.s.
Il reste à saranchir de la restriction t [0, 1], et à generaliser le resultat en dimension
d quelconque. Dans un premier temps on considère des familles (B
(1)
t
)
t[0,1]
, (B
(2)
t
)
t[0,1]
, etc.
construites comme ci-dessus, en prenant à chaque fois une nouvelle suite de v.a. gaussiennes
independantes, independante des suites precedentes. On pose ensuite
B
t
= B
(1)
1
+ B
(2)
1
+ + B
(k)
1
+ B
(k+1)
tk
si t [k, k + 1[.
On verie aisement que (B
t
)
tR
+
est un mouvement brownien en dimension un.
Pour passer à une dimension d quelconque, il sut de se donner d mouvements browniens
en dimension un independants, notes (B
1
t
)
tR
+
, . . . , (B
d
t
)
tR
+
et de poser
B
t
= (B
1
t
, B
2
t
, . . . , B
d
t
)
pour tout t R
+
. Ceci achève la preuve du theorème.
Si x R
d
, on appelle mouvement brownien issu de x tout processus (B
t
)
tR
+
tel que
(B
t
x)
tR
+
soit un mouvement brownien issu de 0.
225
14.3 La mesure de Wiener
Soit C(R
+
, R
d
) lespace des fonctions continues de R
+
dans R
d
. On munit cet espace de la
tribu c qui est la plus petite tribu rendant mesurables les applications coordonnees w w(t)
pour tout t R
+
.
Lemme 14.3.1 La tribu c concide avec la tribu borelienne lorsque C(R
+
, R
d
) est muni de
la topologie de la convergence uniforme sur tout compact.
Preuve. Soit B la tribu borelienne. Linclusion c B decoule de ce que les applications
coordonnees sont continues donc mesurables pour la tribu boreliennes. Dans lautre sens,
rappelons quune distance sur C(R
+
, R
d
) est fournie par
d(w, w
) =
n=1
2
n
sup
0tn
([w(t) w
(t)[ 1).
On sait que lespace C(R
+
, R
d
) est separable et donc que tout ouvert est reunion denombrable
de boules. Il sut alors de montrer que toute boule est dans la tribu c, ou encore que pour
w
0
C(R
+
, R
d
) xe, lapplication w d(w
0
, w) est c-mesurable. Or en ecrivant pour tout
n 1,
sup
t[0,n]
([w(t) w
0
(t)[ 1) = sup
t[0,n]Q
([w(t) w
0
(t)[ 1)
on obtient immediatement cette propriete de mesurabilite.
Denition 14.3.1 Soit (B
t
)
tR
+
un mouvement brownien en dimension d (issu de 0), deni
sur un espace de probabilite (, T, P). La mesure de Wiener en dimension d est la mesure
de probabilite P
0
sur C(R
+
, R
d
) denie comme la mesure-image de P(d) par lapplication
: (B
t
())
tR
+
C(R
+
, R
d
)
Remarquons que lapplication est mesurable : comme cela a ete observe dans le chapitre
precedent dans un contexte un peu dierent, il sut de voir que la composee de avec
chacune des applications coordonnees w w(t) est mesurable, ce qui est immediat (cette
composee donne les v.a. B
t
).
La denition precedente na de sens que parce quelle ne depend pas du choix du mouve-
ment brownien B. Cela se voit de la manière suivante. Si 0 = t
0
< t
1
< < t
p
, on a pour
tous A
0
, A
1
, . . . , A
p
boreliens de R
d
,
P
0
(w C(R
+
, R
d
) : w(t
0
) A
0
, w(t
1
) A
1
, . . . , w(t
p
) A
p
)
= P(B
t
0
A
0
, B
t
1
A
1
, . . . , B
tp
A
p
)
= 1
A
0
(0)
_
A
1
Ap
dy
1
. . . dy
p
p
t
1
(y
1
)p
t
2
t
1
(y
2
y
1
) p
tpt
p1
(y
p
y
p1
),
daprès la formule (14.2), qui est vraie pour nimporte quel mouvement brownien B (cest
juste une reformulation de (P1)). Or le lemme de classe monotone montre quune mesure de
226
probabilite sur C(R
+
, R
d
) est caracterisee par ses valeurs sur les cylindres, cest-à-dire les
ensembles de la forme
w C(R
+
, R
d
) : w(t
0
) A
0
, w(t
1
) A
1
, . . . , w(t
p
) A
p
.
Cela montre bien que P
0
est determinee de manière unique, independamment du choix du
mouvement brownien B : autrement dit tous les mouvements browniens (issus de 0) ont la
meme loi, qui est la mesure de Wiener.
Remarque. En un certain sens, la mesure de Wiener joue sur lespace C(R
+
, R
d
) un role
analogue à la mesure de Lebesgue sur [0, 1].
Si x R
d
, on note aussi P
x
(dw) la mesure-image de P
0
(dw) par la translation w x+w
(cest la loi du mouvement brownien issu de x).
Construction canonique du mouvement brownien. Elle consiste à prendre comme
espace de probabilite = C(R
+
, R
d
) muni de la tribu c et de la probabilite P
0
. On denit
alors pour tout t 0,
B
t
(w) = w(t), w .
La famille (B
t
)
tR
+
, denie sur lespace de probabilite (, c, P
0
), est un mouvement brownien
issu de 0. La propriete (P2) est evidente. La propriete (P1) decoule de la formule donnee
ci-dessus pour
P
0
(w C(R
+
, R
d
) : w(t
0
) A
0
, w(t
1
) A
1
, . . . , w(t
p
) A
p
).
De meme, sous P
x
, (B
t
)
tR
+
est un mouvement brownien issu de x.
14.4 Premières proprietes du mouvement brownien
Dans ce paragraphe et le suivant, on considère un mouvement brownien B en dimension d,
issu de 0. Pour tout s 0 on note T
s
la tribu engendree par les v.a. (B
r
, 0 r s). On
note aussi T
la tribu engendree par toutes les v.a. B

t
, t R
+
.
Proposition 14.4.1 (i) Si est une isometrie vectorielle de R
d
, ((B
t
))
tR
+
est aussi un
mouvement brownien (en particulier B est un mouvement brownien);
(ii) pour tout > 0, le processus B
t
=
1
2
t
est aussi un mouvement brownien (invariance
par changement dechelle);
(iii) pour tout s 0, le processus B
(s)
t
= B
s+t
B
s
est un mouvement brownien independant
de T
s
(propriete de Markov simple).
Preuve. (i) et (ii) sont très faciles. Pour lindependance dans (iii), on observe que pour
tout choix de t
1
< t
2
< < t
p
et r
1
< r
2
< < r
q
s, la propriete (P1) entrane que le
vecteur
(B
(s)
t
1
, . . . , B
(s)
tp
)
227
est independant de
(B
r
1
, . . . , B
rq
).
En utilisant la Proposition 9.2.4, on en deduit aisement que la famille (B
(s)
t
)
tR
+
est independante
de (B
r
)
0rs
.
Theorème 14.4.2 (Loi du tout ou rien de Blumenthal) Soit
T
0+
=
s>0
T
s
.
La tribu T
0+
est grossière, au sens o` u A T
0+
, P(A) = 0 ou 1.
Preuve. Soit A T
0+
et soient t
1
, . . . , t
p
> 0. Pour > 0 assez petit, la propriete de Markov
simple (Proposition 14.4.1 (iii)) entrane que (B
t
1
B
, . . . , B
tp
B
) est independant de T
,
donc a fortiori de T
0+
. En consequence, pour toute fonction f continue bornee sur (R
d
)
p
,
E[1
A
f(B
t
1
B
, . . . , B
tp
B
)] = P(A) E[f(B
t
1
B
, . . . , B
tp
B
)].
En faisant tendre vers 0 on trouve
E[1
A
f(B
t
1
, . . . , B
tp
)] = P(A) E[f(B
t
1
, . . . , B
tp
)],
et donc (B
t
1
, . . . , B
tp
0+
. Grace à nouveau à la Proposition 9.2.4, il
en decoule que T
est independante de T
0+
. En particulier T
0+
T
est independante
delle-meme, ce qui entrane que T
0+
est grossière.
Corollaire 14.4.3 On suppose d = 1. Alors, p.s. pour tout > 0
sup
0s
B
s
> 0, inf
0s
B
s
< 0.
Pour tout a R, soit T
a
= inft 0 : B
t
= a (inf = ). Alors,
p.s., a R, T
a
< .
En consequence, p.s.,
limsup
t
B
t
= +, liminf
t
B
t
= .
Remarque. Il nest pas a priori evident que la variable sup
0s
B
s
soit mesurable: il
sagit dun supremum non denombrable de fonctions mesurables. Cependant, parce que
nous savons que les trajectoires de B sont continues, on peut se restreindre aux valeurs
rationnelles de s [0, ] et on obtient un supremum denombrable de variables aleatoires
(ou alors on peut utiliser le Lemme 14.3.1).
Preuve. Soit (
p
) une suite de reels strictement positifs decroissant vers 0, et soit
A =
p
sup
0sp
B
s
> 0.
228
Il est clair que levenement A est T
0+
-mesurable. Dautre part,
P(A) = lim
p
P( sup
0sp
B
s
> 0),
et
P( sup
0sp
B
s
> 0) P(B
p
> 0) =
1
2
,
puisque B
p
suit la loi gaussienne ^(0,
p
) qui est symetrique. Cela montre que P(A) 1/2.
Daprès le Theorème 14.4.2 on a P(A) = 1, do` u
p.s. > 0, sup
0s
B
s
> 0.
Lassertion concernant inf
0s
B
s
est obtenue en rempla cant B par B.
Ensuite, on ecrit
1 = P( sup
0s1
B
s
> 0) = lim
0
P( sup
0s1
B
s
> ),
et on remarque en appliquant la propriete dinvariance dechelle (Proposition 14.4.1 (ii)) avec
= que
P( sup
0s1
B
s
> ) = P( sup
0s1/
2
B
s
> 1) = P( sup
0s1/
2
B
s
> 1)
(la dernière egalite est vraie parce que la loi du mouvement brownien est denie de manière
unique : voir les remarques suivant la Denition 14.3.1). En faisant tendre vers 0, on
trouve
P(sup
s0
B
s
> 1) = 1.
A nouveau un argument de changement dechelle montre que pour tout A > 0,
P(sup
s0
B
s
> A) = 1
et en utilisant le changement B B on a aussi
P(inf
s0
B
s
< A) = 1.
Les dernières assertions du corollaire en decoulent facilement: pour la dernière, on observe
quune fonction continue f : R
+
R ne peut visiter tous les reels que si limsup
t+
f(t) =
+, liminf
t+
f(t) = .
En utilisant la propriete de Markov simple, on deduit facilement du corollaire que p.s. la
fonction t B
t
nest monotone sur aucun intervalle non-trivial.
229
14.5 La propriete de Markov forte
Notre but est detendre la propriete de Markov simple (Proposition 14.4.1 (iii)) au cas o` u
linstant deterministe s est remplace par un temps aleatoire T. Nous devons dabord preciser
la classe des temps aleatoires admissibles. On garde les notations T
t
et T
introduites ci-
dessus.
Denition 14.5.1 Une variable aleatoire T à valeurs dans [0, ] est un temps darret si
t 0, T t T
t
.
Remarque. Si T est un temps darret, pour tout t 0,
T < t =
_
qQ[0,t[
T q
est dans T
t
.
Exemple. En dimension d = 1, T
a
= inft 0 : B
t
= a est un temps darret. En eet
T
a
t = inf
rQ[0,t]
[B
r
a[ = 0 T
t
.
Denition 14.5.2 Soit T un temps darret. La tribu des evenements anterieurs à T est
T
T
= A T
; t 0, A T t T
t
.
On verie facilement que les variables aleatoires T et 1
{T<}
B
T
sont T
T
-mesurables
(pour la deuxième remarquer que
1
{T<}
B
T
= lim
n
i=0
1
{i2
n
T<(i+1)2
n
}
B
i2
n,
puis que, pour tout s 0, B
s
1
{sT}
est T
T
mesurable).
Theorème 14.5.1 (Propriete de Markov forte) Soit T un t.a. tel que P(T < ) > 0.
Alors, conditionnellement à T < , le processus B
(T)
deni par
B
(T)
t
= B
T+t
B
T
est un mouvement brownien independant de T
T
.
Remarque. Pour etre tout à fait precis, il faut aussi denir B
(T)
sur lensemble T = ,
par exemple en posant B
t
() = 0 pour tout t 0 si T() = (ce choix na evidemment
aucune inuence sur le resultat ci-dessus).
Preuve. Supposons dabord T < p.s. On va montrer que, pour A T
T
, 0 t
1
< < t
p
et F continue bornee de (R
d
)
p
dans R
+
, on a
E[1
A
F(B
(T)
t
1
, . . . , B
(T)
tp
)] = P(A) E[F(B
t
1
, . . . , B
tp
)]. (14.3)
230
Cela sut pour etablir les dierentes assertions du theorème : le cas A = montre que
B
(T)
est un mouvement brownien (remarquer que les applications t B
(T)
t
() sont contin-
ues) et dautre part (14.3) entrane que pour tout choix de 0 t
1
< < t
p
, le vecteur
(B
(T)
t
1
, . . . , B
(T)
tp
T
, do` u il decoule que B
(T)
T
.
Pour montrer (14.3), on observe dabord que p.s.
F(B
(T)
t
1
, . . . , B
(T)
tp
)
= lim
n
k=0
1
{(k1)2
n
<Tk2
n
}
F(B
k2
n
+t
1
B
k2
n, . . . , B
k2
n
+tp
B
k2
n),
do` u par convergence dominee,
E[1
A
F(B
(T)
t
1
, . . . , B
(T)
tp
)]
= lim
n
k=0
E[1
A
1
{(k1)2
n
<Tk2
n
}
F(B
k2
n
+t
1
B
k2
n, . . . , B
k2
n
+tp
B
k2
n)].
Pour A T
T
, levenement A (k 1)2
n
< T k2
n
est T
k2
n-mesurable. Daprès la
propriete de Markov simple (Proposition 14.4.1 (iii)), on a donc
E[1
A{(k1)2
n
<Tk2
n
}
F(B
k2
n
+t
1
B
k2
n, . . . , B
k2
n
+tp
B
k2
n)]
= P(A (k 1)2
n
< T k2
n
) E[F(B
t
1
, . . . , B
tp
)],
et il ne reste plus quà sommer sur k pour arriver au resultat souhaite.
Lorsque P(T = ) > 0, les memes arguments conduisent à
E[1
A{T<}
F(B
(T)
t
1
, . . . , B
(T)
tp
)] = P(A T < ) E[F(B
t
1
, . . . , B
tp
)]
et le resultat recherche en decoule à nouveau.
Une application importante de la propriete de Markov forte est le principe de reexion
illustre dans la preuve du theorème suivant.
Theorème 14.5.2 On suppose d = 1. Pour tout t > 0, notons S
t
= sup
st
B
s
. Alors, si
a 0 et b a, on a
P(S
t
a, B
t
b) = P(B
t
2a b).
En particulier, S
t
a meme loi que [B
t
[.
Preuve. On applique la propriete de Markov forte au temps darret
T
a
= inft 0, B
t
= a.
On a dejà vu (Corollaire 14.4.3) que T
a
< p.s. Ensuite,
P(S
t
a, B
t
b) = P(T
a
t, B
t
b) = P(T
a
t, B
(Ta)
tTa
b a),
231
puisque B
(Ta)
tTa
= B
t
B
Ta
= B
t
a. Notons B
= B
(Ta)
, de sorte que daprès le theorème
14.5.1, le processus B
est un mouvement brownien independant de T

Ta
donc en particulier
de T
a
. Comme B
a meme loi que B
, le couple (T
a
, B
) a aussi meme loi que (T

a
, B
).
Notons H = (s, w) R
+
C(R
+
, R); s t, w(t s) b a. La probabilite precedente
vaut
P((T
a
, B
) H] = P[(T
a
, B
) H)
= P(T
a
t, B
(Ta)
tTa
b a)
= P(T
a
t, B
t
2a b)
= P(B
t
2a b)
parce que levenement B
t
2a b est contenu dans T
a
t.
Pour la deuxième assertion on observe que
P(S
t
a) = P(S
t
a, B
t
a) + P(S
t
a, B
t
a) = 2P(B
t
a) = P([B
t
[ a),
On deduit immediatement du theorème precedent que la loi du couple (S
t
, B
t
) a pour
densite
g(a, b) =
2(2a b)
2t
3
exp
_
(2a b)
2
2t
_
1
{a>0,b<a}
.
Corollaire 14.5.3 (d = 1) Pour tout a > 0, T
a
a meme loi que
a
2
B
2
1
et a donc pour densite
f(t) =
a
2t
3
exp
_
a
2
2t
_
1
{t>0}
.
Preuve. On ecrit
P(T
a
t) = P(S
t
a)
= P([B
t
[ a) (Theorème 14.5.2)
= P(B
2
t
a
2
)
= P(tB
2
1
a
2
) (B
t
a meme loi que
tB
1
)
= P(
a
2
B
2
1
t).
Ensuite, puisque B
1
suit une loi ^(0, 1) on calcule facilement la densite de a
2
/B
2
1
.
Reformulation sur lespace canonique.
En vue des applications qui suivent, il sera utile de reformuler la propriete de Markov sur
lespace canonique = C(R
+
, R
d
). A partir de maintenant on se place donc sur cet espace,
sur lequel on considère le processus B
t
(w) = w(t), et la ltration canonique T
t
= (B
s
, 0
s t). Rappelons que, pour tout x R
d
, (B
t
)
t0
est sous P
x
un mouvement brownien issu
de x.
232
On introduit aussi les operateurs de translation. Pour tout s 0,
s
: est deni
par
(
s
w)(t) = w(s + t) , t 0.
Alternativement, B
t

s
= B
s+t
.
Theorème 14.5.4 Soit T un temps darret, et soient F et G deux fonctions mesurables
positives sur . On suppose que F est T
T
-mesurable. Alors, pour tout x R
d
,
E
x
[1
{T<}
F G
T
] = E
x
[1
{T<}
F E
B
T
[G]].
Remarque. Comparer cet enonce avec le Theorème 13.3.5.
Preuve. On se ramène facilement au cas x = 0. Pour alleger lecriture supposons aussi
P
0
(T < ) = 1. Le point-cle est dobserver que si T(w) < ,
(
T
w)(t) = w(T + t) = w(T) + (w(T + t) w(T)) = B
T
(w) +B
(T)
t
(w).
Ensuite on ecrit
E
0
[1
{T<}
F G
T
] = E
0
[1
{T<}
F G(B
T
+ B
(T)
)] = E
0
[1
{T<}
F E
0
[G(B
T
+ B
(T)
)[ T
T
]],
o` u B
(T)
designe la fonction continue (B

(T)
t
)
t0
, vue comme v.a. à valeurs dans C(R
+
, R
d
).
Dune part B
T
est T
T
-mesurable, dautre part B
(T)
T
et de loi P
0
,
daprès le Theorème 14.5.1. En utilisant le Theorème 11.3.4, on a
E
0
[G(B
T
+ B
(T)
)[ T
T
] =
_
P
0
(dw) G(B
T
+ w) = E
B
T
[G]
14.6 Fonctions harmoniques et problème de Dirichlet
Nous avons introduit dans le Chapitre 7 la mesure de Lebesgue sur la sphère S
d1
notee
d
.
La mesure de probabilite uniforme sur la sphère S
d1
est la mesure de probabilite
d
obtenue
en normalisant
d
. Daprès le Chapitre 7,
d
est donc reliee à la mesure de Lebesgue
d
sur
R
d
par la formule explicite
d
(A) =
(
d
2
+ 1)
d/2

d
(rx : 0 r 1, x A),
pour tout borelien A de S
d1
. Comme
d
, la mesure
d
est invariante sous laction des
isometries vectorielles. De plus, le Theorème 7.2.1 donne la formule dintegration en coor-
donnees polaires : pour toute fonction borelienne f : R
d
R
+
,
_
R
d
f(x) dx = c
d
_

0
_
S
d1
f(rz) r
d1
dr
d
(dz). (14.4)
avec c
d
=
2
d/2
(d/2)
.
233
Lemme 14.6.1 La mesure
d
est la seule mesure de probabilite sur la sphère S
d1
qui soit
invariante par laction des isometries vectorielles.
Preuve. Soit une autre mesure de probabilite sur S
d1
invariante par laction des
isometries vectorielles. Alors, pour tout R
d
et toute isometrie vectorielle ,
() =
_
e
ix
(dx) =
_
e
i
1
(x)
(dx)
_
e
i()x
(dx) = (()).
Il en decoule que () ne depend que de [[, et donc il existe une fonction f : R
+
C telle
que, pour tout R
d
,
() = f([[).
Le meme argument montre quil existe une fonction g : R
+
C telle que

d
() = g([[).
Alors, pour tout r 0,
_
S
d1
_
_
S
d1
e
irx
(dx)
_
d
(d) =
_
S
d1
f(r)
d
(d) = f(r)
et daprès le theorème de Fubini cela est aussi egal à
_
S
d1
_
_
S
d1
e
irx
d
(d)
_
(dx) =
_
S
d1
g(r) (dx) = g(r).
Donc f = g, do` u =
d
et =
d
grace au Theorème 8.2.4.
Si x R
d
et r > 0 on note B(x, r) la boule ouverte de centre x et de rayon r, et

B(x, r)
la boule fermee. La probabilite uniforme sur la sphère de centre x et de rayon r, notee
x,r
est par denition limage de
d
(dy) par lapplication y x + ry.
Rappelons que jusquà la n du chapitre on considère le mouvement brownien deni sur
lespace canonique comme cela a ete precise à la n de la partie precedente.
Proposition 14.6.2 Soit x R
d
et r > 0, et soit S le temps darret
S = inft 0 : [B
t
x[ r.
La loi de B
S
sous P
x
est la probabilite uniforme
x,r
.
Preuve. Modulo une translation et un changement dechelle, il sut de traiter le cas
x = 0, r = 1, dans lequel
x,r
=
d
. Les proprietes dinvariance du mouvement brownien
montrent que la loi de B
S
est alors invariante par laction des isometries vectorielles. Grace
au Lemme 14.6.1, la loi de B
S
doit etre
d
.
Rappelons quun domaine D est un ouvert connexe de R
d
. Une fonction h : D R est
dite localement bornee si elle est bornee sur tout sous-ensemble compact de D.
234
Denition 14.6.1 Soit D un domaine de R
d
. Une fonction mesurable localement bornee
h : D R est dite harmonique si, pour tous x D et r > 0 tels que la boule

B(x, r) soit
contenue dans D, on a
h(x) =
_
h(y)
x,r
(dy). (14.5)
En dautres mots, la valeur de h en x concide avec sa moyenne sur la sphère de centre
x et de rayon r, pourvu que la boule fermee

B(x, r) soit contenue dans D.
Problème de Dirichlet classique. Etant donne un domaine borne D et une fonction
continue g : D R, on veut trouver une fonction h : D R telle que :
h
|D
= g au sens o` u, pour tout y D,
g(y) = lim
xy,xD
h(x) ;
h est harmonique sur D.
Le theorème suivant fournit un candidat à la solution du problème de Dirichlet.
Theorème 14.6.3 Soit D un domaine borne, et soit g une fonction mesurable bornee sur
D. Notons
T = inft 0 : B
t
/ D.
Alors la fonction
h(x) = E
x
[g(B
T
)], x D
est harmonique sur D.
Ce theorème est bien s ur analogue à un resultat de la n du chapitre precedent concernant
les relations entre chanes de Markov et fonctions harmoniques discrètes.
Preuve. En ecrivant
T t =
_
inf
0st,sQ
dist(B
s
, D
c
) = 0
_
on voit que T est un temps darret. Des proprietes du mouvement brownien en dimension
un il decoule aussi que T < P
x
p.s. On a vu qualors B
T
est une variable aleatoire (meme
T
T
-mesurable) et donc E
x
[g(B
T
)] est bien denie, et bornee par sup[g(y)[, y D.
Justions maintenant le fait que h est mesurable. Rappelons la notation c pour la
tribu introduite sur C(R
+
, R
d
). Alors, pour tout A c, lapplication x P
x
(A) est
mesurable : cela est vrai pour les cylindres de la forme A = w : w(t
1
) A
1
, . . . , w(t
p
) A
p
,
puisque dans ce cas on a une formule explicite, et il sut ensuite dutiliser un argument de
classe monotone. Il en decoule que pour toute fonction F mesurable bornee sur C(R
+
, R
d
),
lapplication x E
x
[F] est mesurable. On applique ceci à
F(w) = 1
{T(w)<}
g(B
T
(w)) = 1
{T(w)<}
g(w(T(w)))
et on obtient ainsi que h est mesurable.
235
Fixons maintenant x D et r > 0 tels que

B(x, r) D. Posons
S = inft 0 : B
t
/ B(x, r) = inft 0 : [B
t
x[ r.
Il est clair que S T, P
x
p.s. (en fait S(w) T(w) pour tout w = C(R
+
, R
d
)). De
plus,
B
T
= B
T

S
, P
x
p.s.
En eet cest simplement dire que si t w(t) est une trajectoire issue du point x, le point
de sortie de D pour cette trajectoire est le meme que celui pour la meme trajectoire dont
on a eace le debut entre le point de depart et le point de sortie de la boule B(x, r) : cela
est evident parce que

B(x, r) D.
On peut donc utiliser la propriete de Markov forte sous la forme du Theorème 14.5.4 et
obtenir
h(x) = E
x
[g(B
T
)] = E
x
[g(B
T
)
S
] = E
x
[E
B
S
[g(B
T
)]] = E
x
[h(B
S
)] =
_
h(y)
x,r
(dy)
la dernière egalite etant la Proposition 14.6.2. Cela termine la preuve.
Pour montrer que la fonction h du theorème precedent est solution du problème de
Dirichlet (sous lhypothèse supplementaire de continuite de g), il faudrait aussi montrer que,
pour tout y D,
g(y) = lim
xy,xD
E
x
[g(B
T
)].
Intuitivement, si x D est proche de y D, le mouvement brownien partant de x va sortir
rapidement de D, donc le point de sortie B
T
sera proche de x, et aussi de y, et la continuite
de g assurera que g(B
T
) est proche de g(y) ce qui conduira au resultat voulu. Avant de
rendre precis ce raisonnement, ce qui exigera certaines hypothèses supplementaires, nous
commen cons par traiter la question de lunicite de la solution.
La proposition suivante montre que les fonctions harmoniques sont automatiquement très
regulières.
Proposition 14.6.4 Si h est harmonique sur D, h est de classe C
sur D. De plus, si
x D et r > 0 sont tels que

B(x, r) D, on a
h(x) =
1
d
(B(x, r))
_
B(x,r)
h(y) dy. (14.6)
Preuve. Soit r
0
> 0, et soit
D
0
= x D : dist(x, D
c
) > r
0
.
Il sut de montrer que h est de classe C
sur D
0
. Pour cela, considerons une fonction
: R R
+
de classe C
à support compact contenu dans ]0, r

0
[, et non identiquement
nulle. Alors, pour tout x D
0
et tout r ]0, r
0
[,
h(x) =
_

x,r
(dz) h(z) =
_

d
(dy) h(x + ry).
236
On multiplie les deux membres extremes de cette egalite par r
d1
(r) et on intègre par
rapport à dr entre 0 et r
0
. En utilisant la formule (14.4) on trouve que, pour une constante
c > 0 dependant seulement de , on a pour tout x D
0
,
c h(x) = c
d
_
r
0
0
dr r
d1
(r)
_

d
(dy) h(x + ry)
=
_
B(0,r
0
)
dz ([z[)h(x + z)
=
_
B(x,r
0
)
dz ([z x[)h(x)
=
_
R
d
dz ([z x[)
h(x)
o` u pour la dernière egalite on a note
h la fonction obtenue en prolongeant h par la valeur 0 sur

D
c
(le choix de cette valeur nintervient pas puisque si x D
0
et z D
c
on a ([z x[) = 0).
On voit ainsi que sur D
0
, h concide avec la convolution de la fonction z ([z[), qui
est de classe C
et à support compact, avec la fonction

h, qui est mesurable bornee. Nous
avons remarque à la n du Chapitre 2, comme application du theorème de derivation sous
le signe integrale, quune telle convolution est de classe C
.
Il reste à etablir la deuxième assertion. En reprenant le calcul ci-dessus avec = 1
[0,r
0
[
,
on trouve pour x D
0
,
h(x) = c
_
B(x,r
0
)
dy h(y)
o` u la constante c
depend seulement de , donc seulement de r

0
. En prenant h = 1 (qui est
harmonique), on voit que c
= (
d
(B(x, r
0
)))
1
do` u le resultat annonce.
Corollaire 14.6.5 Si une solution du problème de Dirichlet existe, elle est unique.
Preuve. Soient h
1
et h
2
deux solutions, et soit f = h
1
h
2
. Supposons f non identiquement
nulle. Quitte à echanger les roles de h
1
et h
2
on peut supposer que f prend des valeurs
strictement positives. La fonction obtenue en prolongeant f par la valeur 0 sur D est
continue sur

D, et doit donc atteindre son maximum M dans D (rappelons que D est
suppose borne et donc

D est compact). Soit x
0
un point de D tel que f(x
0
) = M. Daprès
la proposition precedente on a pour tout r < dist(x
0
, D
c
),
f(x
0
) =
1
d
(B(x
0
, r))
_
B(x
0
,r)
dy f(y),
soit _
B(x
0
,r)
dy (f(x
0
) f(y)) = 0.
Puisque f(x
0
) f(y) pour tout y D, ceci nest possible que si f(x
0
) = f(y),
d
(dy) p.p.
sur B(x
0
, r). Comme f est continue (à nouveau grace à la proposition precedente) on a donc
f(x
0
) = f(y) pour tout y B(x
0
, r). On a ainsi montre que x D : f(x) = M est ouvert.
237
Mais dautre part cet ensemble est aussi un ferme de D, et puisque D est connexe, on a
necessairement x D : f(x) = M = D. Cela est absurde puisque M > 0 et f doit tendre
vers 0 à la frontière de D.
Denition 14.6.2 On dit que D satisfait la condition de cone exterieur si, pour tout y
D, il existe r > 0 et un cone de revolution ouvert C de sommet y tels que CB(y, r) D
c
.
Theorème 14.6.6 Supposons que D est un domaine borne satisfaisant la condition de cone
exterieur, et soit g une fonction continue sur D. Alors la fonction
h(x) = E
x
[g(B
T
)], x D
est lunique solution du problème de Dirichlet.
Preuve. Compte-tenu du Theorème 14.6.3 et du Corollaire 14.6.5, il sut de verier que,
pour tout y D xe,
lim
xy,xD
h(x) = g(y). (14.7)
Soit > 0. Grace à la continuite de g, on peut choisir > 0 tel que, si z D et [z y[ < ,
on a
[g(z) g(y)[ <

3
.
Soit ensuite M > 0 tel que [g(z)[ < M pour tout z D. On a alors, pour tout > 0,
[E
x
[g(B
T
)] g(y)[ E
x
[[g(B
T
) g(y)[1
{T}
] +E
x
[[g(B
T
) g(y)[1
{T>}
]
E
x
[[g(B
T
) g(y)[1
{T}
1
{sup
t
|Btx|/2}
]
+2MP
x
_
sup
t
[B
t
x[ >

2
_
+ 2MP
x
(T > )
= I + II + III.
Nous allons majorer separement les trois termes I, II, III.
Si [x y[ <

2
, on a sur levenement T sup
t
[B
t
x[ /2
[B
T
y[ [B
T
x[ +[x y[ <
et le choix de assure que le terme I est majore par /3.
En utilisant linvariance par translation, on a
II = 2MP
0
_
sup
t
[B
t
[ >

2
_
et donc le terme II ne depend pas de x. Clairement II tend vers 0 quand tend vers 0
(cest juste dire que sup
t
[B
t
[ 0 en probabilite sous P
0
, ce qui est vrai puisquil y a
convergence p.s. par continuite). On peut donc choisir > 0 assez petit de manière que
II < /3.
Comme a ete choisi de manière arbitraire, il reste pour etablir (14.7) à montrer quon
peut choisir ]0, /2] susamment petit de manière que si [x y[ < , le terme III =
2MP
x
(T > ) est aussi majore par /3. Or cela est une consequence du lemme suivant, qui
complète donc la preuve du theorème.
238
Lemme 14.6.7 Sous la condition de cone exterieur, on a pour tout y D et tout > 0,
lim
xy,xD
P
x
(T > ) = 0.
Remarque. Comme cela a ete suggere après la preuve du Theorème 14.6.3, le point-cle dans
la verication de la condition frontière (14.7) est de sassurer que le mouvement brownien
partant près de la frontière de D va sortir de D rapidement, avec une grande probabilite.
Cest precisement ce que nous dit le lemme. La condition de cone exterieur nest pas la
meilleure possible pour cela, mais elle donne dejà des applications interessantes, comme
nous le verrons plus loin.
Preuve. Commen cons par reecrire la condition de cone exterieur en y D. Pour u S
d1
et > 0, notons
C(u, ) = z R
d
: z u > (1 )[z[
le cone de revolution ouvert de sommet 0, de direction u et douverture . Alors on peut
choisir r > 0, u S
d1
et > 0 tels que
y + (C(u, ) B(0, r)) D
c
.
Pour alleger lecriture on note C = C(u, ) B(0, r). Posons aussi
C = z R
d
: z u > (1

2
)[z[ B(0,
r
2
)
qui correspond à lintersection avec B(0,
r
2
) dun cone un peu plus petit que C(u, r).
Il decoule facilement de la loi du tout ou rien (Theorème 14.4.2) que, si T
e
C
= inft 0 :
B
t

C, on a
T
e
C
= 0 , P
0
p.s..
En eet, si (
n
) est une suite decroissant strictement vers 0, levenement limsupB
n

C
est dans la tribu T
0+
, et un argument analogue à la preuve du Corollaire 14.4.3 montre que
cet evenement est de probabilite strictement positive.
Pour a ]0, r/2[, notons
C
a
=

C B(0, a)
c
.
Puisque les ensembles

C
a
croissent vers

C quand a 0, on a T
e
Ca
T
e
C
= 0, P
0
p.s., et donc
pour tout > 0 on peut xer a assez petit tel que
P
0
(T
e
Ca
) > 1 .
En utilisant le fait que y + C D
c
, on a, avec des notations evidentes,
P
x
(T ) P
x
(T
y+C
) = P
0
(T
yx+C
).
Or un raisonnement geometrique simple (faire un dessin!) montre que, dès que [y x[ est
assez petit, le cone translate y x + C contient

C
a
, et alors
P
x
(T ) P
0
(T
e
Ca
) > 1
daprès le choix de a. Comme etait arbitraire on a termine la preuve du lemme.
Nous en venons maintenant à une autre caracterisation analytique des fonctions har-
moniques, qui est souvent prise comme denition.
239
Proposition 14.6.8 Soit h une fonction localement bornee sur le domaine D. Alors h est
harmonique sur D si et seulement si h est de classe C
2
sur D et h = 0.
Preuve. On suppose dabord que h est harmonique. La Proposition 14.6.4 montre que h
est de classe C
sur D. Soit x D et soit r

0
> 0 tel que la boule

B(x, r
0
) soit contenue
dans D. Toujours daprès la Proposition 14.6.4, on a pour tout r ]0, r
0
],
h(x) =
1
d
(B(x, r))
_
B(x,r)
h(y) dy. (14.8)
Dautre part la formule de Taylor à lordre deux montre que, pour y B(x, r),
h(y) = h(x) +
d
i=1
h
y
i
(x) (y
i
x
i
) +
1
2
d
i,j=1
2
h
y
i
y
j
(x) (y
i
x
i
)(y
j
x
j
) + o(r
2
)
o` u le reste o(r
2
) est uniforme quand y decrit B(x, r). En integrant cette egalite sur B(x, r),
et en utilisant les symetries evidentes, on trouve
_
B(x,r)
h(y) dy =
d
(B(x, r)) h(x) +
1
2
d
i=1
2
h
y
2
i
(x)
_
B(x,r)
(y
i
x
i
)
2
dy + o(r
d+2
).
Posons C
1
=
_
B(0,1)
y
2
1
dy > 0. Legalite precedente et (14.8) conduisent à
C
1
2
h(x) r
d+2
+ o(r
d+2
) = 0
ce qui nest possible que si h(x) = 0.
Inversement supposons h de classe C
2
sur D et h = 0. Il sut alors de montrer que
si U est une boule ouverte telle que

U D, h est harmonique sur U. Daprès le Theorème
14.6.6, il existe une (unique) fonction

h continue sur

U, harmonique dans U, et telle que
h(x) = h(x) pour tout x U. De plus, la première partie de la preuve montre que
h = 0
sur U. En appliquant le lemme suivant aux deux fonctions h
h et

h h (denies sur

U)
on trouve que h =
h sur

U, ce qui termine la preuve de la proposition.
Lemme 14.6.9 (Principe du maximum) Soit V un ouvert borne de R
d
, et soit u une
fonction continue sur

V , de classe C
2
dans V et telle que u 0 sur V . Alors,
sup
x
V
u(x) = sup
xV
u(x).
Preuve. Supposons dabord quon a la propriete plus forte u > 0 sur D. On raisonne par
labsurde en supposant
sup
x
V
u(x) > sup
xV
u(x).
Dans ce cas on peut trouver x
0
V tel que
u(x
0
) = sup
xV
u(x).
240
On a alors
u
y
j
(x
0
) = 0 , j 1, . . . , d
et de plus la formule de Taylor à lordre deux assure que la matrice symetrique
M
x
0
=
_

2
u
y
i
y
j
(x
0
)
_
i,j{1,...,d}
est negative, au sens o` u la forme quadratique associee ne prend que des valeurs negatives ou
nulle. En particulier les valeurs propres de M
x
0
sont toutes negatives ou nulles et la trace
de M
x
0
lest aussi. Mais ceci est une contradiction puisque la trace de M
x
0
est u(x
0
) > 0.
Si on fait lhypothèse plus faible u 0 sur D, il sut de poser pour tout > 0, et tout
x

V
u
(x) = u(x) + x
2
1
,
de sorte que u
= u + 2 > 0. La première partie de la preuve assure que

sup
x
V
u
(x) = sup
xV
u
(x),
et il ne reste plus quà faire tendre vers 0.
14.7 Fonctions harmoniques et mouvement brownien
Nous commen cons par un resultat important qui fait le lien entre fonctions harmoniques,
mouvement brownien et martingales. Nous devons dabord introduire la notion de martingale
à temps continu, qui est une generalisation directe des martingales à temps discret etudiees
dans le Chapitre 12. Rappelons que nous nous sommes places sur lespace canonique du
mouvement brownien, decrit à la n de la partie 3, et que T
t
designe sur cet espace la
tribu engendree par (B
s
, s t). Une famille (M
t
)
t0
, indexee par les reels positifs, de v.a.
integrables est une martingale si M
t
est T
t
-mesurable, pour tout t 0, et si la relation
E[M
t
[ T
s
] = M
s
est vraie pour tous 0 s t.
Si U est un ouvert de R
d
, on note H
U
= inft 0 : B
t
/ U.
Theorème 14.7.1 Soit D un domaine de R
d
. Une fonction continue h : D R est
harmonique si et seulement si pour tout ouvert borne U tel que

U D et U satisfait la
condition de cone exterieur, le processus
(h(B
tH
U
))
t0
est une martingale sous P
x
, pour tout x U.
De manière informelle les fonctions harmoniques sont celles qui composees avec le mou-
vement brownien donnent des martingales. La condition de c one exterieur dans lenonce qui
precède est superue mais intervient pour des raisons techniques dans notre demonstration.
Preuve. Supposons dabord que h est harmonique, et soit U un ouvert satisfaisant les
conditions de lenonce. On note H = H
U
pour alleger, et on xe x U. Remarquons que les
241
v.a. h(B
tH
) sont bornees P
x
p.s. par sup[h(y)[ : y

U < . Soient s t. Observons que
la v.a. B
sH
est T
sH
-mesurable donc aussi T
s
-mesurable. Pour obtenir legalite recherchee
E[h(B
tH
)[ T
s
] = h(B
sH
), il sut de montrer que, pour toute v.a. F T
s
-mesurable bornee,
on a
E
x
[F h(B
sH
)] = E
x
[F h(B
tH
)].
Or on peut interpreter h comme la solution (unique) du problème de Dirichlet dans U dont
la condition frontière est simplement la restriction de h à U. Le Theorème 14.6.6 montre
que, pour tout y U,
h(y) = E
y
[h(B
H
)].
Il en decoule que
E
x
[F 1
{s<H}
h(B
sH
)] = E
x
[F 1
{s<H}
h(B
s
)] = E
x
[F 1
{s<H}
E
Bs
[h(B
H
)]].
Mais puisque F 1
{s<H}
est T
s
-mesurable (exercice), la propriete de Markov (sous la forme
du Theorème 14.5.4, avec le temps darret constant s) montre que
E
x
[F 1
{s<H}
E
Bs
[h(B
H
)]] = E
x
[F 1
{s<H}
h(B
H
)].
On obtient ainsi
E
x
[F h(B
sH
)] = E
x
[F 1
{s<H}
h(B
s
)] +E
x
[F 1
{sH}
h(B
H
)] = E
x
[F h(B
H
)].
Evidemment le meme argument montre que
E
x
[F h(B
tH
)] = E
x
[F h(B
H
)] = E
x
[F h(B
sH
)]
ce qui etait legalite recherchee.
Dans lautre sens, cest plus simple. Si on suppose que h verie la propriete de lenonce,
on prend pour U une boule ouverte dont ladherence est contenue dans D. La propriete de
martingale permet decrire si x U
h(x) = E
x
[h(B
tH
)[ T
0
] = E
x
[h(B
tH
)].
En faisant tendre t vers , on a h(x) = E
x
[h(B
H
)], et le Theorème 14.6.3 montre que h est
harmonique sur U ce qui sut pour conclure.
A partir de maintenant, on suppose que d 2 (remarquer quen dimension un les fonc-
tions harmoniques sont les fonctions anes).
Proposition 14.7.2 Soient 0 a < b et soit D
a,b
le domaine
D
a,b
= B(0, b)
B(0, a).
Soit f : D
a,b
R une fonction radiale, au sens o` u f(x) ne depend que de [x[. Alors f est
harmonique si et seulement sil existe deux constantes C, C
R telles que
f(x) =
_
C + C
log [x[ si d = 2,
C + C
[x[
2d
si d 3.
242
Preuve. Nous savons dejà que f doit etre de classe C
. Soit g :]a, b[R la fonction telle

que f(x) = g([x[). Lexpression du Laplacien pour une fonction radiale montre que
f(x) = g
([x[) +
d 1
[x[
g
([x[).
Daprès la Proposition 14.6.8, f est harmonique si et seulement si g satisfait lequation
dierentielle
g
(r) +
d 1
r
g
(r) = 0
quil sut de resoudre pour obtenir la proposition.
Dans les deux enonces suivants on note T
A
= inft 0 : B
t
A pour tout ferme A de
R
d
.
Proposition 14.7.3 Soit x R
d
0, et soient , R > 0 avec < [x[ < R. Alors,
P
x
(T
B(0,)
< T
B(0,R)
c ) =
_
_
_
log Rlog |x|
log Rlog
si d = 2,
|x|
2d
R
2d
2d
R
2d
si d 3.
(14.9)
Remarque. Lenonce analogue en dimension un est, pour a < x < b,
P
x
(T
a
< T
b
) =
b x
b a
et se demontre exactement de la meme manière (exercice).
Preuve. Considerons le domaine D = D
,R
, qui verie la condition de cone exterieur, et
soit g la fonction continue sur D denie par
_
g(y) = 1 si [y[ = ,
g(y) = 0 si [y[ = R.
Alors le Theorème 14.6.6 montre que
h(x) = P
x
(T
B(0,)
< T
B(0,R)
c ) , < [x[ < R
est la solution unique du problème de Dirichlet avec condition frontière g. Mais en utilisant
la Proposition 14.7.2, on voit immediatement que le terme de droite dans (14.9) est solution
du meme problème de Dirichlet. Cela donne legalite recherchee.
On peut deduire de la proposition precedente des informations interessantes sur le com-
portement presque s ur des fonctions t B
t
.
Corollaire 14.7.4 (i) Si d 3, pour tous > 0 et x R
d
tels que < [x[,
P
x
(T
B(0,)
< ) = (

[x[
)
d2
.
De plus, pour tout x R
d
,
lim
t
[B
t
[ = , P
x
p.s.
243
(ii) Si d = 2, pour tous > 0 et x R
d
tels que < [x[,
P
x
(T
B(0,)
< ) = 1
mais
P
x
(T
{0}
< ) = 0.
De plus, P
x
p.s., pour tout ouvert U de R
2
, lensemble t 0 : B
t
U est non borne.
Par analogie avec le cas des chanes de Markov, on dit que le mouvement brownien est
transitoire en dimension d 3 et recurrent en dimension d = 2. Noter que cette propriete
de recurrence dans le plan nentrane pas que tous les points soient visites : au contraire un
point xe, autre que le point de depart, nest pas visite avec probabilite 1.
Preuve. (i) La première assertion est facile puisque
P
x
(T
B(0,)
< ) = lim
n
P
x
(T
B(0,)
< T
B(0,n)
c )
et il sut dappliquer la formule (14.9).
Ensuite, on pose pour tout entier n 1
T
(n)
= T
B(0,2
n
)
c .
En appliquant la propriete de Markov forte en T
(n)
et en utilisant à nouveau la formule
(14.9), on trouve, si [x[ 2
n
,
P
x
_
inf
tT
(n)
[B
t
[ n
_
= E
x
_
P
B
T
(n)
(T
B(0,n)
< )
_
= (
n
2
n
)
d2
.
Le lemme de Borel-Cantelli entrane alors que P
x
p.s., pour tout entier n assez grand,
inf
tT
(n)
[B
t
[ > n
et donc la fonction t [B
t
[ converge vers quand t .
(ii) Daprès la formule (14.9) on a
P
x
(T
B(0,)
< T
B(0,R)
c ) =
log R log [x[
log R log
dès que < [x[ < R. En faisant tendre R vers dans cette formule on trouve
P
x
(T
B(0,)
< ) = 1.
En faisant tendre vers 0 dans la meme formule on obtient
P
x
(T
{0}
< T
B(0,R)
c ) = 0.
Comme T
B(0,R)
c quand R , cela entrane
P
x
(T
{0}
< ) = 0.
244
On a donc à la fois
P
x
p.s. > 0, T
B(0,)
<
et
P
x
p.s. 0 / B
t
: t 0.
Ces deux proprietes entranent que P
x
p.s. 0 est un point daccumulation de la fonction
t B
t
quand t . Donc, pour tout ouvert U contenant 0, lensemble t 0 : B
t
U
est P
x
p.s. non borne. Un argument de translation donne alors la dernière propriete du
corollaire, en remarquant aussi quon peut se limiter à une famillle denombrable de choix de
U.
Noyau de Poisson. Rappelons que nous nous pla cons en dimension d 2. Le noyau de
Poisson (de la boule unite) est la fonction denie sur B(0, 1) S
d1
par
K(x, y) =
1 [x[
2
[x y[
d
, x B(0, 1), y S
d1
.
Lemme 14.7.5 Pour tout y S
d1
xe, la fonction x K(x, y) est harmonique sur
B(0, 1).
Preuve. Posons K
y
(x) = K(x, y) pour x B(0, 1). Un calcul direct montre que K
y
= 0
sur B(0, 1), et il sut dappliquer la Proposition 14.6.8.
Lemme 14.7.6 Pour tout x B(0, 1),
_
S
d1
K(x, y)
d
(dy) = 1.
Preuve. Pour tout x B(0, 1), posons
F(x) =
_
S
d1
K(x, y)
d
(dy).
Alors, on deduit facilement du lemme precedent que F est harmonique sur B(0, 1) : on
peut appliquer le theorème de Fubini pour verier que F satisfait la propriete de moyenne
(ou deriver sous le signe integrale pour montrer que F = 0). Par ailleurs, en utilisant les
proprietes dinvariance de
d
et de K par les isometries vectorielles, on obtient que F est
une fonction radiale. Sur la boule ouverte privee de lorigine B(0, 1)0, F doit donc etre
de la forme donnee dans la Proposition 14.7.2. Mais puisque F est aussi continue en 0, la
constante C
intervenant dans les formules de cette proposition doit etre nulle. On a donc,
pour tout x B(0, 1), F(x) = F(0) = 1.
Theorème 14.7.7 Soit g une fonction continue sur S
d1
. La solution du problème de
Dirichlet dans B(0, 1) avec condition frontière g est donnee par
h(x) =
_
S
d1
K(x, y) g(y)
d
(dy) , x B(0, 1).
De plus, pour tout x B(0, 1) xe, la fonction y K(x, y) est la densite par rapport à la
mesure
d
(dy) de la loi sous P
x
du point de sortie du mouvement brownien hors de B(0, 1).
245
Preuve. Les memes arguments que dans la preuve du Lemme 14.7.6 montrent que h est
harmonique dans B(0, 1). Pour verier la condition frontière, xons y
0
S
d1
. Pour tout
> 0, la forme explicite du noyau de Poisson montre que si x B(0, 1) et y S
d1
sont
tels que [x y
0
[ < /2 et [y y
0
[ > on a
K(x, y) (
2
)
d
(1 [x[
2
).
Il decoule de cette majoration que, pour tout > 0,
lim
xy
0
,xB(0,1)
_
{|yy
0
|>}
K(x, y) (dy) = 0. (14.10)
Ensuite, si > 0 est donne, on choisit > 0 assez petit pour que [g(y) g(y
0
)[ dès que
y S
d1
et [y y
0
[ . Si M = sup[g(y)[ : y S
d1
, il vient
[h(x) g(y
0
)[ =
_
S
d1
K(x, y) (g(y) g(y
0
))
d
(dy)
2M
_
{|yy
0
|>}
K(x, y) (dy) + ,
en utilisant le Lemme 14.7.6 pour la première egalite, et ensuite le choix de . Grace à
(14.10), on obtient maintenant
limsup
xy
0
,xB(0,1)
[h(x) g(y
0
)[ .
Comme etait arbitraire, cela donne bien la condition frontière voulue.
Enn, pour la dernière assertion, on utilise le Theorème 14.6.6 qui arme que la solution
du meme problème de Dirichlet est aussi donnee par
h(x) = E
x
[g(B
T
)],
o` u T = inft 0 : B
t
/ D. En comparant les deux formules pour h on obtient precisement
que la loi de B
T
est la mesure K(x, y)
d
(dy).
246
Quelques references
Partie I : Integration.
Le livre classique de Rudin [7] est toujours une bonne reference. Le livre de Briane et
Pagès [2] est très detaille et assez complet.
[1] M.R. Adams, V. Guillemin. Measure Theory and Probability. Birkhauser, 1996.
[2] M. Briane, G. Pagès. Theorie de lIntegration. Vuibert, 2000.
[3] D.L. Cohn. Measure Theory. Birkhauser, 1980.
[4] J.L. Doob. Measure Theory. Springer, 1994.
[5] R.M. Dudley. Real Analysis and Probability. Chapman and Hall, 1989.
[6] D. Revuz. Mesure et Integration. Hermann, 1994.
[7] W. Rudin. Real and Complex Analysis. McGraw Hill, 1974.
[8] D.W. Stroock. A Concise Introduction to the Theory of Integration. Birkhauser,
1994.
Partie II : Probabilites.
[9] et [18] sont des ouvrages en fran cais dont le niveau correspond grosso-modo à celui
du cours. [10] et [11] sont des classiques dont la lecture est toujours interessante. [13] et [17]
sont des livres plus recents ecrits par des probabilistes de tout premier plan.
[9] P. Barbe, M. Ledoux. Probabilite. Belin, 1998.
[10] P. Billingsley. Probability and Measure, 3rd ed. Wiley, 1995.
[11] L. Breiman. Probability. Addison-Wesley, 1968.
[12] K.L. Chung. A Course in Probability Theory. Harcourt Brace and World, 1968.
[13] R. Durrett. Probability and Examples, 2nd ed. Duxbury Press, 1996.
247
[14] W. Feller. An Introduction to Probability Theory and Its Applications, Vol. I. Wiley.
(Un grand classique sur tout ce que vous pouvez faire en probabilites sans theorie de la
mesure)
[15] G. Grimmett, D. Stirzaker. Probability and Random Processes. Oxford Science
Publications, 1992.
[16] J. Neveu. Bases Mathematiques du Calcul des Probabilites. Masson, 1064. (Livre de
reference sur les outils de theorie de la mesure qui interviennent en probabilites)
[17] J. Pitman. Probability. Springer, 1993.
[18] D. Revuz. Probabilites. Hermann, 1997.
[19] D.W. Stroock. Probability Theory: An Analytic View. Cambridge U. Press 1993.
(Livre plus avance autour des liens entre analyse et probabilites)
Partie III : Processus aleatoires.
[20] J. Neveu Martingales à temps discret. Masson 1972
[21] D. Williams Probability with martingales. Cambridge University Press 1991
[22] C. Dellacherie, P.A. Meyer Probabilites et potentiels, Chapitres V à VIII. Theorie
des martingales. Hermann 1980 (traite aussi et surtout le cas des martingales à temps
continu)
[23] P. Baldi, L. Mazliak, P. Priouret Martingales et chanes de Markov. Hermann
1998
[24] K.L. Chung Markov chains with stationary transition probabilities. Springer 1967
[25] R. Durrett Essentials of stochastic processes. Springer 1999 (donne beaucoup dexemples
concrets de chanes de Markov)
[26] D.W. Stroock An introduction to Markov processes. Springer 2005 (pour une lecture
plus avancee sur chanes et processus de Markov).
248

Integration-Probabilites-Processus Aleatoires

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Integration-Probabilites-Processus Aleatoires

Transféré par

Droits d'auteur :

Formats disponibles

FIMFA

= sup(f, 0) sont mesurables.

)(A B) /(c) et donc

est une seconde mesure ayant la meme propriete, on peut appliquer `a et

= sup(f, 0) est la partie positive, resp. negative, de f. (Noter

sont mesurables et que f = f

d < , ce qui montre que la

p.p. Il sut alors dutiliser les

`a support compact, h est

: T(E) [0, ] est

est -sous-additive : pour toute suite A

on construit une mesure sur une tribu /(

. Dans la suite de cette

-mesurable si pour toute partie A de E,

) lensemble des parties

-mesurable, cest donc linegalite inverse quil importe

) est une mesure.

`a /. On sait dej`a que () = 0. Soient B

est une mesure exterieure sur R.

)) est la mesure de Lebesgue sur R, et sera

est croissante. Il reste `a etablir la

([a, b]). Il est facile de voir enn que

([a, b]) (par exemple en observant que

est une mesure exterieure sur R

(P) = vol (P).

)) est la mesure de Lebesgue sur R

) est beaucoup plus grande que la tribu B(R).

sont comme dans la denition de B ci-dessus,

). Cela ne depend pas du choix de B et B

) (B) ce qui force les egalites

). Enn, il est facile de verier que le prolongement de `a

/ est une mesure : si A

) concide avec la completee

) est immediate : si A T(R

(B) = (B) = 0, et dapr`es le theor`eme du

). On veut montrer que A

(A) < , et donc pour chaque n 1 on peut trouver une famille

(A). En rempla cant A par ] K, K[

B, on doit alors avoir B

(A). Finalement on a bien

est ferme. Par ailleurs A = lim F

sont boreliennes bornees. Par convergence dominee,

est croissante, bornee, continue `a droite et F

est facile. Par exemple si x

est une mesure exterieure. On verie par

) est une mesure sur (R, B(R)).

donne bien la minoration (]a, b]) F(b) F(a).

= infC [0, ] : [f[ C, p.p.

, p.p. et que |f|

est le plus petit nombre dans [0, ] avec

[f[, p.p., do` u

x a pour derivee sur ]0, [,

est maximale en x = 1, ce qui donne

= pr, on trouve pour tous 1 r r

Exercice. Montrer que si (E) < on a

est simplement lespace des suites (a

equivaut `a une convergence uniforme

, il sut de montrer que si f L

deux mesures sur / B veriant la propriete enoncee en (i) du theor`eme.

est une mesure sur /B qui verie la meme propriete,

. On en deduit lassertion (ii) du theor`eme, ce qui

et en utilisant le theor`eme precedent, on voit que

> 1 +[(A)[ se traite de la meme mani`ere). On pose alors

, est la restriction de [[ `a B, resp. `a B