Vous êtes sur la page 1sur 254

maq_proba

5/01/07

11:53

Page 1

Ce livre sadresse aux tudiants de licence ou master de


mathmatiques (L3-M1) et ceux qui prparent le Capes ou
lagrgation.
Il est consacr lexposition des notions de base du calcul des
probabilits. Il sappuie de faon essentielle sur la thorie de la
mesure et de lintgration de Lebesgue. Les mesures de
probabilit discrtes ou densit sont donc tudies dans un
mme cadre, au titre dexemples privilgis les plus usuels. Aprs
des rappels sur lintgration, louvrage dveloppe successivement
les thmes suivants : lois de variables alatoires, indpendance
et addition des variables alatoires indpendantes, convergence
de suites de variables alatoires et thormes limites,
conditionnement, martingales temps discret et chanes de
Markov espace dtats dnombrable. Chaque chapitre est
complt par une srie dexercices destins approfondir et
illustrer les lments de la thorie venant dtre introduits.

Philippe Barbe, charg de recherches au CNRS, est spcialiste de


statistique. Michel Ledoux, professeur luniversit Paul Sabatier
Toulouse, est spcialiste des probabilits. Ils ont tous les deux
publi des articles de recherche en statistique et probabilit ainsi
que plusieurs livres.

Graphisme : Batrice Coudel

www.edpsciences.org

26 euros
ISBN : 978-2-86883-931-2

barbe 2007/1/8 10:41 page viii #8

i
i

barbe 2007/1/8 10:41 page i #1

PROBABILIT

i
i

barbe 2007/1/8 10:41 page viii #8

i
i

barbe 2007/1/8 10:41 page i #1

PROBABILIT

Philippe Barbe et Michel Ledoux


Collection dirige par Daniel Guin

17, avenue du Hoggar


Parc dactivits de Courtabuf, BP 112
91944 Les Ulis Cedex A, France

i
i

barbe 2007/1/8 10:41 page ii #2

Lillustration de couverture reprsente une marche alatoire centre, linairement


interpole ; les courbes suprieure et infrieure sont les bornes de la loi du logarithme itr, et lintervalle vertical atteint par la marche alatoire illustre une
application du thorme limite central.

Imprim en France

ISBN : 978-2-86883-931-2
Tous droits de traduction, dadaptation et de reproduction par tous procds rservs pour tous
pays. Toute reproduction ou reprsentation intgrale ou partielle, par quelque procd que ce soit, des
pages publies dans le prsent ouvrage, faite sans lautorisation de lditeur est illicite et constitue une
contrefaon. Seules sont autorises, dune part, les reproductions strictement rserves lusage priv
du copiste et non destines une utilisation collective, et dautre part, les courtes citations justies
par le caractre scientique ou dinformation de luvre dans laquelle elles sont incorpores (art. L.
122-4, L. 122-5 et L. 335-2 du Code de la proprit intellectuelle). Des photocopies payantes peuvent
tre ralises avec laccord de lditeur. Sadresser au : Centre franais dexploitation du droit de copie,
3, rue Hautefeuille, 75006 Paris. Tl. : 01 43 26 95 35.
c 2007, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc dactivits de Courtabuf,

91944 Les Ulis Cedex A

i
i

barbe 2007/1/8 10:41 page iii #3

TABLE DES MATIRES

Prface
I

II

III

IV

Thorie de la mesure
I.1
Algbre, tribu . . . . . . . . . . . .
I.2
Ensembles de fonctions mesurables .
I.3
Classes monotones . . . . . . . . . .
I.4
Mesures . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

Intgration
II.1
Intgrale de fonctions positives . . . . . . . . . . .
II.2
Intgrale de fonctions quelconques et thormes de
II.3
Thorme de Radon-Nikodym . . . . . . . . . . .
II.4
Intgration par rapport une mesure image . . .
II.5
Thormes de Fubini-Tonelli . . . . . . . . . . . .
II.6
Espaces Lp . . . . . . . . . . . . . . . . . . . . . .
Mesures de probabilit
III.1 Dnition et exemples . .
III.2 Fonctions de rpartition .
III.3 Vecteurs alatoires . . . .
III.4 Moyennes et ingalits .
III.5 Fonctions caractristiques

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

1
. 1
. 6
. 9
. 13

. . . . . . .
convergence
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .

23
23
25
30
32
35
36

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

41
41
45
50
52
61

Indpendance
IV.1 Indpendance . . . . . . . . . . . . . . . . . . .
IV.2 Sommes de variables alatoires indpendantes .
IV.3 Applications de lindpendance . . . . . . . . . .
IV.4 Vecteurs alatoires gaussiens et lois gaussiennes

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

73
73
84
90
98

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

i
i

barbe 2007/1/8 10:41 page iv #4

Probabilit

VI

Convergence de suites de variables alatoires


V.1
Convergence presque sre . . . . . . . . . . .
V.2
Convergence en probabilit . . . . . . . . . .
V.3
Convergence dans Lp . . . . . . . . . . . . .
V.4
Convergence en loi . . . . . . . . . . . . . . .
V.5
Les lois faible et forte des grands nombres, le
central . . . . . . . . . . . . . . . . . . . . .
Probabilits et esprances conditionnelles
VI.1 Conditionnement discret . . . . . . . . . .
VI.2 Conditionnement (gnral) . . . . . . . . .
VI.3 Lois conditionnelles . . . . . . . . . . . . .
VI.4 Esprances conditionnelles dans les espaces

109
. 109
. 113
. 117
. 121

. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
thorme limite
. . . . . . . . . . 131

. . . . . .
. . . . . .
. . . . . .
gaussiens

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

149
150
156
159
164

VII Martingales ( temps discret)


173
VII.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
VII.2 Thormes de convergence . . . . . . . . . . . . . . . . . . . . 182
VII.3 Application la loi des grands nombres . . . . . . . . . . . . . 186
VIII Chanes de Markov ( espace dtats dnombrable)
VIII.1 La proprit de Markov . . . . . . . . . . . . . . . . .
VIII.2 Calcul des lois marginales . . . . . . . . . . . . . . . .
VIII.3 Gnralisation de la proprit de Markov . . . . . . .
VIII.4 Comportement asymptotique. Mesures invariantes . .
VIII.5 Rcurrence et transience . . . . . . . . . . . . . . . .
VIII.6 Comportement asymptotique dune chane de Markov

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

193
193
200
201
204
210
220

Bibliographie

227

Appendice : Lois de probabilits usuelles

229

Index terminologique

237

Index des notations

241

iv
i

i
i

barbe 2007/1/8 10:41 page v #5

PRFACE

Le calcul des probabilits est une branche trs vivante des mathmatiques
actuelles. Les premires formalisations de la notion de hasard au XVIIe sicle
rpondaient pour lessentiel diverses questions issues de la thorie des jeux. Au
cours du XXe sicle, le calcul des probabilits a trouv avec A. N. Kolmogorov
une axiomatique rigoureuse et ecace sappuyant sur lintgration de Lebesgue.
Lintuition probabiliste est aujourdhui un outil ecace dans diverses branches
des mathmatiques, de lanalyse et la thorie de la mesure jusqu la gomtrie
et mme lalgbre, et forme le support thorique des statistiques modernes.
Ce livre est consacr lexposition des notions de base du calcul des probabilits. Il sappuie de faon essentielle sur la thorie de la mesure et de lintgration de
Lebesgue. (Mesures de probabilits discrtes ou densit sont donc tudies dans
un mme cadre, au titre dexemples priviligis les plus usuels.) Les deux premiers
chapitres sont en fait un rappel des lments de base de la thorie lmentaire de
la mesure et de lintgrale de Lebesgue. Ils ne peuvent cependant tre considrs
comme un traitement exhaustif. Le lecteur peut consulter le livre de J. Faraut,
dans la mme collection, pour un expos plus complet. Le chapitre III introduit
les premiers aspects des probabilits avec les notions de variables alatoires et
de leurs lois, illustres par de nombreux exemples. Les fonctions caractristiques
(transformes de Fourier) y sont galement tudies. Le chapitre IV fait rellement
entrer le lecteur dans les considrations probabilistes avec le concept dindpendance. Laddition des variables alatoires indpendantes y est interprte comme
la traduction fonctionnelle, la riche intuition, du produit de convolution des mesures. Au chapitre V sont prsentes les diverses notions de convergence de suites
de variables alatoires, convergence presque sre, en probabilit, en loi. La loi des
grands nombres et le thorme central limite constituent les exemples fondamentaux de ces divers modes de convergence. Le chapitre suivant est un expos des
notions de conditionnement (probabilits, esprances, lois), illustr par le modle
gaussien. Le chapitre VII est une brve introduction la notion de martingale

i
i

barbe 2007/1/8 10:41 page vi #6

Probabilit

temps discret o sont notamment tablis le thorme darrt et les thormes


de convergence des martingales. Enn, le dernier chapitre traite succintement de
chanes de Markov (mesures invariantes, convergences). Un appendice prsentant
les lois de probabilits usuelles avec leurs caractristiques principales complte la
rdaction.
Ce livre est destin des tudiants de 3e anne de licence de mathmatiques
ayant suivi un cours de base de mesure et intgration, dont les lments fondamentaux sont toutefois rappels dans les deux premiers chapitres. Il ne suppose
pas une connaissance pralable des notions de probabilits enseignes dordinaire
dans les deux premires annes de licence et habituellement axs sur les probabilits discrtes et les problmes de combinatoire dont il nest fait que trs peu
tat dans cet ouvrage. Ce livre peut tre utilis comme support dun cours de
probabilit de L3, ou dun premier semestre de master. Cet ouvrage contient en
outre les prrequis ncessaires lpreuve crite de mathmatiques gnrales pour
lagrgation ainsi que pour les leons spcialises. Chaque chapitre est complt
par une srie dexercices destins approfondir et illustrer les lments de la
thorie venant dtre introduits.
Ce livre nest pas la contribution des seuls auteurs, mais rete en partie
aussi lenseignement des probabilits par lquipe du laboratoire de statistique et
probabilits de luniversit Paul-Sabatier de Toulouse au cours de ces dernires
annes. Nous remercions ainsi D. Bakry, M. Benam, Ph. Carmona, L. Coutin,
J.-L. Dunau, G. Letac, D. Michel et tous les membres du laboratoire pour nous
avoir permis de puiser librement dans leurs notes de cours et leurs rserves dexercices, et pour nous avoir conseill et relu divers moments de la prparation. Nous
remercions tout particulirement D. Michel et X. Milhaud pour avoir suppl le
chapitre VIII sur les chanes de Markov, ainsi que pour leur soutien et leur aide.
P. Lezaud a relu avec un soin extrme tout le manuscrit et a test la plupart
des exercices. Quil soit sincrement remerci pour cette tche bien ingrate. Un
dernier mot enn. Le temps pass la rdaction de ce livre est trs certainement
insusant pour que cet ouvrage puisse prtendre beaucoup doriginalit et pour
que le rsultat soit la hauteur des esprances et de lenthousiasme des premires
lignes. Il ne saurait tre aussi exempt dimperfections et derreurs pour lesquels
nous nous excusons par avance.
Un chapitre est numrot par un chire romain, et une section de chapitre
par un chire arabe. Un nonc dans une section est dsign par le numro de la
section et le numro dordre de cet nonc dans la section. Ainsi, II.3.4 dsigne
lnonc 4 dans la section 3 du chapitre II.
Toulouse, septembre 1998

Ph. Barbe, M. Ledoux

vi
i

i
i

barbe 2007/1/8 10:41 page vii #7

Prface

Prface la seconde dition


Nous remercions les ditions EDP Sciences, ainsi que lditeur scientique de
la collection, D. Guin, de nous proposer de publier une nouvelle dition de notre
ouvrage paru en 1998.
Le texte est pour lessentiel identique la version intiale. Celle-ci comporte un
nombre trop important derreurs, mineures ou plus srieuses, qui nuisent beaucoup sa lisibilit. Nous avons essay de corriger les principales erreurs et imperfections (sans toutefois pouvoir prtendre les avoir limines toutes). Plusieurs
corrections nous ont t aimablement communiques par divers collgues. Nous
remercions tout particulirement R. Ben David pour ses corrections et commentaires trs minutieux (mme si nous ne les avons pas tous suivis). Nous remercions
aussi M. Arnaudon, Fr. Barthe, M. Benam, B. Bercu, Ph. Carmona, H. Carrieu,
R. Chomienne, S. Cohen, Th. Delmotte, Th. Gallay, Ch. Leuridan, P. Lezaud et
D. Robert.
H. Carrieu prpare actuellement un fascicule des exercices corrigs de ce livre.
Nous le remercions bien vivement pour cet excellent complment.
Paris, Toulouse, septembre 2006

Ph. Barbe, M. Ledoux

vii
i

i
i

barbe 2007/1/8 10:41 page viii #8

i
i

barbe 2007/1/8 10:41 page 1 #9

I
THORIE DE LA MESURE

Lobjet de ce chapitre est de rappeler les lments de thorie de la mesure


qui seront indispensables au dveloppement du calcul des probabilits dans les
chapitres suivants. Une mesure abstraite sur un ensemble gnralise la notion
de longueur, daire ou de volume, sur la droite, le plan ou lespace. Intuitivement,
le lien avec les probabilits est quune probabilit mesure la vraisemblance dun
vnement.
Sur la droite (ou le plan, ou lespace), la longueur (ou laire, ou le volume) est
une fonction qui un ensemble associe un nombre rel positif. Cette fonction est
additive, au sens o applique A B, elle est la somme de la fonction applique
en A et de la fonction applique en B, pourvu que A et B soient disjoints. On
demandera une mesure abstraite de vrier cette additivit.
Un fait peu intuitif est quil existe des sous-ensembles de la droite (ou du
plan, ou de lespace) pour lesquels on ne peut pas dnir leur longueur (ou aire,
ou volume) (cf. exercice I.6). Il convient donc, dans un premier temps, de dnir
la classe densembles que lon veut (et peut) mesurer. Compte tenu de la proprit
dadditivit dcrite au paragraphe prcdent, on imposera par exemple que cette
classe soit stable par runion nie.

I.1. Algbre, tribu


Soit un ensemble.

Exemples I.1.1. (i) pourra tre R ou Rd , un espace mtrique, ou plus gnralement topologique.

i
i

barbe 2007/1/8 10:41 page 2 #10

Chapitre I. Thorie de la mesure

(ii) On joue au d en le lanant une fois. Lensemble peut tre pris comme
lensemble des faces du d, = { 1, 2, 3, 4, 5, 6 }. Lorsque lon lance le d au
hasard, cela revient choisir ( au hasard ) un lment de .
Il convient de remarquer que lon peut toujours ajouter des points . Dans
lexemple I.1.1.ii nous pourrions tout aussi bien prendre = { 1, 2, 3, 4, 5, 6, 7 }.
Mais intuitivement, 7 a une probabilit nulle dtre ralis.
On considre P() lensemble des parties de . Un sous-ensemble C de P()
est un ensemble de parties de .

Definition I.1.2. Un sous-ensemble C de P() est une algbre (de Boole) sur
si
(i) C,
(ii) C est stable par passage au complmentaire (i.e. A C \ A C),
(iii) C est stable par runion nie (i.e. A1 , . . . , Ak C A1 Ak C).
Dans laxiome (iii) de la dnition I.1.2, on pourrait se contenter de k = 2,
le cas gnral sen dduisant par rcurrence. Par passage au complmentaire, une
algbre est aussi stable par intersection nie.

Definition I.1.3. Un sous-ensemble A de P() est une tribu sur si


(i) A,
(ii) A est stable par passage au complmentaire (i.e. A A \ A A),

(iii) A est stable par runion dnombrable (i.e. Ai A, i N iN Ai A).
On dit aussi que A est une -algbre. Le couple (, A) form dun ensemble
et dune tribu A sera appel un espace mesurable. Les lments de A sont
appels ensembles mesurables.
Toute tribu est une algbre.
Expliquons le sens de ces deux dnitions. Tout dabord le de -algbre
est un acronyme de dnombrable par rfrence laxiome (iii) dans la dnition
dune tribu.

Exemples I.1.4. (i) P() est toujours une algbre et une tribu.
(ii) Le sous-ensemble { , } de P(), compos de la partie vide et de , est une
algbre et une tribu, appele algbre ou tribu triviale.
2
i

i
i

barbe 2007/1/8 10:41 page 3 #11

I.1. Algbre, tribu

(iii) Lensemble des ouverts de Rd nest pas une algbre (et donc nest pas une
tribu) car le complmentaire dun ouvert nest pas ncessairement ouvert.
(iv) Une runion de deux algbres nest pas une algbre en gnral. Considrer par exemple = { 0, 1, 2 }, les algbres C1 = { , { 0, 1, 2 }, { 0 }, { 1, 2 } } et
C2 = { , { 0, 1, 2 }, { 1 }, { 0, 2 } }, puis remarquer que la runion de { 0 } et { 1 }
nappartient pas C1 C2 .
(v) Une intersection dun nombre quelconque dalgbres (resp. de tribus) est une
algbre (resp. une tribu).
Certains auteurs dnissent les algbres comme tant stables par runion et
intersection nies.
En gnral, il est dicile dexpliciter tous les lments dune tribu. Les algbres
et les tribus se dcrivent le plus souvent par leurs lments gnrateurs.

Definition I.1.5. Soit E un sous-ensemble de P().


(i) Lalgbre C(E) engendre par E est lintersection de toutes les algbres
contenant E.
(ii) La tribu (E) engendre par E est lintersection de toutes les tribus contenant E.
Compte tenu de la dnition I.1.5, on peut parler de la tribu engendre par
deux tribus A1 et A2 , que lon note A1 A2 ou aussi (A1 A2 ), ou encore
(A1 , A2 ). On prendra bien soin de remarquer, daprs lexemple I.1.4.iv, que
A1 A2 est en gnral dirent de A1 A2 .

Exemples I.1.6. (i) Soit A une partie de . Lalgbre C({ A }) et la tribu ({ A })


sont { , , A, Ac }.
(ii) Plus gnralement,
si S = { S1 , . . . , Sn } est une partition nie de , cest-
dire = 1in Si et Si Sj = pour i = j, alors


Si : T {1, . . . , n} ,
C(S) =
iT

o T parcourt lensemble des parties de { 1, . . . , n }, lensemble vide compris. En


particulier, C(S) est en bijection avec lensemble des parties de { 1, . . . , n } et se
compose de 2n lments.
(iii) Si S = { Si : i N } est une partition de , alors


Si : T N .
(S) =
iT

3
i

i
i

barbe 2007/1/8 10:41 page 4 #12

Chapitre I. Thorie de la mesure

Definition I.1.7. Si est un espace topologique, on appelle tribu borlienne,


note B(), la tribu engendre par les ouverts de . Un borlien est un ensemble appartenant la tribu borlienne.
La tribu borlienne est aussi engendre par les ferms puisque la tribu est
stable par passage au complmentaire.

Exemple I.1.8. Sur R, la tribu borlienne concide avec la tribu engendre par les
intervalles ] a, b [, a < b . Elle concide aussi avec la tribu engendre
par les intervalles [ a, b ], ou ] a, b ], ou [ a, b [.
On prendra bien soin de constater que si les lments dune famille gnratrice
sont explicites, il nen est rien en gnral des lments de la tribu (la plupart des
borliens de R ne sont pas des intervalles !).
Dans la suite, lorsque est Rd (ou un espace topologique), il sera toujours
muni de sa tribu borlienne. Si est discret, on le munira de la tribu de ses
parties.
Lorsque lon a deux ensembles 1 et 2 , on dnit leur produit 1 2 , sur
lequel on peut ventuellement dnir des structures produits (topologie produit,
groupe produit, etc). Lorsque lon a des espaces mesurables (i , Ai ), i = 1, 2, on
souhaite faire de lespace produit 1 2 un espace mesurable.

Definition I.1.9. Soient (i , Ai ), i = 1, 2, deux espaces mesurables. On appelle


ensemble lmentaire de = 1 2 une runion nie de pavs A1 A2 , avec
Ai Ai , i = 1, 2. La tribu produit A1 A2 sur est la tribu engendre par
les ensembles lmentaires.
Exemples I.1.10. (i) Les ensembles lmentaires forment une algbre.
(ii) En utilisant le fait que tout ouvert de R2 peut scrire comme une runion
dnombrable de pavs dintervalles ouverts, on montre que B(R2 ) = B(R) B(R).
On montre de mme que la tribu sur Rd engendre par d copies de B(R) est
B(Rd ) = B(R) B(R).
De faon gnrale, en mathmatique, lorsquune structure est dnie sur un espace, on souhaite pouvoir la transporter sur dautres espaces par des fonctions. En
gnral, on utilise dailleurs les images rciproques par les fonctions. Par exemple,
sur R, la structure dordre est prserve par la rciproque dune application croissante (i.e. si x < y sont dans limage de R par une fonction f croissante, alors
4
i

i
i

barbe 2007/1/8 10:41 page 5 #13

I.1. Algbre, tribu

f 1 (x) < f 1 (y)). De mme, la structure topologique est prserve par application de la rciproque dune application continue (i.e. f est continue si f 1 (U ) est
ouvert pour tout ouvert U ). La notion analogue dans le contexte de la thorie de
la mesure est celle de mesurabilit.
Si f est une application de dans E et si B est une partie de E, on notera


f 1 (B) = : f () B .
Si B est une famille de parties de E, on notera


f 1 (B) = f 1 (B) : B B .
Noter que si B est une algbre (resp. tribu), f 1 (B) est une algbre (resp. tribu)
daprs les proprits de limage rciproque ensembliste f 1 .

Definition I.1.11. (i) Soient (, A) et (E, B), deux espaces mesurables. Soit
f une fonction de dans E. On dit que f est mesurable (pour A et B) si
f 1 (B) A ; cest--dire, f 1 (B) A pour tout B B.
(ii) Si f est une fonction de dans (E, B), on appelle tribu engendre par f ,
note (f ), la plus petite tribu (sur ) qui rend f mesurable ; autrement dit,
(f ) = f 1 (B).
(iii) Plus gnralement, si F est une famille de fonctions dun ensemble
valeurs dans (E, B), on appelle tribu engendre par F la plus petite tribu (sur
) qui rend mesurable toute fonction de F (i.e. la tribu engendre par les
ensembles de la forme f 1 (B) pour B B et f F). On la note (F).
Avec les notations de cette dnition, dire que f est mesurable de (, A) dans
(E, B) revient dire que (f ) A.

Exemples I.1.12. (i) Si A est une partie de , on dnit la fonction indicatrice de


A par A () = 1 si A et A () = 0 si  A. Soit A une tribu sur . En
tant que fonction valeurs dans (R, B(R)), la fonction A est mesurable pour A
si et seulement si A A.
(ii) Soit R muni de sa tribu borlienne B(R) et soit 1 la projection de R R
sur sa premire composante R dnie par 1 (x, y) = x. La tribu engendre par
1 est forme des ensembles B R o B dcrit les borliens de R. Cette tribu
est dirente de la tribu borlienne de R2 . On notera que 1 est mesurable de
(R2 , B(R2 )) dans (R, B(R)) bien que (1 ) ne concide pas avec la tribu borlienne
de R2 .
5
i

i
i

barbe 2007/1/8 10:41 page 6 #14

Chapitre I. Thorie de la mesure

(iii) La tribu borlienne de R2 est engendre par les projections 1 et 2 sur les
1
coordonnes. En eet, 1
1 (A) 2 (B) = (A ) ( B) = A B, et les
2
rectangles engendrent la tribu B(R ) = B(R) B(R) (cf. I.1.9 et I.1.10).

Definition I.1.13. Une fonction mesurable de (, A) dans un espace topologique


muni de sa tribu borlienne (E, B(E)) est dite borlienne.
Puisque nous munirons toujours R ou Rd de sa tribu borlienne, les fonctions
mesurables valeurs relles sont borliennes.
En pratique les tribus tant le plus souvent dnies par une partie gnratrice,
la dnition I.1.11 est dicile vrier. La proposition suivante montre que pour
quune fonction soit mesurable, il sut de vrier sa proprit caractristique sur
une famille gnratrice de la tribu darrive.

Proposition I.1.14. Soient et E deux ensembles. Soit E P(E) et soit B = (E).


La tribu engendre par une fonction f de dans (E, B) est (f ) = (f 1 (E)) =
({ f 1 (C) : C E }).
Plus gnralement, si F est une famille de fonctions de dans (E, B), alors
(F) = ({ f 1 (C) : C E ; f F }).
En particulier, pour quune fonction f de (, A) dans (E, (E)) soit mesurable, il sut que f 1 (E) soit inclus dans A.
Dmonstration. Soit

T =



B E : f 1 (B) f 1 (E) .

Il est ais de vrier que T est une tribu qui contient E. Donc T contient (E).
Soit prsent A (f ). Par dnition, A = f 1 (B) pour un certain B (E).
Il sensuit B T et par construction de T , A = f 1 (B) (f 1 (E)). Ainsi,
(f ) (f 1 (E)). Linclusion rciproque est vidente.
Le cas dune famille quelconque se traite de la mme faon.
Enn, si f 1 (E) A, alors (f 1 (E)) A. Comme (f 1 (E)) = (f ) par le
premier point, la conclusion sensuit.


I.2. Ensembles de fonctions mesurables


Nous rassemblons ici quelques faits sur les fonctions mesurables, montrant que
cest une classe assez naturelle de fonctions.
6
i

i
i

barbe 2007/1/8 10:41 page 7 #15

I.2. Ensembles de fonctions mesurables

Proposition I.2.1. La compose de deux fonctions mesurables est mesurable.


Dmonstration. Soient fi : (i , Ai ) (i+1 , Ai+1 ), i = 1, 2, mesurables.
Soit A A3 . On a (f1 f2 )1 (A) = f 1 (f21 (A)). Puisque f2 est mesurable,

f21 (A) A2 , et puisque f1 est mesurable, f11 (f21 (A)) A1 .

Lemme I.2.2. Si f, g sont des fonctions mesurables de (, A) dans (R, B(R)), alors
 (f (), g()) R2 est mesurable de (, A) dans (R2 , B(R2 )).
Dmonstration. Soit AB un rectangle dans B(R2 ), et h() = (f (), g()). Alors,

h1 (A B) = f 1 (A) g1 (B) A. Puisque les rectangles engendrent B(R2 ),


on conclut grce la proposition I.1.14.

Les fonctions mesurables par rapport une tribu borlienne forment une classe
plus vaste que les fonctions continues :

Proposition I.2.3. Soient 1 , 2 deux espaces topologiques munis de leur tribu borlienne. Toute fonction continue de 1 dans 2 est mesurable (ou borlienne
ici).
Dmonstration. Remarquer que si U est ouvert dans 2 et f est une fonction

continue, f 1 (U ) est ouvert. Puis appliquer la proposition I.1.14.

Si x et y sont deux nombres rels, on note x y leur maximum.

Corollaire I.2.4. Lespace des fonctions mesurables (borliennes) de (, A) dans


(R, B(R)) est stable pour les oprations de multiplication par une constante
(f )() = f () ( R), daddition (f + g)() = f () + g(), de multiplication (f g)() = f ()g(), et du maximum (f g)() = f () g()
Dmonstration. La fonction  f () est la compose de la fonction mesurable
f et de la fonction continue x  x. De mme f + g (resp. f g, resp. f g) est la
compose de la fonction mesurable  (f (), g()) (en vertu du lemme I.2.2),
et de la fonction continue (x, y)  x + y (resp. (x, y)  xy, resp. (x, y)  x y).


Il est facile de voir quune limite ponctuelle de fonctions croissantes est croissante, mais quune limite ponctuelle de fonctions continues nest pas ncessairement continue. La classe des fonctions mesurables est stable par limite simple.
7
i

i
i

barbe 2007/1/8 10:41 page 8 #16

Chapitre I. Thorie de la mesure

Theor`eme I.2.5. Soit (fn )nN une suite de fonctions mesurables de (, A) dans un
espace mtrique (E, d) muni de sa tribu borlienne. Si fn converge ponctuellement
vers f (i.e. pour tout , lim fn () = f ()), alors f est mesurable.
n

Dmonstration. Daprs la proposition I.1.14, il sut de montrer que si U est

ouvert dans E, alors f 1 (U ) A. Posons Ur = { x U : d(x, E \ U ) > 1/r },


r 1 entier. Lensemble Ur est ouvert, donc est un borlien de E. Ainsi,
f 1 (U ) =

fn1 (Ur )

r,m nm

est un borlien.

On peut approcher toute fonction mesurable par des fonctions mesurables plus
simples.

Definition I.2.6. Soit (, A) un espace mesurable. On

appelle fonction tage


d
( valeurs dans R ) une fonction de la forme f () = 1ik ai Ai () o les Ai
sont des lments disjoints de A, et o les coecients ai appartiennent Rd .
Proposition I.2.7. Toute fonction f mesurable de (, A) dans (R, B(R)) est limite
simple de fonctions tages. Si f est positive, la limite peut tre choisie croissante.
Dmonstration. Prenons dabord f positive. Dnissons pour n, k 1,


An,k =

k1
k 

f
()
<
.
2n
2n

Les An,k sont lments de A en tant quimages rciproques par la fonction mesurable f dintervalles. La suite
fn () =


1k2n2

k1
An,k ()
2n

converge en croissant vers f .


Si f est quelconque, crivons f = f + f avec f + = f 0 et f = (f ) 0,
et approximons les fonctions positives f + et f par la mthode prcdente. 
8
i

i
i

barbe 2007/1/8 10:41 page 9 #17

I.3. Classes monotones

I.3. Classes monotones


Nous souhaitons nalement pouvoir mesurer les lments dune tribu, cest-dire dnir une fonction qui chaque ensemble de la tribu associe un rel positif,
et qui vrie un certain nombre daxiomes. Une des dicults a priori est quune
tribu peut contenir beaucoup densembles. On souhaite donc pouvoir dnir la
mesure sur une classe plus restreinte densembles et avoir un procd dextension
permettant alors de la dnir sur toute la tribu. Le but de cette section est de
construire le bon outil pour raliser le procd dextension. Son intrt apparatra
clairement dans la suite du cours.

Definition I.3.1. Une famille M de parties de est appele une classe monotone si
(i) M,
(ii) si A, B M et B A, alors A \ B M,
(iii) M est stable
par runion monotone croissante (i.e. Ai M, i N,

Ai Ai+1 iN Ai M).
Si E P(), on note M(E) la classe monotone engendre par E, cest-dire lintersection de toute les classes monotones contenant E.
Exemples I.3.2. (i) Une tribu est une classe monotone.
(ii) Une classe monotone M, stable par intersection nie, est une tribu. En eet,
M est aussi stable par runion nie envertu de I.3.1.ii,

et toute runion peut
scrire comme une runion croissante ( iN Ai = iN ( ji Aj ) pour toute famille Ai , i N).
Pour que la dnition dune classe monotone engendre par E ait un sens, il
faut vrier que lintersection de deux, ou dun nombre quelconque, de classes
monotones est une classe monotone.
Le thorme important suivant arme que la classe monotone engendre par
une famille de parties de stable par intersection nie concide avec la tribu
engendre par cette famille.

Theor`eme I.3.3 (des classes monotones). Soit E une famille de parties de , stable
par intersection nie. Alors M(E) = (E).
Dmonstration. En vertu de lexemple I.3.2.i, (E) est une classe monotone qui

contient E et donc M(E) (E). Pour dmontrer linclusion inverse, nous montrons que M(E) est stable par intersection nie. Alors, daprs I.3.2.ii, M(E)

9
i

i
i

barbe 2007/1/8 10:41 page 10 #18

Chapitre I. Thorie de la mesure

sera une tribu contenant E, et donc (E) M(E). Il sut de prouver que si
A, B M(E), alors A B M(E). Soit
M1 = { A M(E) : B E , A B M(E) } .
Lensemble M1 est une classe monotone qui contient E, donc M(E). Soit prsent
M2 = { B M(E) : C M(E) , B C M(E) } .
Lensemble M2 est une classe monotone. Montrons quil contient E. Il faut dmontrer pour cela que si B E, alors
C M(E) , B C M(E) .
Or C M(E) M1 , et donc, puisque B E, B C = C B M(E). Ainsi,
M2 E, donc M2 M(E), ce qui montre que M(E) est stable par intersection
nie. Le thorme est tabli.

Il existe dans la littrature direntes dnitions dune classe monotone donnant lieu direntes versions du thorme des classes monotones. Par exemple,
on peut supprimer laxiome (ii) de la dnition I.3.1 et imposer dans le thorme I.3.3 que la classe E soit en outre stable par passage au complmentaire,
cest--dire quelle soit une algbre. La version prsente est la mieux adapte
ltude de lindpendance dans le chapitre IV.
Nous tudions prsent la version fonctionnelle du thorme des classes monotones. Pour cela, si f est une fonction dnie sur un espace , valeurs relles
et borne, nous notons f  = sup{|f ()| : } sa norme uniforme.
Rappelons quune suite de fonctions (fn )nN sur est croissante si pour tout
dans , la suite fn () est croissante. De plus, la suite est borne sil existe une
constante positive C telle que |fn ()| C pour tout n et tout ; autrement dit,
si supnN fn  est ni. Clairement, une suite croissante borne converge.

Definition I.3.4. (i) Un ensemble H de fonctions de dans R est dit stable par
convergence monotone borne si la limite de toute suite croissante et borne
de H est aussi dans H.
(ii) Un ensemble H est dit monotone sil contient les constantes et est stable
par convergence monotone borne.
Observons que lintersection dun nombre arbitraire densembles monotones
de fonctions relles dnies sur est un ensemble monotone.
10
i

i
i

barbe 2007/1/8 10:41 page 11 #19

I.3. Classes monotones

Rappelons que si F est une famille de fonctions sur valeurs relles, (F)
dsigne la plus petite tribu sur qui rend mesurables les fonctions de F lorsque
R est muni de sa tribu borlienne. Rappelons enn quun ensemble C est stable
par multiplication si pour tous f, g dans C, le produit f g est dans C.
Le thorme suivant peut tre considr comme une version mesurable du
thorme de Stone-Weierstrass.

Theor`eme I.3.5 (des classes monotones fonctionnelles). Soit C un ensemble de


fonctions relles bornes sur stable par multiplication et contenant les
constantes. Tout espace vectoriel monotone contenant C contient les fonctions
bornes mesurables par rapport (C).
Dmonstration. Lensemble des fonctions relles bornes sur est un espace vectoriel. On peut ainsi considrer H0 , le plus petit sous-espace vectoriel monotone
contenant C. Puisque C contient les constantes, H0 les contient aussi. Il sut de
montrer que H0 contient les fonctions bornes mesurables par rapport (C).

Lemme I.3.6. H0 est stable par multiplication.


Dmonstration. Elle est semblable la dmonstration du thorme I.3.3. Si A et B

sont deux ensembles de fonctions relles, on note AB lensemble des fonctions de


la forme f g o f est dans A et g dans B. Dire que A est stable par multiplication
revient dire que AA est inclus dans A. On montrera dabord que CH0 H0 ,
puis que H0 H0 H0 .
Pour toute fonction f de H0 , dnissons lensemble
Hf = { g H0 : f g H0 } .
Cest un espace vectoriel. Il contient les constantes puisque dune part toute fonction constante est dans C et donc dans H0 , et dautre part parce que f est prise
dans H0 . Si f est borne, cet espace vectoriel est aussi stable par convergence
monotone borne ; en eet, si (gn ) est une suite de fonctions bornes dans Hf ,
convergeant en croissant vers g dans H0 , lgalit f gn = (f + f  )gn f  gn
et lappartenance de f gn et f  gn H0 montrent que (f + f  )g et f  g
sont aussi dans H0 , et donc que f g est dans H0 .
Si f est dans C, lespace Hf contient C. Donc, puisque nous venons de voir que
stable par convergence monotone borne, il contient
Hf est un espace vectoriel
aussi H0 . On a donc H0 = f C Hf , ce qui montre CH0 H0 .
Si maintenant f est dans H0 , nous dduisons de ce qui prcde que
C est inclus
dans Hf . Donc, par minimalit de H0 , on a H0 Hf . Ainsi, H0 = f H0 Hf , ce

qui montre que H0 H0 H0 .
Si B est une tribu, on note b(B) lensemble des fonctions B-mesurables bornes.
11
i

i
i

barbe 2007/1/8 10:41 page 12 #20

Chapitre I. Thorie de la mesure

Lemme I.3.7. Si H0 est un espace vectoriel monotone


de fonctions bornes, stable

par multiplication, alors il concide avec b (H0 ) .


Dmonstration. On a linclusion vidente H0 b (H0 ) .

i) Montrons que H0 est stable par lapplication valeur absolue. Soit donc f une
fonction non nulle dans H0 . Quitte remplacer f par f /f  , on peut supposer
|f | 1. Observons que


i (1 f 2 )i
|f | = 1 (1 f 2 ) = 1
i1

o les i

sont positifs. Il sensuit que 1 |f | est la limite croissante des fonctions


bornes 1in i (1 f 2 )i . Puisque chacune de ces fonctions est dans H0 ainsi
que les constantes, la fonction |f | est aussi dans H0 .
ii) Montrons que H0 est stable par les oprations maximum et minimum . Pour
cela, soient f et g deux fonctions de H0 . Puisque f + = (f +|f |)/2 et f = (f )+
sont dans H0 , les reprsentations f g = g + (f g)+ et f g = (f ) (g)
montrent la stabilit de H0 par maximum et minimum.
iii) Montrons que lensemble A = { A : A H0 } est une tribu. Puisque H0
contient les constantes, A contient . Dautre part, A est stable par complmentation, puisque si A est dans H0 , alors 1 A est aussi dans H0 . Enn, si An ,
n N, est une suite dlments de A, nN An est la limite monotone borne des
fonctions maxin Ai de H0 , et donc appartient H0 .
Le reste de la dmonstration consiste montrer que A et (H0 ) concident,
puis que H0 et b(A) concident aussi.
iv) Montrons que A (H0 ). Si A est dans A, alors A est dans H0 . En crivant
A comme limage rciproque de { 1 } par A , on voit que A est dans (H0 ).
v) Montrons que (H0 ) A. Daprs la dnition I.1.11, il convient de montrer
que toute fonction de H0 est A-mesurable. Soit donc f dans H0 . Quitte remplacer f par f + f  , on peut supposer que f est positive. Il sut de montrer que
pour tout t positif, { f t }, ou autrement dit { f /t 1 } est dans A. Donc, en
remplaant f par f /t, il sut de montrer que { f 1 } est dans A. Cest immdiat
puisque {f 1} est limite monotone de la suite (f 1)n dlments de H0 .
vi) Montrons que b(A) H0 . La proposition I.2.7 montre que toute fonction positive A-mesurable est limite croissante de fonctions tages A-mesurables. Donc
les fonctions positives bornes et A-mesurables sont dans H0 . En crivant toute
fonction comme la dirence de sa partie positive et sa partie ngative, linclusion
b(A) H0 sensuit.
vii) Montrons

enn que H0 b(A). Cela dcoule du point v) et de linclusion

H0 b (H0 ) .
12
i

i
i

barbe 2007/1/8 10:41 page 13 #21

I.4. Mesures

Nous pouvons prsent conclure ladmonstration


du thorme. Linclusion


C H0 donne (C)
 (H0 ), et donc b (C) b (H0 ) . Enn, le lemme I.3.7
montre que b (H0 ) = H0 .


I.4. Mesures
Definition I.4.1. Soit (, A) un espace mesurable.
Une application de A dans R { } est -additive si pour toute fade A, indexe par un ensemble I ni ou dnombrable,
mille

 Ai dlments
( iI Ai ) = iI (Ai ).
On appelle mesure (positive) toute application de A dans R+ { },
-additive, et telle que () = 0.
On dit quune mesure est
 -nie sil existe une famille dnombrable
An A, n N, telle que = nN An et (An ) < . Une telle famille est
appele une suite dexhaustion de .
Un espace mesurable muni dune mesure est appel espace mesur. De plus,
si () = 1, on dit que est une mesure de probabilit ou simplement une
probabilit. Une mesure de probabilit est -nie.
On appelle mesure signe la dirence de deux mesures (positives).

Exemples I.4.2. (i) Jeu de d. Soit = { 1, 2, 3, 4, 5, 6 } les 6 faces possibles dun


d, muni de la tribu des parties, P(). Vrier que (A) = card(A)/6 est une
probabilit. Remarquer que (A) reprsente bien la probabilit que A survienne :
cest le nombre de faces qui provoquent A, divis par le nombre total de faces du
d.
(ii) Soit (, A) un espace mesurable et . Lapplication
: A A  (A) = A ()
est une mesure de probabilit, appele masse de Dirac en .
(iii)

Sur un ensemble dnombrable muni de la tribu de ses parties, la mesure


est appele mesure de comptage. On remarquera que si A , (A) est
le cardinal de A, donc compte le nombre dlments de A.
La proposition suivante regroupe quelques proprits importantes des mesures.

Proposition I.4.3. Soit (, A) un espace mesurable et (Ai )iI , I N, une famille


nie ou dnombrable densembles mesurables.
13
i

i
i

barbe 2007/1/8 10:41 page 14 #22

Chapitre I. Thorie de la mesure

(i) Si A1 A2 , alors (A1 ) (A2 ) (i.e. est croissante).


(ii) ( iI Ai ) iI (Ai ) (i.e. est sous-additive).

(iii) Si Ai Ai+1 pour tout i, alors ( i Ai ) = limi (Ai ).

(iv) Si Ai Ai+1 pour tout i et (Ai0 ) < pour un certain i0 , alors ( i Ai ) =
limi (Ai ).
Dmonstration. (i) A2 est la runion disjointe des ensembles mesurables A1 et

A2 \ A1 , et laxiome principal de la dnition I.4.1 dune mesure fournit (A2 ) =


(A1 ) + (A2 \ A1 ) (A1 ).
(ii) Si I est ni, par exemple I = { 1, 2, 3, . . . , n }, on procde par rcurrence en
remarquant que


(A1 A2 ) = A1 (A2 \ A1 ) = (A1 ) + (A2 \ A1 ) (A1 ) + (A2 ) ,
puisque A1 et A2 \ A1 sont disjoints et A2 \ A1 A2 . Si I est inni, on peut
supposer I = N. On a alors, pour tout k 0,

 
Ai
(Ai ) .

iN

0ik


En considrant les ensembles croissants Bk = 0ik Ai , le rsultat se dduit de
(iii) que nous montrons maintenant.
(iii) Soit B
k = Ak+1 \ Ak , k N. Les ensembles Bk sont disjoints, et comme
Ai = A0 0ki1 Bk , i N, on a


Ai = A0 Bk .
i

On utilise alors la -additivit pour obtenir


 

Ai = (A0 ) +
(Bk )

k0

= (A0 ) + lim

0ki1

= lim (A0 ) +
i

(Bk )


(Bk )

0ki1

= lim (Ai ) .
i

(iv) Soit i0 tel que (Ai0 ) < . Les Bi = Ai0 \ Ai , i i0 forment une suite
croissante et (Ai0 ) = (Bi ) + (Ai ) (Bi ). Ainsi, la suite (Bi ), i i0 , est
14
i

i
i

barbe 2007/1/8 10:41 page 15 #23

I.4. Mesures

une suite croissante borne. Donc la limite limi (Bi ) existe et, la premire
galit ci-dessous venant de (iii),

 
 

Bi = Ai0 \
Ai = (Ai0 )
Ai .
lim (Bi ) =
i

Donc

ii0


Ai

ii0

ii0



= (Ai0 ) lim (Bi ) = lim (Ai0 ) (Bi ) = lim (Ai ) ,
i

ii0

ce qui dmontre lassertion.

Exemples I.4.4. (i) Soit (, A, ) un espace mesur et A A. Alors A dnie


par A (B) = (A B) est une mesure sur (, A). On peut bien sr remplacer
ici la tribu A par la tribu trace de A sur A compose des ensembles mesurables
A B, B A.
(ii) Si est une mesure sur (, A) et un rel positif, alors dnie par
()(A) = (A), A A, est une mesure. En particulier si 0 < (A) < , alors
A ()/(A) est une probabilit. Cest la probabilit conditionnelle sachant A (cf.
chapitre VI).
Comme dans la section prcdente o nous avons tudi le transport de structures par des applications, nous souhaitons pouvoir transporter une mesure dun
espace vers un autre.

Definition I.4.5. Soit f une application mesurable dun espace mesur (, A, )


dans un espace mesurable (E, B). Lapplication f de B dans R+ { } dnie par f (A) = (f 1 (A)) dnit une mesure sur (E, B), appele mesure
image de par f .
Nous laissons au lecteur le soin de vrier que f est bien une mesure. Elle
est parfois note f 1 .

Exemple I.4.6. Considrons le jeu de d avec = { 1, 2, 3, 4, 5, 6 } et la probabilit dnie par (A) = card(A)/6. Soit f : { 0, 1 } dnie par f () = 1 si
est pair, et 0 si est impair. On vrie que
f ({ 0 }) = f ({ 1 }) = 1/2 ,
i.e. on a une chance sur deux dobtenir un chire pair en jouant au d. Cet exemple
montre simplement que le formalisme utilis nest pas absurde et concide avec
lintuition que lon peut avoir du hasard.
15
i

i
i

barbe 2007/1/8 10:41 page 16 #24

Chapitre I. Thorie de la mesure

La construction de mesures est un point dlicat. En pratique, la tribu sur


peut ne pas tre donne de faon trs explicite (penser par exemple la tribu
borlienne sur R) et on ne peut pas vraiment dnir une mesure en spciant
sa valeur explicitement pour tout ensemble mesurable. Il est donc souhaitable
davoir un procd permettant de dnir une mesure sur une partie de la tribu,
puis de ltendre de faon canonique lensemble de la tribu. En particulier, cette
extension doit tre unique, ce qui ne peut tre vrai que si la classe densembles de
dpart est susamment riche. Un premier pas dans cette direction est donn par la
proposition suivante, consquence du thorme des classes monotones. Elle montre
que deux mesures concident si elles concident sur une algbre qui engendre la
tribu.

Proposition I.4.7. Soient , deux mesures sur (, A). Soit C une algbre qui
engendre A. Si et concident sur C, alors elles sont gales.
Dmonstration. Lensemble M = { A A : (A) = (A) } est une classe mono-

tone qui contient C. Puisque C est stable par intersection nie, par le thorme
I.3.3 des classes monotones, A M M(C) = (C) = A et ainsi M = A. Donc
et concident bien partout.


Exemple I.4.8. Sur un espace produit, une mesure est dtermine par sa valeur
sur les pavs (voir dnition I.1.9 et I.1.10.i.)
Un deuxime pas nous est fourni par le thorme de prolongement de Carathodory. Une application dnie sur une algbre
de Boole


C valeurs dans
R+ { } est dite additive si () = 0 et si ( 1in Ai ) = 1in (Ai ) pour
tous A1 , . . . , An C disjoints.

Theor`eme I.4.9 (de prolongement). Si est une fonction additive densembles, positive, dnie sur une algbre de Boole C de parties de avec () < , elle se
prolonge de faon unique en une mesure sur (, (C)).
La dmonstration de ce thorme est admise. On peut se rfrer Neveu (1964,
I.5).

Exemples I.4.10. (i) Sur R, les runions nies dintervalles forment une algbre
de Boole C. Dnissons
 (] a, b ]) = b a et prolongeons par additiv C.
Prcisment, si A = 1in ] ai , bi ] avec ] ai , bi ] disjoints,
(A) =

(bi ai ) .

1in

16
i

i
i

barbe 2007/1/8 10:41 page 17 #25

I.4. Mesures

Alors est une fonction additive densembles et stend la tribu borlienne


sur R. On appelle mesure de Lebesgue cette extension. La mesure de Lebesgue
dun intervalle [ a, b ], ] a, b [ ou [ a, b [ est sa longueur b a. On pourrait faire une
construction analogue laide de ces dirents intervalles. Plus gnralement,
pour une fonction croissante F : I R sur un intervalle I de R, on peut poser
F (] a, b ]) = F (b) F (a) ; ceci dnit la famille des mesures dites de Stieltjes.
(ii) Soient (i , Ai , i ), i = 1, 2 deux espaces mesurs. Sur (1 2 , A1 A2 ) on
dnit la mesure produit par 1 2 (A1 A2 ) = 1 (A1 ) 2 (A2 ) pour Ai Ai ,
i = 1, 2. Par linarit, on tend la dnition aux ensembles lmentaires au sens
de la dnition I.1.9. La mesure produit stend de manire unique la tribu
produit par le thorme I.4.9.
(iii) Si est la mesure de Lebesgue sur R, on dnit sur Rd (mesure
de Lebesgue sur Rd ). Alors coincide avec lextension de la fonction
additive densembles dnie dabord sur les pavs par
(] a1 , b1 ] ] ad , bd ]) = (b1 a1 ) (bd ad ) ,
et tendue par additivit aux runions nies de pavs.
La mesure de Lebesgue sur R ou Rd a la proprit importante dtre invariante
par translation. En eet, si x est un vecteur de Rd , A un borlien de Rd , notons
x (A) = { a + x : a A }
le translat de A par x. Montrons que pour tout x Rd , et tout A B(Rd ),


x (A) = (A) .
La classe

E = A =] a1 , b1 ] ] ad , bd ] Rd : x Rd ,




x (A) = (A)

est stable par intersection nie et contient tous les pavs. Donc M(E) = (E) =
B(Rd ) daprs le thorme des classes monotones I.3.3 et la dnition de B(Rd )
(exemple I.1.12.iii). On peut de plus dmontrer que la mesure de Lebesgue est,
une constante de proportionnalit prs, lunique mesure invariante par translation
sur Rd .
(iv) Soit D lensemble des droites du plan. Nous allons construire sur D une mesure
analogue la mesure de Lebesgue sur Rd , laquelle nous permettra de mesurer des
ensembles de droites du plan.

17
i

i
i

barbe 2007/1/8 10:41 page 18 #26

Chapitre I. Thorie de la mesure

Si D est une droite du plan, on la reprera


par ses coordonnes polaires. Ainsi, on notera
D = D(, p) o p est la distance entre la droite
D et lorigine O, est langle entre laxe Ox et
la droite perpendiculaire D passant par O. On
prendra dans [ 0, 2 [ et p positif ou nul.
Soit sur [ 0, 2 [[ 0, [ la mesure de
Lebesgue dnie partir des pavs par


[ 1 , 2 ] [ p1 , p2 ] = (1 2 )(p1 p2 ) , 0 1 2 2 ,
0 p1 p2 < .
Cette mesure induit une mesure sur lensemble des droites par


(A) = (, p) : D(, p) A .
La mesure est donc la mesure image de par lapplication (, p)  D(, p).
Considrons sur D lensemble des mouvements euclidiens, cest--dire les compositions de translations x et de rotations R dangle autour de lorigine. Notons
e() le vecteur de coordonnes (cos , sin ) dans R2 , et notons x, y le produit
scalaire de deux vecteurs x, y R2 . Observons que


x D(, p) = D(  , p )
avec


=
et


p =

mod 2

p + x, e()
|p + x, e()|

si p + x, e() > 0


sinon
si p + x, e() > 0
.
sinon

On voit donc quune translation x se traduit par un translation sur (, p). Puisque
la mesure est invariante par translation modulo 2, est invariante par x . De
mme est invariante par toute rotation R dangle , puisque
R D(, p) = D( + mod 2, p)
induit encore une translation sur (, p).
On dmontre que la mesure ainsi dnie est, une constante de proportionnalit prs, lunique mesure sur les ensembles de droites qui est invariante par les
mouvements euclidiens.
Signalons enn la dnition suivante qui sera trs utile pour la suite.
18
i

i
i

barbe 2007/1/8 10:41 page 19 #27

Exercices

Definition I.4.11. Soit (, A, ) un espace mesur. On dit quun ensemble A


est ngligeable sil existe un ensemble B A tel que A B et (B) = 0.
On dit quune fonction mesurable f sur (, A, ) vrie une proprit P
-presque partout (-p.p.) si lensemble { : f () ne vrie pas P } est ngligeable.

Exemples I.4.12. (i) Soit = { 1, 2, 3 } muni de la tribu de ses parties et dnie


par ({ 1 }) = ({ 2 }) = 1 et ({ 3 }) = 0. Soit f la fonction mesurable f (1) =
f (2) = 1 et f (3) = 0. Alors f est constante et gale 1 -p.p.
(ii) Soit R muni de la tribu borlienne et de la mesure de Lebesgue . Soit f
la fonction f () = 1 si est rationnel, et f () = 0 sinon (i.e. f = Q ). Alors
f est gal 0 -p.p. En eet, ({ x }) = 0 pour tout x R et puisque Q est
dnombrable, (Q) = 0. De mme, la fonction signe, gale 1 sur ] 0, [, valant
0 lorigine et 1 sur ] , 0 [, est continue -p.p. puisque son seul point de
discontinuit est 0 et ({ 0 }) = 0.

Exercices
Exercice I.1. Soit E une partie (xe) dun ensemble , et soit
E = { A P() : A E } .
Dterminer lalgbre de Boole engendre par E.

Exercice I.2. Si A1 et A2 sont des tribus sur , on pose


J = { A1 A2 : A1 A1 , A2 A2 } ,
U = { A1 A2 : A1 A1 , A2 A2 } .
Dmontrer que (J ) = (A1 A2 ) = (U ).
Exercice I.3. Soit ( = 1 2 , A = A1 A2 ) un espace mesur produit. Si A A, montrer que pour tout 1 1 , la section
A1 = { 2 2 : (1 , 2 ) A } est mesurable (lment de A2 ).
Indication : considrer M = { A A : A1 A2 } et E la classe des unions
nies de pavs. Montrer que E M, que M est une classe monotone, puis
conclure laide du thorme des classes monotones.

Exercice I.4. Vrier lgalit f 1(U ) = r,m nm fn1 (Ur ) de la dmonstration du thorme I.2.5.
19
i

i
i

barbe 2007/1/8 10:41 page 20 #28

Chapitre I. Thorie de la mesure

Exercice I.5. Si x = (x1 , . . . , xn ) Rn , on note (x) le vecteur x ordonn par


ordre croissant, i.e. (x) = (x1,n , . . . , xn,n ), o x1,n = min1in xi et


xi,n = min { xi : 1 i n} \ { xj,n : 1 j i 1 } , 2 i n .
Montrer que est mesurable.
Indication : on pourra commencer par montrer que x  xi,n est mesurable pour
tout 1 i n en considrant les ensembles { xi,n a }, a R.

Exercice I.6. Un exemple densemble non mesurable. Sur R on dnit la relation


dquivalence x y si x y Q. En utilisant laxiome du choix (si A est une
fonction sur un ensemble I telle que A(x) = pour tout x de I, il existe une
fonction f telle que f (x) A(x) pour tout x I), construire un ensemble
A [ 0, 1 [ qui contient exactement un point de chaque classe dquivalence.
Supposons A mesurable, et soit = (A) sa mesure de Lebesgue. Montrer que
si r, s Q et r = s, alors (A + s) (A + r) = , o A + x = { y + x : y A },
et que (A + s) = (A). Remarquer que







(A + r) [ 1, 2 ] = 3 .
1 = [ 0, 1 ]
rQ] 1,1 [

En utilisant la -additivit de , montrer que cette ingalit conduit dune part


= 0, dautre part > 0. Conclure.
Exercice I.7. Thorme dEgorov. Soit (, A, ) un espace mesur tel que ()
soit ni ; on considre des applications f , fn , n N, de dans R, telles que
fn f -p.p., cest--dire, telles que


{ : fn ()  f () } = 0 .
a) Pourn N et > 0, soit Gn, = { : |fn () f ()| } et
En, = mn Gm, . Dmontrer que pour tout > 0,

 
Gm, = 0

n mn

et en dduire que limn (En, ) = 0.


c) Dduire de la question prcdente que pour tous , > 0, il existe n0 N
et B, A tels que (B, ) et pour tout \ B, et tout n n0 ,
|fn () f ()| .
d) Soit > 0 ; pour tout entier p 1, on pose p = 1/p, p = /2p , Ap = Bp ,p
et A = p1 Ap . Dmontrer que (A) et que fn f uniformment sur
\ A.
20
i

i
i

barbe 2007/1/8 10:41 page 21 #29

Exercices

Exercice I.8. Soit (, A, ) un espace mesur. Une partie N est dite


-ngligeable si elle est contenue dans un ensemble mesurable A tel que
(A) = 0. La tribu B est dite complte pour si elle contient tous les ensembles
ngligeables.
Si N dsigne lensemble des parties -ngligeables, soit
A = { A N ; A A , N N } .
Montrer que A est une tribu, appele la tribu -complte de A.
Exercice I.9. Soient X et Y deux espaces topologiques munis respectivement des tribus borliennes BX et BY , une mesure sur BX , et
f : X Y une fonction continue -p.p., cest--dire telle que lensemble
N = {x X : f discontinue en x} soit -ngligeable. Dmontrer que f est mesurable de (X, B X ) dans (Y, BY ) o B X est la tribu complte de BX par rapport
.
Indication : Pour tout ouvert O de Y , on construira un ouvert V de X tel que
f 1 (O) (X \ N ) V f 1 (O) ,
et on montrera qualors f 1 (O) = V (f 1 (O) N ).

21
i

i
i

barbe 2007/1/8 10:41 page 22 #30

i
i

barbe 2007/1/8 10:41 page 23 #31

II
INTGRATION

Dans tout ce chapitre, nous considrons des fonctions dun espace mesur
(, A, ) valeurs dans R muni de sa tribu borlienne B(R). Ces fonctions seront
appeles borliennes sur (, A, ).
Les thormes importants de la thorie de lintgration sont le thorme de
convergence monotone et le thorme de convergence domine de Lebesgue. De faon grossire, on veut que si une suite croissante de fonctions positives fn converge
simplement, alors la limite des intgrales de fn est lintgrale de la limite des fn .
Cette ncessit conduit naturellement prendre une dnition de lintgrale
utilisant lapproximation des fonctions par des limites croissantes. Mais lon veut
aussi que lintgrale concide avec ce que lintuition attend lorsque lon intgre des
fonctions tages.

II.1. Intgrale de fonctions positives


Definition II.1.1. Si A A, la fonction indicatrice
 de A, f() = A (), est
mesurable. Son intgrale par rapport , note f d ou f () d(), est
dnie comme tant (A).
Plus gnralement,
si B A, lintgrale de f = A sur B par rapport

, note B f d
 ou B f () d(), est dnie par (A B), ou, de faon
quivalente, par B f d.
En particulier,
 si A = B(R), en prenant la mesure de Lebesgue et A =] a, b ],
nous obtenons A d = b a. Cest donc la longueur de lintervalle. Cette

i
i

barbe 2007/1/8 10:41 page 24 #32

Chapitre II. Intgration

dnition de lintgrale concide,


avec lintgrale de Riemann,
b
 sur les intervalles,
puisque, au sens de Riemann, R A (x) dx = a 1 dx = b a.
Maintenant,
si A = P(N), si est la mesure de comptage sur N, et A N,

alors A d = card(A).
Lun des avantages de la dnition de lintgrale de Lebesgue est de traiter
de la mme faon des exemples aussi dirents que la mesure de Lebesgue et la
mesure de comptage.
Nous savons maintenant intgrer les fonctions indicatrices densembles mesurables,
ce qui est bien peu ! Nous souhaitons que lintgrale soit linaire (i.e.

(f + g) d = f d + g d), ce qui conduit tendre la dnition par
linarit.

Definition II.1.2. Si f est tage positive, f () =


mesurables disjoints, on pose

f d =
B

ai (Ai B) =

1in


1in

1in ai Ai ()


ai
B

avec les Ai

Ai d .


Le lecteur peut alors vrier que la valeur de lintgrale B f d ne dpend pas
de la dcomposition de f en somme dindicatrices et en dduire la linarit de
lintgrale sur les fonctions tages positives.
Nous pouvons tendre la dnition de lintgrale aux fonctions positives.

Definition II.1.3. Soit f une fonction mesurable positive dnie sur (, A, ).


On dnit et note son intgrale par rapport sur lensemble mesurable B
par




f d =
f () d() = sup
g d : g tage positive, g f .
B

Lintgrale sur est note

d =

f d.

Observons que lintgrale dune fonction positive peut tre innie.


Montrons que cette construction de lintgrale dune fonction positive ralise
ce que lon en attend.


Proposition II.1.4. (i) Si 0 f g alors 0 B f d B g d.


(ii) Si A B et f 0, alors A f d B f d.
24
i

i
i

barbe 2007/1/8 10:41 page 25 #33

II.2. Intgrale de fonctions quelconques et thormes de convergence



(iii) Si f 0 et c 0, alors B cf d = c B f d.



(iv) B (f + g) d = B f d + B g d.

(v) Si f = 0 alors f d = 0.

(vi) Si (B) = 0, alors B f d = 0.


(vii) Si f 0, alors B f d = B f d.

(viii) Si f 0 et B f d = 0, alors B f = 0 -p.p.
Ces proprits sont encore vraies si les hypothses sur f (et g) ont seulement
lieu -presque partout.
Dmonstration. Commencer par tablir les assertions (i)(vii) sur les fonctions
tages, puis passer au supremum pour les fonctions positives.
Dmontrons par

exemple, suivant ce schma, (iii). Remarquons que si f = 1in ai Ai alors


cf d =
B

cai (B Ai ) = c

1in


ai (B Ai ) = c

f d .
B

1in

Montrons maintenant (viii). Quitte remplacer f par B f , il sut de montrer


le rsultat pour B = . Considrons la suite croissante densembles
An = { : f () > 1/n } ,
On vrie que

n 1.

An n1 f . Donc, daprs (i) et (iii),



(An ) =

An d n


f d = 0 .


Lgalit { f > 0 } = n1 An et la proposition I.4.3.iii montrent alors que lensemble { : f () > 0} est de -mesure nulle. Puisque f 0, on en dduit que
f = 0 -p.p.


II.2. Intgrale de fonctions quelconques


et thormes de convergence
Le thorme suivant est dun intrt considrable. Ses nombreuses applications
justient pleinement lintrt de la thorie de lintgrale de Lebesgue. Il permet
en particulier dtendre la dnition de lintgrale des fonctions positives aux
fonctions de signe quelconque.
25
i

i
i

barbe 2007/1/8 10:41 page 26 #34

Chapitre II. Intgration

Theor`eme II.2.1 (de convergence monotone). Soit (fn )nN une suite croissante de
fonctions mesurables positives sur (, A, ), convergeant ponctuellement vers f .
Alors f est mesurable et


fn d = f d .
lim
n

Dmonstration. La fonction f est


 mesurable en vertu du thorme I.2.5. Puisque

fn est croissante et positive, fn d est croissante et positive daprs II.1.4.i,


donc admet une limite 0 (ventuellement = +). Puisque fn f , II.1.4.i
montre aussi que f d.

Soit une fonction tage g =


1jm bj Bj telle que 0 g f . Soit
0 c < 1. Notons { fn cg} = { : fn () cg() }. Alors,






bj Bj { fn cg }
fn d {fn cg} fn d c g {fn cg} d = c
1jm

daprs II.1.4.iiii et la dnition de lintgrale sur les fonctions tages. Donc,


quand n ,





bj lim Bj { fn cg } = c
bj (Bj ) = c g d ,
c
1im

1im


la seconde galit rsultant de I.4.3.iii et du
 fait que n { fn cg } = . Or c
tant arbitraire dans [ 0, 1 [, on obtient
tage
 g d, ceci pour toute fonction

0 g f . Par dnition de lintgrale f d, on en dduit f d. Ainsi
= f d et le thorme est dmontr.

Le rsultat suivant est un exemple dapplication du thorme de convergence
monotone.

Corollaire
II.2.2. Soit (fn )nN

une suite
 de fonctions mesurables positives et soit

f = nN fn . Alors f d = nN fn d.
Dmonstration. La suite gn =

est
 et converge simplement
 croissante
vers f . Le thorme II.2.1 implique limn gn d = limn gn d, ce qui est
le rsultat.

0mn fm

Corollaire II.2.3 (Lemme de Fatou). Soit (fn )nN une suite de fonctions mesurables positives. Alors


lim inf fn d lim inf fn d .
n

26
i

i
i

barbe 2007/1/8 10:41 page 27 #35

II.2. Intgrale de fonctions quelconques et thormes de convergence


Dmonstration. Soit gn = inf mn fm . La suite gn est croissante, converge simple-

ment vers lim inf n fn , et de plus gn fn . Il sut alors dappliquer le thorme


II.2.1 et dutiliser la proposition II.1.4.i.

Nous tendons maintenant lintgrale des fonctions positives aux fonctions de
signe quelconque. Pour cela, si f est une fonction, on note f + = f 0 sa partie
positive et f = (f 0) sa partie ngative, ce qui assure que f = f + f et
|f | = f + + f . Les fonctions f + et f sont borliennes si f lest.

Definition II.2.4. Soit f = f + f une fonction mesurable. On dit que f est


-intgrable sur B si B |f | d < . Si f est -intgrable
 sur B, on dnit et

crit son intgrale par rapport sur B par B f d = B f + d B f d.


Si B = , on dit que f est -intgrable, et note f d = f d. Si le
contexte est clair on dit aussi que f est intgrable.
Alors que lintgrale dune fonction positive est toujours dnie, ventuellement innie, nous convenons
ici quune fonction de signe quelconque est int
grable si et seulement
|f | d < . Il est ais de vrier que si f est intgrable

et B A, alors B f d = B f d.

Exemple II.2.5. On vrie sans peine que si (, A) est un espace mesurable et f est
une fonction mesurable valeurs dans (R, B(R)), alors pour
 tout , f est int= f (). Plus ggrable par rapport
la masse de Dirac (cf. I.4.2.ii) et f d

nralement, si = 1in ai i , ai 0, i , alors f d = 1in ai f (i ).


Par convergence monotone, les proprits essentielles de lintgrale sur les
fonctions positives stendent lintgrale des fonctions de signe quelconque.

Proposition II.2.6. Si f et g sont intgrables et si , R, alors





(f + g) d = f d + g d .
De plus, si f g alors

f d

g d.

Dmonstration. Supposons dabord f, g 0 ainsi que , 0. Daprs la pro-

position I.2.7, il existe des suites fn et gn , n N, de fonctions tages positives


qui convergent en croissant vers f et g respectivement. Alors la suite fn + gn
converge en croissant vers f + g, et le rsultat, dans ce cas, se dduit du thorme de convergence monotone. En gnral, on spare parties positive et ngative
et on distingue selon les signes de et .

27
i

i
i

barbe 2007/1/8 10:41 page 28 #36

Chapitre II. Intgration


Si f g, alors f g 0. Donc (f g) d 0 daprs la proposition II.1.4.i,
et la conclusion sensuit par linarit.

Lnonc suivant est une forme gnralise du lemme de Fatou.

Corollaire II.2.7. Soit g une fonction intgrable et soit (fn )nN une suite de fonctions intgrables.


(i) Si g fn , alors lim inf n fn d lim inf n fn d.


(ii) Si fn g, alors lim supn fn d lim supn fn d.
Dmonstration. (i) Daprs le lemme de Fatou (corollaire II.2.3), on a

lim inf (fn g) d lim inf


n

(fn g) d

ce qui dmontre (i) par linarit de lintgrale.


(ii) De mme, le corollaire II.2.3 donne


lim inf (g fn ) d lim inf (g fn ) d .
n

Le rsultat suivant est encore un corollaire du thorme de convergence monotone, mais nous lui attribuons la valeur dun thorme compte tenu de son
importance.

Theor`eme II.2.8 (de convergence dominee de Lebesgue). Soit (fn )nN une suite de
fonctions telles que |fn | g o g est intgrable et fn converge simplement vers f .
Alors f est intgrable et


fn d = f d .
lim
n

Dmonstration. Lintgrabilit de f vient de ce que ncessairement |f | g et

|g| = g est intgrable. Puisque limn fn = f , et g fn g, le corollaire II.2.7


fournit


lim sup fn d lim sup fn d
n
 n
= f d

= lim inf fn d
n


lim inf fn d .
n

28
i

i
i

barbe 2007/1/8 10:41 page 29 #37

II.2. Intgrale de fonctions quelconques et thormes de convergence

On peut vrier simplement que, dans les thormes de convergence monotone


et de convergence domine, la convergence simple de fn vers f peut tre remplace
par la convergence -presque partout (i.e. fn () f () pour tout en dehors
dun ensemble de mesure nulle pour ).

Exemple II.2.9. Soit Ai , i  1, des ensembles


disjoints, et soit g une


mesurables
fonction intgrable. Alors i1 Ai g d = i1 Ai g d. En eet, la suite de fonctions fn = 1in Ai g converge simplement vers f = i1 Ai g et chaque fonction
|fn | est majore par la fonction intgrable |g|. Le thorme de convergence domine II.2.8 montre que




fn d = lim
g d = f d = lim
g d .
Ui1 Ai

1in Ai

Lingalit suivante est trs importante pour les applications. Elle ne concerne
que les mesures de probabilit.

Theor`eme II.2.10 (Inegalite de Jensen). Si est une fonction convexe de R dans


R, et si f est une fonction borlienne telle que f et (f ) sont intgrables par
rapport une mesure de probabilit , alors

 

f d (f ) d .
Dmonstration. La convexit de assure quen tout point le graphe de
est au-dessus de sa tangente. Donc pour tout t R, il existe tel que
(x) (t) + (x t) pour tout x (on peut prendre pour
 la drive gauche
ou droite de en t). Appliquons cette ingalit t = f d et x = f () pour
tout , et intgrons les deux membres. La conclusion sensuit puisque lintgrale
conserve le sens des ingalits (cf. proposition II.2.6).


La dmonstration
de Jensen montre que si est strictement
 de lingalit

convexe, lgalit ( f d) = (f ) d na lieu que si f est -presque partout
constante. De plus, si lgalit a lieu pour toute fonction f , alors la fonction est
linaire.
Dans le cas de la mesure de Lebesgue, mentionnons que lintgrale construite
tend celle de Riemann et donc quen pratique le calcul dune intgrale seectue
laide des techniques usuelles (calcul de primitives, changement de variables, intgration par parties). En eet, rappelons quune fonction f est Riemann intgrable
sur un intervalle ferm born [ a, b ] si pour tout > 0 il existe des fonctions en
29
i

i
i

barbe 2007/1/8 10:41 page 30 #38

Chapitre II. Intgration

b
escalier g et h avec g f h et a (hg)(x) dx . Soit la mesure de Lebesgue
(cf. I.4.10.i). Pour les fonctions en escalier g et h, par dnition des intgrales de

b

b
Riemann et de Lebesgue, a g(x) dx = [a,b] g d et a h(x) dx = [a,b] h d. Donc



g d

g(x) dx =
a

[a,b]

f d
[a,b]

h d =

h(x) dx
a

[a,b]


b
et ainsi [a,b] f d = a f (x) dx. Labus usuel de notation confond alors les notations d et dx.
La construction de lintgrale donne ici est plus gnrale, dune part parce
que lon peut intgrer par rapport dautres mesures que celle de Lebesgue et
sur dautres espaces que R ou Rd , dautre part, parce que mme sur R, il existe
des fonctions Lebesgue-intgrables (i.e. intgrables au sens de ce chapitre) qui ne
sont pas Riemann intgrables (cf. exercice II.1).

II.3. Thorme de Radon-Nikodym


tant donne une mesure sur un espace, nous avons vu que lon peut ventuellement construire de nouvelles mesures en considrant les mesures images (cf.
I.4.5). Nous considrons ici une nouvelle faon dengendrer des mesures. Intuitivement, une barre dun matriau homogne a un poids proportionnel sa longueur,
et la masse des intervalles de cette barre dnit une mesure proportionnelle la
mesure de Lebesgue. La proposition ci-dessous revient peu prs considrer la
masse dune barre non homogne.
Dans ce paragraphe, toutes les mesures sont supposes -nies.

Proposition II.3.1. Soit f une fonction mesurable, positive et intgrable sur


un espace
 mesur (, A, ). La fonction densembles , dnie sur A par
(A) = A f d, A A, est une mesure. De plus, si (A) = 0, alors (A) = 0.
Enn, si g est positive, g d = gf d. De
 plus, g est -intgrable si et seulement si gf est -intgrable et dans ce cas, g d = gf d.
Dmonstration. Lexemple II.2.9 montre que la fonction densembles est

-additive : si les Ai , i 1, sont mesurables et disjoints,


 



(Ai ) =
f d = 
f d =
Ai .
i1

i1

Ai

i1

Ai

Si (A) = 0, la proposition II.1.4.v montre que (A) =

i1

Af

d = 0.

30
i

i
i

barbe 2007/1/8 10:41 page 31 #39

II.3. Thorme de Radon-Nikodym

Le dernier point rsulte du schma gnral de construction



de lintgrale. Si
g est tage positive, il est clair par construction que g d = gf d. Si g est
positive, on conclut en lapproximant par des fonctions tages. Enn, pour g
intgrable, on conclut en sparant parties positive et ngative, et en utilisant la
construction de lintgrale.

La proposition prcdente dcrit en fait un phnomne gnral.

Definition II.3.2. Soient deux mesures et dnies sur un espace mesurable


(, A).
(i) On dit que est absolument continue par rapport si tout ensemble
de mesure nulle pour est de mesure nulle pour (i.e. (A) = 0 (A) = 0).
On note alors  . De plus, si  et  , on dit que et sont
quivalentes.
(ii) On dit que et sont trangres sil existe A A tel que (A) = 0 et
(Ac ) = 0.

La proposition II.3.1 founit une classe de mesures absolument continues par


rapport . Le thorme suivant, appel thorme de Radon-Nikodym, montre
que cest la situation gnrale.

Theor`eme II.3.3 (de Radon-Nikodym). Si et sont deux mesures -nies, telles


que
  , alors il existe une fonction mesurable positive f telle que (A) =
A f d pour tout ensemble mesurable A. La fonction f est appele la densit de
par rapport , note f = d .
d
Dmonstration. Voir par exemple Neveu (1964), Rudin (1975) ou Malliavin

(1982).

Theor`eme II.3.4. Soient , deux mesures -nies sur (, A). Alors il existe une
unique dcomposition = ac + avec ac  et trangre par rapport .
La mesure ac est appele la partie absolument continue de par rapport et
la partie trangre de par rapport .
Dmonstration. On se reportera par exemple Neveu (1964), Rudin (1975) ou
Malliavin (1982).


31
i

i
i

barbe 2007/1/8 10:41 page 32 #40

Chapitre II. Intgration

II.4. Intgration par rapport une mesure image


Nous avons dni les mesures images (cf. I.4.5). Rappelons que si f est une
fonction mesurable de (, A, ) dans (E, B), on note f la mesure sur B dnie
par f (B) = (f 1 (B)). En pratique, lintgrale par rapport une mesure image
seectue laide du thorme suivant, qui est une formulation abstraite de la
formule classique du changement de variable.

Theor`eme II.4.1 (de transport). Soit f une application mesurable de (, A, )


dans (E, B), et soit une fonction borlienne de E dans R. Alors si est
valeurs positives,


f d .

df =
E

Si est valeurs quelconques, est f -intgrable si et seulement si f est


-intgrable et, dans ce cas, lidentit prcdente est encore satisfaite.
Dmonstration. Elle rpte le schma gnral de construction de lintgrale. Si
= B pour un B B,





B df = f (B) = f 1 (B) = { : f () B }
E

B f () d()
=

et la formule est vraie dans ce cas. Si est tage, la formule est valide par linarit (par rapport ). Si est positive, soit (n )nN une suite de fonctions
tages positives convergeant en croissant vers (I.2.7). Alors fn est tage et converge simplement en croissant vers f . En utilisant le thorme de
convergence monotone (II.2.1), la fois pour la mesure et la mesure f ,




f
f
d = lim
n d = lim
n f d =
f d .
E

n E

Dans le cas gnral, remarquons que




f
|| d =
| f | d
E

et donc f est -intgrable si et seulement si est f intgrable. En posant


= + , on conclut que



f
+
f
d =
d
df
E
E
E



+

=
f d
f d =
f d .

Le thorme est tabli.

32
i

i
i

barbe 2007/1/8 10:41 page 33 #41

II.4. Intgration par rapport une mesure image

Exemple II.4.2. Continuons lexemple I.4.10.iv en valuant la mesure de lensemble des droites qui coupent un segment S de longueur l donne, i.e.


{ D : D S = } .
Puisque est invariante par les mouvements euclidiens, ou peut supposer que S
est sur laxe Ox, lune de ses extrmits tant lorigine. Alors



{ D : D S = } = {DS =} d(D) (dnition II.1.1 de lintgrale)
 2 
{D(,p)S =} dp d
(par transport)
=
0

0
/2 

=2
0

{0pl cos } dp d

= 2l .
Supposons
maintenant que nous disposons de k segments S1 , . . ., Sk , et posons

S = 1ik Si . Soit card(D S) le nombre de points dintersection de D avec S.
Alors


1
1
card(D S) d(D) =
DSi d(D)
2
2
1ik

1 
{ D : D Si = }
=
2
1ik

est la somme des longueurs des segments.


Enn, si nous avons une courbe C rgulire (i.e. une courbe paramtre
(t) = (x(t), y(t)), 0 t 1, avec x, y drivables), celle-ci peut sapproximer
par des segments. En utilisant le thorme de convergence domine, on peut montrer que

1
card(D C) d(D) = longueur de C .
2
Ce rsultat, loin dtre une abstraction, est tout fait concret et utile. Il
permet par exemple de mesurer la longueur dune chane plane de molcules.
Pour cela, il sut de remarquer que





1 2 c
1
card(D C) d(D) =
card D(, p) C dp d ,
2
2 0
0
o c est un majorant du diamtre de C (i.e. de sup0s,t1 |(s) (t)|) et en
supposant que C est translat de sorte que (0) = 0 par exemple. En approximant lintgrale par une somme de Riemann, on voit que pour une subdivision
33
i

i
i

barbe 2007/1/8 10:41 page 34 #42

Chapitre II. Intgration

0 = p0 < p1 < < pn de [ 0, c ] et 0 = 0 < 1 < < m = 2






1
1
card(D C) d(D) 
(i i1 )
(pj pj1 )card D(i , pj ) C .
2
2
1im

1jn

Lorsque pj pj1 = est constant, observons que



(pj pj1 )card(D(i , pj ) C)
1jn

est fois le nombre dintersections entre C et un rseau de droites parallles


quidistantes de . On se rend compte assez facilement sur un dessin que pour
une courbe assez tortueuse, m = 8 (et i i1 = /4) donnera une trs bonne
approximation pourvu que c soit assez petit. Implmentons ceci pour mesurer la
longueur de la courbe ferme ci-dessous (dans le carr unit).

Prenons pj pj1 = 1/20 ce qui conduit considrer un rseau de droites


espaces de 0, 05. Prenons aussi i i1 = /4. Alors la longueur de la courbe
est peu prs
1 132 + 74 + 146 + 114
 9,1 .
l
24
20

34
i

i
i

barbe 2007/1/8 10:41 page 35 #43

II.5. Thormes de Fubini-Tonelli

II.5. Thormes de Fubini-Tonelli


Soient (1 , A1 , 1 ) et (2 , A2 , 2 ) deux espaces mesurs pour des mesures 1
et 2 -nies. Considrons lespace produit = 1 2 muni de la tribu produit
A = A1 A2 et de la mesure produit = 1 2 (cf. I.4.10.ii). Si A A, on
peut montrer (exercice I.3) que les sections
A1 =

2 2 : (1 , 2 ) A

et A2 =

1 1 : (1 , 2 ) A

sont mesurables (i.e. A1 A2 et A2 A1 ). De plus





(A) =
1

2 (A1 ) d1 (1 ) =

1 (A2 ) d2 (2 ) ,

(1)

ce qui peut tre rcrit





(A) =

 1  2
=
2

A (1 , 2 ) d2 (2 ) d1 (1 )
A (1 , 2 ) d1 (1 ) d2 (2 ) .

En eet, soit

M=


A A : (A) =
1

2 (A1 ) d(1 ) =


2

1 (A2 ) d(2 )

et soit E la classe des pavs de la forme A1 A2 , A1 A1 , A2 A2 . On vrie


facilement que M est une classe monotone qui contient E. Donc, en utilisant le
thorme des classes monotones I.3.3 et la dnition I.1.9 de la tribu produit,
A M M(E) = (E) = A, ce qui dmontre (1).
Autrement dit, on peut dans ce cas permuter lordre dintgration. La construction de lintgrale montre que cette permutation reste licite lorsquon intgre
des fonctions valeurs positives. Cest le thorme de Fubini-Tonelli. Le thorme
de Fubini tend ce fait aux fonctions -intgrables.
35
i

i
i

barbe 2007/1/8 10:41 page 36 #44

Chapitre II. Intgration

Theor`eme II.5.1 (de Fubini). Soit f une fonction relle, dnie


A-mesurable et -intgrable. Alors,

 

f d =
f (1 , 2 ) d2 (2 ) d1 (1 )

1
2

 
f (1 , 2 ) d1 (1 ) d2 (2 ) .
=
2

sur

Dmonstration. Daprs la remarque prcdant le thorme, les galits sont satisfaites lorsque f est positive. On tend les galits aux fonctions intgrables en
sparant parties positive et ngative et en utilisant la linarit de lintgrale. 

Dans la pratique, pour vrier quune fonction f est intgrable par rapport
une mesure produit = 1 2 , on value |f | d par permutation des intgrales.
Si |f | d est nie, on est alors en droit dutiliser le thorme de Fubini pour le
calcul de f d. Des exemples simples montrent en outre que la permutation de
lordre dintgration peut tre en dfaut si f nest pas intgrable pour la mesure
produit .

II.6. Espaces Lp
Nous avons dni la classe des fonctions intgrables ( valeurs dans R) sur un
espace mesur (, A, ), quil est dusage de noter L1 (, A, ). Pour 0 < p < ,
on note Lp (, A, ) (ou simplement Lp si le contexte est clair) lensemble des fonctions relles de puissance p-ime intgrable,
cest--dire lensemble des fonctions

f mesurables de dans R, telles que |f |p d < .
L0 est dni simplement comme tant lensemble des fonctions mesurables de
(, A, ) dans R.
On dnit L comme tant lensemble des fonctions mesurables f de (, A, )
dans R telles quil existe c > 0 avec
({ : |f ()| > c }) = 0 .
Cest lensemble des fonctions (mesurables) -essentiellement bornes.
Si f Lp , 0 < p < , on pose

1/p
p
|f | d
.
f p =

Pour f

L ,

on pose





f  = inf c > 0 : : |f ()| > c = 0 ,

qui est appel le supremum essentiel, ou la borne essentielle, de f .


36
i

i
i

barbe 2007/1/8 10:41 page 37 #45

II.6. Espaces Lp

Definition II.6.1. Deux rels p, q 1 sont conjugus si p1 + q 1 = 1. On


convient que 1 et sont conjugus.
Theor`eme II.6.2 (Inegalite de Holder). Soient p et q conjugus, 1 p , et
f Lp , g Lq . Alors f g L1 et
f g1 f p gq .
Dmonstration. Si p = 1 ou p = lingalit est vidente. Si f p gq = 0, alors
f g = 0 -p.p. et lingalit de Hlder est triviale. Supposons donc f p gq = 0.
Par homognit, on peut supposer que gq = 1. Il sut donc de dmontrer que

p 
|f g| d |f |p d .

Soit alors la mesure de probabilit de densit |g|q par rapport . Lingalit


tablir devient alors
p 

|f |p |g|q d
|f ||g|1q d
qui est une consquence de lingalit de Jensen pour la fonction convexe
(x) = xp (thorme II.2.10), car (1 q)p = q. (En toute rigueur, an dassurer lhypothse dintgrabilit, il conviendrait de travailler avec |f | |g|1q n,
n 1, en lieu et place de |f | |g|1q , et de conclure avec le thorme de convergence
monotone.)


Theor`eme II.6.3 (Inegalite de Minkowski). Soit p 1. Si f , g sont dans Lp , alors


f + g est aussi dans Lp et
f + gp f p + gp .
Dmonstration. Remarquons que p et p/(p 1) sont conjugus. En utilisant lin-

galit triangulaire puis lingalit de Hlder,



p
f + gp = |f + g|p d




|f ||f + g|p1 + |g||f + g|p1 d





f p + gp  |f + g|p1 p/(p1)


= f p + gp f + gp1
.
p
Cest le rsultat si f + gp = 0. Lingalit est triviale si f + gp = 0.


37

i
i

barbe 2007/1/8 10:41 page 38 #46

Chapitre II. Intgration

De lingalit de Minkowski, on dduit que  p est une semi-norme sur


lespace Lp (en eet f p = 0 nimplique pas f = 0 mais seulement f = 0 -p.p.
cf. II.1.4.viii). Notons Lp = Lp (, A, ) le quotient de lespace Lp par la relation
dquivalence f = g -p.p. Autrement dit, un lment f de Lp sidentie un
reprsentant de la classe de tous les lments g de Lp tels que f = g -p.p. Alors
(Lp ,  p ) est un espace vectoriel norm.
Pour les noncs suivants nous supposerons que la mesure est -nie.

Theor`eme II.6.4. Pour tout p 1, lespace Lp est complet.


Nous dmontrerons ce thorme la n de la section V.3.

Theor`eme II.6.5. Pour p et q conjugus et 1 p < , le dual de lespace Lp est


les formes linaires continues sur Lp sont les fonctions de
Lq . En dautres termes,

p
la forme f L  f g d R pourg Lq . La norme dune telle forme linaire
est donne par lgalit f p = sup{ f g d : gq 1 }.

Si g Lq , lapplication f  f g d dnie sur Lp est
linaire et continue daprs lingalit de Hlder. Il convient donc de montrer que
toute forme linaire continue sur Lp est ncessairement de cette forme. Soit une
telle forme linaire, et posons (A) = (A ). On vrie que est additive (i.e.
(AB) = (A)+(B) si AB = ), et mme est une mesure. Si (A) = 0, alors
A = 0 (dans Lp ) et (A) = 0, ce qui montre que est absolument continue par
rapport . Daprs le thorme de Radon-Nikodym II.3.3,
 on a donc (A) =
d
. Par linarit, (f ) = f g d sur L . Pour
(A ) = gA d pour g = d
montrer que g Lq , crivons g = h|g| o |h| = 1 et h est mesurable. Alors


q
|g| [0,n] (|g|) d = |g|q1 [0,n] (|g|)hg d


= |g|q1 [0,n] (|g|)h


 |g|q1 [0,n] (|g|)p

q/p
 g [0,n] (|g|)q
Dmonstration esquisse.

et donc |g| [0,n] (|g|)q . En passant la limite lorsque n tend vers linni,
gq  < .

Il reste montrer que si les formes linaires f  f g d et concident sur
L , alors elles concident sur Lp . Lorsque () < , on montre que tout espace
Lp est dense dans tout espace Lr et donc que deux formes linaires continues
concidant sur L concident sur Lp . Si () = , on utilise la -nitude de la
mesure et on partitionne lespace pour se ramener au cas ni.
La dernire armation dcoule du thorme de Hahn-Banach sur les duaux. 
38
i

i
i

barbe 2007/1/8 10:41 page 39 #47

Exercices

On prendra garde au fait suivant : L est le dual de L1 , mais le dual de L1


nest pas (en gnral) L (voir exercice II.7).
De ce qui prcde nous dduisons le rsultat suivant qui permet dutiliser des
arguments gomtriques dans les espaces L2 (, A, ).

Theor`eme II.6.6. Lespace L2 (, A, ) est un espace de Hilbert pour le produit


scalaire f, g = f g d.

Exercices
Exercice II.1. Un exemple de fonction Lebesgue intgrablequi nest pas Riemann
intgrable : f (x) = Q[0,1] (x), x [ 0, 1 ]. Montrer que f d = 0 mais que f
nest pas Riemann intgrable sur [ 0, 1 ].
Exercice II.2. Soit (, A, ) un espace mesur, et soient A et B deux lments de
A. Examiner le lemme de Fatou sur lexemple suivant : f2n = A , f2n+1 = B .
Exercice II.3. Soit une mesure de probabilit sur I = [ 0, 1 ]. On note


v = (x m)2 d(x) ,
m = x d(x) ,
I
I

2 
1
2
2
m + x(1 x) d(x) .
b=
a = x d(x) m ,
2
I
I
Exprimer v et b en fonction de a. En dduire que a 1/4 et que a = 1/4 pour
une unique mesure que lon dterminera.

Exercice II.4. Soit (, A, ) un espace mesur, f , fn , n N, des fonctions mesurables positives intgrables. On suppose que


et
lim
fn d = f d .
fn f -p.p.
n


En utilisant lingalit (f fn )+ f , dmontrer que limn (f fn )+ d = 0.
En dduire que fn f dans L1 ().
Exercice II.5. Soit C
K (R) lensemble des fonctions sur R, inniment direntiables, support compact. Montrer que si A est intervalle ouvert, alors A est
limite simple de fonctions dans C
K (R), majores par 1.
Indication : on pourra dabord considrer lintervalle [ 0, 1 ] et les fonctions
exp(/x(1 x)) si x ] 0, 1 [ et 0 si x  ] 0, 1 [.

mesure est caractrise par


En dduire
 que (CK (R)) = B(R) et quune
(R).
la donne de f d pour toute fonction f C
K

39
i

i
i

barbe 2007/1/8 10:41 page 40 #48

Chapitre II. Intgration

d1
d1 d2
Exercice II.6. Si 1  2  3 , montrer que
=
, 3 -p.p. Si de
d3
d2 d3


d2
d1 1
=
, 1 -p.p. et 2 -p.p.
plus 2  1 , alors
d1
d2
Exercice II.7. Cet exercice montre que le dual topologique de
L ([ 0, 1 ], B([ 0, 1 ]), ) = L nest pas L1 ([ 0, 1 ], B([ 0, 1 ]), ) = L1 . En
eet, C[ 0, 1 ] L (L1 ) o dsigne ledual. La masse de Dirac 0 est dans
le dual de C[ 0, 1 ] par la dualit 0 , f  = f d0 = f (0). De plus la norme de
0 C[ 0, 1 ] est 1. Par le thorme de Hahn-Banach, montrer que lon peut
prolonger 0 en une forme linaire sur L , de norme 1. Prouver que nest
pas dans L1 .
Exercice II.8. Soit L1 ([ 0, 1 ], ) lespace des fonctions relles intgrables pour la
mesure de Lebesgue sur [ 0, 1 ]. On considre la suite de fonctions
t R,

an (t) = 2 + sin(nt) ,

n N.

a) Dmontrer que pour toute fonction f de L1 ([ 0, 1 ], ), on a




f (t)an (t) d(t) = 2
f (t) d(t) .
lim
n [ 0,1 ]

[ 0,1 ]

Indication : Utiliser la densit des fonctions de classe C1 dans L1 ([ 0, 1 ], ) et


intgrer par parties.
b) Dmontrer que pour toute fonction f de L1 ([ 0, 1 ], ), on a


f (t)
d(t) =
f (t) d(t)
lim
n [0,1] an (t)
[0,1]
 2
o = (2)1 0 (2 + sin u)1 du.
Indication : Utiliser la densit des fonctions en escalier dans L1 ([ 0, 1 ], ).
c) Prouver que = 1/2.
Exercice II.9. Sur un espace mesur (,
 A, ), soient f et g deux fonctions intgrables positives ou nulles telles que f d = g d = 1. On dnit les mesures
(de probabilit) P et Q de densits f et g par rapport . Si P Q dsigne
la distance en variation totale dnie par


P Q = sup P (A) Q(A) ,
AA

dmontrer que
1
P Q =
2


|f g| d .

40
i

i
i

barbe 2007/1/8 10:41 page 41 #49

III
MESURES DE PROBABILIT

Dans ce chapitre, nous dnissons les notions de base des probabilits, savoir,
ce que sont une mesure de probabilit et une variable alatoire. Il ne faut pas
perdre de vue que les mathmatiques ne proposent au mieux quun modle de
certains mcanismes rels. La dnition mathmatique dune variable alatoire
est choquante premire vue, puisque nous verrons quil ny a absolument rien
dalatoire et de variable dans cette dnition ! Mais lusage, nous verrons que
le calcul des probabilits que lon peut dvelopper partir de cette dnition
concide avec lintuition que lon peut avoir en observant des phnomnes qualis
dalatoires.
Laxiomatique que nous prsentons ici est essentiellement due Kolmogorov
(19031987). Cest la plus communment utilise. Ce nest pas la seule possible.
Il en existe de nombreuses autres et lon pourra utilement consulter louvrage de
Fine (1973) ce propos.

III.1. Dfinition et exemples


Lobjet de cette section est de transcrire une partie des notions introduites
dans les chapitres prcdents en termes probabilistes, dnissant ainsi les notions
fondamentales du calcul des probabilits. Nous commenons par dnir ce quest
une probabilit.

Definition III.1.1. Soit (, A) un espace mesurable. On appelle probabilit (ou


mesure de probabilit) sur (, A) toute mesure positive P sur A telle que
P () = 1. On dit que (, A, P ) est un espace probabilis. On dit aussi que P
est une loi de probabilit, ou simplement une loi.

i
i

barbe 2007/1/8 10:41 page 42 #50

Chapitre III. Mesures de probabilit

En particulier, si est une mesure sur (, A) avec 0 < () < , on voit que
P = /() est une probabilit.
Si P est une probabilit, observons que P est valeurs dans [ 0, 1 ] puisque
pour tout ensemble A mesurable, P (A) P () = 1. De plus, P () = 0.
Donnons prsent quelques exemples de mesures de probabilit. Lappendice
donne un inventaire des mesures de probabilit usuelles et de leurs caractristiques
principales.

Exemples III.1.2. (i) Soit (, A) un espace mesurable. La masse de Dirac x en


x est la probabilit dnie par x (A) = 1 si x A et 0 si x  A. En dautres
termes, x (A) = A (x).
(ii) Soit
= { 1, 2, 3, 4, 5, 6 } muni de la tribu de ses parties et de la mesure
1

P = 6 1i6 i , proportionnelle la mesure de comptage. Cette mesure est une


probabilit. Cette probabilit sert modliser le jet dun d. Intuitivement, si
A P(), P (A) est la probabilit que le jet du d donne un chire appartenant
lensemble A. Comme on lattend intuitivement, P ({ i }) = 1/6 pour tout i
et, par exemple, la probabilit de tirer un chire pair est P ({ 2, 4, 6 }) = 1/2.
(iii) Soit 0 p 1. La mesure de probabilit P = p 1 + (1 p) 0 est appel probabilit ou loi de Bernoulli de paramtre (de succs) p. Plus gnralement, toute
mesure de probabilit concentre en deux points distincts sera appele probabilit
de Bernoulli. Lorsque p = 1/2, elle est utilise par exemple pour modliser le jet
dune pice dans un jeu de pile ou face quilibr. En eet, en comptant 0 pour
pile et 1 pour face, elle donne P ({ 0 }) = P ({ 1 }) = 1/2.
(iv) Soit (xk )kN une suite de points dun espace (, A) et (pk )kN des rels
positifs

de somme gale 1. On peut construire une probabilit P en posant


P = k0 pk xk . Une telle probabilit est absolument continue par rapport la
mesure de comptage sur lensemble E = { xk : k N }, qui toute partie de
E associe son cardinal. Toute mesure de probabilit sur (E, P(E)) est de cette
forme.
Par exemple, si = N est muni de la tribu des parties A = P(N), si xk = k et
pk = e k /k!, > 0, on obtient la probabilit
P = e

k
kN

k!

k ,

appele loi de Poisson de paramtre , note P().


Si toujours = N est muni de la

tribu de ses parties, et si xk = k,


pk = (1 p)pk , la probabilit P = (1 p) kN pk k est appele loi gomtrique
de paramtre p [ 0, 1 ].
42
i

i
i

barbe 2007/1/8 10:41 page 43 #51

III.1. Dfinition et exemples

Soient les coecients binomiaux Ckn = n!/k!(n k)!, 0 k n. En prenant


= { 0, 1, . . . , n }, xk = k et pk = Ckn pk (1 p)nk pour 0 k n, on obtient
la loi dite binomiale de paramtre p [ 0, 1 ] et de taille n, note B(n, p). La loi
B(1, p) est une loi de Bernoulli sur { 0, 1 }.
(v)
positive telle que
 Si = R, A = B(R) et f est une fonction mesurable

f d = 1, on peut considrer la probabilit P (A) = A f d, A A (cf. II.3.1).
La fonction f est la densit de P (par rapport ) (cf. II.3.3).

Definition III.1.3. Soit (, A, P ) un espace probabilis. Un ensemble A A


est appel un vnement. Un vnement A a lieu P -presque srement (P -p.s.)
sil a lieu P -p.p. (i.e. si P (A) = 1).
Exemple III.1.4. En reprenant lexemple III.1.2.ii, lensemble { 2, 4, 6 } est un vnement. Il modlise le tirage dun chire pair lors dun lanc de d. Dans cet
exemple, le seul vnement qui a lieu presque srement est { 1, 2, 3, 4, 5, 6 }. Nous
verrons par la suite, en particulier au chapitre V, des situations beaucoup moins
triviales.
Dans tout ce qui suit, on considre un espace probabilis (, A, P ).

Definition III.1.5. On appelle variable alatoire toute application mesurable


dnie sur un espace probabilis (, A, P ).
Il est dusage dutiliser X, Y, . . . pour noter des variables alatoires. Pour lessentiel, on se contentera ici de variables valeurs dans (R, B(R)) ou (Rd , B(Rd )).
Elles seront appeles variables alatoires relles ou vectorielles.
Si X et Y sont deux variables alatoires sur (, A, P ) avec X = Y P -p.p., on
crit aussi bien X = Y P -p.s. ou X = Y p.s. sil ny a pas dambigut sur P .

Exemples III.1.6. (i) Soit = [ 0, 1 ], A = B([ 0, 1 ]) la tribu borlienne de [ 0, 1 ]


et soit P (A) = (A), A B(R), la mesure de Lebesgue sur [ 0, 1 ]. Lapplication
identit de (, A) dans (, A) est mesurable. Cest donc une variable alatoire.
On appelle aussi P la probabilit uniforme sur [ 0, 1 ], que lon notera U[0,1] .
(ii) Sur lespace probabilis (, A, x ) o x , toute variable alatoire X est
x -p.s. constante. En eet, x ({ : X() = c }) = 1 si c = x et 0 sinon.
En reprenant les proprits des mesures, on voit que si P est une probabilit
sur (, A) et si A, B, An , n N, sont mesurables, alors
(i) A B P (A) P (B) .
43
i

i
i

barbe 2007/1/8 10:41 page 44 #52

Chapitre III. Mesures de probabilit

(ii) P (Ac ) = 1 P (A) .


(iii) P (A B) = P (A) + P (B) P (A B) .


(iv) P ( nN An ) nN P (An ) .
(v) Si les ensembles An sont croissants, ou dcroissants,
P ( lim An ) = lim P (An ) .
n

(vi) De (iii) et (iv) nous dduisons lingalit de Bonferoni : pour tout k N,



 





P (An )
P An Am P
An
P (An ) .
0nk

0nmk

0nk

0nk

La minoration se dmontre par rcurrence, en notant que





 

An = P A0
An
P
0nk

=P

 

1nk

An

1nk

 

1nk




An
+ P (A0 ) P A0


An

+ P (A0 )

1nk


P A0 An .

1nk

Les noncs sur les mesures peuvent tre reformuls sur les probabilits. En
particulier le thorme de prolongement de Carathodory (I.4.9) montre quune
probabilit est dnie si elle est donne sur une algbre qui engendre la tribu.
De mme que nous avons dni les mesures images, on peut dnir les lois
images. La dnition suivante introduit la notion fondamentale de loi dune variable alatoire.

Definition III.1.7. Soit X une variable alatoire de (, A, P ) valeurs dans


(E, B). On appelle loi de X sous la probabilit P la mesure de probabilit
image P X sur (E, B). On notera parfois L(X) la loi de X.
Il est usuel et commode dallger les notations des lois images en posant pour
tout B B,




P X (B) = P { : X() B } = P { X B } = P { X B } .
En pratique, lespace (, A, P ) est un peu mythique. Si lon se donne une
loi, on peut toujours lcrire comme une loi image par une application mesurable
44
i

i
i

barbe 2007/1/8 10:41 page 45 #53

III.2. Fonctions de rpartition

(prendre lidentit pour la variable alatoire !). Donc toute mesure de probabilit est la loi dune variable alatoire. Pour les applications, en gnral, seule
compte la mesure image, et lon explicite rarement la variable alatoire et lespace
(, A, P ). On crira par exemple soit X une variable de Bernoulli de paramtre p, cest--dire telle que P { X = 1 } = 1 P { X = 0 } = p au lieu de
soit X une variable alatoire de lespace (, A, P ) dans { 0, 1 }, de loi de Bernoulli, cest--dire telle que P X ({ 1 }) = 1 P X ({ 0 }) = p, ou plus exactement
P {X = 1} = 1 P {X = 0} = p . De mme, on crira souvent soit X une variable alatoire de loi P pour dire soit X une variable alatoire dnie sur
lespace (, A, ) o est une mesure de probabilit telle que la mesure image
X est P .
Il sensuit que lon peut considrer de faon complmentaire les variables alatoires et leurs lois. Selon le contexte, lun ou lautre de ces points de vue est
prfrable. Souvent nous utiliserons les variables alatoires. On prendra garde au
fait que le langage aura souvent tendance confondre les variables alatoires et
leurs lois.
La reprsentation dune loi par une variable alatoire nest pas unique. Par
exemple, pour la loi de Bernoulli B(1, p), on peut choisir = { 0, 1 } muni de
la tribu des parties et de la probabilit P = p 1 + (1 p) 0 et X lapplication
identit de { 0, 1 } dans lui-mme. On peut aussi choisir = [ 0, 1 ], A = B([ 0, 1 ]),
P la mesure uniforme sur [ 0, 1 ] (Lebesgue) et X : { 0, 1 } dnie par
X() = [0,p](). La mesure image P X est la loi de Bernoulli de paramtre p.
La dnition suivante a pour but de rsumer les deux classes fondamentales
de lois rencontres dans les exemples prcdents.

Definition III.1.8. On dit quune loi est discrte si cest une combinaison linaire nie ou

dnombrable de masses de Dirac. Une variable alatoire de loi


discrte P = iI pi xi ne prend (presque srement) quun nombre ni ou
dnombrable de valeurs.
Si une loi P est absolument continue par rapport une mesure et si X
est de loi P , on dira par abus de langage que X admet la densit f par rapport
si f = dP/ d. Si est la mesure de Lebesgue, on dit simplement que X
est de densit f .

III.2. Fonctions de rpartition


Soit X une variable alatoire relle (i.e. X est valeurs relles), dnie sur
un espace probabilis (, A, P ).
45
i

i
i

barbe 2007/1/8 10:41 page 46 #54

Chapitre III. Mesures de probabilit

Definition III.2.1. On appelle fonction de rpartition de X, ou de sa loi P X , et


on note F X , la fonction sur R dnie par
F X (t) = P X (] , t ]) = P ({ : X() t }) = P { X t } ,

t R.

Propriete III.2.2. Une fonction de rpartition F vrie les proprits suivantes :


(i) 0 F 1,
(ii) F est croissante, continue droite avec une limite gauche en tout point,
(iii) limt F (t) = 0 et limt F (t) = 1.
Rciproquement, une fonction F vriant (i)(iii) est la fonction de rpartition
dune variable alatoire relle.
Dmonstration. (i) vient de ce que P est valeurs dans [ 0, 1 ]. La croissance dans
(ii) dcoule de la croissance des mesures (i.e. A B P (A) P (B)). La
continuit droite peut tre vue comme une consquence de la proposition I.4.3.iv
en remarquant que

{ X t + 1/n }
{X t} =
n1

et que la croissance de F implique




lim F (t + h) = lim F t + n1 = F (t) .
n

h0

La limite gauche est galement une consquence de la croissance de F .


La proprit
(iii) vient encore de la proposition I.4.3.iv en remarquant que
lintersection n1 { X n } et vide, et donc
0 = P () = lim P { X n } = lim F (n)
n

tandis que 1 = P () = limn P { X n } daprs I.4.3.iii.


Soit maintenant une fonction F vriant (i)(iii). Dnissons pour a < b
la fonction densembles F (] a, b ]) = F (b) F (a). On tend la dnition de
lalgbre des unions nies dintervalles. Le thorme de prolongement I.4.9 permet
ensuite de conclure, comme dans lexemple I.4.10.i, que F stend en une mesure
de Stieltjes de probabilit.


Propriete III.2.3. La fonction de rpartition caractrise la loi, cest--dire


F X = F Y si et seulement si P X = P Y .
46
i

i
i

barbe 2007/1/8 10:41 page 47 #55

III.2. Fonctions de rpartition


Dmonstration. En eet, si F X = F Y , alors P X et P Y concident sur les in-

tervalles, donc sur lalgbre et la tribu engendres par les intervalles. La tribu
engendre par les intervalles est la tribu borlienne et le rsultat sensuit.


Propriete III.2.4. Une fonction de rpartition admet au plus un nombre dnombrable de points de discontinuit.
Dmonstration. Soit Dn lensemble des points de discontinuit avec un saut damplitude plus grande que 1/n ; en notant F (t) la limite gauche de F en t,


Dn = t R : F (t) F (t) 1/n .

Puisque 0 F 
1, ncessairement card(Dn ) n. Lensemble des points de
discontinuit est n1 Dn , et donc est dnombrable. Notons que le mme raisonnement sapplique en fait toute fonction croissante.


Exemple III.2.5. Soit F une fonction de rpartition. Soit (xn )nI , I N, la suite
des points de discontinuit
de F et an = F (xn ) F (xn ) le saut correspondant.

On peut poser Fd = nI an [xn ,[ . Soit = limt Fd (t). Si = 0, la fonction


discrte. Cest
F est continue. Sinon, Fd = 1 Fd est une fonction de rpartition

1
en fait la fonction de rpartition de la mesure de probabilit nI an xn . Si
1
(F Fd ) est une fonction de
= 1, alors F = Fd est discrte. Sinon, Fc = 1
rpartition continue. Ainsi F est la moyenne Fd + (1 )Fc dune fonction de
rpartition continue et dune fonction de rpartition discrte.
Notons Pc la mesure de probabilit sur (R, B(R)) de fonction de rpartition
Fc . En dcomposant Pc suivant la mesure de Lebesgue par le thorme II.3.4,
on pourra crire Pc = Pac + (1 )P pour un [ 0, 1 ], Pac tant une
mesure de probabilit absolument continue par rapport la mesure de Lebesgue,
et P lui tant singulire. Notons Fac et F leur fonction de rpartition. Labsolue
continuit de Pac par rapport permet dexprimer

 t
f d =
f d , t R ,
Fac (t) =
],t]

pour une fonction de densit f 0 (thorme de Radon-Nikodym, II.3.3). Ainsi,


F = (1 )Fac + (1 )(1 )F + Fd .
La partie donne par Fd est discrte, et la partie donne par F est continue (i.e.
ne contient aucune masse de Dirac, donc tout point est de mesure nulle), mais
47
i

i
i

barbe 2007/1/8 10:41 page 48 #56

Chapitre III. Mesures de probabilit

trangre par rapport la mesure de Lebesgue (un exemple classique dune telle
mesure trangre est donn dans lexercice V.13).
Si P X admet une densit par rapport la mesure de Lebesgue, sa fonction de
rpartition scrit

t

f (x) d(x) ,

F (t) =

avec f = dP X / d, et la densit f sobtient pratiquement comme la drive -p.p.


de F .

Exemples III.2.6. (i) Soit > 0 et soit F (t) = 1et si t 0 et F (t) = 0 si t < 0.
Cest une fonction de rpartition. Sa densit est et si t 0 et 0 si t < 0. Cest
la fonction de rpartition de la loi exponentielle de paramtre , note Exp().
(ii) F = [x,[ est la fonction de rpartition de la masse de Dirac x en x R.
(Faire un dessin.)

(iii) F (t) = 0kn Cnk pk (1 p)nk [k,[(t) est la fonction de rpartition de la


loi binomiale B(n, p) (cf. exemple III.1.2.iv).

2
(iv) Soit f (x) = (2)1/2 ex /2 , x R. On vrie que R f d = 1 et donc que f
est une densit. En eet, par un changement de variables en coordonnes polaires,


x2 /2

e
R

2 
2
x2 /2
d(x) =
e
dx

 
2
2
=
e(x +y )/2 dx dy


 2 
r 2 /2
re
dr d = 2 .
=
0

t
2
Sa fonction de rpartition F (t) = (2)1/2 ex /2 dx, t R, est la fonction
de rpartition dune loi appele loi normale ou loi gaussienne, centre, rduite,
note N (0, 1).
Si X est de fonction de rpartition F , alors pour m  R et > 0, la variable
alatoire Y = X + m a pour fonction de rpartition F (t m)/ puisque



tm
.
P X + m t = P X

En particulier, si X est de loi normale N (0, 1), on notera N (m, 2 ) la loi de


Y = X + m, appele loi normale de moyenne m et variance 2 . (La terminologie
sera justie plus loin.)
48
i

i
i

barbe 2007/1/8 10:41 page 49 #57

III.2. Fonctions de rpartition

Par un changement de variables, la densit


de la loi de Y est

 (x m)2 
exp
.
2 2
2 2
1

La densit reprsente la cloche gaussienne, symtrique par rapport m, dautant plus pointue
que est petit. En particulier, N (m, 0) peut tre vue comme la masse de Dirac
en m.
(v) F (t) = t si t [ 0, 1 ], 0 si t < 0 et 1 si t > 1 est une fonction de rpartition
(faire un dessin). Cest la fonction de rpartition de la mesure de Lebesgue sur
[ 0, 1 ], appele loi uniforme et note U[0,1] . Plus gnralement, on dnit une loi
uniforme U[a,b] sur un intervalle born [ a, b ] quelconque. On pourrait tout aussi
bien considrer les intervalles ouverts ou semi-ouverts.
(vi) Soit la fonction de rpartition F dune loi P , donne par

0
si t 0,

t/4
si 0 t < 1,
F (t) =

1/2
si 1 t < 2,

2 + 1 (1 e(t2) ) si t 2.
3
3
Le graphe de F comporte deux points de discontinuit en 1 et 2 damplitudes respectives 1/4 et 1/6. La partie continue est drivable presque partout par rapport
la mesure de Lebesgue, de densit
f (x) =

1
1
[0,1[ (x) + e(x2) [2,[ (x) .
4
3

La mesure de probabilit P se reprsente donc comme


P =

1
1
1 + 2 + ac
4
6

avec ac la mesure de densit f par rapport la mesure de Lebesgue.


Une application intressante des fonctions de rpartition est donne par la
proposition suivante, qui montre que pour simuler numriquement une variable
alatoire de fonction de rpartition F , il sut de savoir simuler une variable
alatoire uniforme sur [ 0, 1 ]. Le rsultat fournit galement une preuve alternative
la rciproque de la proprit III.2.2.
49
i

i
i

barbe 2007/1/8 10:41 page 50 #58

Chapitre III. Mesures de probabilit

Proposition III.2.7. Soit F une fonction de rpartition. On appelle fonction de


quantile la fonction


F (u) = inf x : F (x) > u , u ] 0, 1 [ .
Si U est de loi uniforme sur ] 0, 1 [, alors F (U ) a pour fonction de rpartition F .
Dmonstration. Observons dabord que pour tout u ] 0, 1 [, si F (u) t, alors

F (t) u. En eet, si F (u) t, pour tout s > t il existe x < s tel que F (x) > u ;
ainsi F (s) > u, et par continuit droite de F , F (t) u. Rciproquement, si
F (t) > u, alors t appartient { x : F (x) > u } et donc F (u) t. Par voie de
consquence, pour tout t R,
F (t) = P { U < F (t) } P { F (U ) t }
P { F (t) U } = F (t) ,
de sorte que P { F (U ) t } = F (t) et donc F (U ) a pour fonction de rpartition F .

Remarquons que la fonction de quantile est bien dnie (i.e. est nie) sur
] 0, 1 [. Elle croissante, et donc elle admet au plus un nombre dnombrable de
points de discontinuit (par un argument tout fait analogue celui que nous
avons utilis dans la dmonstration de la proprit III.2.4, en remarquant que
F (1 u) F (u) < pour tout u < 1/2). De plus, on vrie facilement que
si F est inversible, alors F est linverse de F .
La proprit suivante nous sera utile ultrieurement.

Proposition III.2.8. Si F est une fonction de quantile, elle est continue droite
et admet une limite gauche en tout point.
Dmonstration. La limite gauche en tout point provient de la croissance de F .

Pour dmontrer la continuit droite en un point u ] 0, 1 [, montrons (ce qui


sut par croissance) que lim supn F (u + n1 ) F (u) = t. Sinon, il existe
> 0 tel que lim supn F (u + n1 ) > t + . Le long dune sous-suite (nk ),
F (u + n1k ) > t + . Autrement dit, daprs le raisonnement utilis dans la
dmonstration de la proposition prcdente, F (t + ) u + n1k ; et quand k tend
vers linni, F (t+) u. En particulier, F (u) > t, ce qui est impossible puisque

t = F (u).

III.3. Vecteurs alatoires


Dans ce paragraphe, d est un entier suprieur ou gal 2.
50
i

i
i

barbe 2007/1/8 10:41 page 51 #59

III.3. Vecteurs alatoires

Definition III.3.1. Soit (, A, P ) un espace probabilis. On appelle vecteur


alatoire une variable alatoire valeurs dans Rd muni de sa tribu borlienne.
En utilisant le lemme I.2.2 et lexemple I.1.12.iii, on voit que X = (X1 , . . . , Xd )
est un vecteur alatoire si et seulement si ses composantes sont des variables
alatoires relles.

Definition III.3.2. On appelle fonction de rpartition de X, ou de la loi de X,


la fonction
t = (t1 , . . . , td ) Rd  F X (t) = P {X1 t1 , . . . , Xd td } .
La loi de la variable alatoire Xi est appele la i-me loi marginale (ou i-me
marge) de X = (X1 , . . . , Xd ). Elle est donne par
F Xi (ti ) =

lim

t1 ,...,ti1 ,ti+1 ,...,td

F X (t) .

Comme il ressort de cette dnition, la loi dun vecteur X = (X1 , . . . , Xd )


dtermine chacune des lois marginales (loi de Xi , 1 i d). Lexemple suivant
montre que la rciproque est fausse en gnral.

Exemples III.3.3. (i) Supposons que X = (X1 , X2 ) soit de loi discrte dans R2
concentre en les points (1, 0), (0, 1), (0, 1), (1, 0) tous de probabilit 1/4.
Autrement dit,
PX =

1
1
1
1
(1,0) + (0,1) + (0,1) + (1,0) ,
4
4
4
4

ce qui se rsume dans le tableau ci-contre. Les lois


marginales P X1 et P X2 de P X sont gales, et donnes par P X1 = P X2 = 14 1 + 12 0 + 14 1 .
On peut produire un autre vecteur, (Y1 , Y2 ),
ayant les mmes lois marginales, dont les probabilits sont donnes par le tableau ci-contre.
On pourra noter que lon obtient les lois marginales en sommant les probabilits respectivement
sur les lignes et les colonnes de la table.
(ii) Soit X : (, A, P ) (Rd , B(Rd )) dont la densit par rapport la mesure de Lebesgue sur Rd

X2

Y2

1
0
1

X1
1
0
0
1/4
1/4 0
0
1/4

1
0
1/4
0

1
0
1

Y1
1
0
1/16 1/8
1/8
1/4
1/16 1/8

1
1/16
1/8
1/16
51

i
i

barbe 2007/1/8 10:41 page 52 #60

Chapitre III. Mesures de probabilit

( d-fois) est donne par


f (x) =

1
exp(x2 /2)
(2)d/2

avec x = (x1 , . . . , xd ) Rd et la norme euclidienne x2 = x21 + + x2d . Daprs


le thorme de Fubini-Tonelli (II.5.1), les lois marginales sont des lois N (0, 1).
(iii) Plus gnralement, supposons que Z = (X, Y ) admette une densit f (x, y)
par rapport la mesure de Lebesgue sur R2 , i.e.

F (t1 , t2 ) =

t1

t2

t1 , t2 R .

f (x, y) dx dy ,

La loi deX a pour densit f X (x) =


f Y (y) = R f (x, y) dx. En eet,


R

f (x, y) dy, et celle de Y a pour densit




P {X t1 } = lim F (t1 , t2 ) =
t2

t1




f (x, y) dy dx ,

et lon conclut avec lexemple III.2.5.



Si de plus f (x, y) = h(x)g(y) avec h(x) dx = 1, on voit que f X = h et
f Y = g.
La proprit III.2.3 se gnralise sans dicult.

Propriete III.3.4. Soient deux vecteurs alatoires X, Y , dnis sur (, A, P ),


valeurs dans Rd . Alors P X = P Y si et seulement si F X = F Y .

Dmonstration. Comme pour la proprit III.2.3, remarquer que les pavs

] , a1 ] ] , ad ], (a1 , . . . , ad ) Rd , engendrent B(Rd ).

III.4. Moyennes et ingalits


Nous avons vu au chapitre II comment intgrer des fonctions mesurables. Nous
pouvons donc intgrer les variables alatoires.
52
i

i
i

barbe 2007/1/8 10:41 page 53 #61

III.4. Moyennes et ingalits

Definition III.4.1. Soit X une variable alatoire relle, dnie sur (, A, P ). Si


X est intgrable, on appelle esprance ou esprance mathmatique de X (sous
la probabilit P ) le nombre rel

X dP .

E(X) =

On dit que X est centre si elle est intgrable et E(X) = 0.


Lesprance dune variable alatoire nest donc rien dautre que sa valeur
moyenne. Une mesure de probabilit tant de masse totale gale 1, lesprance
dune variable alatoire constante ou presque srement constante est gale cette
constante.
Plus gnralement si X Lp , p > 0, on dnit le moment absolu dordre p
de X par E(|X|p ) = |X|p dP . Si p est entier, on peut aussi dnir le moment
dordre p, E(X p ) = X p dP .
Rappelons quelques rsultats du chapitre II sous une autre formulation. Commenons par le thorme de transport II.4.1. Nous le formulons ici, dans le langage
probabiliste, pour des vecteurs alatoires.

Theor`eme III.4.2 (de transport). Soit X un vecteur alatoire sur (, A, P ) valeurs dans (Rd , B(Rd )) et soit une fonction borlienne de Rd dans R. Si est
valeurs positives,




X() dP () =
(x) dP X (x) .
E (X) =
Rd

Si est valeurs quelconques,


(X) L1 (, A, P ) si et seulement si L1 (Rd , B(Rd ), P X ) .
Dans ce cas, lgalit prcdente a lieu.
En particulier, si X est une variable alatoire relle, intgrable,


X dP =
x dP X (x) .
E(X) =

Remarque III.4.3. Notons les deux faits importants suivants.


53
i

i
i

barbe 2007/1/8 10:41 page 54 #62

Chapitre III. Mesures de probabilit

(i) Si X est un vecteur alatoire valeurs dans (Rd , B(Rd )) et si A B(Rd ), la


fonction A est mesurable. Par dnition de lintgrale et par transport,






E A (X) =
A X() dP () =
A (x) dP X (x)
Rd
X

= P (A) = P {X A} .
(ii) Soit X un vecteur alatoire valeurs dans Rd , admettant une densit f . Soit h
une bijection sur Rd , de classe C1 , de jacobien Jh (x) = 0 pour tout x. Le vecteur
Y = h(X) a pour densit
 
1
g(y) = |Jh1 (y)|f h1 (y) = Jh h1 (y)  f h1 (y) .
En eet, si est une fonction borlienne borne (par exemple une indicatrice
de borlien), daprs le thorme de transport et la formule de changement de
variables pour des intgrales de Lebesgue, on a



h(x) dP X (x)
E h(X) =
d
R
h(x)f (x) dx
=
Rd



(y)Jh1 (y)f h1 (y) dy .
=
Rd

Si la densit f est nulle hors dun ouvert U de Rd , la mme formule sapplique si


h est dnie sur U .
Dans la pratique, la loi de X se dcompose le plus souvent en une partie absolument continue par rapport la mesure de Lebesgue, et une partie absolument
continue par rapport une mesure de comptage. Si P X a une densit f par rapport
la mesure de Lebesgue, sous les conditions dintgrabilit du thorme III.4.2,




X
(x) dP (x) =
(x)f (x) dx .
E (X) =
Si P X =

Rd

Rd

nN pn xn ,



E (X) =


(x) dP X (x) =
Rd


nN

(xn )pn =

(xn )P {X = xn } .

nN

On voit donc quen pratique, le calcul de E((X)) ne ncessite pas le calcul de la


loi de (X).
54
i

i
i

barbe 2007/1/8 10:41 page 55 #63

III.4. Moyennes et ingalits

Exemples III.4.4. (i) Soit X de loi 12 0 + 12 1 . Alors E(X) = 1/2 : dans un jeu de
pile ou face quilibr, on tire en moyenne une fois sur deux pile (X = 1) et une
fois sur deux face (X = 0) !

(ii) Soient x1 , . . . , xn des rels et Pn = n1 1in xi . Si X est de loi Pn , alors


E(X) =

1
xi
n
1in

est la moyenne des xi .


(iii) Si X est de loi binomiale B(n, p),

kCkn pk (1 p)nk
E(X) =
0kn

= pn

k1
Ck1
(1 p)(n1)(k1)
n1 p

1kn

= pn

Ckn1 pk (1 p)(n1)k = pn .

0kn1

(iv) Si X suit une loi de Poisson P(), on vrie comme dans lexemple (iii) que
E(X) = .
(v) Soit X de loi exponentielle de fonction de rpartition 1 F (t) = et , t 0.
Elle a pour densit ex [0,[ (x). Ainsi, en intgrant par parties,


1
x
xe
dx =
ex dx = .
E(X) =

0
0
(vi) Soit X de densit 1/(1 + x2 ) par rapport la mesure de Lebesgue sur R (loi
de Cauchy). Alors X nadmet pas desprance, mais admet tout moment absolu
dordre p < 1.
(vii) Si X est de loi N (0, 1), alors, par symtrie,

2
dx
xex /2 = 0 .
E(X) =
2
R
Donc si X est de loi N (m, 2 ) (cf. III.2.6.iv), E(X) = m.
(viii) Plus gnralement, si X est une variable alatoire relle, intgrable, la linarit de lintgrale implique
E(X + m) = E(X) + m
pour tous , m R.
55
i

i
i

barbe 2007/1/8 10:41 page 56 #64

Chapitre III. Mesures de probabilit

Nous rappelons prsent les ingalits de Jensen (II.2.10), Hlder (II.6.2) et


Minkowski (II.6.3) pour des variables alatoires.

Theor`eme III.4.5. (i) (Ingalit de Jensen) Si est convexe sur R et si X est une
variable alatoire relle telle que X et (X) sont intgrables, alors




E(X) E (X) .
(ii) (Ingalit de Hlder) Si X Lp , Y Lq , p, q 1 et p1 + q 1 = 1, alors
XY L1 et
1/p   q 1/q

  
.
E |XY | E |X|p
E |Y |
1/p
 
est croissante.
(iii) Lapplication p  E |X|p
(iv)  p = (E| |p )1/p est une norme sur Lp (, A, P ), p 1.
(v) On dnit X = limp Xp . Cest une norme, appele norme supremum
essentiel, sur L (, A, P ) = { X : X < }.
Noter que lingalit triangulaire dans le point (iv) de ce thorme est quivalente lingalit de Minkowski. Le point (iii) de ce thorme dcoule aussi bien
de lingalit de Jensen ou de Hlder. Dans la pratique, lingalit de Jensen est
le plus souvent utilise pour les fonctions (x) = |x|, x2 et 1/x lorsque x > 0. En
particulier, pour une variable alatoire X intgrable, |E(X)| E(|X|) ; pour une

2
variable alatoire X dont le carr est intgrable, E(X) E(X 2 ) ; pour une
variable alatoire X valeurs strictement positives, E(1/X) 1/E(X).
La dnition suivante dcrit une mesure de la dispersion dune variable alatoire ou de sa loi.

Definition III.4.6. Soit X une variable alatoire relle dont le carr est intgrable. On appelle variance de X, ou de sa loi P X , et on note Var(X), la
quantit

2 
.
Var(X) = E X E(X)

Var(X) est appele lcart type, parfois not (X). Une variable
La racine
alatoire dcart type 1 est dite rduite.
Une expression quivalente de la variance est
Var(X) = E(X 2 ) E(X)2 .
56
i

i
i

barbe 2007/1/8 10:41 page 57 #65

III.4. Moyennes et ingalits

En eet, le dveloppement du carr et la linarit de lesprance montrent que




Var(X) = E X 2 2XE(X) + E(X)2 = E(X 2 ) 2E(X)2 + E(X)2
puisque lesprance dune constante est cette constante.
Une autre criture de la variance, de contenu plus gomtrique, est en terme
de norme dans lespace de Hilbert L2 (, A, P ), mesurant la distance de X son
esprance :

Var(X) = X E(X)2 .
Les variances svaluent comme les esprances partir du thorme de
transport.

Exemples III.4.7. (i) Si Var(X) = 0, alors X est p.s. constante, gale sa moyenne
E(X).
(ii) Si X est de loi de Bernoulli B(n, p), sa variance est np(1 p).
(iii) Si X suit une loi N (0, 1), E(X) = 0 et donc

2
dx
2
x2 ex /2 = 1
Var(X) = E(X ) =
2
R
(intgration par parties). Ceci justie la terminologie de loi normale centre rduite pour N (0, 1).
(iv) Si est un nombre rel, Var(X + ) = Var(X) et Var(X) = 2 Var(X). En
particulier, si X est de loi N (m, 2 ), on a Var(X) = 2 et (X) = .
La dnition et les exemples (iii)(iv) montrent que plus la variance est grande,
plus la variable alatoire est disperse, cest--dire prend avec forte probabilit
des valeurs loignes de sa moyenne.
Il est parfois plus commode de calculer une esprance partir de la fonction
de rpartition.

Proposition III.4.8. Soit X une variable alatoire relle positive, de fonction de


rpartition F = F X . Alors, pour tout 0 < p < ,




p
p1
t P {X > t} dt = p
tp1 1 F (t) dt .
E(X ) = p
0

De plus, E(X) < si et seulement si pour un ou tout > 0,




P {X > n} < ou
2n P {X > 2n } < .
nN

nN

57
i

i
i

barbe 2007/1/8 10:41 page 58 #66

Chapitre III. Mesures de probabilit


Dmonstration. Daprs le thorme de Fubini-Tonelli (II.5.1),

p1



tp1 E ]t,[(X) dt
0

  X
p1
t
dt
=E p

P {X > t} dt = p

0
p

= E(X ) .
Pour la seconde partie, prenons p = 1 et notons que



P {X > n + 1}
P {X > t} dt
P {X > n}
0

nN

nN

en dcoupant lintgrale sur [ 0, [ suivant les intervalles [ n, n + 1 [ . De la mme


faon, en dcoupant cette intgrale suivant les intervalles [ 2n , 2n+1 [ ,



n
n+1
2 P {X > 2
}
P {X > t} dt 1 +
2n P {X > 2n } .
0

nN

nN

On conclut en remplaant X par X/.

Les ingalits suivantes sont essentielles dans lanalyse des variables alatoires
relles.

Inegalite de Markov III.4.9. Si X est intgrable et t > 0, alors


P {X t}

E(|X|)
E(X + )

.
t
t

Dmonstration. Observer que

[t,[(X)

X
X+
|X|

[t,[ (X)
t
t
t


et intgrer cette ingalit par rapport P .

Cette ingalit est utilise gnralement soit pour X positive, soit pour |X|.
Elle nest intressante que si le second membre est plus petit que 1.

Exemples III.4.10. (i) Si X Lp , p > 0, alors


P {X t}

E(|X|p )
tp

pour tout t > 0 puisque {X t} {|X|p tp }.


58
i

i
i

barbe 2007/1/8 10:41 page 59 #67

III.4. Moyennes et ingalits

(ii) Si X L2 , lingalit de Markov implique lingalit de Tchebitchev



 Var(X)
,
P |X E(X)| t
t2

t > 0,

puisque E(|X E(X)|2 ) = Var(X).


(iii) Si maintenant E(eX ) < pour > 0, ou seulement ] 0, 0 [ , 0 > 0,
alors, pour tout t R,
P {X t} inf et E(eX )

puisque {X t} = {eX et } pour tout > 0. Autrement dit,


P {X t} eI(t)
o



I(t) = sup t ln E(eX ) ,

t R.

Cette ingalit est lingalit de Bernstein, Cramr ou Cherno. Elle est dun
usage frquent dans ltude des sommes de variables alatoires indpendantes et
dans la thorie des grandes dviations.
(iv) Nous prsentons un exemple dapplication du calcul des probabilits lapproximation des fonctions. Le thorme de Stone-Weierstrass indique que lensemble des polynmes est dense dans lespace C[ 0, 1 ] des fonctions continues sur
[ 0, 1 ] valeurs relles, muni de la norme uniforme   . Montrons ce rsultat
de faon plus constructive.
une fonction f C[ 0, 1 ], nous associons son n-ime polynme de Bernstein,

f (k/n)Ckn xk (1 x)nk , x [ 0, 1 ] .
Bn (f, x) =
0kn

Observons que Bn (f, x) = E(f (Z/n)) o Z est de loi binomiale B(n, x). Notons


(f, ) = sup |f (x) f (y)| , x, y [ 0, 1 ] , |x y|
le module de continuit de f sur [ 0, 1 ]. Ce module est ni pour tout > 0
puisque f est continue sur le compact [ 0, 1 ], donc uniformment continue. Pour
tout x [ 0, 1 ],
 



f (x) Bn (f, x) = f (x) E f (Z/n) 


E f (x) f (Z/n)




(f, )P |Z/n x| + 2f  P |Z/n x| .
59
i

i
i

barbe 2007/1/8 10:41 page 60 #68

Chapitre III. Mesures de probabilit

En utilisant lingalit de Tchebitchev (4.10.ii) pour la variable Z de moyenne


E(Z) = nx et de variance Var(Z) = nx(1 x), il vient


f (x) Bn (f, x) (f, ) + 2f  1 Var(Z)
n2 2
1
(f, ) + 2f  2 x(1 x)
n
f 
.
(f, ) +
2n2
Donc,



f  
= o(1)
sup f (x) Bn (f, x) inf (f, ) +
>0
2n2
0x1

(n ) ,

ce qui dmontre le thorme de Weierstrass. En particulier, si f est hldrienne


dindice , (f, ) = c , 0 < 1, on obtient


/(+2) /(+2)
n
.
sup f (x) Bn (f, x) (2c)2/(+2) f 
0x1

Nous concluons ce paragraphe par les dnitions desprance et de variance


pour des vecteurs alatoires.

Definition III.4.11. Si X = (X1 , . . . , Xd ) Rd est un vecteur alatoire sur


un espace probabilis (, A, P ), on dit que X est de puissance p-ime intgrable (p > 0) si chacune de ses composantes lest, ce qui quivaut dire que
E(Xp ) < , o X est ici la norme euclidienne (X12 + + Xd2 )1/2 du
vecteur X. Son esprance est le vecteur de Rd


E(X) = E(X1 ), . . . , E(Xd ) .
Sa (matrice carre de) covariance est

 
Cov(X) = E (Xi E(Xi ))(Xj E(Xj )) 1i,jd .
la variance se substitue prsent une matrice. Cest une matrice symtrique
semi-dnie positive puisque pour tous rels 1 , . . . , d ,

2 




i j E (Xi E(Xi ))(Xj E(Xj )) = E
i (Xi E(Xi ))
0.
1i,jd

1id

60
i

i
i

barbe 2007/1/8 10:41 page 61 #69

III.5. Fonctions caractristiques

Elle est dnie positive si aucune combinaison linaire des composantes du


vecteur alatoire nest p.s. constante.

Exemple III.4.12. Soit X la variable alatoire de loi dcrite dans lexemple


III.3.3.ii. Il est ais de vrier que le vecteur moyenne de X est le vecteur nul
(de Rd ), et que sa matrice de covariance est la matrice identit (de Rd ). On parlera plus loin de vecteurs gaussiens de moyenne m et de matrice de covariance ,
o m est un vecteur quelconque de Rd et est une matrice symtrique semi-dnie
positive (d, d).

III.5. Fonctions caractristiques


Nous savons que la fonction de rpartition dune variable alatoire relle ou
vectorielle X sur (, A, P ) caractrise sa loi. Autrement dit, sur R par exemple,
la donne de


F X (t) = E ],t] (X) , t R ,
dtermine la loi de X. Puisque les indicatrices sont des fonctions borliennes
bornes, la donne de E((X)) pour toute fonction borlienne borne caractrise la loi P X . La fonction indicatrice ],t] peut tre approche par la suite de
fonctions continues bornes

si x t,
1
n (x) = 1 + n(t x) si t x t + n1 ,

0
si x > t + n1
(faire un dessin). Il sensuit, daprs le thorme de convergence domine, que la
donne de E((X)) pour toute fonction continue borne sur R caractrise P X .
Plus gnralement, les fonctions indicatrices peuvent tre approches simplement
par des fonctions C bornes ; et donc la donne de E((X)) pour toute fonction
inniment drivable caractrise galement P X . On pourrait mme se restreindre
aux fonctions C support compact ! (cf. exercice II.5).
Ces raisonnements et conclusions sappliquent de la mme faon aux vecteurs
alatoires.
Une autre caractrisation intressante en pratique (voir IV.2, V.4 et V.5) est
celle des fonctions caractristiques, ou transformes de Fourier, qui remplace la
classe des fonctions C bornes par la famille des fonctions sinus et cosinus.

Definition III.5.1. Soit X un vecteur alatoire sur (, A, P ) valeurs dans Rd .


On appelle fonction caractristique de X ou de la loi de X, ou transforme de
61
i

i
i

barbe 2007/1/8 10:41 page 62 #70

Chapitre III. Mesures de probabilit

Fourier, et on note X , la fonction valeurs complexes



d
X
it,X
)=
eit,x dP X (x)
t R  (t) = E(e
d
R


X
=
cost, x dP (x) + i
sint, x dP X (x) .
Rd

Rd

La fonction caractristique est valeurs complexes, de module major par 1


(daprs lingalit de Jensen), et X (0) = 1. Si la loi de X a une densit f par
rapport la mesure de Lebesgue sur Rd , alors

X
eit,x f (x) dx
(t) =
Rd

est aussi appele la transforme de Fourier de la fonction f .


Comme son nom lindique, la fonction caractristique caractrise la loi.

Theor`eme III.5.2. Si X et Y sont deux vecteurs alatoires de lois P X et P Y telles


que X = Y , alors P X = P Y .
Dmonstration. La dmonstration utilise le thorme des classes monotones fonctionnelles (I.3.5). On note e1 , . . . , ed la base canonique de Rd . Pour tout
t Rd , lgalit des parties relles (resp. imaginaires) de X et Y donne
E(cost, X) = E(cost, Y ) (resp. E(sint, X) = E(sint, Y )). Notons C
lensemble des combinaisons linaires nies des fonctions x  cost, x et
x  sint, x. En particulier, la fonction x  n sinei /n, x appartient C et
sa limite simple, la projection sur la i-me coordonne, est mesurable par rapport
la tribu (C ) engendre par C . Donc (C ) = B(Rd ) (cf. I.1.12.iii).
Soit maintenant H lespace vectoriel des fonctions borliennes bornes telles
que E((X)) = E((Y )). Lespace H contient les constantes et est stable par
convergence monotone borne (daprs le thorme de convergence monotone
II.2.1). De plus C H et C est stable par multiplication (linariser un produit de sinus et de cosinus). Le thorme des classes monotones fonctionnelles
(I.3.5) montre alors que H contient toute fonction borne mesurable par rapport

(C ) = B(Rd ), donc toute fonction borlienne. Le rsultat sensuit.

Exemples III.5.3. (i) Si X = a p.s., i.e. P X = a , a Rd , alors X (t) = eit,a .


(ii) Si X est un vecteur alatoire valeurs dans Rd , une matrice oprant sur Rd
et m Rd , alors Y = X + m est un vecteur alatoire de fonction caractristique
Y (t) = eit,m X (t t)
puisque t, X + m =  t t, X + t, m.
62
i

i
i

barbe 2007/1/8 10:41 page 63 #71

III.5. Fonctions caractristiques

(iii) Si X suit une loi normale N (0, 1), alors



 it,X 
2
dx
2
X
eitxx /2 = et /2 .
=
(t) = E e
2
R
Une mthode pour calculer cette intgrale est donne dans lexercice III.12.
Si Y est de loi N (m, 2 ), Y a la mme loi que X + m, et donc


2 2
Y (t) = E eit(X+m) = eitm t /2 .
(iv) Si X est de loi exponentielle de densit ex sur R+ , alors

1
X
.
e(it1)x dx =
(t) =
1 it
R+
(v) Si X est de loi de Poisson de paramtre ,
P {X = k} = e k /k! ,
alors
X (t) =

eitk e

kN

k N,

(eit )k


k
= e
= exp (eit 1) .
k!
k!
kN

(vi) Si X est de loi binomiale de paramtres n et p,


P { X = k } = Ckn pk (1 p)nk ,
alors
X (t) =

0 k n,

Ckn (eitp )k (1 p)nk = (1 p + peit )n .

0kn

(vii) Si X = (X1 , . . . , Xd ) est un vecteur alatoire dont la loi est le produit des
lois marginales, P X1 P Xd , alors X (t) = X1 (t1 ) Xd (td ). (Utiliser le
thorme de Fubini, II.5.1).
Puisque la transforme de Fourier caractrise la loi, il est souhaitable davoir
une formule dinversion permettant dobtenir eectivement la loi partir de la
fonction caractristique. Il existe plusieurs formules de ce type permettant de
calculer la densit si elle existe, ou la fonction de rpartition (voir exercice V.9).
En voici une possible.

Theor`eme III.5.4 (Formule dinversion de Fourier). Soit X la fonction caractristique dun vecteur alatoire X, suppose intgrable par rapport la mesure de
Lebesgue sur Rd . Alors, la loi de X admet une densit continue borne f X par
rapport la mesure de Lebesgue sur Rd , donne, pour tout x Rd , par

1
X
eit,x X (t) dt .
f (x) =
(2)d Rd
63
i

i
i

barbe 2007/1/8 10:41 page 64 #72

Chapitre III. Mesures de probabilit

Dmonstration. Voir exercice V.9.

Exemples III.5.5. (i) Si f (x) = 12 e|x| , x R, densit de la loi dite de Laplace,


sa transforme de Fourier est (t) = 1/(1 + t2 ). Pour le montrer, on se reporte
lexemple III.5.3.iv, et on remarque que, par symtrie, la transforme de Fourier
de f est
1
1
1
1
1

+
=
.
2 1 it 2 1 + it
1 + t2
(ii) Soit f (x) = 1/(1 + x2 ), x R, la densit de la loi dite de Cauchy, sur R. En
utilisant lexemple prcdent et le thorme III.5.4, il vient

1
1
1 |x|
e
=
eitx
dt .
2
2 R
1 + t2
En changeant t et t dans lintgrale, on constate que la tranforme de Fourier
de f est e|t| .

Lorsque X est une variable alatoire relle, eitX = nN (it)n X n /n! ; en intgrant terme terme (nous verrons plus loin des conditions permettant de le
justier),
(it)n
E(X n ) .
X (t) =
n!
nN

La formule de Taylor montre alors que les moments de la variable sont proportionnels aux drives de la transforme de Fourier. Le rsultat rigoureux est le
suivant.

Proposition III.5.6. Soit X une variable alatoire relle, de fonction caractristique


= X et de loi P X .
(i) Si E(|X|n ) < , alors est n-fois drivable, de drive k-ime (k n)

(k)
k
xk eitx dP X (x) = ik E(X k eitX ) .
(t) = i
En particulier, (k) (0) = ik E(X k ).
(ii) Rciproquement, si n est pair et si est n-fois drivable en 0, alors X admet
tout moment dordre plus petit ou gal n.
Dmonstration. (i) Lingalit, pour tout u R et tout n N,



n1 
n
 iu
 |u| ,
 e 1 iu . . . (iu)

1!
(n 1)! 
n!
64
i

i
i

barbe 2007/1/8 10:41 page 65 #73

III.5. Fonctions caractristiques

 u ix
se dmontre en remarquant que f1 (u)
=
i
0 e dx est de module plus petit
u
que |u|, et par rcurrence fn (u) = i 0 fn1 (x) dx est de module plus petit que
|u|n /n!. Dmontrons pour commencer que est drivable en tout point t R
lorsque E(|X|) < . Pour tout h = 0,
(t + h) (t)
=
h


eitx

eihx 1
dP X (x) .
h

Daprs lingalit prcdente pour n = 1,




 itx eihx 1 
 |x|
e
h
qui est intgrable pour P X indpendamment de h. Daprs le thorme de convergence domine (II.2.8),


(t) = lim

h0

itx

eihx 1
dP X (x) =
h


ixeitx dP X (x) = iE(XeitX ) .

Les drives dordre suprieur se calculent de la mme faon.


(ii) Dmontrons par rcurrence que E(X 2k ) est ni ds que 2k n, ce qui sut
en vertu du thorme III.4.5.iii. La proprit est vraie pour k = 0. Supposons-la
montre pour k 1. Par hypothse, la limite

1  (2k2)
(h) + (2k2) (h) 2(2k2) (0)

2
h0 h
lim

existe et est gale (2k) (0). Comme, daprs le point (i), pour tout h rel,

(2k2)
k1
(h) = (1)
x2k2 eihx dP X (x) ,

on a
k1 (2k)

(1)

2
(0) = lim 2
h0 h



x2k2 cos(hx) 1 dP X (x) .



Utiliser le lemme de Fatou (II.2.3) et la limite limh0 1 cos(hx) /h2 = x2 /2
pour conclure que


x2k dP X (x) (1)k (2k) (0) < .

Application III.5.7. Remarquons quen gnral une loi nest pas caractrise par
ses moments (exercice III.7). Toutefois, si = X est analytique, la proposition III.5.6 et le thorme III.5.2 montrent que la loi P X est caractrise par
65
i

i
i

barbe 2007/1/8 10:41 page 66 #74

Chapitre III. Mesures de probabilit

ses moments. Une condition simple pour que ceci ait lieu est de supposer que
E(e|X| ) < pour un > 0. En eet, en intgrant lingalit utilise pour
dmontrer III.5.6.i et en utilisant III.5.6.i, il vient


n1



 |h|n
(n1)
 (t + h) (t) h (1) (t) h

,
(t)  E |X|n

1!
(n 1)!
n!
ce qui fournit lanalyticit de h  (t + h) sur ] , [. Ceci ayant lieu pour
chaque rel t, de proche en proche, est analytique sur tout R. Un exemple
important est le cas particulier des lois concentres sur un intervalle born de R.
Ceci est rsum dans le thorme dit des moments.

Theor`eme III.5.8 (des moments). Soient X, Y deux variables alatoires dnies


sur (, A, P ) valeurs dans un intervalle born [ a, b ]. Si E(X k ) = E(Y k ) pour
tout k N, alors X et Y ont mme loi.
La dnition suivante est une variante de celle des fonctions caractristiques.
Elle impose cependant des conditions dintgrabilit sur la loi de la variable alatoire.

Definition III.5.9. Si X est un vecteur alatoire sur (, A, P ) valeurs dans


de Laplace (ou fonction gnratrice des moments)
Rd , on appelle transforme
 s,X
X
la fonction L (s) = E e
dnie pour les valeurs de s pour lesquelles
es,X est intgrable.
La transforme de Laplace, si elle est nie dans un voisinage de 0, caractrise
la loi, comme la transforme de Fourier (pour les lois sur R+ , la dmonstration est
analogue celle du thorme III.5.2, en remplaant les fonctions sin(tx) et cos(tx)
par etx et en remarquant que la fonction identit est limite simple de combinaisons
linaires dexponentielles de petits paramtres, puisque x = limt0 t1 (etx 1)
et 1 = e0x !). Il existe des formules dinversion de la transforme de Laplace (voir
par exemple lexercice V.8).
On peut donner un nonc analogue la proposition III.5.6 justiant le nom
de fonction gnratrice des moments.

Proposition III.5.10. Soit X une variable alatoire relle telle que etX est intgrable
pour t dans un intervalle ouvert contenant 0. Alors la transforme de Laplace LX
est dnie sur un intervalle ouvert contenant 0. De plus elle est analytique dans
un voisinage de 0 et
tn
E(X n )
LX (t) =
n!
nN

66
i

i
i

barbe 2007/1/8 10:41 page 67 #75

Exercices

pour tout t dans ce voisinage. En particulier, pour tout n N,


(LX )(n) (0) = E(X n ) .
Dmonstration. Supposons LX dnie sur ] , [ pour un > 0. Puisque

|tx|n
= e|tx| etx + etx ,
n!

nN

le thorme de convergence domine II.2.8 montre que pour tout |t| < ,
LX (t) = E(etX ) =

1 
 tn
E (tX)n =
E(X n ) ,
n!
n!

nN

nN

ce qui dmontre lanalycit de LX dans un voisinage de 0.

Exercices
Exercice III.1. Un tiroir contient n paires de chaussures. On choisit au hasard 2r
chaussures (2r n). Quelle est la probabilit quil ny ait parmi ces 2r chaussures aucune paire complte ? Quelle est la probabilit quil y ait exactement k
paire(s) complte(s) (1 k r) ?
Exercice III.2. Soit X une variable alatoire valeurs dans un ensemble M muni
de la tribu de ses parties, telle que P {X = x} > 0 pour tout x M . Montrer
que M est ni ou dnombrable.
Indication : Pour tout n 1, soit Mn = {x M : P {X = x} > 1/n}. Montrer
que Mn est ni.
Exercice III.3. (Paradoxe de Bertrand). Soit C le cercle de centre O et de rayon
1 dans R2 . On cherche dterminer la probabilit pour que la corde AB de ce
cercle, choisie au hasard, soit plus grande que le ct du triangle quilatral
inscrit dans le cercle. Faire le calcul dans les dirents cas suivants :
a) On xe un point I du cercle ; on choisit un point M sur le segment OI selon
la probabilit uniforme ; on lui associe la corde AB perpendiculaire OI et
passant par M .
b) On xe A sur le cercle et on choisit B selon la probabilit uniforme sur le
cercle.
c) On choisit M dans le disque selon la probabilit uniforme ; AB est alors la
corde passant par M et perpendiculaire OM .
67
i

i
i

barbe 2007/1/8 10:41 page 68 #76

Chapitre III. Mesures de probabilit

Exercice III.4. La plupart des ordinateurs disposent dun algorithme permettant


de simuler des variables alatoires uniformes sur [ 0, 1]. Supposons donc savoir
tirer une variable alatoire de loi U[0,1] . Utiliser la proposition III.2.7 pour simuler
une variable alatoire de loi
(i) Exp(1),
(ii) de fonction de rpartition F (x) = 1 x si x 1, et F (x) = 0 si x 1
(loi de Parto),
(iii) de Cauchy de densit 1/(1 + x2 ) .

Exercice III.5. Soit X une variable alatoire valeurs dans N telle que
P {X = k} =

e2 2k
(1 + k) ,
4k!

k N,

o > 0. Dterminer la valeur de . Calculer lesprance et la variance de X


en remarquant que
3
1
P {X = k} = P {Y = k} + P {T = k}
4
4
pour tout k, o T = Z + 1 et Y et Z sont deux variables de loi de Poisson de
paramtre 2.
Exercice III.6. Soit lensemble des n! permutations des entiers de 1 n muni
de la probabilit uniforme.
Soient {c1 , . . . , cn } et {u1 , . . . , un } des nombres rels.

On dnit S() = 1kn ck u(k) . Posons


1

c= n
1kn ck ,
1

2
s2c = n
1 1kn (ck c) ,

u =n
1kn uk ,
1

2
s2u = n
1 1kn (uk u) .

a) Montrer que lesprance de S est gale nc u.


covariance de u(k) et u(l) (k = l).
b) Calculer la variance

de u(k) , puis la

Indication : Noter que 1kn u(k) = 1kn uk .


c) Dterminer la variance de S en fonction de s2c et s2u .

Exercice III.7. Soit X une variable alatoire de loi N (0, 1). Montrer que Z = eX
2
est de densit f Z (z) = (2)1/2 z 1 e(ln z) /2 si z > 0 et f Z (z) = 0 si z 0. La
loi de Z sappelle la loi log-normale.
Pour a [ 1, 1 ], soit fa (x) = f Z (x)(1 + a sin(2 ln x)), x > 0. Montrer
que si Za est de densit fa , alors Za et Z ont mmes moments, et donc que les
moments ne caractrisent pas une loi de probabilit (comparer avec III.5.7 et le
thorme III.5.8).
68
i

i
i

barbe 2007/1/8 10:41 page 69 #77

Exercices

Exercice III.8. On dit quun vecteur alatoire X = (X1 , . . . , Xd ) est changeable


si la loi de X est invariante par permutation des coordonnes, i.e. pour toute
permutation de {1, 2, . . . d}, X a mme loi que (X(1) , . . . , X(d) ). Soit donc
X un tel vecteur alatoire, changeable, de carr intgrable, tel que de plus
X1 + + Xd = 1. Montrer qualors E(Xi ) = 1/d et
Cov(Xi , Xj ) =

VarX1
,
d1

i = j .

Indication : tudier E(X1 + + Xd ) et E(X1 (X1 + + Xd )).

Exercice III.9. Soit X une variable alatoire relle sur (, A, P ).


a) On suppose que X est de carr intgrable. Dmontrer quil existe un unique
rel x0 tel que la fonction g(x) = E((X x)2 ) soit minimum en ce point.
Dterminer x0 et g(x0 ).
b) On appelle mdiane de X un rel m tel que
P {X m} 1/2 et P {X m} 1/2 .
Dmontrer quun tel rel existe toujours, mais quil nest pas ncessairement
unique. Prouver que si X est intgrable et m est une mdiane de X,


 


E |X m| = inf E |X | : R .
Indication : tablir que si a < b,





E |X b| E |X a| =

(x) dx
a

o (x) = P {X x} P {X x} et tudier le signe de la fonction .


Exercice III.10. Soit X une variable alatoire positive de carr intgrable sur
(, A, P ) et soit ] 0, 1 [. Dmontrer que


(1 )E(X) E X [E(X),[ (X) ,
et en dduire, par lingalit de Cauchy-Schwarz, que


E(X)2
.
P X E(X) (1 )2
E(X 2 )

Exercice III.11. Si P est une mesure

de probabilit sur {1, 2, . . . , n}, on dnit lentropie de P par H(P ) = 1kn pk ln pk o pk = P ({k}), avec
la convention 0 ln 0 = 0. Montrer que H est valeurs dans R+ et trouver P telle que H(P ) = 0. Dmontrer que la mesure uniforme sur {1, 2, . . . , n}
ralise le maximum de H.
69
i

i
i

barbe 2007/1/8 10:41 page 70 #78

Chapitre III. Mesures de probabilit

Si P est

une mesure de probabilit sur N, on dnit de mme son entropie par


H(P ) = nN pn ln pn . Montrer que H est valeurs dans R+ { }. Quand
sannule-t-elle ? Dmontrer que la loi gomtrique de paramtre p, 0 < p < 1,
ralise le maximum dentropie sur lensemble des mesures de probabilit sur N
de moyenne infrieure ou gale p/(1 p).
Si P est une mesure de probabilit sur
 (R, B(R)) de densit f par rapport la
mesure de Lebesgue, on note H(P ) = f (x) ln f (x) dx lorsque cette intgrale
a un sens, H(P ) = sinon. Calculer lentropie de la loi normale N (0, 1).
Dmontrer
quelle minimise
lentropie de toute mesure de densit f vriant

 2
xf
(x)
dx
=
0
et
x
f
(x)
dx = 1.
R
R
Indication
:
on
pourra
commencer
par montrer que pour toute densit g,

ln(f (x)/g(x))f (x) dx 0, puis prendre pour g la densit gaussienne.

2
Exercice III.12. Montrer que la fonction (t) = (2)1/2 R eitxx /2 dx, t R,
est solution dune quation direntielle du premier ordre. En dduire la fonction
caractristique de la loi N (0, 1) (cf. III.5.3.iii) ainsi que tous les moments de la
loi N (0, 1).

Exercice III.13. (Lemme de Riemann-Lebesgue) Soit X une variable alatoire


relle, de densit f . Montrer que limt X (t) = 0.
Indication : on pourra considrer dabord une densit uniforme, de la forme
[ a,b ] /(b a), puis une densit tage, et approcher dans L1 une densit quelconque par une densit tage.
En dduire que si f admet des drives f (1) , . . . , f (k) intgrables, alors
= o(|t|k ) lorsque t .
Exercice III.14. Soit P la mesure de probabilit sur Z dnie par

|X (t)|

P =


n2

c
n2 ln n

(n + n )

o c est la constante de normalisation faisant de P une probabilit. Cette mesure


admet-elle un moment dordre 1 ? Soit la transforme de Fourier de la mesure
P . Pour tout entier N 2 et tout t > 0, on dnit
fN (t) =

sin2 (nt/2)
,
tn2 ln n

2nN

gN (t) =

sin2 (nt/2)
.
tn2 ln n

n>N

Dmontrer que fN (t) tN et que gN (t) 1/tN ln N . Trouver une fonction


t  N (t) de ] 0, [ dans N telle que limt0 fN (t) (t) = limt0 gN (t) (t) = 0. En
dduire que est drivable en 0.
70
i

i
i

barbe 2007/1/8 10:41 page 71 #79

Exercices

Exercice III.15. Soit f une densit sur R, paire


(i.e. f (x) = f (x)), de fonction
 1
caractristique . Pour x > 0, soit g(x) = x t f (t) dt et poser g(x) = g(x).
t
Montrer que g est une densit dont la fonction caractristique est t1 0 (s) ds.

71
i

i
i

barbe 2007/1/8 10:41 page 72 #80

i
i

barbe 2007/1/8 10:41 page 73 #81

IV
INDPENDANCE

Dans ce chapitre, nous dbutons vritablement les considrations probabilistes.


Si on jette deux fois un d, le rsultat du second jet est intuitivement indpendant du premier. Nous allons formaliser cette intuition, ce qui nous permettra
dvaluer la probabilit de certains vnements.
Lindpendance est aux probabilits ce que sont les mesures produit la thorie de la mesure. En particulier, les sommes de variables alatoires indpendantes
ont pour loi les produits de convolution de mesures. Cette description permet
de dvelopper une intuition claire des phnomnes alatoires modliss par des
rptitions indpendantes dpreuves (loi des grands nombres, thorme central
limite).

IV.1. Indpendance
Definition IV.1.1. Sur un espace probabilis (, A, P ), deux vnements A, B
sont dit indpendants si
P (A B) = P (A)P (B) .

Exemple IV.1.2. On jette deux ds, un bleu et un rouge. Les vnements


A = { on obtient un nombre infrieur ou gal 4 avec le d rouge }
et
B = { on obtient un 6 avec le d bleu }

i
i

barbe 2007/1/8 10:41 page 74 #82

Chapitre IV. Indpendance

sont intuitivement indpendants, puisque les deux jets le sont. Nous pouvons
modliser le tirage des deux ds en prenant


= (i, j) : 1 i, j 6
muni de la tribu de ses parties et de la probabilit uniforme P . Clairement, P (A) =
2/3 et P (B) = 1/6. Observons que


A B = (1, 6), (2, 6), (3, 6), (4, 6)
est de probabilit 4/36 = 1/9, qui est bien le produit de P (A) et P (B).
Remarquons que si deux vnements A et B sont indpendants, les tribus
({A}) = { , A, Ac , } et ({B}) sont indpendantes au sens o tout lment
de ({A}) est indpendant de tout lment de ({B}). Dmontrons par exemple
que A et B c sont indpendants. En eet,
P (A B c ) = P (A) P (A B) = P (A) P (A)P (B)
= P (A)(1 P (B)) = P (A)P (B c ) .
La dnition suivante amplie cette premire ide intuitive de lindpendance dans
deux directions, dune part pour des familles quelconques dvnements, dautre
part pour des tribus.

Definition IV.1.3. Soit (, A, P ) un espace probabilis.


(i) Une famille quelconque dvnements Ai A, i I, est mutuellement
indpendante si pour tout J I ni
P


jJ


Aj

P (Aj ) .

jJ

(ii) Une famille quelconque de sous-tribus (ou dalgbres) Ai A, i I, est


mutuellement indpendante si toute famille dvnements Ai Ai , i I, est
mutuellement indpendante.

Exemples IV.1.4. (i) Prenons = [ 0, 1 ] muni de sa tribu borlienne et P la mesure


de Lebesgue sur [ 0, 1 ]. Soit, pour tout n 1,
  2(k 1) 2k 1 
,
.
An =
2n
2n
n1
1k2

La famille (An )n1 est mutuellement indpendante (exercice IV.3).


74
i

i
i

barbe 2007/1/8 10:41 page 75 #83

IV.1. Indpendance

(ii) Reprenons lexemple du jet de ds. Considrons les vnements


A ={ le rsultat du d rouge est impair } ,
B ={ le rsultat du d bleu est impair } ,
C ={ la somme des deux ds est impaire } .
Il est facile de constater que A, B, C sont indpendants deux deux (cest--dire
A et B sont indpendants, B et C sont indpendants, A et C sont indpendants),
mais ne sont pas mutuellement indpendants au sens de la dnition prcdente.
En eet,
P (A) = P (B) = P (C) = 1/2 ,
P (A B) = 1/4 ,

P (A C) = 1/4 ,

P (B C) = 1/4 ,

alors que P (A B C) = 0 car A B C = (la somme des ds ne peut tre


impaire si chacun des deux ds ache un rsultat impair).
(iii) Soient (i , Ai , Pi ), i = 1, 2, des espaces probabiliss. En identiant tout
ensemble A1 de A1 avec A1 2 et tout ensemble A2 de A2 avec 1 A2 , les
tribus A1 et A2 deviennent des sous-tribus de A1 A2 . Les tribus A1 et A2 sont
alors indpendantes
dans (1 2 , A1 A2 , P1 P2 ). En eet, observons que

(A1 2 ) (1 A2 ) = A1 A2 et que par dnition de la mesure produit,


P1 P2 (A1 2 ) (1 A2 ) = P1 P2 (A1 A2 )
= P1 (A1 )P2 (A2 )
= P1 P2 (A1 2 ) P1 P2 (1 A2 ) .
Nous convenons pour la suite que lindpendance dune famille signie lindpendance mutuelle des vnements ou des tribus. Toute autre forme dindpendance (plus faible) sera prcise explicitement.
Les tribus contenant parfois beaucoup dlments, il peut tre dlicat de vrier leur indpendance. Dans le cas o elle sont engendres par des algbres, il
sut de vrier lindpendance des algbres.

Proposition IV.1.5. Si C1 et C2 sont deux algbres indpendantes dans lespace probabilis (, A, P ), alors les tribus (C1 ) et (C2 ) sont indpendantes.
Dmonstration. Soit A1 C1 . La classe monotone

M2 =

A2 (C2 ) : P (A1 A2 ) = P (A1 )P (A2 )


75

i
i

barbe 2007/1/8 10:41 page 76 #84

Chapitre IV. Indpendance

des vnements indpendants de A1 contient C2 . Elle contient donc la classe monotone engendre par C2 qui est gale (C2 ) daprs le thorme I.3.3. Soit
prsent un lment A2 (C2 ). La classe monotone
M1 = { A1 (C1 ) : P (A1 A2 ) = P (A1 )P (A2 ) }
des vnements indpendants de A2 contient C1 daprs le point prcdent, et

donc (C1 ). La conclusion sensuit.
Il surait de considrer dans la proposition prcdente des familles C1 et C2
stables par intersection nie.
La dnition dindpendance se formule de faon quivalente en terme de
variables alatoires.

Definition IV.1.6. Une famille quelconque de variables alatoires Xi , i I, sur


(, A, P ) et valeurs dans (E, B) est (mutuellement) indpendante si la famille des tribus engendres par les Xi est (mutuellement) indpendante, i.e.
pour tout J I ni et tous les ensembles mesurables Bj B, j J,
P { Xj Bj : j J } = P

 
{ Xj Bj } =
P { Xj Bj } .

jJ

jJ

Exemples IV.1.7. (i) Reprenons lexemple IV.1.2. Soient X1 et X2 les projections


de sur la premire et seconde composante (X1 (i, j) = i et X2 (i, j) = j). Ces
projections sont des variables alatoires qui modlisent le tirage de chacun des
deux ds. Alors,


P (A) = P X11 { 1, 2, 3, 4 } X21 { 6 }


= P (1, 6), (2, 6), (3, 6), (4, 6)
= 4/36 = 1/9 = P (A)P (B) .
Donc A et B sont bien indpendants. Pour vrier que X1 et X2 sont indpendantes, comme on lattend intuitivement si notre modle reprsente bien la
ralit, observons que la tribu (X1 ), engendre par X1 , est forme des ensembles
A1 { 1, 2, 3, 4, 5, 6 }, A1 { 1, 2, 3, 4, 5, 6 }. De faon symtrique,
(X2 ) = { { 1, 2, 3, 4, 5, 6 } B2 : B2 { 1, 2, 3, 4, 5, 6 } } .
76
i

i
i

barbe 2007/1/8 10:41 page 77 #85

IV.1. Indpendance

Donc si A (X1 ) et B (X2 ) sont non vides, A = A1 { 1, 2, 3, 4, 5, 6 },


B = { 1, 2, 3, 4, 5, 6 } B2 , et

P (A B) = P (A1 B2 ) =

(i,j)A1 B2

1 1
1
=
36
6
6
iA1

jB2

= P (A1 )P (B2 ) = P (A)P (B) .


(ii) Poursuivons lexemple IV.1.4.i. La famille de variables alatoires
Xn = An =


1k2n1

2(k1) 2k1
2n , 2n

n 1,

de [ 0, 1 ] dans { 0, 1 } est indpendante. Il est ais de vrier que la loi de Xn est


donne par P { Xn = 0 } = P { Xn = 1 } = 1/2 (loi de Bernoulli de paramtre 1/2).
(iii) Il existe une notion de variables alatoires indpendantes deux deux, plus
faible que lindpendance mutuelle. Soient X et Y deux variables alatoires indpendantes sur (, A, P ), chacune de loi de Bernoulli symtrique sur { 1, +1 }
(P { X = 1 } = P { X = +1 } = 1/2). Soit Z = XY . La famille de variables alatoires (X, Y, Z) est forme de variables indpendantes deux deux, mais nest pas
mutuellement indpendante. Cet exemple est une variation en terme de variables
alatoires de lexemple IV.1.4.ii.
Nous reformulons maintenant lindpendance des variables alatoires en terme
de lois de ces variables. Cest cette formulation qui permet de travailler avec
les variables indpendantes. Rappelons que si X = (X1 , . . . , Xn ) est un vecteur
alatoire sur (, A, P ), la loi de X dtermine la loi des marges, cest--dire la loi
de chacune des Xi , mais que la rciproque est fausse en gnral (exemple III.3.3.i).
Nanmoins, si les coordonnes sont indpendantes, le rsultat suivant montre que
la loi du vecteur est dtermine par celles des marges.
On ne considre dans lnonc suivant que le cas de variables alatoires relles.
Le cas de variables alatoires valeurs vectorielles est similaire.

Proposition IV.1.8. Soit (X1 , . . . , Xd ) une famille nie de variables alatoires


relles indpendantes sur (, A, P ). La loi P (X1 ,...,Xd ) du vecteur alatoire sur
(Rd , B(Rd )) est gale au produit des lois marginales P X1 P Xd . Rciproquement, si la loi du vecteur est gale au produit des marges, alors les variables sont
indpendantes.
77
i

i
i

barbe 2007/1/8 10:41 page 78 #86

Chapitre IV. Indpendance


Dmonstration. Si B = B1 Bd est un pav dans B(Rd ), par hypothse

dindpendance,


P (X1 ,...,Xd ) (B) = P (X1 , . . . , Xd )1 (B1 Bd )


= P X11 (B1 ) . . . Xd1 (Bd )




= P X11 (B1 ) P Xd1 (Bd )
= P X1 (B1 ) P Xd (Bd ) .
Lidentit stend lalgbre des runions nies disjointes de pavs, laquelle engendre la tribu borlienne produit B(Rd ). La rciproque dcoule des identits
prcdentes et de la dnition dune loi puisque


P (X1 , . . . , Xd ) B1 Bd = P (X1 ,...,Xd ) (B)
= P X1 (B1 ) P Xd (Bd )

P { Xi Bi } .
=

1id

Exemples IV.1.9. (i) Soit (X, Y ) R2 un couple de variables alatoires, de densit


f (x)g(y) par rapport la mesure de Lebesgue
sur R2 . Alors X et Y sont indpen
dantes, et de densit respective f et g si f (x) dx = 1 (et donc g(x) dx = 1).
(ii) Si X1 , . . . , Xd sont des variables alatoires relles indpendantes, si I1 , . . . , Ik
forment une partition de { 1, . . . , d } avec nj = card(Ij ), et si de plus j est
mesurable sur Rnj valeurs dans R, alors


Yj = j (Xi : i Ij ) 1jk
est une famille de k variables alatoires indpendantes. En eet,
!
(Xi ) ,
(Yj ) (Xi : i Ij ) =
iIj

et, par le mme argument que dans lexemple IV.1.4.iii, les tribus
1 j k, sont indpendantes.

"
iIj

(Xi ),

La proposition IV.1.5 et lexemple IV.1.9.ii suggrent la vracit de la proposition suivante.

Proposition IV.1.10. Sur un espace probabilis (, A, P ), soit (Ai )iI une famille
de sous-tribus indpendantes de A. Soit (Jl )lL une partition arbitraire de lensemble I. La famille de tribus ((Ai : i Jl ))lL est une famille indpendante.
78
i

i
i

barbe 2007/1/8 10:41 page 79 #87

IV.1. Indpendance
Dmonstration. Daprs la dnition IV.1.3, il sut de faire la dmonstration

lorsque L est ni, L = { 1, . . . , n }. Il sut alors de montrer que (Ai : i J1 )


est indpendante de (Ai : i J2 . . . Jn ). Autrement dit, nous sommes
ramens au cas dune partition de I en deux sous-ensembles, J1 et J2 . Notons
Tj = (Ai : i Jj ), j = 1, 2. Comme pour la dmonstration de la proposition
IV.1.5, nous utilisons un argument de classe monotone.
Pour j = 1, 2, soit Ej la famille des intersections nies dlments des tribus
Ai , i Jj . Par dnition Ej est stable par intersection nie, et donc M(Ej ) = Tj
(cf. thorme I.3.3). Fixons E E1 et notons


M(E) = A A : P (E A) = P (E)P (A)
la classe des vnements indpendants de E. Alors M(E) est une classe monotone
qui contient E2 . Donc M(E) M(E2 ) = T2 . Si prsent F T2 , la classe M(F )
est toujours une classe monotone et contient E1 par le mme argument ; donc elle

contient M(E1 ) = T1 , ce qui dmontre le rsultat.
De la proposition IV.1.8 nous dduisons un autre critre dindpendance.

Corollaire IV.1.11. Une famille quelconque de variables alatoires relles Xi , i I,


sur (, A, P ) est indpendante si et seulement si pour toute famille nie J I
et toute famille nie de fonctions borliennes i , i J, telles que i (Xi ), i J,
soient intgrables,
 



i (Xi ) =
E i (Xi ) .
E
iJ

iJ

Dmonstration. Supposons la famille Xi , i I, indpendante. Soit J une partie


nie de I, que nous pouvons reprsenter par J = { 1, . . . , n }. Utilisons alors le
thorme de Fubini (II.5.1) pour obtenir
  
 
i (Xi ) =
i (xi ) dP (X1 ,...,Xn ) (x1 , . . . , xn )
E
1in


=

1in

i (xi ) dP X1 (x1 ) dP Xn (xn )

1in

 
1in

i (xi ) dP Xi (xi )



E i (Xi ) .

1in

La rciproque sobtient en considrant pour i des indicatrices de borliens.


79

i
i

barbe 2007/1/8 10:41 page 80 #88

Chapitre IV. Indpendance

Nous dduisons aussi du corollaire prcdent un critre dindpendance utilisant les fonctions caractristiques.

Corollaire IV.1.12. La famille (X1 , . . . , Xn ) de variables alatoires relles est indpendante si et seulement si pour tout (t1 , . . . , tn ) Rn ,
(X1 ,...,Xn ) (t1 , . . . , tn ) = X1 (t1 ) Xn (tn ) .
Dmonstration. Le produit X1 Xn est la fonction caractristique de la loi

produit P X1 P Xn . Cest le rsultat puisque la fonction caractristique


dtermine la loi (III.5.2).

Comme cas particulier du corollaire IV.1.11, nous observons que si X1 , . . . , Xn
sont des variables indpendantes et intgrables,
E(X1 Xn ) = E(X1 ) E(Xn ) .
On prendra garde au fait que cette proprit ne caractrise pas en gnral lindpendance. Elle dcrit en fait une proprit plus faible de non corrlation.

Definition IV.1.13. Deux variables alatoires relles X, Y L2 (, A, P ) sont


non corrles si
E(XY ) = E(X)E(Y ) ,
ou, de faon quivalente, si E((X EX)(Y EY )) = 0. On dit aussi que les
variables centres X E(X) et Y E(Y ) sont orthogonales (pour le produit
scalaire dans L2 cf. II.6.6).

Exemples IV.1.14. (i) Daprs le corollaire IV.1.11, deux variables alatoires indpendantes de carr intgrable sont non corrles.
(ii) Si X est une variable alatoire relle de loi normale N (0, 1), alors X et Y = X 2
sont non corrles. En eet, X et Y sont de carr intgrable et
E(XY ) = E(X 3 ) = 0 = E(X)E(Y )
par application, par exemple, de la proposition III.5.6 pour calculer les moments
de la loi normale. Il est clair intuitivement que X et Y ne sont pas indpendantes,
ce qui est conrm par le fait que
P { X 1 , Y 1 } = P { X 1 } = P { X 1 }P { Y 1 }
puisque P { Y 1 } < 1.
Pour les variables non corrles, on peut facilement valuer la variance de leur
somme.
80
i

i
i

barbe 2007/1/8 10:41 page 81 #89

IV.1. Indpendance

Proposition IV.1.15. Si X1 , . . . , Xn sont deux deux non corrles, elles vrient


lidentit de Bienaym,



Xi =
VarXi .
Var
1in

1in

Nous en dduisons lingalit, dite de Bienaym-Tchebitchev,







1
P 
(Xi E(Xi )) t 2
Var(Xi ) ,
t
1in

t > 0.

1in

Dmonstration. Comme Xi E(Xi ) et Xj E(Xj ), i = j, sont orthogonales

dans L2 ,
Var


Xi

=E

1in



2 
Xi E(Xi )

1in

1i,jn







Xi E(Xi ) Xj E(Xj )

2 
Xi E(Xi )

1in

Var(Xi ) .

1in

Lingalit de Bienaym-Tchebitchev est une consquence de lingalit de


Tchebitchev (exemple III.4.10.ii).


Exemples IV.1.16. (i) Donnons une application du calcul des probabilits ltude
de la gomtrie des espaces vectoriels.
Soient u1 , . . . , ud Rd , muni de la structure
euclidienne, des vecteurs de norme
au plus 1. Soient p1 , . . . , pd [ 0, 1 ] et w = 1id pi ui . Montrons quil existe
1 , . . . , d { 0, 1 } tels que





i ui  d/2 .
w
1id

Autrement dit, toute


combinaison linaire des ui coecients dans [ 0, 1 ] peut
tre approxime d/2 prs par une combinaison linaire coecients dans
{ 0, 1 }.
Pour cela, prenons (X1 , . . . , Xd ) un vecteur alatoire de loi
 x


pi i (1 pi )1xi ,
P (X1 , . . . , Xd ) = (x1 , . . . , xd ) =
1id

81
i

i
i

barbe 2007/1/8 10:41 page 82 #90

Chapitre IV. Indpendance

o xi { 0, 1 }, et soit
X=

Xi ui .

1id

Les Xi sont mutuellement indpendantes, de loi de Bernoulli de paramtre pi . En


particulier, elles sont non corrles. Alors,



(Xi pi )2 ui 2
E X w2 ) = E
1id

+ 2E
=


(Xi pi )(Xj pj )ui , uj 

1i,jd

ui  pi (1 pi )
2

1id

d/4 .
Observons alors que si X w2 > d/4 pour presque toute valeur de X, alors
E(X w2 ) > d/4 (proposition II.2.6). Donc il existe une valeur de (X1 , . . . , Xd )
pour laquelle
X w2 d/4 ,
ce qui est le rsultat.
(ii) Voici enn un exemple dapplication en thorie des nombres.
Soit (n) le nombre de diviseurs premiers de n. Nous allons montrer, quen
un certain sens, pour la plupart des entiers i n, (i) est de lordre de ln ln i.

Proposition. Si a(n) est une suite qui tend vers linni, alors



1
card i n : |(i) ln ln n| > a(n) ln ln n = 0 .
n n
lim

En particulier, pour tout > 0,




 (i)

1


1 = 0 .
lim card i n : 
n n
ln ln i
Pour montrer cette proposition, considrons la suite despaces probabiliss
(N , P(N ), Pn ) o
1
i
Pn =
n
1in

82
i

i
i

barbe 2007/1/8 10:41 page 83 #91

IV.1. Indpendance

est la loi uniforme sur { 1, 2, . . . , n }. Pour p premier, soit


#
1 si p divise i,
Xp (i) =
0 sinon ,
i N .
Les Xp sont des variables alatoires sur (N , P(N ), Pn ). Soit X =
Observons que X(i) = (i) pour tout i N et que

p premier Xp .



1
card i n : |(i) ln ln n| a(n) ln ln n
n



= Pn |X ln ln n| a(n) ln ln n .
Sous la loi Pn , en notant   la partie entire, pour tout entier k 1
E(Xpk ) = Pn { Xp = 1 } =

1
n

{p divise i} = n/p/n = p1 + O(n1 ) .

1in

En particulier, sous Pn ,
E(Xp ) =

1
+ O(n1 )
p

et

Var(Xp ) =

1
1
1
+ O(n1 ) .
p
p

Le thorme des nombres premiers indique que le nombre de nombres premiers


ne dpassant pas n est (n) = (n/ ln n)(1 + o(1)), ce qui permet de montrer que

1/p = ln ln n + o(1) , n .
p premier
pn

Donc, sous Pn ,
E(X) =

p1 + O(n1 ) = ln ln n + o(1) .

pn

La covariance de Xp et Xq sous la loi Pn est


Cov(Xp , Xq ) = E(Xp Xq ) E(Xp )E(Xq )
n/pq n/p n/q

n
n
n

1 
1
1
p
q

pq
n
n
1 1 1
+
.

n p q

83
i

i
i

barbe 2007/1/8 10:41 page 84 #92

Chapitre IV. Indpendance

Donc, sous Pn ,
Var(X) =

Var(Xp ) + 2

p premier
pn

Cov(Xp , Xq )

p,q premiers
p<qn

 1 
1 1 1
 1 
1
1
+O
+
+

p
p
n
n p q
pn
p =qn
1
1 1
1
ln ln n +
+
+O
1
n
p q
n
p,q premiers
p,qn

p premier
pn

(n)
2
ln ln n +
O(1) + O(1)
n
n
= ln ln n + O(1) .

= ln ln n +

Appliquons maintenant lingalit de Tchebitchev. Pour t > 0,





Pn |X E(X)| t Var(X) 1/t2 ,
ce qui donne



lim sup Pn |X ln ln n| t ln ln n 1/t2
n

et termine la dmonstration du premier point de la proposition. Pour obtenir le


second, il sut de remarquer que pour tout > 0,


1
card i n : | ln ln i ln ln n|
n n

1

= lim card i n : i ne
n n
= 0.
lim

IV.2. Sommes de variables alatoires indpendantes


Remarquons que pour des variables alatoires indpendantes, de mme loi et
de carr intgrable, la proposition IV.1.15 montre que si t > 0,







Var(X1 )


.
Xi E(Xi )  t n
P 
t2
1in

est au plus n.
Ainsi, lordre de
grandeur de la somme
1in (Xi E(Xi ))

Autrement dit, 1in Xi ressemble un terme dterministe, 1in E(Xi ) =


nE(X1 ) (de lordre de n si E(X1 ) = 0), plus un terme alatoire de lordre au
84
i

i
i

barbe 2007/1/8 10:41 page 85 #93

IV.2. Sommes de variables alatoires indpendantes

plus

n. Les rsultats de cette section nous servirons, dune part pour valuer la
loi de 1in Xi , dautre part pour prciser au chapitre V le comportement du

terme alatoire de lordre de n (thorme limite central, V.5.4).


Les sommes de variables alatoires indpendantes et de mme loi jouent un
rle essentiel dans le calcul des probabilits et en statistique. Historiquement, de
nombreux travaux leur ont t consacrs. Elles interviennent galement dans de
nombreux problmes pratiques. Nous en verrons quelques exemples dans cette
partie o nous tudierons comment calculer la loi dune somme de variables alatoires indpendantes.

Proposition IV.2.1. Soient X et Y deux variables alatoires relles, indpendantes,


sur (, A, P ). La loi de la somme X + Y est donne par le produit de convolution
P X P Y des lois P X et P Y , dni, pour toute fonction borlienne borne de R
dans R, par
 


d(P X P Y ) =
(x + y) dP Y (y) dP X (x)
R
R R

(x + y) dP X (x) dP Y (y) .
=
R

Dmonstration. On crit un thorme de transport sur le diagramme suivant :

o U est la fonction U (x, y) = x + y. Ainsi,





dP X+Y = E (X + Y )
R


= E (U (X, Y ))

U dP (X,Y )
=
2
R
=
U d(P X P Y )
2
R

(x + y) dP X (x)dP Y (y) .
=
R2


85

i
i

barbe 2007/1/8 10:41 page 86 #94

Chapitre IV. Indpendance

Remarque IV.2.2. Le produit de convolution vrie un certain nombre de proprits algbriques issues de la description en terme de variables alatoires (mais qui
ne susent cependant pas le caractriser) :
(i) P 0 = P (puisque X + 0 = X) ;
(ii) (commutativit) P Q = Q P (puisque X + Y = Y + X) ;
(iii) (associativit) (P Q)R = P (QR) (puisque (X +Y )+Z = X +(Y +Z)) ;
(iv) (distributivit) P (Q + (1 )R) = (P Q) + (1 )(P R) pour tout
[ 0, 1 ] ; en eet, si est borlienne et borne,






d P (Q + (1 )R) = (x + y) dP (x) d Q + (1 )R (y)

= (x + y) dP (x) dQ(y)

+ (1 ) (x + y) dP (x) dR(y)


= d(P Q) + (1 ) d(P R)



= d P Q + (1 )P R .
Les fonctions caractristiques fournissent un autre moyen de dterminer la loi
de la somme de deux variables alatoires indpendantes.

Proposition IV.2.3. Si X et Y sont deux variables alatoires relles indpendantes


sur (, A, P ), la fonction caractristique de leur somme est donne par le produit
des fonctions caractristiques
X+Y (t) = X (t)Y (t) ,

t R.

Dmonstration. Cest une consquence du corollaire IV.1.11, puisque pour tout

t R,






 

X+Y (t) = E eit(X+Y ) = E eitX eitY = E eitX E eitY = X (t)Y (t) . 
On prendra soin de ne pas confondre la fonction caractristique dun couple
(X, Y ) de variables indpendantes, donne par (X,Y ) (s, t) = X (s)Y (t),
s, t R, avec la fonction caractristique de la somme X + Y dcrite ci-dessus.

Exemples IV.2.4. (i) Si X = a p.s. et Y = b p.s., alors X et Y sont indpendantes


et X + Y = a + b p.s. Autrement dit, a b = a+b .
86
i

i
i

barbe 2007/1/8 10:41 page 87 #95

IV.2. Sommes de variables alatoires indpendantes

(ii) Soient X, Y indpendantes, o X suit la loi de Poisson de paramtre , note P(),


la loi P(). Alors X + Y est de loi P( + ). En eet,

et Y suit
n
P() = nN e n! n , et en appliquant IV.2.2.iv,
P() P() =

e e

nN mN

n m
n m
n! m!

n m
n+m
n! m!
nN mN
 n m 
(+)
k
=e
n! m!
= e(+)

kN

= e(+)

m+n=k

( + )k
k!

kN

k = P( + ) .

Une autre dmonstration, plus probabiliste, consiste crire que pour tout k N,
{ X + Y = k } est la runion disjointe des vnements { X + n = k ; Y = n },
0 n k. Ainsi, par indpendance de X et Y ,

P{X + n = k ; Y = n}
P{X + Y = k } =
0nk

P { X = k n }P { Y = n }

0nk

0nk

= e(+)

kn n
e
(k n)!
n!

( + )k
.
k!

On peut utiliser enn les fonctions caractristiques. Si t R,


X+Y (t) = X (t)Y (t) = e(e

it 1)

e(e

it 1)

= e(+)(e

it 1)

est la fonction caractristique de P( + ) par le thorme III.5.2 et


lexemple III.5.3.v. Sous rserve quelles soient calculables, les transformes de
Fourier sont donc un outil trs ecace pour ltude des sommes de variables alatoires indpendantes.
(iii) Jetons une pice n fois. Quelle est la loi du nombre de piles ? Modlisons n
jets dune pice par n variables alatoires indpendantes X1 , . . . , Xn chacune de
loi de Bernoulli B(1, p), i.e.
P { Xi = 1 } = 1 P { Xi = 0 } = p
87
i

i
i

barbe 2007/1/8 10:41 page 88 #96

Chapitre IV. Indpendance

(avec p = 1/2 si la pice nest pas truque), Xi = 1 reprsentant le tirage de


pile au i-me coup, et Xi = 0 le tirage de face. Le nombre de piles est donc
Sn = X1 + + Xn . Montrons que cette somme suit une loi binomiale B(n, p).
cet eet, observons dabord que Sn prend les valeurs 0, 1, 2, . . . , n. Pour tout
0 k n, lvnement { Sn = k } est la runion disjointe des deux vnements
{ Sn1 = k ; Xn = 0 } et { Sn1 = k 1 ; Xn = 1 }. Ainsi, par indpendance de
Sn1 et Xn (exemple IV.1.9.ii),
P { Sn = k } = P { Sn = k ; Xn = 0 } + P { Sn = k ; Xn = 1 }
= P { Sn1 = k ; Xn = 0 } + P { Sn1 = k 1 ; Xn = 1 }
= P { Sn1 = k }P { Xn = 0 } + P { Sn1 = k 1 }P { Xn = 1 }
= (1 p)P { Sn1 = k } + pP { Sn1 = k 1 } .
On peut donc dmontrer le rsultat par rcurrence. Rappelons la formule de
k
Pascal, Ckn1 + Ck1
n1 = Cn . Notons que S1 = X1 est de loi B(1, p). Si Sn1
est de loi B(n 1, p), alors
k1
(1 p)n1(k1)
P { Sn = k } = (1 p)Ckn1 pk (1 p)n1k + pCk1
n1 p
k
nk
= Ckn1 pk (1 p)nk + Ck1
n1 p (1 p)

= Ckn pk (1 p)nk .
Une autre dmonstration, dans lesprit de la proposition IV.2.1, consiste
crire, pour 1 k n,


P { Sn = k } = E {k} (Sn )

= {k} (x1 + + xn ) dP X1 (x1 ) . . . dP Xn (xn )


{k} (x1 + + xn )
pxi (1 p)1xi
=
x1 ,...,xn {0,1}

1in

{k} (x1 + + xn )p1in xi (1 p)n1in xi

x1 ,...,xn {0,1}



= card (x1 , . . . , xn ) {0, 1}n : x1 + + xn = k pk (1 p)nk
= Ckn pk (1 p)nk .
On peut aussi utiliser le produit de convolution, ou encore les fonctions caractristiques (voir III.5.3.vi).
La description de la loi binomiale comme loi de la somme de variables de
Bernoulli indpendantes permet un calcul rapide de sa moyenne et de sa variance,
88
i

i
i

barbe 2007/1/8 10:41 page 89 #97

IV.2. Sommes de variables alatoires indpendantes

puisque par linarit de lintgrale et par lidentit de Bienaym,


E(Sn ) = nE(X1 ) = np

et

Var(Sn ) = nVar(X1 ) = np(1 p) .

En particulier, Sn /n est le nombre moyen de piles sur les n jets. Observons que
lingalit de Tchebitchev dans la version III.4.10.ii montre que pour tout > 0,


 S  p(1 p)
 S
1

 n
n
p 2 Var
=
.
P 
n

n
2 n
Donc la probabilit que Sn /n scarte de sa moyenne tend vers 0 lorsque n tend
vers linni. Ainsi si nous tirons un grand nombre de fois pile ou face, la proportion de pile sera avec forte probabilit peu prs 1/2 (cest intuitivement clair,
et montre encore que laxiomatique des probabilits que nous avons utilise est
raisonnable).
Une autre interprtation de la loi binomiale peut tre donne en terme durne.
Supposons quune urne contienne une proportion p de boules lapis-lazuli et 1 p
de boules vert uorescent. On tire une boule, note sa couleur, puis la remet dans
lurne. On recommence ainsi n tirages avec remise. Le nombre Nn de boules lapislazuli ainsi tires suit une loi binomiale B(n, p). En eet, au i-me tirage, notons
Xi = 1 si la boule est lapis-lazuli, et 0 sinon. Alors, Nn = X1 + + Xn est une
somme de variables alatoires de Bernoulli de paramtre de succs p.
(iv) Soient X, Y deux variables alatoires relles, indpendantes, dont les lois
admettent des densits respectives f et g par rapport la mesure de Lebesgue. Il
est ais de constater que la loi de la somme X + Y a une densit h par rapport
la mesure de Lebesgue, donne par le produit de convolution des fonctions f et g,


f (x y)g(y) dy =
g(x y)f (y) dy , x R .
h(x) = f g(x) =
R

En eet, si est
  borne,
 une fonction borlienne
(x + y)f (x)g(y) dx dy
d(P X P Y ) =
 
=
(z)f (z y)g(y) dy dz

= (z)h(z) dz .
En particulier, on vrie ainsi que N (0, 12 ) N (0, 22 ) = N (0, 12 + 22 ). Plus gnralement, N (m1 , 12 ) N (m2 , 22 ) = N (m1 + m2 , 12 + 22 ). Comme prcdemment,
ces relations peuvent se vrier rapidement sur les fonctions caractristiques. Si
X1 et X2 sont indpendantes de lois respectives N (m1 , 12 ) et N (m2 , 22 ), pour
tout t R,
2 2 /2

X1 +X2 (t) = X1 (t)X2 (t) = eim1 t1 t

2 2 /2

eim2 t2 t

2 /2

= ei(m1 +m2 )t(1 +2 )t

.
89

i
i

barbe 2007/1/8 10:41 page 90 #98

Chapitre IV. Indpendance

IV.3. Applications de lindpendance


Nous tudions prsent quelques proprits thoriques et pratiques de lindpendance et leurs applications.
La question suivante est motive par le dsir de modliser des suites innies
de variables alatoires, des fonctions alatoires, ou, de faon plus gnrale, des
processus stochastiques : tant donnes des lois Pi sur R (par exemple), existe-t-il
des variables alatoires Xi sur un certain espace probabilis (, A, P ) qui sont
indpendantes, et telles que P Xi = Pi pour tout i ? Lorsque lon a quun nombre
ni P1 , . . . , Pn de lois, cela ne pose pas de problme : on prend = Rn muni de sa
tribu borlienne, P = P1 Pn et on considre les Xi comme les applications
coordonnes, Xi : Rn R, qui un point de Rn associe sa i-me coordonne.
Quen est-il cependant avec une innit, par exemple dnombrable, de Pi ?
Dans lexemple IV.1.7.ii, nous avons construit une suite innie de variables de
Bernoulli B(1, 1/2) indpendantes, dnies sur lespace ([ 0, 1 ], B([ 0, 1 ]), ). Cette
construction est spcique cet exemple. Soit en gnral une famille (Ei , Bi , Pi )i1
despaces probabiliss. On cherche construire un espace probabilis (, A, P ) et
une famille de variables alatoires mutuellement indpendantes, Xi , i 1, sur
(, A, P ) valeurs dans (Ei , Bi ), telles que P Xi = Pi pour tout i 1. Dans la
pratique, tous les Ei sont gaux R ou Rd ; mais cette notation nous permet de
distinguer plus facilement
chacun des facteurs de lespace produit. Comme dans le
$
cas ni, soit = i1 Ei et Xi la projection sur la i-me coordonne. Dsignons
par A la tribu produit des Bi , i 1, ou de faon quivalente engendre par les Xi .
La tribu A est engendre par lalgbre C dite des cylindres qui sont les ensembles
A de la forme
A = Cn En+1 En+2
o Cn B1 Bn est appel la base du cylindre.
On peut dnir sur C une fonction densemble Q ( valeurs dans [ 0, 1 ]) par
Q(A) = P1 Pn (Cn ) ,
pour tout A C (de base Cn ).

Theor`eme IV.3.1 (de Kolmogorov). La fonction densemble Q se prolonge en une


unique probabilit P sur (, A). Sous P , les Xi sont indpendantes et de loi Pi .
Dmonstration. La deuxime partie de lnonc est vidente par construction. An
dtablir la premire partie, on utilise le thorme de prolongement I.4.9. Observons que Q est une fonction densembles additive sur A. Puisque Q() est ni,

90
i

i
i

barbe 2007/1/8 10:41 page 91 #99

IV.3. Applications de lindpendance

pour montrer la -additivit de Q sur A, il sut de montrer que si (An )nN est
une suite dcroissante dans C dintersection vide, alors
lim Q(An ) = inf Q(An ) = 0 .

nN

Supposons le contraire, cest--dire que pour une certaine suite (An )nN dcroissante
dans C et un certain > 0, inf nN Q(An ) et montrons alors que

A
nN n = .
Pour
tout k 1, on peut construire une fonction densembles additive Qk sur
$
E k = ik Ei limage de la dnition de Q = Q1 sur = E 1 . Par le thorme
de Fubini (II.5.1), pour tout n

Q(An ) = Q2 (An1 ) dP1 (1 )
o An1 = { E 2 : (1 , ) An } est la section de An suivant 1 E1 . Soit


Bn = 1 E1 : Q2 (An1 ) /2 ,
(An1 appartient la tribu cylindrique sur E 2 par lexercice I.3). Par dnition de
Bn , puisque Q2 (An1 ) < /2 sur le complmentaire de Bn et Q2 (An1 ) 1 partout,


Q(An ) 2 1 P1 (Bn ) + P1 (Bn ) 2 + P1 (Bn ) .
Ainsi, P1 (Bn ) /2. La suite (B
n )nN dcrot dans E1 , et donc, ncessairement,

puisque P1 est une probabilit, n Bn nest pas vide. Soit 1 un lment de n Bn .
Ce que lon a fait pour Q = Q1 et la suite (An )nN , nous le recommenons pour
la fonction densembles Q2 et la suite (An1 )nN , car inf n Q2 (An1 ) /2. On
construit de cette faon un point = (i )i1 dans tel que pour tout k 1,
inf n Qk+1 (An1 ,...,k ) > 0 o


An1 ,...,k = E k+1 : (1 , . . . , k , ) An
(qui est un cylindre de E k+1 ). En particulier, n x, pour tout k 1,
An1 ,...,k = . Mais An est un cylindre de la forme An = CN E N +1 . Or on peut
vrier, en sappuyant sur un dessin par exemple, que An1 ,...,N est non vide si et
seulement si (1 , . . . ,
N ) CN . Ainsi An . Comme ceci lieu pour nimporte
quel n, lintersection nN An nest pas vide puisquelle contient . Le thorme
est tabli.

En consquence de ce thorme, nous pouvons parler plus librement dune suite
(Xn )nN de variables alatoires relles indpendantes sur un espace probabilis
91
i

i
i

barbe 2007/1/8 10:41 page 92 #100

Chapitre IV. Indpendance

(, A, P ). Un raisonnement similaire permet de construire des suites de vecteurs


alatoires indpendants.
Dans de nombreux problmes de probabilit, on est intress par le comportement limite dune suite de variables alatoires. Un exemple lmentaire est la
suite des proportions de piles dans un tirage successif pile ou face. Dans de
telles situations, les vnements dans une tribu engendre par un nombre ni de
variables ont peu dintrt, et on ne sinteresse en fait quaux vnements dnis
ultimement. Dans les bons cas, ceux-ci appartiennent une tribu appele tribu
terminale que nous introduisons maintenant.

Definition IV.3.2. Soit (Tn )nN une famille indpendante de tribus sur (, A, P )
(par exemple Tn = (Xn ) o les Xn sont indpendantes).
On dsigne par An
la tribu engendre par Tn , Tn+1 , . . . et pose A = nN An . La tribu A
est appele tribu des vnements terminaux ou tribu terminale (de la suite
(Tn )nN ).
La tribu terminale vrie la loi du tout ou rien suivante, aussi appele loi
du 01.

Theor`eme IV.3.3 (loi du 01). Si A est une tribu terminale, alors tout A A
vrie P (A) = 0 ou 1.
Dmonstration. Soit A A x. On considre la classe monotone des vnements

indpendants de A,
M=


B A : P (A B) = P (A)P (B) .

On se propose de montrer que M A . Si tel est le cas, A M et


(A) = 0 ou 1. Considrons les tribus Bn = (T0 , . . . , Tn ),
P (A) = P (A)2 , et donc P
n N, et posons B = n Bn . En tant que runion croissante, B est une algbre. Nous savons, daprs la proposition IV.1.10, que les tribus Bn et An+1 sont
indpendantes. Il sensuit que tout lment de Bn est indpendant de A. Ainsi,
puisque A An+1 , il sensuit B M. Donc, en utilisant le thorme des
classes monotones I.3.3, (B ) = M(B ) M. Il reste voir que (B ) A ,
ce qui est intuitivement clair. En eet, pour tout k,
Tk Bk B (B ) .
Donc pour tout n, An = (Tk : k n) (B ), do le rsultat.

92
i

i
i

barbe 2007/1/8 10:41 page 93 #101

IV.3. Applications de lindpendance

Exemples IV.3.4. (i) Soit (An )nN une suite dvnements indpendants de
(, A, P ) ; alors

Am = { An a lieu une innit de fois }
A=
nN mn

est un vnement terminal pour la suite de tribus Tn = (An ) = { , , An , Acn } ;


donc P (A) = 0 ou 1.
On abrge souvent lexpression An a lieu une innit de fois par An inniment souvent ou An i.s. . Remarquer que P (An i.s.) = 0 signie que presque
srement seulement un nombre ni dvnements An surviennent. Cest--dire que
pour presque tout , il existe un n() ni tel que si n n() alors  An ,
i.e. An na pas lieu. On fera trs attention au fait que lentier n() dpend de .
(ii) Soient Xn , n N, des variables alatoires relles indpendantes, Tn = (Xn ),
et soit an des rels positifs, tels que limn an = . Considrons lvnement



1
X1 () + + Xn () converge lorsque n .
A= :
an
Alors A A car, pour tout k,



1
Xk () + + Xn () converge lorsque n .
A= :
an
Donc A est soit de probabilit pleine, soit de probabilit nulle.
Le rsultat suivant est connu sous le nom de lemme de Borel-Cantelli, mais le
statut de thorme est justi par son importance pratique.

Theor`eme IV.3.5 (Lemme de Borel-Cantelli). Soit (An )nN une suite dvnements sur un espace probabilis (, A, P ).

(i) Si nN P (An ) < alors P (An i.s.) = 0.

(ii) Si la suite (An )nN est indpendante alors


nN P (An ) = implique
P (An i.s.) = 1.
Dmonstration. La partie (i) est vidente : pour tout n,

A=

Am

nN mn

et donc P (An i.s.) = P (A)


converge.

mn

Am ,

mn

P (Am ) qui tend vers 0 avec n si la srie

93
i

i
i

barbe 2007/1/8 10:41 page 94 #102

Chapitre IV. Indpendance

La partie (ii) sobtient en remarquant dabord que pour tout n et tout N n,





 
c
Am = 1 P
Am
P
nmN

nmN

 

1 P (Am ) .

=1

nmN

Comme 1 x ex pour tout x 0,





 

Am 1 exp
P (Am ) .
P
nmN

Lorsque N tend vers linni,


hypothse, et donc

nmN

nmN



P (Am ) tend, pour tout n, vers linni par



Am

= 1.

mn

Il ne reste plus qu remarquer que


P (A) = lim P
n




Am .

mn

Il existe de nombreuses versions du lemme de Borel-Cantelli. Il sut par


exemple de supposer que les An sont indpendants deux deux (voir aussi exercice IV.15).

Exemples IV.3.6. (i) Soit

(Xn )nN une suite de variables alatoires relles telle


que, pour un M R, nN P { Xn M } < . Alors, daprs la partie (i) du
lemme de Borel-Cantelli, P { Xn M i.s. } = 0. Autrement dit,


{ Xm < M } = 1 .
P
nN mn

Donc lim supn Xn M p.s. De la mme faon, si


alors lim inf n Xn M p.s.

n P { Xn

M } < ,

(ii) On jette une innit de fois une pice quilibre. Quelle est la probabilit dobtenir une innit de fois deux piles conscutifs ? On reprsente le jeu
par une suite (Xn )nN de variables alatoires sur (, A, P ), indpendantes, avec
P { Xn = 1 } = P { Xn = 0 } = 1/2. Posons An = { Xn = Xn+1 = 1 }. On sintresse P (An i.s.). Il est clair que les An ne forment pas une suite indpendante,
94
i

i
i

barbe 2007/1/8 10:41 page 95 #103

IV.3. Applications de lindpendance

puisque par exemple la (n + 1)-me variable dtermine la fois An et An+1 .


forme une suite indpendante. En outre,
En revanche, la sous-suite (A2n )nN

P (A2n ) = 1/4 pour tout n, et donc


n P (A2n ) = . Ainsi par le lemme de
Borel-Cantelli, P (A2n i.s.) = 1. Comme { A2n i.s. } { An i.s. }, on conclut que
P (An i.s. ) = 1.
(iii) Donnons un nouvel exemple dapplication du calcul des probabilits ltude
des nombres. Considrons lespace probabilis ([ 0, 1 ], B([ 0, 1 ]), P = ), et soit
U la fonction identit de [ 0, 1 ] dans lui-mme. Cest une variable alatoire de loi
uniforme sur [ 0, 1 ]. Pour tout nombre rel x, notons x sa partie entire. Pour
[ 0, 1 ], crivons le dveloppement dyadique du nombre rel U (),
U () =

2i Ui ()

i1

avec Ui = 2i+1 U  2i U  { 0, 1 }. Les Ui sont mesurables, puisque images


de U par des applications mesurables. Ce sont donc des variables alatoires. Si
(u1 , . . . , un ) { 0, 1 }n ,


P (U1 , . . . , Un ) = (u1 , . . . , un )


= x [ 0, 1 ] : (x1 , . . . , xn ) = (u1 , . . . , un )
= 2n .
En particulier,
P { Ui = 0 } = P { Ui = 1 } = 1/2
et les Ui , i 1, forment une suite de variables alatoires indpendantes de loi de
Bernoulli B(1, 1/2) (ici nous utilisons le thorme de prolongement IV.3.1 puisque
nous navons en fait montr lindpendance des Ui que pour 1 i n et tout
n 1).
Le dveloppement dyadique dun nombre dans [ 0, 1 ] est constitu de blocs de
0 et de 1. Par exemple le dveloppement
0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, ...
est form de blocs de longueur 2, 4, 2, 3, 1, 1, 3, . . .
95
i

i
i

barbe 2007/1/8 10:41 page 96 #104

Chapitre IV. Indpendance

Soit Nn le nombre de blocs dans les n premiers chires. Cest une variable
alatoire puisque pour tout entier k positif, lvnement { N = k } est gal

{ U1 = = Un1 } { Un1 = Un1 +1 }


1n1 ,...,nk n

{ Un1 +1 = = Un1 +n2 } { Un1 +n2 = Un1 +n2 +1 }


...
{ Un1 ++nnk1 +1 = = Un1 +...+nk } { Un1 ++nk = Un1 ++nk +1 }

{ Un1 ++nk = = Un } ,
et chaque ensemble


{ Ui = = Ui+j } = { 0 = Ui } . . . { 0 = Ui+j }


{ 1 = Ui } . . . { 1 = Ui+j }
est mesurable. On pourrait ainsi calculer la loi de Nn , mais cest un peu lourd.
Pour obtenir des informations sur Nn , dnissons la fonction gnratrice
Gn (s) =

sk P { Nn = k } .

k1

Cette fonction est dnie au moins sur lintervalle ] 1, 1 [ puisque P { Nn = k }


est dans [ 0, 1 ]. De plus, pour tout k 1,
P { Nn = k } =



1 dk 

(s)
.
G
n

k! dsk
s=0

Cette fonction peut tre calcule comme suit. Observons que pour u { 0, 1 },
P { Nn = k ; Un = u }
= P { Nn1 = k ; Un1 = u ; Un = u }
+ P { Nn1 = k 1 ; Un1 = 1 u ; Un = u }
1
1
= P { Nn1 = k ; Un1 = u } + P { Nn1 = k 1 ; Un1 = 1 u }
2
2
96
i

i
i

barbe 2007/1/8 10:41 page 97 #105

IV.3. Applications de lindpendance

puisque Nn1 est (U1 , . . . , Un1 )-mesurable et que Un est indpendante de


U1 , . . . , Un1 . On a donc


Gn (s) =
sk P { Nn = k ; Un = 0 } + P { Nn = k ; Un = 1 }
k1

1 k
s P { Nn1 = k ; Un1 = 1 } + P { Nn1 = k 1 ; Un1 = 0 }
2
k1


+ P { Nn1 = k ; Un1 = 0 } + P { Nn1 = k 1 ; Un1 = 1 }

1 k
s P { Nn1 = k } + P { Nn1 = k 1 }
=
2
k1

1+s
Gn1 (s) .
=
2
Ainsi, par rcurrence, et puisque G1 (s) = s,


1 + s n1
s.
Gn (s) =
2
Nous pouvons maintenant encadrer Nn de la faon suivante, similaire
lexemple III.4.10.iii. Observons que pour tout s 1 et tout cn 0,


n
n
P Nn cn P { sNn s 2 cn } scnn/2 Gn (s) .
2
Donc, en optimisant en s, et pour n assez grand,


n
2
P Nn cn inf scn n/2 Gn (s) = e2cn /n(1+o(1))
0s1
2

pourvu que limn c2n /n = . En prenant cn = n ln n, on voit que




n
P Nn cn < .
2
n1

Donc, par le lemme de Borel-Cantelli, pour presque tout ,


n
Nn () n ln n
2
pour n assez grand.
De mme, pour cn tel que limn c2n /n = ,


n
2
P Nn + cn inf scnn/2 Gn (s) = e2cn /n(1+o(1))
s1
2
97
i

i
i

barbe 2007/1/8 10:41 page 98 #106

Chapitre IV. Indpendance

et presque srement pour n assez grand,


n
Nn () + n ln n .
2
Ainsi, nous avons montr que pour presque tout nombre de [ 0, 1 ], le nombre de
blocsdans les n premiers
chires du dveloppement dyadique est compris entre

n
n

n
ln
n
et
+
n
ln
n
pour n assez grand. On voit de plus que
2
2
Gn (1) =

kP { Nn = 1 } = E(Nn ) =

k1

n
n+1
,
2
2

n .

Donc, en moyenne , un nombre a de lordre de n/2 blocs dans les n premiers


chires.

IV.4. Vecteurs alatoires gaussiens et lois gaussiennes


Rappelons quune variable alatoire relle X : (, A, P ) (R, B(R)) suit
une loi normale ou gaussienne N (m, 2 ) de moyenne m et de variance 2 si sa
densit par rapport la mesure de Lebesgue sur R est


1
1
2

exp 2 (x m)
,
x R.
2
2 2
De faon quivalente, sa transforme de Fourier est
X (t) = eimt

2 t2 /2

t R.

Rappelons aussi que si Y suit une loi N (0, 1), alors X = m + Y suit une loi
N (m, 2 ). On notera pour toutes ces dnitions que, dans la famille des lois
gaussiennes, les paramtres de moyenne m et de variance 2 caractrisent une loi
donne. Une variable gaussienne a des moments de tous ordres (III.5.6).
Nous allons nous intresser prsent des variables alatoires gaussiennes
valeurs dans Rd , ou vecteurs alatoires gaussiens.

Definition IV.4.1. Une variable alatoire


X = (X1 , . . . , Xd ) : (, A, P ) (Rd , B(Rd )) ,
valeurs dans Rd , est dite gaussienne si pour tout = (1 , . . . , d ) de Rd ,

i Xi
, X =
1id

est une variable alatoire gaussienne.


98
i

i
i

barbe 2007/1/8 10:41 page 99 #107

IV.4. Vecteurs alatoires gaussiens et lois gaussiennes

Dans la dnition IV.4.1, la variable alatoire , X relle gaussienne est


caractrise par sa moyenne



i Xi =
i E(Xi ) ,
E
1id

1id

et sa variance





i Xi =
i j E (Xi E(Xi ))(Xj E(Xj )) .
Var
1id

1i,jd

Ainsi, le vecteur gaussien X = (X1 , . . . , Xd ) est entirement caractris par son


vecteur moyen


m = E(X) = E(X1 ), . . . , E(Xd )
et sa matrice de covariance
 

= E (Xi E(Xi ))(Xj E(Xj ))

1i,jd

On voit trs simplement sur ces formules comment se ramener au cas dun vecteur
gaussien centr (E(X) = (0, . . . , 0)), en soustrayant simplement la moyenne ; dans
ce cas, la matrice de covariance scrit (E(Xi Xj ))1i,jd ; nous le supposerons
souvent par la suite.
En terme de transforme de Fourier, si u = (u1 , . . . , ud ) Rd , et si le vecteur
alatoire X = (X1 , . . . , Xd ) est gaussien,




1t
X
(u) = E exp(iu, X) = exp iu, m u u .
2
Notons que si X = (X1 , . . . , Xd ) est un vecteur gaussien, ses marges X1 , . . . , Xd
sont gaussiennes (considrer pour le i-me vecteur de base dans la dnition IV.4.1), mais, sauf si elles sont indpendantes, la rciproque est fausse (par
exemple si Z est gaussienne relle de loi N (0, 1) et est de loi de Bernoulli symtrique P { = +1 } = P { = 1 } = 1/2, indpendante de Z, alors (Z, Z) nest
pas gaussien, mais de marges gaussiennes).
Un exemple lmentaire, mais fondamental, est constitu par un vecteur
G = (G1 , . . . , Gd ) dont les composantes sont indpendantes, de loi N (0, 1). Le
vecteur G est centr et sa matrice de covariance est la matrice identit. La loi de
G a pour densit (2)d/2 exp(x2 /2) par rapport la mesure de Lebesgue dx
sur Rd (o lon rappelle que x2 = x21 + +x2d pour tout x = (x1 , . . . , xd ) Rd ).
On note N (0, Id) la loi de G. Montrons alors lexistence de vecteurs gaussiens de
matrice de covariance .
Toute matrice de covariance tant symtrique et semi-dnie positive peut
tre crite = A tA, o A est une matrice carre.
99
i

i
i

barbe 2007/1/8 10:41 page 100 #108

Chapitre IV. Indpendance

Proposition IV.4.2. Soit X = (X1 , . . . , Xd ) un vecteur gaussien centr de matrice


de covariance = A tA. Alors X a mme loi que AG o G est de loi N (0, Id).
On note N (0, ) la loi de X.
Dmonstration. Le vecteur alatoire AG est bien gaussien, puisque toute combinaison linaire de ses coordonnes est une combinaison linaire des coordonnes
de G. Notons A = (ai,j )1i,jd . Pour tous 1 i, j d,

E (AG)i (AG)j = E



ai,k Gk

1kd




aj,l Gl

1ld

ai,k aj,k = i,j = E(Xi Xj ) .

1kd

En vertu de cette proposition, on voit immdiatement par changement de


variable que, si A est inversible, pour tout borlien B de Rd ,

 1

1
1
1
A
exp

x,
A
x
dx .
P{X B } =
2
(2)d/2 |dtA| B
En eet, daprs la proposition prcdente,


P { X B } = P G A1 (B) ,
ce qui se calcule en utilisant la densit de G.
Remarquons aussi que la proposition IV.4.2 nous dit que pour simuler numriquement un vecteur X de loi N (0, ), il sut de savoir simuler des variables
alatoires relles de loi N (0, 1). Ayant simul un vecteur alatoire X de loi N (0, ),
on peut simuler un vecteur de loi N (m, ) en considrant X + m.
On peut tre plus prcis sur la dcomposition prcdente de la matrice de
covariance . Mme si celle-ci est dgnre, on peut toujours lcrire sous la
forme = P tP o P est une matrice orthogonale (i.e. P 1 = tP ) et est une
matrice diagonale positive, avec ventuellement des zros sur la diagonale rendant
compte des dgnrescences de (ou de X). (Un cas extrme est par exemple

1 0 0
0 0 0
0 0 0
qui est la matrice de covariance du vecteur gaussien X = (X1 , X2 , X3 ) o X1 suit
100
i

i
i

barbe 2007/1/8 10:41 page 101 #109

IV.4. Vecteurs alatoires gaussiens et lois gaussiennes

la loi N (0, 1) et X2 et X3 sont de loi N (0, 0) i.e. X2 = X3 = 0 p.s.) Ainsi,


= P tP = P t(P ) ,

et A = P .
En terme de changement de base, on notera que le vecteurgaussien tP X a
pour matrice de covariance la matrice
diagonale (puisque P G a mme loi
que X, donc tP X a mme loi que G, qui a pour matrice de covariance ).
La diagonalisation de la matrice de covariance dun vecteur gaussien centr
X nous a donc permis de dterminer une nouvelle base dans laquelle les composantes de X sont orthogonales. Lintrt de cette observation provient du thorme
suivant qui est une autre faon de formuler la proposition IV.4.2.

Theor`eme IV.4.3. Soit X = (Xi , . . . , Xd ) un vecteur gaussien dans Rd de matrice


de covariance . Si les composantes de X sont deux deux non corrles (i.e.
est diagonale), alors la famille (X1 , . . . , Xd ) est mutuellement indpendante.
Dmonstration. Nous nous contentons du cas centr. Pour tous u1 , . . . , ud R,




2 

1
uk Xk
uk Xk
= exp E
E exp i
2
1kd
1kd


1
2
uk E(Xk )
= exp
2
1kd



E exp(iuk Xk ) .
=


1kd

Ainsi la fonction caractristique du vecteur X = (X1 , . . . , Xd ) est le produit des


fonctions caractristiques des lois marginales. Le corollaire IV.1.12 montre alors
que les variables alatoires Xi sont indpendantes. On notera que lorthogonalit

E(Xi Xj ) = 0, i = j, est videmment ncessaire.
Si donc tP X a pour covariance la matrice diagonale , cest que dans la
nouvelle base de Rd , de matrice de passage tP , le nouveau vecteur gaussien est
composantes indpendantes. On se ramne preque toujours cette rduction.
Comme peut avoir des zros sur la diagonale, le nombre de termes diagonaux
non nuls est en fait le rang de ou le rang du vecteur gaussien X : il est en eet
valeurs dans un sous-espace de Rd de dimension gale ce rang.
101
i

i
i

barbe 2007/1/8 10:41 page 102 #110

Chapitre IV. Indpendance

Exercices
Exercice IV.1. Une urne contient r boules rouges et b boules blanches. On tire
ces boules une une, sans remise, jusqu puisement. Pour 0 k b, quelle
est la probabilit pour quexactement k boules blanches soient tires avant la
premire boule rouge ?
Exercice IV.2. Deux joueurs A et B jouent une suite de parties indpendantes.
Lors de chacune delles, ils ont respectivement les probabilits p pour A et
q = 1 p pour B de gagner. Le vainqueur nal est celui des deux joueurs qui le
premier obtient 2 victoires de plus que son adversaire. Quelle est la probabilit
pour que A soit vainqueur ?
Exercice IV.3. Vrier lindpendance des An dans lexemple IV.1.4.i.
Exercice IV.4. Soient X et Y deux variables dnies sur (, A, P ), ne pouvant
prendre que deux valeurs distinctes. Montrer que X et Y sont indpendantes si
et seulement si E(XY ) = E(X)E(Y ).
Indication : Si X prend les valeurs x1 , x2 et Y les valeurs y1 , y2 , dduire de
lhypothse que


E (X xi )(Y yj ) = E(X xi )E(Y yj ) , i, j = 1, 2 .
Exercice IV.5. Soit X une variable alatoire relle et soient f et g deux fonctions
croissantes de R dans R. On suppose que E(f (X)2 ) < et E(g(X)2 ) < .
Dmontrer que



 

E f (X)g(X) E f (X) E g(X) .
Indication : remarquer que (f (x) f (y))(g(x) g(y)) 0 pour tous x, y R et
utiliser le thorme de Fubini aprs avoir introduit une variable Y indpendante
de X et de mme loi que X.
En dduire que si |X| < 1 p.s.,

E

 1  1 
1 
.

E
1 X2
1X 1+X

Exercice IV.6. Soient X et Y deux variables alatoires indpendantes, de mme


loi exponentielle de densit f (x) = ex [0,[(x), > 0. Dterminer les densits des lois de X 3 , |X Y |, min(X, Y 3 ). Mme question lorsque X et Y suivent
la loi uniforme sur [ 1, 1 ].
Exercice IV.7. Soient F et G deux fonctions de rpartition et U une variable
alatoire de loi uniforme sur ] 0, 1 [. Montrer que V (x, y) = min(F (x), G(y)) est
la fonction de rpartition du vecteur alatoire (F (U ), G (U )). En particulier,
V est de marges F et G.
102
i

i
i

barbe 2007/1/8 10:41 page 103 #111

Exercices

Montrer que si H est une fonction de rpartition sur R2 de marges F et G,


alors H V .

Exercice IV.8. Soient Xi , 1 i n, des variables alatoires indpendantes, Xi tant de fonction de rpartition Fi . Soit mn = min1in Xi et
M
de rpartition de Mn en x est
$
$n = max1in Xi . Montrer que la fonction
F
(x),
que
celle
de
m
est
1

(1
Fi (x)) et que
n
1in i
1in

(Fi (x2 ) Fi (x1 )) .
P { x1 < mn Mn x2 } =
1in

Indication : { Mn x } = 1in { Xi x }.
Exercice IV.9. Soient X1 , . . . , Xn des variables indpendantes de mme loi exponentielle de paramtre 1. Montrer que P { i, j : Xi = Xj } = 0. On pose
Z = min Xi
1in

et

N = min{ 1 i n : Xi = Z } .

Dterminer la loi de Z. tablir que


P { N = k , Z > t } = ent /n ,

k = 1, . . . , n ,

t > 0.

En dduire que Z et N sont des variables alatoires indpendantes et prciser


la loi de N .

Exercice IV.10. Soit P une


loi sur R dont on suppose quelle admet une transfor tx
me de Laplace L(t) = e dP (x) pour |t| petit. Soit P n la n-ime convolue
de P avec elle-mme, dnie par P 1 = P et P n = P (n1) P (i.e. P n est
la loi dune somme de n variables alatoires indpendantes de loi P ). Soit t tel
tx
que L(t) existe et soit Pt la loi dnie par sa densit dPt = e . Montrer que
dP
L(t)
n
tx
dP
t
= e n.
Ptn admet une densit par rapport P n donne par
dP n
L(t)
Montrer que P n ([ x, [) etx L(t)n Ptn ([ x, [) pour t > 0 (comparer
cette ingalit avec celle de Cherno, III.4.10.iii).
Exercice IV.11. On appelle loi gamma de paramtre p > 0 et on note p la loi
de densit p (x) = ((p))1 xp1 ex sur R+ , o (p) assure que p (x) dx = 1.
Montrer que (p) = (p 1)(p 1) et que pour p entier, (p) = (p 1)!.
Montrer que p q = p+q . En dduire la loi de 1 + + n o les i sont
des variables alatoires indpendantes et de loi exponentielle de paramtre 1.
Montrer que la fonction caractristique de la loi p est (1 it)p .
Soit maintenant (Xi )i1 une suite de variables alatoires indpendantes et
de mme loi exponentielle. Soit Sn = X1 + + Xn leur somme. Pour t 0,
soit N (t) = card{ i : Si t }. En valuant P { N (t) k }, montrer que N (t)
suit une loi de Poisson de paramtre t.
103
i

i
i

barbe 2007/1/8 10:41 page 104 #112

Chapitre IV. Indpendance

Exercice IV.12. Soient X1 , . . . , Xn , Xn+1 des variables alatoires indpendantes de loi exponentielle de paramtre 1. Calculer la loi de la somme
Sk = X1 + + Xk , 1 k n+1. Dmontrer que la loi du vecteur (U1 , . . . , Un )
dni par Ui = Si /Sn+1 , i = 1, . . . , n, a une densit par rapport la mesure de
Lebesgue sur Rn donne par n! D , o


D = x = (x1 , . . . , xn ) Rn ; 0 x1 xn 1 .
Exercice IV.13. Soient X1 , . . . , Xn des variables alatoires relles, indpendantes, de mme loi de fonction de rpartition F ayant une densit f . Ces
variables, ordonnes par ordre croissant, sont notes X1,n X2,n Xn,n .
Clairement les Xi,n , 1 i n, ne sont pas indpendantes puisque par construction Xi,n Xi+1,n .
a) Montrer que la probabilit que k des variables X1 , . . . , Xn soient infrieures
x et n k soient
x est Ckn F (x)k (1 F (x))nk . En dduire que

suprieures
k
P { Xi,n x } = ikn Cn F (x)k (1F (x))nk , et que Xi,n admet pour densit

ni
,
fi,n (x) = i Cin f (x)F (x)i1 1 F (x)

x R.

b) Montrer par un argument analogue que pour x, y R



ni
.
P { Xi,n x; Xi+1,n > y } = Cin F (x)i 1 F (y)
c) En dduire la fonction de rpartition du couple (Xi,n , Xi+1,n ).
d) Montrer que le couple (Xi,n , Xi+1,n ) admet pour densit

ni1
, < x < y < .
fi,i+1,n (x, y) = i(n i)Cin f (x)f (y)F (x)i1 1 F (y)
e) Soit Si+1,n = Xi+1,n Xi,n . Montrer que le couple (Xi,n , Si+1,n ) admet pour
densit

ni1
,
x R, s 0.
g(x, s) = i(n i)Cin f (x)f (x + s)F (x)i1 1 F (x + s)
f) Supposons les Xi de loi exponentielle de paramtre 1. Montrer qualors Si+1,n
est de loi exponentielle de paramtre n i.

Exercice IV.14. Soit (Xn )nN une suite de variables alatoires indpendantes, de
mme loi de Bernoulli de paramtre p. Pour tout n 1, on dnit par rcurrence, Tn = inf{ k > Tn1 ; Xk = 1 } si cet inmum est ni, Tn = sinon,
et T0 = 0. Dmontrer que les variables alatoires T1 , T2 T1 , . . . , Tn Tn1 , . . .
sont indpendantes et de mme loi. Calculer la loi de T1 et sa fonction caractristique. En dduire la loi de Tn .
104
i

i
i

barbe 2007/1/8 10:41 page 105 #113

Exercices

Exercice IV.15. Versions du lemme de Borel-Cantelli.


2


P (Ai )
1in

= 1 alors
(i) Si n1 P (An ) = et lim inf n

1in
1jn P (Ai Aj )
P (An i.s. ) = 1 (Rnyi).

Indication : Appliquer lingalit


de lexercice III.10 X = 1in Ai pour
tout n

1 pour dmontrer que i1 Ai = p.s.


(ii) Si n1 P (An ) = et P (Ai Aj ) cP (Ai )P (Aj ) pour un c > 0 et tous
i = j, alors P (An i.s.) > 0 (Kotska).
Exercice IV.16. Ingalit de Kolmogorov. Soient X1 , . . . , Xn des variables alatoires indpendantes desprance 0 et de variance nie. Soit Sn = X1 + + Xn .
Montrer lingalit de Kolmogorov,



P max |Sk | t t2
Var(Xi )
1kn

1in

pour tout t > 0.


Indication : considrer les vnements disjoints

{ |Sj | < t } { |Sk | t } ,
Ak =

1 k n,

j<k

et commencer par montrer la minoration


E(Sn2 )


1kn Ak

Sk2 dP .

Puis utiliser lingalit de Markov,


P (Ak ) t2


Ak

Sk2 dP .

Exercice IV.17. Trouver une fonction h de R dans R et un rel c > 0 tel que la
fonction
c2 (x2 +y2 )/2
e
+ h(x)h(y) ,
(x, y) R2 ,
f (x, y) =
2
soit la densit de la loi dun vecteur non gaussien de R2 , dont les lois marginales
sont gaussiennes.

Exercice IV.18. Soit (X, Y ) un vecteur


centr, valeurs dans R2 ,
 gaussien,

3 6
de matrice de covariance =
. Dmontrer que X et Y sont
6 12
proportionnelles.
105
i

i
i

barbe 2007/1/8 10:41 page 106 #114

Chapitre IV. Indpendance

Exercice IV.19. Soit X une variable alatoire suivant une loi N (0, 1), et soit
une variable de Bernoulli telle que P { = +1 } = P { = 1 } = 1/2, indpendante de X. Dmontrer que X et |X| ont mme loi que X. Le couple (X, X)
est-il gaussien ?
Exercice IV.20. Soit X un vecteur gaussien centr, valeurs dans Rd , et
soit Y une copie indpendante de X. On pose X = X cos + Y sin et
X = X sin + Y cos , [ 0, 2 ]. Dmontrer que pour tout , X et X
sont indpendantes, de mme loi que X.
Exercice IV.21. Soient X et Y deux vecteurs alatoires de Rd , indpendants et
de mme loi, tels que X + Y et X Y sont indpendants. On dsigne par la
fonction caractristique de la loi de X.
a) Montrer que pour tous s, t Rd ,
(s + t)(s t) = (s)2 |(t)|2 .
En dduire lexistence dune fonction continue sur Rd telle que = e .
b) On pose p (t) = 12 ((t) + (t)) et i (t) = 12 ((t) (t)), t Rd .
Dmontrer quil existe m Rd tel que i (t) = im, t, t Rd .
c) Soit Q(s, t) = p (s + t) p (s) p (t), s, t Rd . Dmontrer que Q est relle,
symtrique ngative. tablir que Q est bilinaire.
d) Dduire de ce qui prcde que la loi de X est gaussienne.

Exercice IV.22. (Lois inniment divisibles) Soit X une variable alatoire relle
sur un espace probabilis (, A, P ), de loi ; on dit que est inniment divisible si, pour chaque entier n 1, il existe des variables alatoires relles
X1,n , . . . , Xn,n indpendantes et de mme loi n telles que la loi de la somme
X1,n + + Xn,n soit .
a) Dmontrer quune loi est inniment divisible si et seulement si sa fonction
caractristique est, pour tout entier n 1, la puissance n-ime dune fonction
caractristique.
b) est-elle inniment divisible dans les cas suivant : (i) = a , a R ;
(ii) est la loi gaussienne de moyenne m et de variance 2 ; (iii) est la loi de
Poisson de paramtre ; (iv) est la loi de Cauchy (on rappelle que la fonction
caractristique de la loi de Cauchy est donne par e|t| ) ?
c) Soit X de loi de Bernoulli sur { 0, 1 } de paramtre 0 < p < 1 ; soient
galement Y et Z des variables alatoires indpendantes de loi commune
telles que la somme Y + Z soit de loi .
(i) Si B est un intervalle ne contenant pas 0 et 1/2, dmontrer que (B + B) = 0
(o B + B = { x + y : x, y B }). En dduire que (B B) = 0.
(ii) Dduire de la question prcdente que Y ne peut prendre que les valeurs 0
et 1/2.
106
i

i
i

barbe 2007/1/8 10:41 page 107 #115

Exercices

(iii) Conclure que nest pas inniment divisible.


d) Soit une fonction caractristique, et soit > 0. On dnit
(t) = e((t)1) ,

t R.

Sur (, A, P ), on considre une suite (Xn )nN de variables alatoires indpendantes de mme loi de fonction caractristique , ainsi quun variable alatoire
N suivant une loi de Poisson de paramtre , indpendante de la suite (Xn )nN .
Pour chaque , on pose

Xk ()
Y () =
1kN ()

(avec la convention 1k0 = 0). Dmontrer que Y est une variable alatoire
de fonction caractristique . Montrer que la loi de Y est inniment divisible.

107
i

i
i

barbe 2007/1/8 10:41 page 108 #116

i
i

barbe 2007/1/8 10:41 page 109 #117

V
CONVERGENCE DE SUITES
DE VARIABLES ALATOIRES

Il existe de nombreuses notions de convergence de variables alatoires. Elle


sont essentielles pour les applications. Elles servent surtout montrer que les
phnomnes alatoires prsentent certaines rgularits, partir desquelles on
peut identier certaines de leurs proprits. Par exemple, nous avons vu
lexemple IV.2.4.iii que la frquence observe des piles dans un jeu de pile ou
face, aprs n tirages, est proche de la probabilit (dterministe) p dobtenir
pile, pourvu que n soit grand. Donc, si p est inconnue (par exemple nous ne savons
pas si la pice est truque), nous avons l un moyen de lapproximer.
Dans tout ce chapitre, les suites de variables alatoires (Xn )nN sont supposes
construites sur un espace de probabilit (, A, P ). Pour plus de simplicit, nous
ne considrons que des variables alatoires valeurs relles. Les noncs et les
rsultats subsistent sans modications pour des vecteurs alatoires valeurs dans
Rd (pour lessentiel, remplacer les valeurs absolues par une norme sur Rd ).

V.1. Convergence presque sre


Definition V.1.1. Une suite de variables alatoires relles (Xn )nN , dnie sur
(, A, P ), converge presque srement (p.s.) vers la variable alatoire X, dnie
sur (, A, P ), si


P : lim Xn () = X() = 1 .
n

Dans ce cas, on note limn Xn = X p.s. ou Xn X p.s. lorsque n .

i
i

barbe 2007/1/8 10:41 page 110 #118

Chapitre V. Convergence de suites de variables alatoires

Observons que lvnement { limn Xn = X } est bien mesurable puisque


gal
 

|Xn X| < 1/p .
p1 mN nm

Or si (Ap )pN est une suite dvnements, la proposition


I.4.3.i et le fait quune
mesure de probabilit est borne par 1 montrent que P ( pN Ap ) = 1 si et seulement si P (Ap ) = 1 pour tout p. Il sensuit que Xn converge vers X p.s. si et
seulement si
 

=1
|Xn X| <
> 0 , P
mN nm

(prendre 1/(p + 1) < p). Cette condition peut aussi scrire, par passage au
complmentaire,
 

= 0.
|Xn X|
> 0 , P
mN nm

Elle est alors quivalente




> 0 , P |Xn X| i.s. = 0 .
Par convergence monotone, cest encore quivalent


> 0 , lim P sup |Xn X| = 0 .
m

(1)

(2)

nm

La convergence p.s. peut aussi tre dcrite laide du critre de Cauchy. Par
exemple Xn X p.s. si et seulement si
 

= 1.
|Xn Xm | <
> 0 , P
nN mn

On peut aussi dire, quitte enlever un ensemble de mesure nulle (celui pour
lequel Xn () ne converge pas vers X()), que Xn X p.s. si et seulement si
Xn converge ponctuellement vers X, en tant que suite de fonctions de dans R.
Il sensuit que si est une fonction continue sur R, alors (Xn ) converge vers
(X) presque srement. En particulier, si Xn et Yn , n N, sont deux suites de
variables alatoires relles convergeant presque srement vers X et Y , alors pour
tous a et b rels, aXn + bYn converge presque srement vers aX + bY et Xn Yn
converge presque srement vers XY .
Un des outils classiques pour montrer la convergence presque sre est le lemme
de Borel-Cantelli.
110
i

i
i

barbe 2007/1/8 10:41 page 111 #119

V.1. Convergence presque sre

Proposition V.1.2 (Lemme de Borel-Cantelli). Soient Xn , n N, et X, des variables alatoires relles dnies sur (, A, P ).

(i) Si pour tout > 0, nN P { |Xn X| } < , alors Xn X p.s.


(ii) Si les (X

n )nN sont mutuellements indpendantes, alors Xn 0 p.s. si et


seulement si nN P { |Xn | } < pour tout > 0.
Dmonstration. Pour montrer (i), soit > 0 et les vnements

An =


|Xn X| ,

n N.

Appliquons le lemme de Borel-Cantelli (IV.3.5) aux An . Il vient P (An i.s.) = 0,


ce qui fournit le rsultat daprs (1). (Voir aussi IV.3.6.i.)
(ii) se dmontre de faon analogue partir de la partie indpendante du lemme
de Borel-Cantelli. (Noter quil convient de supposer X nulle, ou constante, sans

quoi les vnements An ne sont pas ncessairement indpendants.)

Exemples V.1.3. (i) Soit (Xi )iN une suite de variables alatoires indpendantes
et de mme
loi de Bernoulli B(1, p), i.e. P { Xi = 1 } = 1 P { Xi = 0 } = p. Soit

Un = 1in 2i Xi . Pour montrer la convergence p.s de Un , on peut appliquer


le critre de Cauchy, en remarquant que n < m implique

2i 2n .
|Um Un |
n+1im

Ainsi

 

: |Un () Um ()| <

nN mn

{ : 2n < }

nN mn

{ : 2n < }

nN

= .

Notons U la limite i1 2i Xi . Cest une variable alatoire valeurs dans [ 0, 1 ]

puisque 0 U i1 2i = 1.
(ii) Souvent on ne peut appliquer le lemme de Borel-Cantelli que sur des soussuites, et un argument supplmentaire est ncessaire pour conclure. Un exemple
de cette situation est le suivant. Soient Xi , i 1, des variables alatoires indpendantes, de loi exponentielle P { Xi > t } = et , t 0. Soit Mn = max1in Xi .
Alors


{ Xi t } = (1 et )n .
P { Mn t } = P
1in

111
i

i
i

barbe 2007/1/8 10:41 page 112 #120

Chapitre V. Convergence de suites de variables alatoires

Montrons que Mn / ln n 1 p.s., cest--dire que le maximum de n variables


alatoires exponentielles, indpendantes, se comporte p.s. comme ln n lorsque n
est grand. La dmonstration consiste prouver que pour tout > 0, on a une
minoration Mn (1 ) ln n p.s. pour tout n assez grand, puis que lon a une
majoration Mn (1 + ) ln n p.s. pour tout n assez grand.
Commenons par la minoration. Soit 0 < 1. On a
 
n

P Mn (1 ) ln n = 1 n1+


= exp n ln(1 n1 )


= exp n (1 + o(1))

lorsque n tend vers linni. Donc n P { Mn / ln n 1 } < pour tout > 0,


et par le lemme de Borel-Cantelli IV.3.5, Mn / ln n 1 p.s. pour n assez grand.
En particulier,
lim inf Mn / ln n 1 p.s.
n

tablissons maintenant la majoration. On a






P Mn (1 + ) ln n = 1 P Mn < (1 + ) ln n
n

= 1 1 n1


= 1 exp n ln(1 n1 )


= 1 exp n (1 + o(1))
= n (1 + o(1))
lorsque n tend vers linni. Soit la sous-suite nk = (k + 1) , k N, avec > 1
o  est la fonction partie entire. Alors


P Mnk (1 + ) ln nk < .
kN

Donc lim supk Mnk / ln nk 1 + p.s. Pour conclure la majoration, pour tout
n N , il existe k N tel que nk n < nk+1 . Et donc, en remarquant que la
suite Mn est croissante,
Mnk+1 ln nk+1
Mn

.
ln n
ln nk+1 ln nk
Puisque limk (ln nk )/(ln nk+1 ) = 1, on conclut que
lim sup Mn / ln n 1 + p.s.
n

112
i

i
i

barbe 2007/1/8 10:41 page 113 #121

V.2. Convergence en probabilit

Ainsi, pour tout 0 < 1, presque srement,


1 lim inf
n

Mn
Mn
lim sup
1 + .
ln n
n ln n

En choisissant 0 le long dune sous-suite dnombrable, il sensuit que


Mn / ln n 1 p.s. Largument que nous avons utilis dans la majoration, consistant dcouper lensemble N en des blocs [ nk , nk+1 [ , sappelle un argument de
bloc.

V.2. Convergence en probabilit


La convergence en probabilit, appele aussi convergence en mesure, ou dans
L0 (, A, P ), est dnie comme suit.

Definition V.2.1. Soient Xn , n N, X, des variables alatoires relles sur


P
(, A, P ). On dit que Xn converge en probabilit vers X, et on note Xn X,
ou limn Xn = X en probabilit, ou P limn Xn = X, si pour tout
> 0,


lim P |Xn X| = 0 .
n

Autrement dit, pour tout > 0, il existe n0 tel que pour tout entier n n0 ,
P { |Xn X| } .
On mesure tout de suite la dirence avec la convergence presque sre qui
exige un supremum (voir (2), p. 110). En particulier, la convergence p.s. implique
la convergence en probabilit.

Exemples V.2.2. (i) Soit Xi , i 1, des variables alatoires relles non corrles,
2
telles que E(X
i ) = 0 et Var(Xi ) = pour tout i 1. Alors leurs moyennes par

tielles n1 1in Xi convergent en probabilit vers 0. En eet, pour tout > 0,








1
2
1


Xi  2 2 Var
Xi = 2
P 
n
n
n
1in

1in

daprs lingalit de Tchebitchev (III.4.10.ii). Ceci complte lexemple IV.2.4.iii


et la discussion introduisant ce chapitre. Il convient de comprendre que cette
convergence a un sens tout fait concret. Il sut de tirer une pice non truque
une cinquantaine de fois pour voir que la proportion de piles se stabilise vers 1/2
si lon nest pas trop malchanceux. Cest exactement ce que dit le rsultat de
convergence.
113
i

i
i

barbe 2007/1/8 10:41 page 114 #122

Chapitre V. Convergence de suites de variables alatoires

(ii) Soit = [ 0, 1 ] muni de sa tribu borlienne et de la probabilit uniforme P


(mesure de Lebesgue). Dnissons pour , et n N, 1 k 2n , i = 2n +k1,
Xi () = ](k1)/2n ,k/2n ] () .
Alors pour tout ] 0, 1 ], lim inf i Xi () = 0 et lim supn Xn () = 1, de
sorte que la suite (Xi )i1 ne converge pas presque srement. Cependant, pour
tout ] 0, 1 [, i = 2n + k 1, 1 k 2n , n N, on a P { |Xi | } = 2n , de
sorte que Xi converge en probabilit vers 0.
(iii) Soit (Xn )nN une suite de variables alatoires indpendantes, de loi de
Bernoulli, avec P { Xn = 1 } = 1 P { Xn = 0 } = pn . Alors
P

Xn 0

lim pn = 0

puisque P { |Xn | } = pn si 0 < < 1. Mais le lemme de Borel-Cantelli V.1.2


montre que


P |Xn | < pour tout > 0
lim Xn = 0 p.s.
n

ce qui est quivalent

nN pn

< .

Il est possible de dnir une distance qui mtrise la convergence en probabilit


des variables alatoires dnies sur un espace probabilis (, A, P ). Si X et Y sont
deux variables alatoires, dnies sur (, A, P ), on pose,


d(X, Y ) = E |X Y | 1 .
Puisque |X Y | 1 0, la proposition II.1.4.viii montre que d(X, Y ) = 0 si et
seulement si X = Y p.s. On vrie facilement que d(, ) est une distance. Dans
ce qui suit, on pourrait aussi utiliser la distance
d (X, Y ) = E

 |X Y | 
.
1 + |X Y |

Lemme V.2.3. La suite (Xn )nN converge en probabilit vers X si et seulement si


lim d(Xn , X) = 0 .

Dmonstration. En utilisant lingalit de Markov (III.4.9), pour tout ] 0, 1 ],





P |Xn X| = P |Xn X| 1 d(Xn , X)/ .
114
i

i
i

barbe 2007/1/8 10:41 page 115 #123

V.2. Convergence en probabilit

Dautre part, pour tout > 0,



d(Xn , X) =

{|Xn X|}


|Xn X| 1 dP

+
{|Xn X|<}



|Xn X| 1 dP


P |Xn X| + .


Si Xn X, il existe n0 tel que si n n0 , P { |Xn X| } . Donc



d(Xn , X) 2 pour n n0 , et limn d(Xn , X) = 0.
Rptons encore que la convergence en probabilit nimplique pas la convergence presque sre. Mais on a le rsultat important suivant.

Theor`eme V.2.4. Soient Xn , n N, X, des variables alatoires relles dnies sur


(, A, P ). Alors Xn converge en probabilit vers X si et seulement si de toute
suite dterministe croissante dentiers (n ), on peut extraire une sous-suite (nk )
telle que Xnk X p.s.
Dmonstration. Susance : Soit (n ) une suite croissante dentiers. Extrayons (nk )
P

telle que Xnk X p.s. En particulier, Xnk X. Or, si de toute sous-suite on


peut extraire une sous-suite convergente vers une mme limite, la suite converge.
On en dduit que Xn converge en probabilit vers X.
Ncessit : Il sut de considrer (n ) = (n). Pour tout k 1, soit nk le plus petit
entier tel
P { |Xnk X| 1/k } 2k .
Alors,



P |Xnk X| 1/k < .
k1

En particulier, par le lemme de Borel-Cantelli IV.3.5, |Xnk X| < 1/k p.s.



partir dun certain rang, et donc, limk Xnk = X p.s.
Il rsulte de cette dmonstration que la convergence presque sre nest pas
mtrisable, car si elle ltait, elle conciderait avec la convergence en probabilit.
La convergence en probabilit est stable par les oprations algbriques usuelles.

Proposition V.2.5. Soient (Xn )nN , (Yn )nN , deux suites de variables alatoires
relles dnies sur un espace (, A, P ). Supposons que Xn (resp. Yn ) converge en
probabilit vers une variable alatoire X (resp. Y ) dnie sur (, A, P ).
115
i

i
i

barbe 2007/1/8 10:41 page 116 #124

Chapitre V. Convergence de suites de variables alatoires


P

(i) Si est une application continue de R valeurs dans R, alors (Xn ) (X).
P

(ii) Pour tous , R, Xn + Yn X + Y .


P

(iii) De plus, Xn , Yn  X, Y .


Dmonstration. Vrions par exemple (ii). Soit (n ) une suite partielle. On peut

extraire une sous-suite (n ) telle que Xn X p.s. De (n ), on peut extraire
une sous-suite (n ) tel que Yn Y p.s. Alors Xn + Yn X + Y p.s.
On conclut laide du thorme V.2.4. (Il peut tre instructif de dmontrer cette
proposition sans laide du thorme V.2.4.)

Enn, lespace L0 (, A, P ) est complet pour la distance d mtrisant la convergence en probabilit.

Theor`eme V.2.6. Soit (Xn )nN une suite de variables alatoires relles dnies sur
(, A, P ). Supposons quelle vrie le critre de Cauchy en probabilit, cest--dire
que


> 0 , n0 , n n0 P |Xn Xn0 | ,
ou de faon quivalente, que
> 0 , n0 , n n0 , d(Xn , Xn0 ) .
Alors Xn converge en probabilit .
Dmonstration. En considrant = 1/2k dans la condition de Cauchy en probabi-

lit, on peut construire une suite dindices nk telle que




P |Xnk Xnk+1 | 2k 2k .
Alors le lemme de Borel-Cantelli (IV.3.5) montre quil existe pour presque tout
un entier k0 () < tel que si k k0 (), |Xnk () Xnk+1 ()| 2k . Alors, la
suite Xnk () est de Cauchy. En eet, soit > 0 et p > l > k0 () ; on a


Xn () Xnp ()
l



Xn () Xn ()
k
k+1
lkp1

2k

lkp1

2k 2l+1 .

kl

116
i

i
i

barbe 2007/1/8 10:41 page 117 #125

V.3. Convergence dans Lp

Ainsi, si l0 k0 () et 2l0 +1 < , pour tous p > l > l0 , |Xnl () Xnp ()| .
Donc Xnk converge p.s. vers une limite X. En particulier, cette sous-suite converge
en probabilit vers X. Observons que dans un espace mtrisable, une suite de Cauchy dont une sous-suite converge est une suite convergente. Puisque la convergence
en probabilit dans lespace L0 (, A, P ) est mtrisable, la suite (Xn )nN converge
en probabilit vers X.

Comme pour les suites usuelles (non alatoires), lintrt du critre de Cauchy
et du thorme V.2.6 est quil assure lexistence dune limite sans que nous ayons
besoin de la calculer explicitement.

V.3. Convergence dans Lp


Nous avons introduit les espaces Lp au chapitre II. Rappelons quune variable
alatoire relle X, dnie sur (, A, P ), est dans Lp (, A, P ), p > 0, si E(|X|p )
est ni. Lespace Lp (, A, P ) est muni de la norme,
 
1/p
,
Xp = E |X|p
qui en fait un espace complet (thorme II.6.4). En particulier, on peut dnir
une notion de convergence.

Definition V.3.1. Soient (Xn )nN , X, des variables alatoires relles dans
p
Lp (, A, P ), 0 < p < . On dit que Xn converge vers
 X dansp L si
limn Xn Xp = 0, ou de faon quivalente, limn E |Xn X| = 0.
Lingalit de Markov III.4.10.i montre que pour tout p > 0, la convergence
dans Lp implique la convergence en probabilit. Le lemme V.2.3 justie la terminologie de convergence dans L0 pour cette dernire.
Les exemples suivants montrent quen gnral la convergence en probabilit,
ou mme presque sre, nimplique pas la convergence dans Lp .

Exemples V.3.2. (i) Soit =] 0, 1 ] muni de sa tribu borlienne et de la probabilit


uniforme P . Soit > 0 et
Xn () = ]0,1/n] () ,

n 1.

Pour tout ] 0, 1 [, nous avons P { |Xn | } = 1/n. Par consquent, Xn


converge en probabilit vers 0. Mais Xn  Lp ds que p 1 puisque
 1/n
 p
p d = + .
E Xn =
0

117
i

i
i

barbe 2007/1/8 10:41 page 118 #126

Chapitre V. Convergence de suites de variables alatoires

(ii) Soit = R muni de sa tribu borlienne. Pour tout n 1, soit Xn une variable
alatoire de loi (1 np )0 + np n , cest--dire telle que
P { Xn = n } = np = 1 P { Xn = 0 } ,

p > 1.

Si > 0, pour tout n 1/, P { |Xn | } = np , et comme p > 1, Xn 0 p.s.


(lemme de Borel-Cantelli). En revanche, E(|Xn |p ) = 1 pour tout n.
Pour lier la convergence dans les espaces Lp celle en probabilit, il faut
utiliser la notion dquiintgrabilit, aussi appele intgrabilit uniforme.

Definition V.3.3. Une famille quelconque (Xi )iI de variables alatoires relles,
dnies et intgrables sur un espace probabilis (, A, P ) est dite quiintgrable ou uniformment intgrable si

lim sup

c iI

{|Xi |>c}

|Xi | dP = 0 .

Les thormes de convergence monotone (II.2.1) ou de convergence domine (II.2.8) montrent quune famille nie de variables alatoires intgrables est
uniformment intgrable. De mme, si |Xi | Y p.s. pour tout i I et Y est
intgrable, alors (Xi )iI est quiintgrable.
Rappelons que par convergence domine,
 si X est intgrable, pour tout > 0
il existe > 0 tel que si P (A) alors A |X| dP . En eet, le thorme de
convergence domine (II.2.8) implique que pour c assez grand,

|X| dP /2 .
{|X|>c}

De plus,

|X| dP
A

|X| dP +
A{|X|>c}

|X| dP
A{|X|c}

/2 + cP (A)
/2 + c .
Il sut donc de prendre = /2c.
Lanalogue uniforme est donn par la proposition suivante.

Proposition V.3.4. La famille de variables alatoires relles intgrables (Xi )iI dnies sur (, A, P ) est uniformment intgrable si et seulement si
118
i

i
i

barbe 2007/1/8 10:41 page 119 #127

V.3. Convergence dans Lp

(i) pour tout > 0 , il existe > 0 tel que pour tout A A, P (A) implique

|Xi | dP ,
i I ,
A

et

(ii) supiI



|Xi | dP < (ou supiI E |Xi | < ).

Dmonstration. Supposons lintgrabilit uniforme. Pour tout > 0, il existe c > 0

tel que


sup
iI

{|Xi |>c}

Si A A, pour tout i I,


|Xi | dP
A

|Xi | dP /2 .


A{|Xi |>c}

|Xi | dP +

A{|Xi |c}

|Xi | dP

/2 + cP (A) ,
ce qui dmontre (i) en prenant = /2c
 et (ii) en prenant A = .
Rciproquement, soit M = supiI |Xi | dP < . Soit de plus > 0 et > 0
fournis par (i). Posons c0 = M/. Pour tout c c0 et tout i, P { |Xi | > c }
(ingalit de Markov, III.4.9). Appliquons alors (i) A = { |Xi | > c } pour chaque

i pour obtenir supiI {|Xi |>c} |Xi | dP . La conclusion sensuit.
Lintrt de la notion dquiintgrabilit apparat dans le thorme suivant,
lequel peut tre vu comme une amlioration du thorme de convergence domine.

Theor`eme V.3.5. Soient Xn , n N, X, des variables alatoires relles dnies sur


(, A, P ). Supposons chaque Xn intgrable. Alors, il y a quivalence entre les deux
points suivants :
P

(i) Xn X et la famille (Xn )nN est uniformment intgrable ;


(ii) X est intgrable et limn Xn X1 = 0.
P

Dmonstration. (i)(ii). Si Xn X, le thorme V.2.4 montre quon peut ex-

traire une sous-suite (nk ) telle que Xnk converge vers X p.s. Par le lemme de
Fatou (II.2.3) et la proposition V.3.4,




 
E |X| lim inf E |Xnk | sup E |Xn | < .
k

nN

119
i

i
i

barbe 2007/1/8 10:41 page 120 #128

Chapitre V. Convergence de suites de variables alatoires

Donc X L1 . Maintenant, pour tout > 0,






|Xn X| dP +
|Xn | dP
E |Xn X|
{|Xn X|<}
{|Xn X|}

|X| dP.
+
{|Xn X|}


|Xn | dP +
|X| dP .
+
{|Xn X|}

{|Xn X|}

Puisque X L1 , (Xn , n N, X) est encore uniformment intgrable. Appliquons


la proposition V.3.4 cette famille et dsignons par = () > 0 le rel intervenant dans le point (i) de cette proposition. Par hypothse, P { |Xn X| }
pour n assez grand. La proposition V.3.4, avec A = { |Xn X| }, montre donc
que pour tout n assez grand,


|Xn | dP et
|X| dP .
{|Xn X|}

{|Xn X|}

Alors E(|Xn X|) 3. Puisque est arbitraire, Xn converge vers X dans L1 .


(ii)(i). Soit > 0 et n0 tel que Xn X1 pour n > n0 . Puisque X L1 , la
famille X, Xn , n n0 , est uniformment intgrable. Daprs la proposition V.3.4,
il existe > 0 tel que si P (A) ,


|X| dP /2 et
|Xn | dP /2
A

pour tout n n0 . Lorsque n > n0 , par lingalit triangulaire,




|Xn | dP
|X| dP + Xn X1 2 .
A

Il sensuit que la suite (Xn )nN vrie le point (i) de la proposition V.3.4. Le
point (ii) est immdiat puisque par lingalit triangulaire E(|Xn |) est major par
E(|Xn X|) + E(|X|). Donc la suite (Xn )nN est uniformment intgrable. 

Corollaire V.3.6. Soit (Xn )nN une suite de variables alatoires relles, dnies sur
P

un espace (, A, P ), telle que pour un p > 1, supnN E(|Xn |p ) < . Si Xn X,


alors pour tout q < p, limn Xn Xq = 0.
Dmonstration. Pour tout c > 0, et tout entier n,

{|Xn

|q >c}

|Xn |q dP c(qp)/q
c

(qp)/q

{|Xn

|q >c}

|Xn |p dP



sup E |Xk |p .
kN

120
i

i
i

barbe 2007/1/8 10:41 page 121 #129

V.4. Convergence en loi

Comme q < p, le terme de droite tend vers 0 lorsque c , uniformment en n.


P
Donc la suite (|Xn |q )nN est uniformment intgrable. Comme |Xn |p |X|p , par
le lemme de Fatou, E(|X|p ) < , et donc aussi E(|X|q ) < . Par consquent,
en utilisant lingalit triangulaire pour la norme  p , la suite (|Xn X|q )nN
est aussi uniformment intgrable. Si Xn converge en probabilit vers X, alors
|Xn X|q converge en probabilit vers 0. Le thorme V.3.5 montre alors que
la suite (|Xn X|q )nN converge vers 0 dans L1 , et donc que la suite (Xn )nN
converge vers X dans Lq .

Dmonstration du thorme II.6.4. Nous montrons le rsultat lorsque () < . Le
cas gnral sen dduit en considrant une suite dexhaustion (An )nN de (, A, )
et en utilisant un argument diagonal. Quitte remplacer par /(), nous
pouvons supposer que est une probabilit.
On remarque dabord quune suite de Cauchy (Xn )nN dans Lp est quiintgrable. Nous pouvons en extraire une sous-suite qui est p.s. de Cauchy, et donc
converge p.s. vers une limite X. La limite est dans Lp puisque les Xn sont quiintgrables. La limite ne dpend pas de la sous-suite considre puisque la suite est

de Cauchy. Donc Xn converge dans Lp .

V.4. Convergence en loi


Cest le quatrime type de convergence que nous tudierons. Cest le plus
faible, mais peut-tre aussi le plus important. Il est souvent utilis dans les applications.
Nous avons vu que deux variables alatoires, X, Y , sur (, A, P ) ont mme
loi, ou que les lois P X et P Y sont gales, si et seulement si leurs fonctions de
rpartition sont gales (III.2.3), i.e.
FX = FY ,
ou (cf. III.5) si pour toute fonction : R  R continue borne


(X) dP = (Y ) dP ,
ou encore si leurs fonctions caractristiques sont gales (III.5.2), i.e.
X = Y .
Ces diverses galits donnent lieu des dnitions de convergence.
121
i

i
i

barbe 2007/1/8 10:41 page 122 #130

Chapitre V. Convergence de suites de variables alatoires

Definition et theor`eme V.4.1. Soient Xn , n N et X, des variables alatoires


relles, dnies sur (, A, P ). On dit que Xn converge en loi vers X, ou que
les lois P Xn convergent troitement vers la loi P X , si lune des quatre conditions
quivalentes suivantes est vrie :
(i) limn F Xn (t) = F X (t) en tout point de continuit t de F X ;


(X) dP pour toute fonction continue borne
(ii) limn (Xn ) dP =
: R R;
(iii) limn Xn (t) = X (t) pour tout t R ;
(iv) Il existe un espace probabilis ( , A , P  ) sur lequel sont dnies des variables
alatoires Xn , n N et X  , telles que Xn et Xn ont mme loi pour tout n, X et
X  ont mme loi, et limn Xn = X  p.s.
L

On note alors Xn X ou Xn X (pour Xn converge en distribution


vers X).
On prendra garde au fait que, dans la dnition-thorme V.4.1.iv, la convergence presque sre a lieu pour les nouvelles variables Xn , X  . En particulier, nous
verrons lexemple V.4.2.iv que la convergence en loi nimplique pas la convergence presque sre. Dans le mme esprit, si Xn et Xn ont mme loi pour tout n,

) et (Xn , Xn+1 ) ou de tout autre vecteur
il nen est rien en gnral de (Xn , Xn+1

form laide dlments des suites (Xn )nN et (Xn )nN .
Avant de dmontrer lquivalence entre les points (i)(iv) de cette dnition,
montrons que la convergence faible est bien le mode le plus faible de convergence
que nous avons introduit jusqu prsent.

Exemples V.4.2. (i) Si Xn converge p.s. vers X, alors Xn converge en loi vers X.
Cela se dduit par exemple du thorme de convergence domine (II.2.8) et du
point (ii) de la dnition.
(ii) Si Xn converge en probabilit vers X, alors Xn converge en loi vers X. En
eet, pour tout > 0, et tout t,
F Xn (t) = P { Xn t }



P { X t + } + P |Xn X|

F X (t + ) + o(1)
et

(n )



F Xn (t) P { X t } P |Xn X|
F X (t ) + o(1)

(n )

122
i

i
i

barbe 2007/1/8 10:41 page 123 #131

V.4. Convergence en loi

et lon conclut laide de V.4.1.i puisque > 0 est arbitraire. Rappelons que la
convergence dans Lp , p > 0, entrane la convergence en probabilit, et donc la
convergence en loi.
(iii) Soit X de loi N (0, 1) et Xn = (1)n X. Alors Xn converge en loi vers X
(puisque, par symtrie de la loi normale centre, Xn a mme loi que X pour
tout n), mais ne converge pas p.s. vers X et ne converge pas en probabilit vers X.
Le couple (X, Xn ) ne converge pas non plus en loi.
(iv) Nous notons cependant le rsultat suivant, utile en statistique. Si Xn converge
en loi vers une variable constante c, alors Xn converge en probabilit vers c. En
eet, pour tout > 0,




lim P < Xn c = lim F Xn (c + ) F Xn (c ) = 1 ,
n

et donc limn P { |Xn c| > } = 0. Le mme argument donne un petit rsultat


aussi utile en statistique. Si Xn et Yn convergent en loi vers X et Y , on ne peut
rien dire en gnral sur la convergence du couple (Xn , Yn ) (voir par exemple (iii)
ci-dessus). Par contre, si Yn converge en loi vers une constante c, alors le couple
(Xn , Yn ) converge en loi vers le couple (X, c). En particulier, Xn Yn converge en
loi vers cX et Xn + Yn vers X + c.
(v) Soient Xn , n N, et X, des variables alatoires valeurs entires ; alors
L

Xn X si et seulement si limn P { Xn = k } = P { Xn = k } pour tout k N.


Il sut pour sen convaincre de choisir, pour chaque k N, des points s et t de
continuit pour F X tels que k 1 < s < k < t < k + 1. Alors
P { Xn = k } = F Xn (t) F Xn (s) F X (t) F X (s) = P { X = k } .
De la mme faon,
F Xn (t) = F Xn (k) =


0lk

P { Xn = l }

P { X = l } = F X (k) = F X (t) .

0lk

du thorme V.4.1.. (iv)(iii) et (iv)(ii) sont immdiats par




convergence domine (II.2.8) et en remarquant que Xn = Xn et X = X ,
respectivement E((Xn )) = E((Xn )) et E((X  )) = E((X)).
(ii)(iii) est clair. Il sut de poser (x) = cos(tx), puis (x) = sin(tx).
(iv)(i). Notons F Xn = Fn et F X = F dans ce qui suit. Soit t un
point de continuit de F . Ainsi, P { X  = t } = 1. Donc, presque srement,
limn ],t] (Xn ) = ],t] (X  ). En utilisant le thorme de convergence domine II.2.8, on en dduit que limn Fn (t) = F (t).
Dmonstration

123
i

i
i

barbe 2007/1/8 10:41 page 124 #132

Chapitre V. Convergence de suites de variables alatoires



(i)(iv). Soit lespace probabilis ( , A , P  ) = ] 0, 1 [, B( ] 0, 1 [ ), o est
la mesure de Lebesgue. Soit U une variable alatoire uniforme sur ] 0, 1 [, dnie
sur ( , A , P  ) (par exemple la fonction identit !). Alors (proposition III.2.7),
Xn = Fn (U ) et X  = F (U ) ont respectivement mmes lois que Xn et X.
Il sut donc de montrer que limn Fn (u) = F (u), sauf peut-tre sur un
ensemble de mesure de Lebesgue nulle.

Pour cela, soit u ] 0, 1 [ et t = F (u). Soient de plus > 0 arbitraire et t+


, t

+
+

des points de continuit de F tels que t < t < t et |t t | (de tels points
existent daprs la proprit III.2.4). Daprs les proprits de F utilises lors
+
de la dmonstration de la proposition III.2.7, F (t
) u et F (t ) u. Ainsi, par
lhypothse (i), pour tout > 0 tel que 0 < u < u + < 1, Fn (t
) < u + et
+
Fn (t ) > u pour tout n assez grand. Daprs les mmes proprits appliques
Fn ,
Fn (u + ) > t
t

et

Fn (u ) t+
t + .

et

lim sup Fn (u ) t = F (u) .

Ainsi, puisque > 0 est arbitraire,


lim inf Fn (u + ) t = F (u)
n

En remplaant u par u dans la premire limite et en faisant tendre vers 0,


il vient lim inf n Fn (u) F (u). De la mme faon, en remplaant u par
u + dans la seconde limite, il vient lim supn Fn (u) F (u+) = F (u)
puisque F est continue droite. Ainsi, pour tout u ] 0, 1 [,
F (u) lim inf Fn (u) lim sup Fn (u) F (u) .
n

F ,

en nombre dnombrable daprs la remarque


Or les points de discontinuit de
suivant la proposition III.2.7, sont de mesure de Lebesgue nulle. Cest la dmonstration.
(ii)(i) : Observons que pour tous > 0, t R, x R,
(t x)+
(t + x)+
1 ],t] (x)
1 ],t+](x) .

Donc, si (ii) a lieu, nous en dduisons que






(t X)+
1
F (t ) = E ],t] (X) E



(t Xn )+
1
= lim inf E
n



lim inf E ],t](Xn )

],t](x)

= lim inf Fn (t) .


n

124
i

i
i

barbe 2007/1/8 10:41 page 125 #133

V.4. Convergence en loi

De la mme faon,

(t + X)+
1
F (t + ) = E ],t+](X) E



(t + Xn )+
1
lim sup E

n


lim sup E ],t](Xn )


= lim sup Fn (t) ,


n

ce qui implique (i) puisque est arbitraire.


Il ne nous reste plus qu montrer (iii)(i) par exemple. Lide de la dmonstration est dutiliser la formule dinversion de Fourier III.5.4, et dintgrer dans la
convergence. Pour cela il est ncessaire que Xn admette une densit et que lon
puisse passer la limite en n dans les inversions des fonctions caractristiques
(ce qui impose a priori que les Xn soient quiintgrables). Lastuce pour obtenir
(iii)(i) sans autre hypothse consiste multiplier Xn par une fonction caractristique intgrable, rendant ainsi la suite quiintgrable, ce qui revient ajouter
Xn un petit bruit . Il est commode de prendre ce bruit gaussien. On notera donc N une variable alatoire de loi N (0, 1). Si Z est une variable alatoire,
observons que pour tout t R et tout > 0,




F Z (t) = P { Z t } P Z t ; 2 |N | + P |N | 1


P { Z + 2 N t + } + P |N | 1
(1)
 
Z+2 N
(t + ) + E |N |
F
o nous avons utilis lingalit de Markov (III.4.9). De mme,


F Z (t) P Z t ; 2 |N |


P Z + 2 N t ; 2 |N |
 
2
F Z+ N (t ) E |N | .

(2)

Soient donc, pour chaque n, Xn de fonction de rpartition F Xn et X de


fonction de rpartition F X , et prenons N indpendante de Xn et X. Alors
2
4 2
Xn + N (t) = Xn (t)e t /2 (proposition IV.2.3), et de mme pour X. Daprs
le thorme dinversion de Fourier III.5.4, Xn + 2 N et X + 2 N admettent des
2
2
densits, f Xn + N et f X+ N , telles que, pour tout x R,

 42

1
2
2
eitx Xn (t) X (t) e t /2 dt .
f Xn + N (x) f X+ N (x) =
2 R
125
i

i
i

barbe 2007/1/8 10:41 page 126 #134

Chapitre V. Convergence de suites de variables alatoires




Puisque n converge vers simplement et que eitx Xn (t) X (t)  2, le
thorme de convergence domine (II.2.8) implique que


2
2
lim supf Xn+ N (x) f X+ N (x) = 0 .

n xR

(3)

Soit a assez grand tel que P { |X +2 N | > a } . En intgrant sur le compact


[ a, a ], nous dduisons de (3) que




lim sup P |Xn + 2 N | a = 1 lim inf P Xn + 2 N [ a, a ]
n
n
 a
2
f Xn + N (x) dx
= 1 lim inf
n a
 a
2
f X+ N (x) dx
=1
a


= 1 P X + 2 N [ a, a ] .

(4)

En faisant usage de (1), il vient pour tout t R,


 
2
lim sup F Xn (t) lim sup F Xn + N (t + ) + E |N |
n
n


lim sup P Xn + 2 N [ a, t + ]
n


 
+ lim sup P |Xn + 2 N | > a + E |N | .
n

Daprs la convergence uniforme des densits (3),






lim sup P Xn + 2 N [ a, t + ] = P X + 2 N [ a, t + ]
n

F X+

2N

(t + ) .

Ainsi, par (2) et (4), on conclut que


 
lim sup F Xn (t) F X (t + 2) + + 2E |N | .
n

De faon analogue,
 
2
lim inf F Xn (t) lim inf F Xn + N (t ) E |N |
n
n


 
lim inf P Xn + 2 N [ a, t ] E |N |
n
 
FX (t 2) 2E |N | .
126
i

i
i

barbe 2007/1/8 10:41 page 127 #135

V.4. Convergence en loi

Puisque > 0 est arbitraire et F est continue droite et admet en tout point une
limite gauche, nous obtenons,
F X (t) lim inf F Xn (t) lim sup F Xn (t) F (t) ,
n

ce qui est (i). La dmonstration du thorme est termine.



d
La dmonstration du thorme V.4.1 se gnralise R , et seule notre dmonstration de (i)(iv) doit tre substantiellement modie. On pourra se rfrer par
exemple au livre de Pollard (1984) pour une dmonstration de lquivalence entre
convergence en loi et convergence presque sre dune version bien choisie des
vecteurs alatoires.
Notre dmonstration de (iii)(i) aurait pu tre remplace par une preuve de
limplication (iii)(ii) laquelle peut tre obtenue en introduisant un point de vue
plus proche de lanalyse fonctionnelle, important dans certains aspects thoriques
des probabilits et statistiques.
De faon gnrale, lorsque lon dispose dune suite (zn )nN dans un espace topologique, sa convergence peut tre dmontre en deux tapes. On commence par montrer quelle est relativement compacte, cest--dire que lensemble
{ zn : n N } est dadhrence compacte ; puis on montre que lensemble des
valeurs dadhrence contient un unique point, que lon identie ventuellement.
Par exemple, si (zn )nN est une suite dans (C[ 0, 1 ],   ), le thorme dArzelaAscoli donne un critre de compacit relative de la suite (zn )nN (il faut et il sut
quelle soit borne et quicontinue) et on peut identier la limite ventuelle en
dmontrant une convergence ponctuelle de zn . Dans lespace L1 , le thorme V.3.5
est lexact analogue du thorme dArzela-Ascoli. Une suite (zn )nN dans L1 est
relativement compacte si elle est borne et quiintgrable, et on peut identier sa
limite en dmontrant alors seulement une convergence en probabilit. La notion
dquiintgrabilit est donc aussi une notion de compacit relative. Dans un espace de mesures, la notion correspondante est celle dquitension, laquelle assure
que la masse des mesures ne schappe pas linni. Elle est dnie comme suit.

Definition V.4.3. Soit un espace topologique muni de sa tribu borlienne et


dune probabilit P . On dit que P est tendue si pour tout > 0, il existe un
compact K tel que P (K) 1 .
Si (Pn )nN est une suite de probabilits, on dit que la suite est quitendue
(ou parfois tendue, ou uniformment tendue) si, pour tout > 0, il existe un
compact K, tel que Pn (K) 1 pour tout n.
Si (Xn )nN sont des variables de lois (Pn )nN quitendues, on dit aussi
que (Xn )nN est une suite de variables alatoires quitendues (ou tendues, ou
uniformment tendues).
127
i

i
i

barbe 2007/1/8 10:41 page 128 #136

Chapitre V. Convergence de suites de variables alatoires

Sur Rd , toute loi de probabilit est tendue puisque Rd est la runion des
compacts KM = { x Rd : |x| M } pour M = 1, 2, . . . et quune mesure vrie
la proposition I.4.3.iii.

Theor`eme V.4.4. Toute suite de lois quitendue sur Rd admet une sous-suite
convergeant troitement.
Dmonstration. (Esquisse ; pour plus de dtails, voir Rudin (1975), Dudley
(1989)). La preuve sappuie sur un argument de dualit. Le dual de lespace des
fonctions continues bornes sur Rd contenant des objets qui ne sont pas des mesures, il nous faut travailler avec lespace C0 (Rd ) des fonctions continues sur Rd
tendant vers 0 linni. Muni de la norme supremum   , cest un espace espace de Banach sparable. Son dual sidentie avec lespace M(Rd ) des mesures
signes bornes = + , o + et sont des mesures positives et bornes,
laide de la dualit



,  = d = d+ d .

On peut munir M(Rd ) de la topologie faible* dont une base de voisinages est
donne par les ensembles







d
M(R ) :  i d i d , 1 i k
pour M(Rd ), i C0 (Rd ), 1 i k, > 0. En particulier, une suite (n )nN
dlments de M(Rd ) converge faiblement* vers si pour toute C0 (Rd ),


dn = d .
lim
n

On munit lespace M(Rd ) de la norme duale




 = sup
d :  1 .
Le thorme de Banach-Alaoglu, consquence du thorme de Tyckhonov, indique
que la boule unit de M(Rd ), cest--dire { M(Rd ) :  1 }, est compacte
et mtrisable pour la topologie faible*. (Cette structure mtrique est importante
car elle permet lextraction de sous-suites convergentes.)
Soit donc (Pn )nN une suite de lois quitendue sur Rd . Elle est dans la boule
unit de M(Rd ). Cest donc une suite relativement compacte dans M(Rd ) et
128
i

i
i

barbe 2007/1/8 10:41 page 129 #137

V.4. Convergence en loi

elle admet une sous-suite (Pn )n N convergeant vers une mesure Q, a priori signe mais de norme infrieure ou gale 1. Cette valeur dadhrence Q de la
sinon on montre
suite (Pn )nN est ncessairement une mesure positive. En eet,

d
positive de C0 (R ) telle que dQ < 0, et alors
lexistence dune fonction
dPn < 0 pour n assez grand, ce qui contredit la positivit des lois Pn . Il
ne nous reste plus qu montrer que Q est une probabilit et que Pn converge
troitement vers Q. Il sut de dmontrer cet eet que pour toute : Rd R
continue telle que 0 1,


dPn = dQ .
lim

n

Ceci est une consquence de lquitension de la suite (Pn )nN . Pour tout M > 0,
soit KM le compact de Rd donn par KM = { x Rd : x M }.
Pour tout > 0, il existe M tel que Pn (KM ) 1 pour tout n. Soit
M (x) = (M + 1 x)+ 1, x Rd . Pour tout n,



dPn + M dPn +
dPn
KM

et donc, puisque M C0 (Rd ),





lim sup dPn M dQ + dQ + .
n

En particulier, si est constante gale 1, Q(Rd ) 1 , et donc Q(Rd ) = 1


puisque Q est dans la boule unit de M(Rd ). En particulier, lon peut galement
choisir M tel que Q(KM ) 1 . Ainsi



dQ + M dQ +
dQ
KM

et donc, comme prcdemment,





inf dPn .
dQ lim
inf M dPn lim


n

La conclusion sensuit, et le thorme V.4.4 est tabli de cette faon.

Nous pouvons maintenant donner une dmonstration directe de limplication


(iii)(ii) dans le thorme V.4.1. Montrons que la suite (Xn )nN (de variables
alatoires relles) est uniformment tendue. Il va sure de montrer que pour toute
variable alatoire relle Z et tout u > 0,



 7 u
1 e Z (t) dt .
P |Z| 1/u
u 0
129
i

i
i

barbe 2007/1/8 10:41 page 130 #138

Chapitre V. Convergence de suites de variables alatoires

Pour cela, notons dabord que lingalit (sin x)/x sin 1 est vraie pour tout
|x| 1. Puis, par le thorme de Fubini-Tonelli (II.5.1),
1
u

u
0

 


1 u 
1 e (t) dt =
1 cos(tx) dP Z (x) dt
u 0 R

 
sin(ux)
1
dP Z (x)
=
ux
R

 

1 sin(1) P |Z| 1/u .
Z

Enn, sin(1) 6/7.


En consquence de cette ingalit applique Xn pour tout n,


lim sup P |Xn | M


n


lim sup 7M
n

1/M 

= 7M

1/M 


1 e Xn (t) dt


1 e X (t) dt

et le majorant peut tre rendu arbitrairement petit en prenant M arbitrairement


grand puisque limt0 e X (t) = 1 et X est continue.
Ainsi, daprs le thorme V.4.4, il existe une sous-suite (Pn )n N de la suite
(Pn )nN des lois des variables alatoires (Xn )nN qui converge troitement vers
une mesure de probabilit Q. Cette mesure Q est la loi de X puisque Xn converge
vers X et que X dtermine la loi de X (thorme III.5.2). La conclusion sensuit.

Exemples V.4.5. (i) Une suite (xn )nN de rels converge vers x si et seulement si
xn converge vers x troitement (daprs V.4.1.ii).
(ii) Si X est une variable alatoire, alors X/n converge en loi vers 0 lorsque n .
Par contre, sauf si X = 0 p.s., la suite des lois de (nX)nN nest pas tendue. Donc
nX ne peut pas converger en loi.
(iii) Soit (Xi )i1 une suite de variables alatoires indpendantes, de loi exponentielle Exp(1). Nous avons vu lexemple V.1.3.ii que
Mn = max Xi = ln n + o(ln n) p.s.
1in

Nous pouvons maintenant prciser un peu le contenu du terme o(ln n). En effet, montrons que Zn = Mn ln n converge en loi vers une variable Z de loi
F Z (t) = exp(et ), t R. En eet (voir plus prcisment la dmonstration du
130
i

i
i

barbe 2007/1/8 10:41 page 131 #139

V.5. Les lois faible et forte des grands nombres, le thorme limite central

thorme V.5.4),


F Zn (t) = P max Xi t + ln n
1in

n
= 1 exp(t ln n)



et
= exp n ln 1
= exp(et ) + o(1)
n
lorsque n .

(iv) Si Xn est de loi binomiale B(n, p) et Zn = (Xn np)/ np(1 p), alors Zn
converge en loi vers une variable alatoire gaussienne N (0, 1). En eet,

n
)

np
it 1p
Zn
it/ np(1p)
1 p + pe
(t) = e
n

)
np
t2
itp
it 1p

+ o(n1 )
=e
1+
np(1 p) 2n(1 p)
= et

2 /2

+ o(1)

(n )

et donc Zn (t) converge vers la fonction caractristique dune loi N (0, 1).
Dun point de vue pratique, cela signie
 t que2 pour n assez grand, on peut
approximer P { Zn t } par (2)1/2 ex /2 dx (on applique ici lquivalence entre V.4.1.iii et V.4.1.i.) Cest trs utile en pratique puisque le calcul de
P { Zn t } ncessite dvaluer une somme pondre de coecients binomiaux
(numriquement dicile pour n grand), tandis que lapproximation gaussienne ne
ncessite que lvaluation dune intgrale. Cet exemple est un cas particulier du
thorme limite central que nous allons voir dans le paragraphe suivant.

V.5. Les lois faible et forte des grands nombres,


le thorme limite central
Dans toute cette section, nous dsignons par (Xi )i1 une suite de variables
alatoires relles, indpendantes et de mme loi quune variable X (X est une
simple notation pour dcrire

commodment la loi commune des Xi ). Pour tout


n 1, on pose Sn =
1in Xi et lon sintresse aux proprits asymptotiques de Sn .
Observons que Sn /n est simplement la moyenne (dite empirique) des Xi . On
conoit alors que ltude des sommes de variables alatoires soit importante pour
les applications. Par exemple si Xi modlise le fait quun individu vote (Xi = 1) ou
ne vote pas (Xi = 0) pour un candidat dans une lection, Sn /n est la proportion
de personnes votant pour le candidat dans un sondage de n personnes tires
131
i

i
i

barbe 2007/1/8 10:41 page 132 #140

Chapitre V. Convergence de suites de variables alatoires

au hasard dans la population. Nous avons vu dans ce cas particulier que Sn /n


converge en probabilit vers lesprance E(X) = P { X = 1 } (exemple V.2.2.i) et

avons de plus montr que la loi de (Sn E(Sn ))/ n ressemble une loi normale
lorsque n est assez grand (exemple V.4.5.iv).
De faon gnrale, une population est souvent dcrite statistiquement, ou rsume par la donne dune statistique moyenne (ge moyen, poids moyen, taille
moyenne, prix moyen etc). Un sondage est donc un exemple typique o lon est
naturellement conduit des sommes de variables alatoires.
Notre premier rsultat est la loi des grands nombres. Elle montre dune part
que lintuition est correcte, cest--dire, par exemple, que si lon jette une pice
quilibre un grand nombre de fois, la proportion de piles tend se stabiliser
vers 1/2, dautre part que la thorie des probabilits que nous avons construite ne
conduit pas une modlisation absurde du rel, et enn quune certaine rgularit
apparat dans les phnomnes alatoires.

Theor`eme V.5.1 (loi faible des grands nombres). Si E(|X|) < , alors Sn /n
converge en probabilit vers E(X) lorsque n .
Dmonstration. Quitte centrer les variables Xi , on peut supposer que E(Xi ) = 0.

Puisque X L1 , la fonction caractristique X est drivable (proposition III.5.6.i)


et de plus (X ) (0) = iE(X) = 0. La formule de Taylor donne X (t) = 1 + o(t).
Donc Sn /n (t) = (X (t/n))n = (1 + o(n1 ))n = 1 + o(1). Or 1 est la fonction
caractristique de 0 . Donc Sn /n converge en loi vers la constante 0, donc en
probabilit vers 0 (voir exemple V.4.2.iv).

En fait, cette loi des grands nombres peut tre considrablement renforce par
le rsultat suivant qui ncessite exactement les mmes hypothses.

Theor`eme V.5.2 (loi forte des grands nombres). Les deux conditions suivantes sont
quivalentes :
(i) E(|X|) < ;
(ii) limn Sn /n = E(X) p.s.
Dmonstration. (ii)(i). Si la suite Sn /n converge p.s., alors Xn /n
converge p.s. vers 0. Daprs le lemme de Borel-Cantelli (proposition V.1.2.ii) et puisque les Xi sont indpendantes et toutes de mme loi
(que X), pour tout (ou seulement un) > 0,

 

P |X| n =
P |Xn | n < .
n1

n1

On conclut laide de la proposition III.4.8.


132
i

i
i

barbe 2007/1/8 10:41 page 133 #141

V.5. Les lois faible et forte des grands nombres, le thorme limite central

(i)(ii). La dmonstration consiste prouver dans un premier temps le rsultat


sous lhypothse plus forte que E(|X|4 ) < et E(X) = 0. Dans ce cas, dont on
peut se contenter en premire lecture, P { |Sn /n| } peut tre major en utilisant lingalit de Markov. La borne ainsi obtenue est le terme gnral dune srie
convergente, ce qui permet de conclure grce au lemme de Borel-Cantelli. Sous
lhypothse plus faible du thorme, on approxime toute variable de L1 par des
variables de L4 (ou mme des variables bornes), puis on se ramne au cas trait.
Comme dans le thorme V.5.1, on peut remplacer Xi par Xi E(Xi ) et supposer les variables alatoires centres. Commenons donc par montrer le rsultat
lorsque E(|X|4 ) < et E(X) = 0. Dans ce cas, lingalit de Markov (III.4.10.i)
montre que pour tout n 1 et tout > 0,


P |Sn | n

1
4 n4

 
E Sn4 .

Observons que
Sn4 =

Xi4 + 4

1in

Xi3 Xj + 3

1i =jn

+6

Xi Xj Xk2

1i,j,k
distinctsn

Xi2 Xj2

1i =jn

Xi Xj Xk Xl .

1i,j,k,l
distinctsn

Donc, par linarit de lesprance, indpendance et centrage des Xi ,


E(Sn4 ) =


1in

+6

E(Xi4 ) + 4

E(Xi3 )E(Xj ) + 3

1i =jn

E(Xi )E(Xj )E(Xk2 ) +

1i,j,k
distinctsn

2

 
= nE X 4 + 3n(n 1) E(X 2 ) .

E(Xi2 )E(Xj2 )

1i =jn

E(Xi )E(Xj )E(Xk )E(Xl )

1i,j,k,l
distinctsn

Donc n1 P { |Sn | > n } < , ce qui dmontre la loi forte des grands nombres
dans ce cas daprs le lemme de Borel-Cantelli V.1.2.
Supposons maintenant X intgrable et centre, sans autre hypothse. Soit
indpen > 0 x. Il existe, pour tout i 1, des variables Yi tages, centres,

dantes et de mme loi, telles que E(|Xi Yi |) . Si Tn =


1in Yi , nous
avons
1
1
1
|Sn |
|Xi Yi | + |Tn | .
(1)
n
n
n
1in

133
i

i
i

barbe 2007/1/8 10:41 page 134 #142

Chapitre V. Convergence de suites de variables alatoires

Puisque Tn /n converge p.s. vers 0 daprs le point prcdent, il sut de


montrer que
1
|Xi Yi |
lim sup
n n
1in

peut tre rendu arbitrairement petit en prenant arbitrairement petit.


Notons Zi , i 1, des variables alatoires positives, indpendantes et de mme
loi quune variable Z intgrable. On considrera Zi = |Xi Yi | pour conclure la
dmonstration. Nous voulons borner
lim sup
n

1
Zi .
n
1in

Pour cela, nous utilisons un argument de bloc. Pour tout k et tout > 0, la
probabilit


1
Zi 2E(Z) +
P
max
2k <n2k+1 n
1in

est majore par




P i { 1, 2, . . . , 2k+1 } : Zi > 2k


1
Zi [0,2k ] (Zi ) 2E(Z) + ,
+P
max
2k <n2k+1 n
1in

et donc aussi par


2k+1 P { Z > 2k } + P

Zi [0,2k ] (Zi ) 2k+1 E(Z) + 2k

1i2k+1

2k+1 P { Z > 2k } + P




Zi [0,2k ] (Zi ) E Zi [0,2k ] (Zi ) 2k .

1i2k+1

En appliquant maintenant lingalit de Tchebitchev (III.4.10.ii) au deuxime


terme du majorant prcdent, il vient

P

max

2k <n2k+1


1
Zi 2E(Z) +
n
1in

2k+1 P { Z > 2k } +
2k+1 P { Z > 2k } +

1
2 22k
2
2 2k



2k+1 E Z 2 [0,2k ] (Z)



E Z 2 [0,2k ] (Z) .

134
i

i
i

barbe 2007/1/8 10:41 page 135 #143

V.5. Les lois faible et forte des grands nombres, le thorme limite central

Puisque pour tout k N,




2k+1
2k



P { Z > t } dt 2k P Z > 2k+1 ,

la dmonstration de la proposition III.4.8 implique





2k+1 P Z > 2k 4E(Z) .
k0

De plus





2k E Z 2 [0,2k ] (Z) = E Z 2
2k [0,2k ] (Z) 4E(Z)

k0

k0

puisque si 2l < Z 2l+1 pour un l 0, alors




2k [0,2k ] (Z) 22l+2
2k 4Z
Z2
k0

kl+1

(et de mme si 0 Z 1). Donc, nalement,




1
P
max
Zi 2E(Z) + 4(1 + 22 )E(Z) .
k
k+1
n
2 <n2
1in

k0

Daprs le lemme de Borel-Cantelli (proposition IV.3.5.i), presque srement pour


tout k assez grand
max

2k <n2k+1

1
Zi < 2E(Z) + .
n

(2)

1in

Puisque > 0 est arbitraire,


lim sup
n

1
Zi 2E(Z) p.s.
n
1in

Nous pouvons maintenant nir la dmonstration en choisissant Zi = |Xi Yi |.


De (1) et (2) nous dduisons en eet
lim sup
n

1
1
1
|Sn | lim sup
Zi + lim sup Tn
n
n n
n n
1in


2E |X1 Y1 | 2 p.s.

Puisque est arbitraire, ceci conclut la dmonstration.


135

i
i

barbe 2007/1/8 10:41 page 136 #144

Chapitre V. Convergence de suites de variables alatoires

noter quen travaillant avec une sous-suite (k )kN pour un > 1 bien
choisi en fonction de > 0 en lieu

et place de la sous-suite (2k )kN , on dmontre


1
directement que lim supn n
1in Zi E(Z) p.s., et du mme coup le
thorme.

Exemple V.5.3. Reprenons les notations de lexemple IV.3.6.iii. Puisque les variables Ui sont indpendantes et de loi de Bernoulli B(1, 1/2), la loi forte sapplique et


1
Ui () = 1/2 = 1 .
P : lim
n n
1in

Autrement dit, presque tout nombre de [ 0, 1 ] admet en moyenne autant de 0 et


de 1 dans son dveloppement dyadique. Nous avons de plus montr en IV.3.6.iii
que


P : lim Nn ()/n = 1/2 = 1 ,
n

i.e. presque tout nombre a de lordre de n/2 blocs de 0 et de 1 dans ses n premiers
chires.
Une autre faon dnoncer la loi forte des grands nombres est de dire que si
E(|X|) < , alors Sn /n = E(X)+o(1) p.s. lorsque n . En un certain sens, le
thorme limite central donne un terme de plus dans le dveloppement asymptotique de Sn /n, prcisant le comportement limite en loi du terme o(1) (modulo une
hypothse supplmentaire sur la loi des Xi ). Il permet dapproximer la loi de Sn /n
lorsque n est grand. Le fait remarquable est que sous la condition E(X 2 ) < ,

la loi limite de n(Sn /n E(X)) ne dpend que de la variance des Xi .


Sn nE(X)

converge
Theor`eme V.5.4 (limite central). (i) Si E(X 2 ) < , alors
n


en loi vers une variable de loi N 0, Var(X) .

(ii) Si Sn / n converge en loi, alors E(X) = 0 et E(X 2 ) < et la loi limite est
normale centre, de variance Var(X).
Dmonstration. (i) Si X est constante p.s., le rsultat est vident puisque N (0, 0)

est la masse de Dirac en 0. Supposons


donc que X nest pas constante p.s. Quitte

changer Xi en (Xi E(Xi ))/ Var(Xi ), on peut supposer que E(Xi ) = 0 et
2
Var(Xi ) = 1 pour tout i. Il sut alors de montrer que limn Sn / n (t) = et /2
2
pour tout t R, puisque et /2 est la fonction caractristique de la loi normale
N (0, 1). Pour cela, par indpendance et quidistribution, nous avons pour tout
n 1,


n
Sn / n (t) = X (t/ n)
136
i

i
i

barbe 2007/1/8 10:41 page 137 #145

V.5. Les lois faible et forte des grands nombres, le thorme limite central

o X est une variable ayant la loi des Xi . Or X est de carr intgrable. On peut
donc driver deux fois sa fonction caractristique X (proposition III.5.6.i) et
 X 
 X 
 
(0) = E(X) = 0,

(0) = E X 2 = 1 .
Donc
X (u) = 1
Lorsque n ,

Sn / n


(t) =

u2
+ o(u2 )
2

lorsque u 0 .

 1  n
t2
2
+o
1
= et /2 + o(1) .
2n
n

La fonction caractristique tant valeurs complexes, pour pleinement justier la


limite prcdente, nous faisons usage de la proprit suivante. Soit (zn )nN une
suite de nombres complexes tendant vers 0 ; alors

zn n
= 1.
lim 1 +
n
n
En eet,

 z k


zn n
n
1=
Ckn
.
1+
n
n
1kn

Donc



 |z | k

zn n


n
1
Ckn
 1+
n
n
1kn
 |z | k+1

n
=
Ck+1
n
n
0kn1
 |z | k |z |

n
n
=
Ckn1
n
k+1
0kn1

|zn | n1
|zn | 1 +
n
tend vers 0 quand n .
(ii) est admis ici. On peut se reporter par exemple Feller (1971, IX.8).

Exemples V.5.5. (i) Si Xi est de loi binomiale B(1, p) (modle de la proportion


de piles dans n jets de pile ou face, modle des votes pour un candidat dans un
sondage lectoral etc.), en notant toujours Sn = X1 + + Xn , nous avons pour
tout a < b,
  b t2 /2

Sn np
e

b =
dt .
lim P a
n
2
np(1 p)
a
137
i

i
i

barbe 2007/1/8 10:41 page 138 #146

Chapitre V. Convergence de suites de variables alatoires

Ce thorme limite central pour des sommes de variables alatoires de Bernoulli


a t dmontr initialement par de Moivre (16671754). La dmonstration de de
Moivre consiste remarquer que Sn suit une loi binomiale B(n, p), puis crire
explicitement la probabilit



Sn np
b =
Ckn pk (1 p)nk .
P a

np(1 p)
k[np+a

np(1p),np+b

np(1p)]



Lorsque k [ np + a np(1 p), np + b np(1 p) ], on peut utiliser la formule
de Stirling pour approximer le coecient binomial Ckn , ce qui conduit au rsultat
en approximant la somme sur k par une intgrale.
Daprs lexemple V.4.2.iv, puisque Sn /n converge vers p en probabilit daprs
la loi des grands nombres, on a aussi
* 
#
b t2 /2
Sn np
e

b
=
dt .
lim P a )


n
2
S
S
a
n
n
n n 1 n
Autrement dit, lintervalle alatoire
+
+




 
b
Sn
Sn
a
Sn
Sn
Sn
Sn

1
,

1
n
n n
n
n
n n
n
b
2
contient p avec une probabilit voisine de (2)1/2 a et /2 dt lorsque n est grand.
Si maintenant p est inconnu, on voit quen observant des ralisations des Xi , on
peut construire un intervalle (puisqualors Sn /n est observe) qui contient p avec
une probabilit assez grande. Ce type de rsultat est essentiel en statistique.
(ii) Montrons maintenant lintrt du point (iv) du thorme V.4.1 et de la proposition III.2.7. Prenons Sn une somme de variables alatoires indpendantes, de
mme loi et de carr intgrable. Alors Sn vrie le thorme limite central V.5.4.
Soit maintenant N une variable alatoire de loi de Poisson de paramtre > 0,
cest--dire telle que P { N = k } = e k /k!, k N, indpendante de (Sn ).
Que peut-on-dire alors de SN , somme dun nombre alatoire de termes, lorsque
?
Soient
Sn nE(X1 )
N

et T =
.
Zn =
n

On vrie facilement laide des fonctions caractristiques que N / converge en


loi vers la constante 1 et que T converge en loi vers une variable de loi N (0, 1).
De plus, le thorme limite central V.5.4 montre que Zn converge en loi vers
138
i

i
i

barbe 2007/1/8 10:41 page 139 #147

V.5. Les lois faible et forte des grands nombres, le thorme limite central

N (0, Var(X1 )). Soient maintenant U , V , deux variables alatoires indpendantes,


de loi uniforme sur ] 0, 1 [. Alors Zn a mme loi que Zn = F Zn (U ) et T a mme
loi que T = F T (V ) daprs la proposition III.2.7. Il sensuit
Sn a mme loi
que




que Sn = nZn +nE(X1 ) et que N a mme loi que N = T +. De plus, par



construction, SN a mme loi que SN
 puisque (Sn )n1 et N sont indpendantes.

Ceci peut aussi tre vri en crivant que, pour tout t R,



P { SN t ; N = k }
P { S N t } =
kN

P { Sk t ; N = k }

kN

P { Sk t}P {N = k }

kN

kN


P { Sk t }P { N = k } = P { SN
 t}.

La dmonstration du thorme V.4.1 ((iv)(i)) montre que Zn converge p.s. vers
Z de loi N (0, Var(X1 )) tandis que T converge p.s. vers T de loi N (0, 1). Puique Z
est (U )-mesurable et T est (V )-mesurable, Z et T sont indpendantes. Puisque
T converge p.s. vers T , observons aussi que N converge p.s. vers + lorsque
. Il vient alors
 E(X )
 N  E(X ) , 
SN
SN


1
1
N N


=
+
EX1

,
N

+ T E(X1 ) .
= ZN 

 E(X ))/ converge p.s.


Puisque N p.s. et lim N / = 1 p.s., (SN

1

vers Z+T E(X1 ) qui est de loi N (0, Var(X1 )+E(X1 )2 ). Ainsi, (SN E(X1 ))/
converge en loi vers N (0, E(X12 )). Un examen attentif de cet exemple montre que
tout lintrt du point (iv) de la dnition-thorme V.4.1 est quil permet de
transformer un problme de probabilit en un problme danalyse ; ayant une
convergence presque sre, on peut travailler en xant lala , donc, en un certain
sens, sur des suites dterministes.
Lorsque le paramtre p = pn de la loi binomiale B(n, p) tudie lexemple
(i) dpend de n et est de lordre de /n, > 0, la loi de Sn converge vers la loi
de Poisson de paramtre .

139
i

i
i

barbe 2007/1/8 10:41 page 140 #148

Chapitre V. Convergence de suites de variables alatoires

Theor`eme V.5.6 (limite central poissonien). Soit Sn une variable alatoire de loi
B(n, pn ). Si limn npn = > 0, Sn converge en loi vers une variable alatoire
de Poisson de paramtre .
Dmonstration. En vertu de lexemple V.4.2.v, il sut de prouver que pour tout

k N,

lim P { Sn = k } = e

k
.
k!

Or, pour chaque k N x,


P { Sn = k } = Ckn pkn (1 pn )nk =


1
n!
npn nk
k

(np
)

.
n
k! (n k)!nk
n

Lorsque n ,
n!
1
(n k)!nk

et

(npn )k k ,

et, en prenant le logarithme,



npn nk
e .
1
n


La conclusion sensuit.

Commentaire V.5.7. Considrons encore que E(X) = 0 et E(X 2 ) = 1. La loi des


grands nombres nous dit que Sn /n converge p.s. vers 0, mais le thorme limite

central nous dit que Sn / n converge en loi vers N (0, 1). Que se passe-t-il pour

des normalisations de Sn entre 1/n (loi des grands nombres) et 1/ n (thorme


limite central) ?

P
On peut montrer que si limn an / n = , alors Sn /an 0 (ingalit
de Markov : P { |Sn | an } E(Sn2 )/2 a2n = nE(X 2 )/2 an ). Cest encore vrai
presque srement si an = n1/p avec 1 < p < 2. Mais ce nest
plus le cas si an

est trop proche de n. Le cas limite est obtenu pour an = 2n ln lnn o lon
obtient la loi, dite du logarithme itr : presque srement, la suite Sn / 2n ln ln n
est relativement compacte et lensemble de ses valeurs dadhrence est lintervalle
[ 1, 1 ]. En particulier,
lim inf
n

Sn
= 1 p.s.
2n ln ln n

et

lim sup
n

Sn
= 1 p.s.
2n ln ln n

140
i

i
i

barbe 2007/1/8 10:41 page 141 #149

V.5. Les lois faible et forte des grands nombres, le thorme limite central

La loi du logarithme itr implique le fait suivant. Le thorme limite central

nous dit que si E(X 2 ) < , alors Zn = (Sn nE(X))/ n converge en loi vers
une variable alatoire gaussienne. Existe-t-il une variable Z gaussienne telle que
Zn converge en probabilit ou p.s. vers Z ? La loi du logarithme itr montre que
non. Supposons que Zn converge en probabilit vers Z. Quitte extraire une soussuite, en vertu du thorme V.2.4, nous pouvons supposer que Zn converge
presque
srement vers Z. La loi du logarithme itr implique lim supn Zn / 2 ln ln n =

1/2

p.s. ce qui contredit le fait que limn Zn / 2 ln ln n = 0 p.s., puisque
E(X 2 )
Zn converge vers Z p.s. Ainsi, la convergence en loi, comme son nom lindique
et la dnition le montre, ne concerne que les lois et non les variables. Elle nen
demeure pas moins extrmement utile en pratique o lon est souvent intress
par les lois.

Commentaire V.5.8. Le thorme limite central peut tre dmontr de nombreuses


autres faons. Esquissons une dmonstration due Essen, qui ne fait pas appel
aux fonctions caractristiques, mais suppose que E(|X|3 ) < . Supposons, toujours pour simplier que E(X) = 0 et E(X 2 ) = 1. Il faut et il sut de montrer

que E((Sn / n)) converge vers E((Z)) o Z est de loi N (0, 1) et est une
fonction continue borne arbitraire (cf. dnition-thorme V.4.1). En fait, on
peut montrer quil sut de ne considrer que les fonctions continues, bornes,
tendant vers 0 linni et drives bornes (puisque ces fonctions sont denses
dans lensemble des fonctions continues, bornes, tendant vers 0 linni). Soient
donc une telle fonction et Zi des copies indpendantes de Z, et indpendantes
des Xi . Soient Sj,n = X1 + + Xj1 + Zj+1 + + Zn , j = 1, . . . , n. Alors

(S1,n + Z1 )/ n a mme loi que Z et Sn = Xn + Sn,n . Donc


 




E (Sn / n) E (Z) 

 S + Z 
   Sj,n + Xj 
j,n




E
n
n
1jn
S 
S
 S 
   Sj,n
Xj 
Zj 
j,n
j,n
j,n


=

E n + n n n + n + n
1jn
 
Xj3 
Xj   Sj,n  Xj2   Sj,n 
+

+ 3/2 (j,n )

E

n
n
2n
n
6n
1jn
.

Zj3 
Zj   Sj,n  Zj2   Sj,n 



3/2 (j,n ) 


n
n
2n
n
6n
141
i

i
i

barbe 2007/1/8 10:41 page 142 #150

Chapitre V. Convergence de suites de variables alatoires

o j,n et j,n sont donns par la formule de Taylor. Puisque Xj et Zj sont indpendantes de Sj,n , de moyenne nulle et de variance 1, il vient
 

   



E |Xj |3 + |Zj |3 = o(1)
E (Sn / n) E (Z) 
3/2
n
1jn
lorsque n .
Un ranement de la mthode permet dobtenir le thorme limite central sous
la seule condition E(X 2 ) < (voir par exemple Pollard (1984)). Il convient aussi
de remarquer que la mme dmonstration fournit un thorme limite central pour
des sommes de vecteurs alatoires indpendants et de mme loi.

Exercices
Exercice V.1. Soit (Xn )nN une suite de variables alatoires relles sur un espace
probabilis (, A, P ) ; on suppose quil existe une suite de rels (an )nN telle que
les sries


an
et
P { Xn = an }
n

soient convergentes. Dmontrer que la srie

Xn est p.s. convergente.

Exercice V.2. Soit (Xn )nN une famille de variables alatoires gaussiennes, centres, de variance (n2 )nN convergeant en loi vers une variable alatoire X.
a) Montrer que la suite (n2 )nN est convergente et en dduire que X suit une
loi gaussienne. tudier le cas o les Xn ne sont pas centres.
b) On suppose que Xn X en probabilit. Dmontrer que Xn converge vers
X dans tous les espaces Lp .
Exercice V.3. Montrer que pour x > 0,

  +
1
2
2
1
x2 /2 1
3
et /2 dt ex /2 .
e
x x
x
x
Indication : intgrer par parties t1 tet /2 .
Soit maintenant (Xn )nN une suite de variables alatoires indpendantes,
toutes de mme loi N (0, 1). Montrer que
2

lim sup
n

Xn
2 ln n

=1

p.s.

Montrer galement que


max1in Xi P

1.
2 ln n
142
i

i
i

barbe 2007/1/8 10:41 page 143 #151

Exercices

Exercice V.4. Soit (Xi )iI une famille de variables alatoires relles sur
(, A, P ) ; on suppose quil existe une fonction G : [ 0, [ [ 0, [ vriant
limt G(t)/t = telle que supiI E(G(|Xi |)) est ni. Dmontrer que la famille (Xi )iI est uniformment intgrable.
Exercice V.5. Soient (Xn )nN et (Yn )nN deux suites de variables alatoires
relles sur (, A, P ) convergeant en loi respectivement vers X et Y .
a) On suppose que pour tout n, Xn et Yn sont indpendantes et que X et Y
sont indpendantes. Dmontrer que Xn + Yn converge en loi vers X + Y . Donner
un exemple montrant que lhypothse dindpendance est indispensable.
b) On suppose que Y = 0. Prouver que Xn + Yn converge en loi vers X et Xn Yn
converge en loi vers 0.
Exercice V.6. Soit (n )nN une suite de nombres appartenant [ 0, 1 ] ; on lui
associe une suite (Xn )nN de variables alatoires indpendantes sur un espace
probabilis (, A, P ) dont les lois vrient

0
P { Xn t } = n + (1 n )tn

si t < 0,
si t [ 0, 1 ],
si t > 1.

quelles conditions sur (n )nN , la suite (Xn )nN converge-t-elle en loi ? en


probabilit ? presque srement ?


Exercice V.7. Montrer que 4.1.iiv sont quivalents limn dPn = dP
pour toute fonction inniment direntiable, support compact.
Exercice V.8. Une
de la transforme de Laplace.

formule dinversion
n
a) Soit P() = nN e n! n la loi de Poisson de paramtre . Montrer que
si X est de loi P() alors (X )/ converge en probabilit vers 0 lorsque
. En dduire que
lim e

k
=
k!

kx

#
0 si > x,
1 si < x.


b) Soit L(t) = 0 etx dP (x) la transforme de Laplace dune loi P sur R+ .
Montrer que L(t) est inniment drivable. Montrer que si P est de fonction de
rpartition F , alors
(1)k
k L(k) () = F (x)
lim

k!
kx

en tout point de continuit de F .


143
i

i
i

barbe 2007/1/8 10:41 page 144 #152

Chapitre V. Convergence de suites de variables alatoires

Exercice V.9. Une formule dinversion de la transforme de Fourier. Soient X,


Y deux variables alatoires relles indpendantes. Notons f X la densit de X.
a) Montrer que E(eitY X (Y )) = E(Y (X t)), t R.
b) Prendre Y de loi N (0, 2 ) et supposer X intgrable par rapport la mesure de Lebesgue. En considrant , montrer la formule donne au thorme III.5.4.
c) Montrer que pour tous x, y et m > 0,
1
2

eitx eity X
(t) dt
it
m


   m
1 m sin t(z y)
sin t(z x)
1
dt
dt f X (z) dz .
=
t
0
t
0
m

sin(tx)
dt = signe(x)/2.
t
0
En dduire que si x et y sont des points de continuit de F X , alors

On rappelle que

1
F (y) F (x) = lim
m 2
X

eitx eity X
(t) dt ,
it

ce qui donne une formule dinversion de Fourier, et montre que X caractrise


F X et donc P X .
Exercice V.10. Soit (Xi )i1 une suite de variables alatoires, de loi uniforme
sur [ 0, 1 ]. Soit Nn une variable alatoire de loi binomiale B(n, p). Montrer que
n min1iNn Xi converge en loi, lorsque n , vers une variable alatoire
exponentielle de moyenne 1/p.

Exercice V.11. Appliquer le thorme limite central une suite (Xn )nN de variables alatoires indpendantes de mme loi de Poisson de paramtre 1 pour
trouver la limite de la suite
un = en

nk
,
k!

n N.

0kn

Rponse : 1/2.

Exercice V.12. Soit (Xi )i1 une suite de variables alatoires relles, indpendantes et de mme loi

P . On appelle mesure empirique de X1 , . . . , Xn la loi de


probabilit Pn = n1 1in Xi (cette mesure est alatoire puisque les Xi le
sont). Montrer que presque srement Pn converge troitement vers P .
144
i

i
i

barbe 2007/1/8 10:41 page 145 #153

Exercices

Indication : utiliser la dnition V.4.1.i et la loi forte des grands nombres. Si Fn


(resp. F ) est la fonction de rpartition de Pn (resp. P ), on prendra garde au fait
que lensemble de mesure nulle sur lequel limn Fn (t) = F (t) doit pouvoir tre
pris indpendant de t ; cette n, on peut utiliser la monotonie et la bornitude
de F .

Exercice V.13. Notons U (p) la variable alatoire relle i1 2i Xi o les Xi sont


indpendantes,
de loi B(1, p) et soit L(p) la loi de U (p) . Soit x [ 0, 1 ]. Notons

i
x = i1 2 xi son dveloppement en base 2.
a) En utilisant la loi forte des grands nombres, montrer que sous L(p) , pour
presque

tout x, la proportion de 1 dans le dveloppement en base 2 (i.e.


n1 1in xi ) tend vers p. En dduire que les lois L(p) sont trangres les
unes par rapport aux autres.
b) Montrer que L(1/2) est la mesure de Lebesgue sur [ 0, 1 ] (loi uniforme sur
[ 0, 1 ]).
Indication : dterminer les mesures sous L(1/2) des intervalles dyadiques.
Montrer que les lois L(p) nont pas de parties discrtes. Donc si
p  { 0, 1/2, 1 } la fonction de rpartition de L(p) est continue, mais pas absolument continue.

Exercice V.14. Au thorme IV.3.1 nous avons vu comment construire une suite
innie de variables alatoires indpendantes. Donnons ici une construction plus
explicite sur R. Soient Xn , n 1, les variables alatoires de loi B(1, 1/2)
construites lexemple IV.1.7.ii. En utilisant lexercice V.13 et lexemple V.1.3.i,
montrer quon peut construire une suite (Un )n1 de variables alatoires uniformes sur [ 0, 1 ], indpendantes.
Indication : considrer la construction en triangle
U1 = 21 X1 + 22 X2 + 23 X4 + 24 X7 +
U2 = 21 X3 + 22 X5 + 23 X8 +
U3 = 21 X6 + 22 X9 +
U4 = 21 X10 +
..
.
Montrer alors que si lon se donne une famille de loi Pi , i N, sur R, on peut
construire une suite de variables alatoires relles (Zi )iN , indpendantes, telles
que Zi est de loi Pi . Nous avons donc dans ce cas une preuve constructive du
thorme de Kolmogorov IV.3.1.
145
i

i
i

barbe 2007/1/8 10:41 page 146 #154

Chapitre V. Convergence de suites de variables alatoires

Exercice V.15. On considre une marche alatoire sur Z, partant de lorigine, reprsente par une suite (Xn )n1 de variables alatoires sur un espace probabilis
(, A, P ), mutuellement indpendantes, et de mme loi de Bernoulli sur { 1, 1 }
de paramtre 0 < p < 1 (autrement dit P { Xn = 1 } = 1 P { Xn = 1 } = p
pour tout n). On pose Sn = X1 + + Xn , n 1, et par convention S0 = 0. La
variable alatoire Sn reprsente donc la position au temps n du marcheur parti
de 0. On sintresse la probabilit de revenir une innit de fois son point
de dpart, cest--dire la probabilit de lvnement
A = { Sn = 0 pour une innit de n } .
a) Dmontrer que Sn /n converge presque srement vers une limite que lon
prcisera.
b) Dduire de la question prcdente que P (A) = 0 si p = 1/2.
c) On suppose prsent que p = 1/2.

=
(S
2k . Prouver que Zk a mme loi
i) Pour tout
k

0,
soit
Z
k+1 S2k )/
k
2

k
que S2k / 2 . En dduire, en faisant usage du thorme limite central, que pour
tout rel M ,

P { Zk M } = .
k0

ii) Conclure de la question prcdente que P { supk Zk M } = 1 pour tout M ,


puis que P { supk |Zk | = } = 1. En dduire que
S 


 n
P sup  = = 1 .
n
n1

iii) Dmontrer avec la loi du 01 que lvnement B + = { supn1 Sn / n = + }

est de probabilit 0 ou 1. Soit B = { inf n1 Sn / n = }. Dmontrer que


P (B + ) = P (B ). Conclure, laide de la question ii), que P (B + ) = P (B ) = 1.
iv) Dduire de ce qui prcde que P (A) = 1.

Exercice V.16. Soient et deux mesures de probabilit sur un espace mesurable (E, B). On appelle distance en variation totale la quantit
  = sup |(B) (B)| .
BB

Soient X et Y deux variables alatoires sur (, A, P ) de lois respectives P X


et P Y .
a) Montrer lingalit P X P Y  P { X = Y }.
146
i

i
i

barbe 2007/1/8 10:41 page 147 #155

Exercices

b) Soient Y et deux variables alatoires indpendantes sur (, A, P ), Y de


loi de Poisson de paramtre 0 < p < 1 et de loi de Bernoulli de paramtre
1 (1 p)ep . Soit X = 1 {=Y =0} . Calculer la loi de X et dmontrer que
lon a P { X = Y } p2 .
c) Soit S une variable alatoire de mme loi quune somme de n variables
alatoires indpendantes de lois de Bernoulli de paramtre pi , 0 < pi < 1,
i = 1, . . . , n. Dmontrer quil

existe une variable alatoire Z suivant une loi de


Poisson de paramtre = 1in pi telle que
P S P Z 

p2i .

1in

d) Retrouver le thorme V.5.6 pour pi = /n, > 0, 1 i n (n ).

147
i

i
i

barbe 2007/1/8 10:41 page 148 #156

i
i

barbe 2007/1/8 10:41 page 149 #157

VI
PROBABILITS ET ESPRANCES
CONDITIONNELLES

Commenons par un exemple. Dans un jeu de d, chaque jet, chacune des


six faces sont quiprobables. On peut modliser le jet en se donnant lespace
= { 1, 2, 3, 4, 5, 6 }, la tribu de ses parties P() et la loi de probabilit P dnie
par P ({ }) = 1/6 pour tout . La variable alatoire X, reprsentant le rsultat du jet, peut tre prise comme tant lidentit de sur lui-mme. Imaginons
maintenant que nous lancions le d sans le regarder, et quun spectateur nous dise
que nous avons obtenu un chire pair. tant donne cette information, nous pouvons rvaluer nos chances dobtenir un certain . Clairement, si est impair,
cette chance est nulle, et si est pair, elle est 1/3. Notons pair = { 2, 4, 6 }. La
faon dont nous valuons la probabilit de sachant que pair consiste
valuer P ({ } pair )/P (pair ), ou, ce qui revient au mme ici, le nombre de
faon dobtenir dans pair , divis par le cardinal de pair .
De faon plus gnrale, sur un espace (, A, P ), si lon sait eectivement quun
vnement B est ralisable (i.e. P (B) > 0), on peut construire une nouvelle
mesure de probabilit
P (A | B) =

P (A B)
,
P (B)

A A,

appele probabilit conditionnelle de A sachant B. Observons que P (B | B) = 1


et si A B = ou P (A B) = 0, alors P (A | B) = 0.
On peut imaginer des situations plus compliques o lon souhaite naturellement conditionner par un vnement de mesure nulle. Par exemple, si on admet
que le poids dun individu est une variable alatoire continue, on pourrait chercher
la loi de la taille tant donn le poids. Nous verrons dans ce chapitre comment

i
i

barbe 2007/1/8 10:41 page 150 #158

Chapitre VI. Probabilits et esprances conditionnelles

formaliser cela. Mais commenons par le cas simple o lon conditionne par un
vnement de probabilit positive.

VI.1. Conditionnement discret


Definition VI.1.1. Soit (, A, P ) un espace probabilis, et soit B A tel que
P (B) > 0.
(i) On appelle probabilit conditionnelle de lvnement A sachant B le nombre
P (A B)/P (B), not P (A | B).
(ii) On appelle loi conditionnelle sachant B, la mesure de probabilit dnie
par A A  P (A B)/P (B), note P ( | B).
Observons que si et seulement si A et B sont indpendants, P (A | B) = P (A),
cest--dire que la connaissance de lvnement B napporte aucune information
sur la ralisation ou non de A. Si P (A) > 0, remarquons que
P (A | B)P (B) = P (B | A)P (A) = P (A B) .
Notons galement que si X est une variable alatoire relle intgrable sur
(, A, P ), son intgrale par rapport la probabilit conditionnelle P ( | B) est
gale


1
X dP ( | B) =
X dP .
P (B) B

Comme pour la construction usuelle de lintgrale, ceci se vrie dabord sur les
variables indicatrices et tages, puis se prolonge.
Enn, dans le cas o = Rd , puisque la probabilit conditionnelle P ( | B) est
une probabilit, on peut dnir une fonction de rpartition conditionnelle sachant
B, x Rd  P (] , x ] | B) [ 0, 1 ], une fonction caractristique conditionnelle
t Rd  eit,x dP (x | B), lesquelles caractrisent la loi conditionnelle P ( | B).

Exemples VI.1.2. (i) Soit X une variable alatoire de loi exponentielle de paramtre 1. Observons que pour tous s, t > 0, la probabilit que X dpasse s + t
sachant que X dpasse s est donne par
P{X s + t | X s} =
=

P{X s + t}
P{X s + t; X s}
=
P{X s}
P{X s}
e(s+t)
= et .
es

150
i

i
i

barbe 2007/1/8 10:41 page 151 #159

VI.1. Conditionnement discret

On constate que cette probabilit conditionnelle est gale P { X t }. Cette


proprit caractristique de la loi exponentielle est traditionnellement appele
labsence de mmoire (penser X comme mesurant un temps alatoire).
(ii) Soit (U1 , . . . , Un ) un vecteur de variables alatoires indpendantes, toutes de
loi uniforme sur [ 0, 1 ]. Soit Mn = max1in Ui et mn = min1in Ui . Alors pour
tous u1 , . . . , un [ 0, 1 ], et tous 0 a < b 1,
P { U1 u1 , . . . , Un un | a mn Mn b }
=
=
=
=
=

P { U1 u1 , . . . , Un un ; a mn ; Mn b }
P { a mn ; Mn b }
P { a U1 u1 b ; . . . ; a Un un b }
P { a U1 b ; . . . ; a Un b }
$
1in P { a Ui ui b }
$
P{a U b}
$ 1in
1in (ui b a)
$
1in (b a)
 ui b a
.
ba
1in

On constate que cette probabilit est gale P { V1 u1 , . . . , Vn vn } o


V1 , . . . , Vn sont des variables alatoires indpendantes de mme loi U[a,b] . Autrement dit,

 
n
n
().
 a mn Mn b = U[a,b]
U[0,1]
Lobjectif que nous poursuivons maintenant est dessayer de gnraliser cette
dnition dans deux directions. On essayera ainsi de remplacer A par une variable
alatoire, suivant le schma E(A ) = P (A), et B par une sous-tribu de . Comme
annonc, nous dbutons par une situation discrte.

Definition VI.1.3. Soit (, A, P ) un espace probabilis. Une famille dvnements (Bi )iI ,I N, forme

un systme complet dvnements si les Bi sont


disjoints et P ( iI Bi ) = iI P (Bi ) = 1.
Observons que, quitte ajouter lvnement de mesure nulle N = \
la famille (Bi )iI forme une partition de .


iI

Bi ,

Proposition VI.1.4. Soit (Bi )iI un systme complet dvnements sur (, A, P ),


et soit I = { i I : P (Bi ) > 0 }. Pour tout A A,
151
i

i
i

barbe 2007/1/8 10:41 page 152 #160

Chapitre VI. Probabilits et esprances conditionnelles

(i) P (A) = iI P (A | Bi )P (Bi ) (formule des probabilits totales).


(ii) De plus, si P (A) > 0, pour tout k tel que P (Bk ) > 0, on a la rgle, dite de
Bayes,
P (A | Bk )P (Bk )
.
P (Bk | A) =

iI P (A | Bi )P (Bi )

Dmonstration. Cest immdiat puisque P (A) = iI P (A Bi ) et, pour tout k,


P (Bk | A)P (A) = P (Bk A) = P (A | Bk )P (Bk ) .

Lintrt de la rgle de Bayes est quelle exprime P (Bk | A) en fonction des


P (A | Bk ), et donc renverse les conditionnements.

Exemple VI.1.5. Voici une application de la rgle de Bayes qui justie pleinement
lutilisation des questionnaires choix multiple aux examens.
Considrons des questions o m rponses possibles sont proposes et supposons quun candidat a une probabilit p de connatre la rponse une question
prise au hasard parmi un ensemble ni de questions. Sachant que le candidat a
rpondu correctement la question, quelle est la probabilit quil sache eectivement la rponse ? On suppose quun candidat ne sachant pas la rponse rpond
au hasard , et donc que chacune des m rponses possibles sont quiprobables.
Soit A lvnement le candidat rpond correctement et B lvnement le
candidat connat la rponse . Appliquons la rgle de Bayes,
P (A | B)P (B)
P (A | B)P (B)
=
P (A)
P (A B) + P (A B c )
1p
P (A | B)P (B)
=
=
1
P (A | B)P (B) + P (A | B c )P (B c )
1p+ m
(1 p)
mp
.
=
mp + 1 p

P (B | A) =

Donc, plus m est grand, plus P (B | A) est grand ; cest assez intuitif ; il est probable que le candidat connaisse la rponse sil a donn une bonne rponse parmi de
nombreuses proposes. Remarquons que pour m = 3 et p = 1/2, P (B | A) = 3/4,
ce qui est somme toute assez grand. On conoit donc quun questionnaire dune
trentaine de questions, chacune trois ou quatre rponses possibles, soit mme
de rendre compte du savoir dun tudiant !
Observons maintenant que la tribu B engendre par une partition (Bi )iI ,
I N, dvnements de A est dcrite comme la collection de toutes les unions
possibles dvnements Bi et de leurs complmentaires. De ce point de vue, tout
ensemble A B peut tre fractionn sur les ensembles lmentaires Bi . Ceci
conduit la dnition suivante.
152
i

i
i

barbe 2007/1/8 10:41 page 153 #161

VI.1. Conditionnement discret

Definition VI.1.6. Soit B une tribu. Un vnement B B est appel un atome


de B si pour tout vnement C B qui est inclus dans B, soit C = , soit
C = B.
Exemples VI.1.7. (i) Si (Bi )iI est une partition mesurable de (, A), les Bi sont
les atomes de la tribu (Bi : i I) engendre par les Bi .
(ii) Soit E = { bi : i I N } un ensemble ni ou dnombrable et soit
Y : (, A, P ) (E, P(E)) une variable alatoire discrte. Les vnements
Y 1 ({ bi }) = { Y = bi } = { : Y () = bi }
forment un systme complet. Ce sont les atomes de la tribu engendre par Y .
Rciproquement, si B est une sous-tribu de A engendre par un systme complet
dvnements (Bi )iI , I N, une variable alatoire relle Y , dnie sur (, A, P )
et B-mesurable, est

ncessairement constante sur chaque atome de B, et donc


de la forme Y =
iI i Bi p.s. En eet, supposons au contraire quil existe

, Bi tels que Y () = Y (  ). Il existe alorsdes borliens C, C  disjoints
 tels
que Y () C et Y (  ) C  . Or Y 1 (C) = jJ Bj et Y 1 (C  ) = jJ  Bj
pour certains J et J  . Ncessairement, les ensembles dindices J et J  contiennent
tous les deux lindice i puisque Y 1 (C) et  Y 1 (C  ), et ,  Bi .
Ainsi, lensemble Y 1 (C) Y 1 (C  ) nest pas vide, ce qui est impossible puisque
Y 1 (C) Y 1 (C  ) = Y 1 (C C  ) = Y 1 () = .

Definition VI.1.8. Soit B une sous-tribu dans (, A, P ), engendre par un systme complet dvnements (Bi )iI , I N. Soit I = { i I : P (Bi ) > 0 }.
On

appelle probabilit conditionnelle de A A sachant B la variable alatoire


iI P (A | Bi )Bi , note aussi P (A | B).
La probabilit conditionnelle de A sachant une sous-tribu B est donc une
variable alatoire, constante sur les
 atomes de cette sous-tribu, et donc mesurable
par rapport B. Pour tout iI Bi , lapplication A A  P (A | B)() est
une mesure de probabilit telle que P (Bi | B)() = 1 si Bi , et P (A | B)() = 0
si Bi et P (A Bi ) = 0.
Il convient enn de remarquer que P (A | B) est proche de la fonction A
sur B , au sens o, pour tout B B tel que P (B) > 0,



P (A | B) dP = P (A B) =
B

A dP .
153

i
i

barbe 2007/1/8 10:41 page 154 #162

Chapitre VI. Probabilits et esprances conditionnelles


En eet, puisque B = iJ Bi pour un certain ensemble dindices J, il sut
de montrer lidentit pour un atome ; cest alors une consquence de la dnition VI.1.1, puisque


P (A | B)() dP () =
P (A | Bi )Bi () dP ()
Bj

Bj iI

= P (A | Bj )
Bj

Bj () dP ()

= P (A | Bj )P (Bj ) = P (A Bj ) .
Il est important de comprendre cette notion de proximit. titre de comparaison, deux variables alatoires
relles intgrables X et Y sur (, A, P ) sont gales

p.s. si et seulement si A X dP = A Y dP pour tout A A. En eet, prenant
A = {X Y }, il vient


(X Y ) dP = (X Y )+ dP ,
0=
{XY }

do (X Y )+ = 0 p.s. ; et de la mme faon, (Y X)+ = 0, do X = Y


p.s. Dans le cas de la probabilit
conditionnelle P (A | B), nous avons pour tout

B B A, B Y dP = B X dP avec X = A , Y = P (A | B).
Observons que lon peut rcrire

 1 
P (A Bi )
Bi =
A dP Bi .
P (A | B) =
P (Bi )
P (Bi ) Bi

iI

iI

Donc P (A | B) est la variable alatoire tage obtenue en moyennant A sur


les atomes de B. On peut alors remplacer A par une variable alatoire, ce qui
conduit la dnition suivante.

Definition VI.1.9. Soit X une variable alatoire relle intgrable sur (, A, P )


et soit B une sous-tribu engendre par un systme complet dvnements
(Bi )iI , I N. Soit I = { i I : P (Bi ) > 0 }. On appelle esprance conditionnelle de X sachant B, note E(X | B), la variable alatoire B-mesurable

iI

1
P (Bi )




X dP

Bi

Bi .

Il est tout fait important de remarquer que dans la dnition de lesprance conditionnelle, la somme est sur lensemble dindices I . En consquence,
154
i

i
i

barbe 2007/1/8 10:41 page 155 #163

VI.1. Conditionnement discret


sa valeur en tout point I\I Bi nest pas dnie. On pourrait aussi altrer
les vnements Bi et leur adjoindre ou retrancher des vnements de mesure nulle.
Ceci changerait ventuellement lesprance conditionnelle, mais seulement sur un
ensemble de mesure nulle. Il convient donc de bien comprendre que lesprance
conditionnelle nest dnie que P -presque srement.
De mme que E(A ) = P (A), par construction, E(A | B) = P (A | B). Remarquons aussi que si B B,


E(X | B) dP =
X dP ,
B

et que si X est B-mesurable, E(X | B) = X p.s.

Notation VI.1.10. Si B est engendre par une variable alatoire discrte Y , on note
E(X | Y ) = E(X | B).
Exemple VI.1.11. Soit X une variable alatoire sur (, A, P ) suivant une loi de
Poisson de paramtre > 0. Soit Y = 2X/2, o   est la fonction partie
entire. Calculons les esprances conditionnelles E(X | Y ) et E(Y | X). Puisque
Y est X-mesurable, E(Y | X) = Y p.s. Pour valuer E(X | Y ), nous tudions les
atomes de (Y ) ; ce sont les ensembles Bn = { Y = 2n }, n 0. On value



X dP =
X dP +
X dP
{ X=2n }

Bn

{X=2n+1}

= 2nP { X = 2n } + (2n + 1)P { X = 2n + 1 }


= 2ne

2n
2n+1
+ (2n + 1)e
.
(2n)!
(2n + 1)!

De mme,
P (Bn ) = P { Y = 2n } = P { X = 2n } + P { X = 2n + 1 }
= e
Do

1
P (Bn )

2n
2n+1
+ e
.
(2n)!
(2n + 1)!


X dP =
Bn

(2n + )(2n + 1)
.
2n + 1 +

Ainsi
E(X | Y ) =

(2n + )(2n + 1)
n0

2n + 1 +

{Y =2n} =

(Y + )(Y + 1)
.
Y +1+

155
i

i
i

barbe 2007/1/8 10:41 page 156 #164

Chapitre VI. Probabilits et esprances conditionnelles

On voit sur cet exemple, comme dans la situation gnrale, que lesprance conditionnelle est dnie seulement p.s., puisquelle peut prendre nimporte quelle valeur sur les atomes de mesure nulle.

VI.2. Conditionnement (gnral)


Nous pouvons gnraliser les exemples prcdents, en remplaant une tribu engendre par un systme complet dvnements par une tribu arbitraire. Lintrt
de cette gnralisation est que nous pourrons alors conditionner par la tribu engendre par une variable alatoire. Ainsi, lesprance conditionnelle par rapport
une variable alatoire continue pourra tre dnie, gnralisant la dnition
VI.1.9 et la notation VI.1.10.
Dans les dnitions prcdentes de lesprance conditionnelle, nous avons vu
que celle-ci nest dnie que presque partout. Donc si A est un vnement de
mesure nulle, on souhaite que si deux versions de lesprance conditionnelle concident sur une partie de A, elles soient encore considres comme tant gales
dun point de vue probabiliste.

Definition et theor`eme VI.2.1. Soit (, A, P ) un espace probabilis, et soit B une


sous-tribu de A. Soit de plus X une variable alatoire relle sur (, A, P ), intgrable. Alors il existe une unique (p.s.) variable alatoire, appele esprance conditionnelle de X sachant B, note E(X | B), telle que
(i)  E(X | B)() est B-mesurable ;


(ii) pour tout B B, B E(X | B) dP = B X dP .
Dmonstration. i) Unicit. Nous reprenons le raisonnement utilis la suite de
la
 dnition VI.1.8. Soient Z1 , Z2 , B-mesurables, telles que pour tout B B,
B Zi dP = B X dP , i = 1, 2. Alors, puisque { Z1 Z2 } est B-mesurable,


(Z1 Z2 ) dP = (Z1 Z2 )+ dP,
0=
{ Z1 Z2 }


(Z2 Z1 ) dP = (Z2 Z1 )+ dP ,
0=
{ Z2 Z1 }

et donc Z1 = Z2 p.s.
ii) Existence. Montrons-la dabord en supposant X de carr intgrable. Alors X
est un lment de lespace de Hilbert L2 (, A, P ). Lespace L2 (, B, P ) est ferm
dans L2 (, A, P ). On peut donc parler de la projection QX de X sur L2 (, B, P ).
Cette projection vrie

U L2 (, B, P ) , X QX, U  = (X QX)U dP = 0 .

156
i

i
i

barbe 2007/1/8 10:41 page 157 #165

VI.2. Conditionnement (gnral)

Puisque QX est une classe dquivalence de fonctions de L2 (, B, P ), on dnit


E(X | B) comme un reprsentant B-mesurable de la classe de QX. En prenant
U = B , B B, on voit que



X dP
E(X | B) dP ,
0 = (X QX)B dP =

ce qui fournit (ii) et prouve lexistence dans ce cas.


Pour tendre lexistence au cas des variables uniquement intgrables, notons
que si X L2 (, A, P ) et X 0 p.s., alors E(X | B) 0 p.s. (prendre
B = { E(X | B) < 0 } B dans (ii)).
Supposons maintenant X intgrable, positive p.s. Pour tout n, Xn = X n
est de carr intgrable. On peut ainsi dnir E(Xn | B) vriant (i)(ii). De plus
E(Xn+1 | B) E(Xn | B) = QXn+1 QXn = Q(Xn+1 Xn )
= E(Xn+1 Xn | B) 0
daprs ce qui prcde. Enn, E(E(Xn | B)) = E(Xn ) E(X) < . Daprs
le thorme de convergence monotone II.2.1, la suite E(Xn | B) converge p.s.
vers une variable alatoire note E(X | B), B-mesurable et intgrable. Il ne reste
plus qu vrier que E(X | B) vrie (ii), ce qui est encore une consquence du
thorme de convergence monotone. En eet, si B B,


E(X | B) dP = lim
E(Xn | B) dP
n B
B


Xn dP =
X dP .
= lim
n B

Enn, si X est intgrable, crivons X = X + X et posons


E(X | B) = E(X + | B) E(X | B) .
Ceci termine la construction de lesprance conditionnelle.

Une autre preuve de lexistence de lesprance conditionnelle E(X | B) peut


tre fournie
 laide du thorme de Radon-Nikodym II.3.3. En eet, la mesure
P restreinte B.
(B) = B X dP , B B, est absolument continue par rapport

Il existe donc un lment Z L1 (, B, P ) tel que (B) = B Z dP . Il est immdiat
de vrier que Z est alors une version de lesprance conditionnelle E(X | B).
Un certain nombre de proprits dcoulent immdiatement de la dmonstration de la dnition VI.2.1.
157
i

i
i

barbe 2007/1/8 10:41 page 158 #166

Chapitre VI. Probabilits et esprances conditionnelles

Proposition VI.2.2. Soit (, A, P ) un espace probabilis, et soit B une sous-tribu


de A. Soient de plus X, Y des variables alatoires relles intgrables sur (, A, P ) ;
alors :
(i) E(aX + bY + c | B) = aE(X | B) + bE(Y | B) + c p.s.
(ii) Si X Y , alors E(X | B) E(Y | B) p.s.
(iii) Si Xn converge p.s. vers X en croissant, alors E(Xn | B) converge p.s. et en
croissant vers E(X | B).
(iv) Si : R R est convexe et (X) est intgrable, on a lingalit de Jensen :
(E(X | B)) E((X) | B) p.s. En particulier, |E(X | B)| E(|X| | B) et
(E(X | B))2 E(X 2 | B) p.s.
(v) Si B = { , }, E(X | B) = E(X) p.s.
(vi) Si C B A, E(E(X | B) | C) = E(X | C). (Le conditionnement successif
E(E(X | B) | C) sera not par la suite E(X | B | C).)
(vii) E(E(X | B)) = E(X).
(viii) Si B est indpendante de (X), E(X | B) = E(X) p.s.
(ix) Si Y est B-mesurable et XY est intgrable, E(XY | B) = Y E(X | B).
(x) Si X est de carr intgrable, E(X | B) est la projection orthogonale de X sur
le sous espace L2 (, B, P ) dans lespace de Hilbert L2 (, A, P ).
Dmonstration. (i) vient essentiellement de la linarit de la projection Q dans la

dmonstration de VI.2.1.
(ii) a t dmontr dans la dmonstration de VI.2.1 : si X 0, E(X | B) 0 p.s.
en prenant B = { E(X | B) < 0 } dans VI.2.1.ii.
(iii) vient de la construction dans la dmonstration de VI.2.1.
(iv) se dmontre comme lingalit de Jensen II.2.10 en utilisant (ii).
(v) vient de VI.2.1.ii.
(vi) vient de ce que L2 (, C, P ) L2 (, B, P ) L2 (, A, P ), et que pour projeter
sur L2 (, C, P ), on peut commencer par projeter sur L2 (, B, P ).
(vii) Prendre B = dans VI.2.1.ii.
(viii) Si B B, B et X sont indpendantes et donc pour tout B B,


E(X | B) dP = B X dP = E(X) P (B) .
B

Puisque E(X | B) est B-mesurable, E(X | B) = E(X) p.s.


(ix) Le rsultat est clair si Y = B , B B, et donc pour les variables alatoires
tages. Suivant le schma gnral de lintgration, on approxime ensuite les variables positives par des variables tages, puis on dcompose parties positive et
ngative.
158
i

i
i

barbe 2007/1/8 10:41 page 159 #167

VI.3. Lois conditionnelles

(x) Soit Z une variable B-mesurable. Introduisons les variables alatoires


U = X E(X | B) et V = E(X | B)Z. Alors V est B-mesurable et E(U | B) = 0
daprs (i) et (vi) (avec B = C pour montrer que E(E(X | B) | B) = E(X | B)).
Donc, en utilisant (vii)
 



E (X Z)2 = E E (U + V )2 | B


= E E(U 2 | B) + 2E(U | B)V + V 2


= E E(U 2 | B) + E(V 2 ) .
Ainsi, E((X Z)2 ) est minimal lorsque E(V 2 ) = 0, cest--dire V = 0 p.s. et donc
E(X | B) = Z p.s. Autrement dit, X Z2 est minimal pour Z = E(X | B), ce
qui est la dnition de la projection orthogonale.


Notation VI.2.3. Si B = (Y ) est la tribu engendre par Y , on note E(X | Y )


pour E(X | B).
Si X = (X1 , . . . , Xd ) est un vecteur alatoire intgrable, E(X | B) est le vecteur
(E(X1 | B), . . . , E(Xd | B)).
Si X = A , on note P (A | B) = E(A | B).
Par construction, la notation P (A | B) = E(A | B) est compatible avec la
dnition P (A | B) que nous avons donne dans le cas dun conditionnement
discret.

VI.3. Lois conditionnelles


Le principe de conditionnement stend des esprances aux lois. Cette extension sappuie sur le rsultat suivant connu sous le nom de lemme de Doob.

Lemme VI.3.1 (de Doob). Soit Y une variable alatoire relle sur (, A) et soit
X : R. Pour que X soit mesurable par rapport (Y ) (et la tribu borlienne), il faut et il sut quil existe une application borlienne h : R R, telle
que X = h(Y ).
Dmonstration. Si X = h(Y ) avec h borlienne, alors X est (Y )-mesurable.

Rciproquement, il sut de dmontrer le rsultat pour une variable alatoire X positive ou nulle (crire X = X + X ). Daprs la proposition I.2.7, X est limite croissante dune suite de variables alatoires tages
159
i

i
i

barbe 2007/1/8 10:41 page 160 #168

Chapitre VI. Probabilits et esprances conditionnelles

(Y )-mesurables. Daprs la dnition de la tribu (Y ), une variable alatoire


tage (Y )-mesurable est de la forme

ai Y 1 (Bi ) =

ai Bi Y ,

et les ai 0. Elle scrit donc h(Y )


o la somme est nie, les Bi sont des borliens

o h : R R est la fonction borlienne i ai Bi . Il existe donc une suite (hn )nN


de fonctions borliennes (tages, positives) telle que X = limn hn (Y ). En
particulier, la suite (hn )nN converge en tout point de Y (), limage de Y . Poser
alors (par exemple) h = lim supn hn . La fonction h : R R est borlienne et
X = h(Y ).

Soit prsent un couple (X, Y ) de variables alatoires relles sur (, A, P )
tel que X soit intgrable. Lesprance conditionnelle E(X | Y ) est (Y )-mesurable. Ainsi, par le lemme VI.3.1, il existe une fonction borlienne h telle que
E(X | Y ) = h(Y ). On conviendra dappeler h(y), y R, lesprance conditionnelle de X sachant Y = y, note h(y) = E(X | Y = y). On notera le caractre
abusif de cette notation puisque P { Y = y } peut tre nul.

Exemples VI.3.2. (i) Si Y prend un nombre ni ou dnombrable de valeurs yi ,


i I, daprs VI.1.9,
E(X | Y ) =


iI

o I =

1
P { Y = yi }


X dP
{Y =yi }


i I : P {Y = yi } > 0 . Ainsi, si i I ,

1
E(X | Y = yi ) =
P { Y = yi }


X dP ( | Y = yi )

X dP =
{Y =yi }

o P ( | Y = yi ) est la probabilit conditionnelle sachant { Y = yi }.


(ii) Supposons que la loi du couple (X, Y ) R2 ait une densit f (x, y) par rapport
la mesure de Lebesgue. Vrions que lon peut choisir

xf (x, y) dx
,
h(y) = E(X | Y = y) = R
R f (x, y) dx
160
i

i
i

barbe 2007/1/8 10:41 page 161 #169

VI.3. Lois conditionnelles


lorsque f (x, y) dy > 0. Soit, cet eet, C un borlien et B = Y 1 (C). Alors,
puisque la loi de Y a pour densit R f (x, y) dx,





Y 1 (C)

h(Y ) dP =

h(y)
{yC}

f (x, y) dx

dy

 

xf (x, y) dy dx

=


=

=

{yC}

C (Y )X dP

Y 1 (C)

X dP .

Donc h(Y ) vrie VI.2.1.iii, et par unicit, h(Y ) = E(X | Y ) p.s.


(iii) Les deux exemples prcdents peuvent tre en fait approfondis quant lexpression des lois. En pratique, ceci permet de ramener le calcul des lois conditionnelles un calcul dintgrales. En remplaant, dans (i), X par (X), o est
borlienne borne, lon voit que si P { Y = yi } > 0,


E (X)  Y = yi =



(X) dP ( | Y = yi ) .

Ainsi, daprs la formule du transport, la mesure image P ( | Y = yi ) peut


sinterprter comme la loi de X conditionnellement Y = yi . Pour tout
borlien B, on a
P ( | Y = yi )X (B) = P { X B | Y = yi } .
De la mme faon, pour lexemple VI.3.2.ii, si est borlienne borne,

E((X) | Y ) =

(x)f (x, Y ) dx

=
f (x, Y ) dx


(x)K Y ( dx)

f (x, y) dx
sinterprte comme la loi conditionnelle de X sao K y (dx) = 
f (x, y) dx
chant Y = y. Il sensuit que la densit conditionnelle de X sachant Y = y est
f (x, y)/f Y (y) o f Y est la densit de Y . Cette formule permet le calcul pratique
des lois conditionnelles.
Ces exemples conduisent la dnition suivante.
161
i

i
i

barbe 2007/1/8 10:41 page 162 #170

Chapitre VI. Probabilits et esprances conditionnelles

Definition VI.3.3. On appelle transition, ou noyau de transition, toute fonction


K : R B(R) [ 0, 1 ] telle que
(i) pour tout B B(R), y  K(y, B) = K y (B) est mesurable ;
(ii) pour tout y R, B  K(y, B) = K y (B) est une mesure de probabilit.
Le thorme suivant fournit lexistence dun noyau de transition dun couple
de variables alatoires relles. Il gnralise les exemples prcdents.

Theor`eme VI.3.4. Soit (X, Y ) un vecteur alatoire dans (R2 , B(R2 )P ), de loi P ,
o B(R2 )P est la tribu borlienne de R2 , P -complte (cf. exercice I.8). Il existe
un noyau de transition K tel que pour toute fonction borlienne borne ,
 

E (X)  Y =


dK Y p.s.

La mesure K y (dx) est appele la loi conditionnelle de X sachant Y , ou sachant


Y = y. On note aussi L(X | Y ) ou L(X | Y = y) cette loi conditionnelle.
Dmonstration. (Esquisse) La dmonstration est dans le mme esprit que celle du

thorme V.4.4. Observons que pour toute fonction continue borne, la variable
alatoire E((X) | Y ) est dnie p.s. par VI.2.1 et VI.3.1, cest--dire sauf sur
un ensemble de mesure nulle dpendant a priori
 de , not N (). Soit(i )iN une
famille dense dans (C0 (R), . ). Alors N = iN N (i ) est de mesure nulle, et
K Y () (i )() = E(i (X) | Y )() est dni sur \ N pour tout i N.
Soit maintenant C0 (R). Pour dnir K Y () (), on considre une soussuite (dpendant de ) (ik )kN telle que limk  ik  = 0. On pose alors
K Y () () = limk K Y () (ik ). On vrie que la limite des K Y () (ik ) ne dpend
pas de la sous-suite ik choisie, mais seulement de , puisque
 
 
 


E (i j )(X)  Y () E |i j |(X)  Y () i j  p.s.
On dnit ainsi pour tout \ N une forme linaire continue sur C0 (R),
laquelle peut tre identie une mesure de probabilit. On pourra se rfrer
Dudley (1989) pour une dmonstration complte.

Le noyau K dpend videmment de la loi du couple (X, Y ). Rciproquement,
la loi du couple peut tre obtenue partir de K et de la loi de Y : si et sont deux
162
i

i
i

barbe 2007/1/8 10:41 page 163 #171

VI.3. Lois conditionnelles

fonctions borliennes bornes, par les points (vii) et (ix) de la proposition VI.2.2,
 



E (Y )(X) = E E((Y )(X)  Y )


= E (Y )E((X) | Y )



= E (Y ) (x)K(Y, dx) .
Testons prsent notre comprhension des lois conditionnelles sur quelques
situations simples.

Exemples VI.3.5. (i) Soit X une variable alatoire et h : R R mesurable ;


quelle est la loi conditionnelle de h(X) sachant X = x ? Pour toute fonction
borlienne borne, E((h(X)) | X) = (h(X)), et (h(X)) est aussi lintgrale
de contre la masse de Dirac en h(X). Il sensuit que L(h(X) | X = x) = h(x) .
(ii) Soit un couple (X, Y ) de variables alatoires relles sur (, A, P ), indpendantes ; soit galement h une fonction mesurable de R2 dans R. Daprs le thorme
de Fubini et lindpendance de X et Y , pour toute fonction borlienne borne,

 

h(x, Y ) dP X (x) .
E h(X, Y )  Y =
R

Si

K y ()

dsigne la loi de h(X, y),






y
(u)K ( du) = E h(X, y) =
h(x, y) dP X (x) .
R

Ainsi, si X et Y sont indpendantes, la loi conditionnelle de h(X, Y ) sachant


Y = y est la loi de h(X, y). Il est ais de constater sur un exemple que tel nest
plus le cas sans lhypothse dindpendance.
(iii) Soit un couple (X, Y ) de variables alatoires relles dni sur (, A, P ), de loi
admettant une densit f (x, y) sur R2 . Lexemple VI.3.2.iii et le thorme VI.3.4
montre que la loi de X sachant Y admet une densit donne par
f X|Y (x) =

f (x, Y )
f (x, Y )
=
.
Y
f (Y )
R f (u, Y ) du

limage de la thorie usuelle de lintgration et des lois, la classe des fonctions


borliennes bornes qui dterminent une loi conditionnelle dans le thorme
VI.3.4 peut tre considrablement restreinte. Il sut par exemple de ne considrer
que les exponentielles complexes (cf. thorme III.5.2) (fonctions caractristiques).
Le paragraphe suivant dcrit dautres exemples de calculs desprances et de
lois conditionnelles de variables gaussiennes. Il y est fait implicitement usage des
conditions, des noncs et des proprits prcdentes relatives des vecteurs alatoires de Rd .
163
i

i
i

barbe 2007/1/8 10:41 page 164 #172

Chapitre VI. Probabilits et esprances conditionnelles

VI.4. Esprances conditionnelles


dans les espaces gaussiens
Nous terminons ce chapitre par un exemple dapplication de calcul desprance
conditionnelle pour les vecteurs alatoires gaussiens. Dans le cas gaussien, ces
calculs sont relativement explicites. Il est commode de prsenter cette application
avec la notion despace gaussien.

Definition VI.4.1. Un sous-espace vectoriel H de L2 (, A, P ) est dit gaussien


si pour tous X1 , . . . , Xn H, le vecteur (X1 , . . . , Xn ) est gaussien (autrement
dit, si

pour tous X1 , . . . , Xn H et tous 1 , . . . , n R, la variable alatoire


relle 1kn k Xk est gaussienne).
De plus, on dit que H est centr si toutes les variables de H sont centres.

Proposition VI.4.2. Soit H un espace gaussien, et soit H sa fermeture dans


L2 (, A, P ). Alors H est encore gaussien.
Dmonstration. (Dmonstration dans le cas centr.) Il sut de remarquer que si
Xn est de loi N (0, n2 ) et converge dans L2 vers X, alors n2 converge vers E(X 2 ),

et on voit sur les transformes de Fourier que X suit une loi N (0, E(X 2 )).

Par convention, on ne sintresse plus dsormais quaux espaces gaussiens


ferms. Pour plus de simplicit, nous les supposerons aussi toujours centrs ; le cas gnral sen dduit trivialement, puisque si H est gaussien, alors
H0 = { X EX : X H } est un espace gaussien centr.
gaussien valeurs dans Rn sur
Si X = (X1 , . . . , Xn ) est un vecteur alatoire

(, A, P ), X engendre lespace gaussien (ferm) { 1kn k Xk : k R }. Cest


lexemple canonique quil convient de garder lesprit.
Le thorme suivant dcrit les proprits dindpendance dans les espaces
gaussiens.

Theor`eme VI.4.3. Soient H un espace gaussien (ferm, centr) et H1 un sousespace (ferm) de H. Soit X H x. Les proprits suivantes sont quivalentes :
(i) pour tout Y de H1 , E(XY ) = 0 ;
(ii) pour tout Y de H1 , X est indpendante de Y ;
(iii) X est indpendante de la tribu (H1 ) engendre par les variables de H1 .

164
i

i
i

barbe 2007/1/8 10:41 page 165 #173

VI.4. Esprances conditionnelles dans les espaces gaussiens


Dmonstration. Clairement (iii)(ii)(i). Pour montrer (i)(ii), on note que (i)

implique que le couple (X, Y ) est gaussien, de matrice de covariance diagonale ;


donc X et Y sont indpendantes par le thorme IV.4.3. De la mme faon, pour
(i)(iii), il sut de montrer que si Y1 , . . . , Yn H1 , le vecteur (Y1 , . . . , Yn ) est
indpendant de X, ce qui se fait de faon identique. En eet, si tel est alors le
cas, posons pour tout borlien B,




M = E A : P { X B } E = P { X B }P (E) .
Lensemble M est une classe monotone qui contient la classe E des intersections
nies de Y 1 (C), Y H, C borlien. Donc M M(E) = (E) = (H1 ). Donc

X est indpendante de (H1 ).
Le rsultat prcdent autorise des calculs desprances conditionnelles.

Proposition VI.4.4. Soit H1 comme prcdemment, et soit X un lment de H.


On dsigne par (H1 ) la tribu engendre par H1 (cest--dire la plus petite tribu
qui rend tous les lments de H1 mesurables). Alors, lesprance conditionnelle
E(X | (H1 )) est simplement la projection orthogonale (dans L2 ) de X sur H1 .
En particulier, cest une variable gaussienne.
Dmonstration. Soit Y la projection de X sur H1 . Cette projection est
(H1 )-mesurable et X = Y + Z o Z est orthogonale H1 , donc indpendante
de (H1 ) (thorme VI.4.3). On crit alors, par la proprit des esprances conditionnelles VI.2.2.i et VI.2.2.viii,

E(X | (H1 )) = E(Y | (H1 )) + E(Z | (H1 )) = Y + E(Z) = Y ,




do le rsultat.

Comment utiliser ce rsultat dans un calcul pratique ? Supposons par exemple


que (X1 , . . . , Xn ) soit un vecteur gaussien centr, et soient i1 , . . . , ip < n. On
voudrait calculer E(Xn | Xi1 , . . . , Xip ), cest--dire
E(Xn | (Xi1 , . . . , Xip )) = E(Xn | (H1 ))
o H1 est engendr par (Xi1 , . . . , Xip ), H tant engendr par (X1 , . . . , Xn ).
Daprs la proposition VI.4.4, cette esprance conditionnelle est un lment de
H1 et donc

j Xij
E(Xn | Xi1 , . . . , Xip ) =
1jp

165
i

i
i

barbe 2007/1/8 10:41 page 166 #174

Chapitre VI. Probabilits et esprances conditionnelles

pour des coecients rels 1 , . . . , p quil convient de calculer. cet eet, on peut
par exemple commencer par multiplier cette identit par Xi1 , et intgrer, pour
obtenir

E(Xn Xi1 ) =
j E(Xij Xi1 )
1jp

et ainsi de suite avec Xi2 , . . . , Xip . La donne de la covariance du vecteur


(X1 , . . . , Xn ) permet ensuite de rsoudre le systme linaire de p quations
p inconnues 1 , . . . , p .

Exemples VI.4.5. (i) Soit (X, Y, Z) un vecteur gaussien centr de matrice de covariance

1 0 1
0 5 3 .
1 3 4
Calculons E(Y | X, Z). Daprs ce qui prcde, cette esprance conditionnelle est
de la forme X + Z. Les galits
E(XY ) = E(X 2 ) + E(XZ)
E(Y Z) = E(XZ) + E(Z 2 ) ,
conduisent au systme

0=
3 = + 4 .

Il vient = 1, = 1 et donc E(Y | X, Z) = X + Z.


(ii) Soit (X, Y ) un couple gaussien centr de matrice de covariance



4/3 1
.
1 1

Calculons E(X | Y X). On a E(X | Y X) = (Y X) et


 






E X(Y X) = E E X(Y X)  Y X = E (Y X)2 ,

7
(Y X), qui est une variable
do 7/3 = 11/3 et E(X | Y X) = 11
gaussienne centre de variance 49/33.

Le calcul des esprances conditionnelles gaussiennes est en un certain sens sufsant pour la connaissance plus prcise des lois conditionnelles. Soit (Z1 , . . . , Zn )
un vecteur alatoire gaussien, centr, et soient pour 1 k n, X = (Z1 , . . . , Zk )
et Y = (Zk+1 , . . . , Zn ). On sintresse la loi conditionnelle de X sachant que
Y = y ( Rnk ). Pour la dterminer, il nous sut de connatre sa transforme de
166
i

i
i

barbe 2007/1/8 10:41 page 167 #175

VI.4. Esprances conditionnelles dans les espaces gaussiens

Fourier conditionnelle E(eit,X | Y ), t Rk . Or, puisque t, X E(t, X | Y )


et Y sont orthogonales et donc indpendantes,
 


E(eit,X | Y ) = eiE(t,X|Y ) E ei(t,XE(t,X|Y ))  Y


= eiE(t,X|Y ) E ei(t,XE(t,X|Y ))
 
  1 

= exp iE t, X  Y E (t, X E(t, X | Y ))2 .
2
Ainsi la loi conditionnelle de X sachant Y = y est une loi gaussienne de moyenne
E(X | Y = y) (vecteur dans Rk ) et de matrice de covariance (k k)


1 i, j k .
E (Xi E(Xi | Y ))(Xj E(Xj | Y )) ,
Ceci explique quil sut de calculer des esprances conditionnelles pour connatre
les lois conditionnelles gaussiennes.
On peut galement travailler directement sur les densits. Soit par exemple
(X, Y ) un couple gaussien centr sur R2 , de matrice de covariance


a c
=
.
c b
La loi conditionnelle de X
 sachant Y = y est donne par la densit (cf.
exemple VI.3.2.iii) f (x, y)/ f (x, y) dx, o
 /
   0 
1 1 x
x
1 1
,
f (x, y) =
exp
2
2
y
y


1
1 1
=
exp (bx2 2cxy + ay 2 )
2
2
avec = dt = ab c2 > 0. On a


1
1 1
a
f (x, y) dx =
exp
2
2

1
1 1
exp

a
=

2
2
+

Ainsi
1
f (x, y)

=
f (x, y) dx
2




c2  2
c 2
b 
y
x
exp
dx
b
2
b

c2  2
y .
b



b 
c 2
b
exp
x y
,

2
b

de sorte que la loi de X conditionnelle Y = y est N (m, 2 ) avec m = (c/b)y et


2 = /b. On notera que, comme prcdemment, ne dpend pas de y. En fait,
167
i

i
i

barbe 2007/1/8 10:41 page 168 #176

Chapitre VI. Probabilits et esprances conditionnelles

on retrouve le rsultat obtenu prcdemment sous une autre mthode. En eet,


E(X | Y ) = Y o est tel que E(XY ) = E(Y 2 ), et donc = c/b ; ainsi,
2 = E((X E(X | Y ))2 ) = E((X (c/b)Y )2 ) = /b. noter que si c = 0, X et
Y sont indpendantes et E(X | Y ) = E(X) = 0 (puisque X est centre). Le cas
b = 0 (et donc c = 0) est trivial.

Exercices
Exercice VI.1. Soient X et Y des variables alatoires indpendantes, de mme
loi, intgrables. Comparer les lois des couples (X, X + Y ) et (Y, X + Y ). En
dduire que E(X | X + Y ) = E(Y | X + Y ) = (X + Y )/2.
Exercice VI.2. X1 et X2 tant les rsultats indpendants de deux jets de ds, et
S tant leur somme, quelle est la loi de X1 sachant que S est paire ?
Exercice VI.3. Soit X une variable alatoire relle quelconque, et soit a une
constante relle. Dterminer la loi de X conditionne par X a.
Exercice VI.4. Soit X une variable alatoire valeurs dans N, telle que pour
tous m, n N,
P{X m + n | X m} = P{X n}
(on dit que X est sans mmoire).
a) On pose P { X = 0 } = a. Dterminer la loi de X.
b) Soit Y une copie indpendante de X. Quelle est la loi de S = X + Y ?
Dterminer la loi conditionnelle de X sachant S = p, p N. Interprter le
rsultat.
Exercice VI.5. Soit X = (Xn )nN une suite de variables alatoires. Soit N une
variable alatoire valeurs dans N, indpendante de la suite X. Montrer que XN
est une variable alatoire. Montrer que pour tout k N, la loi de XN sachant
N = k est la loi de Xk .

Exercice VI.6. Soient X1 , . . . , Xp des variables alatoires indpendantes suivant


la loi condides lois de Poisson de paramtres respectifs 1 , . . . , p . Dterminer

tionnelle du vecteur alatoire (X1 , . . . , Xp ) sachant que 1ip Xi = n.


Exercice VI.7. Soient X1 , . . . , Xn des variables alatoires indpendantes
suivant

chacune la loi N (0, 1). Dmontrer que la loi de X1 sachant Sn = 1in Xi est
la loi N (Sn /n, 1 1/n).
Exercice VI.8. Soit X une variable alatoire suivant une loi exponentielle de
paramtre > 0. tablir que
P{X t + s | X > t} = P{X > s},

s, t 0 .

168
i

i
i

barbe 2007/1/8 10:41 page 169 #177

Exercices

Montrer que cette proprit caractrise la loi exponentielle parmi les lois densit. Prouver que limh0 h1 P { t < X < t + h | X > t } = pour tout t.

Exercice VI.9. Soient X et Y deux variables alatoires relles indpendantes de


loi N (0, 1). On pose X = R cos et Y = R sin .
a) Montrer que X + Y et X Y sont indpendantes et en dduire la loi de R2
sachant que Y = X.
Indication : on pourra crire R2 = 12 ((X + Y )2 + (X Y )2 ).
b) Montrer que R et sont indpendantes et en dduire la loi de R2 sachant
que = /4 ou 5/4 (cest--dire sachant que Y = X).
c) Pour montrer que les rsultats ne sont pas contradictoires, prciser les soustribus de conditionnement dans les deux questions.
Exercice VI.10. On se donne une matrice carre P = (Pi,j )1i,jn . Dterminer
quelle condition sur P il existe des variables alatoires X et Y valeurs dans
{ 1, . . . , n } telles que
Pi,j = P { Y = j | X = i } ,

i, j = 1, . . . , n .

On appellera une telle matrice, matrice de transition (voir chapitre VIII).


P tant une matrice de transition (loi conditionnelle de Y sachant X), on
dsigne par M le vecteur de Rn reprsentant la loi de X : Mi = P { X = i },
i = 1, . . . , n. Dmontrer que la loi de Y se reprsente par le vecteur tPM .

Exercice VI.11. Nous avons vu lexercice V.14 comment construire une


suite innie de variables alatoires indpendantes sur lespace probabilis
([ 0, 1 ], B([ 0, 1 ]), ). laide de lexercice V.14, construire sur cet espace une
suite de vecteurs alatoires indpendants de loi Pi , i N, donnes sur R2 .
Exercice VI.12. Soit P une loi sur R2 , de marges P X et P Y , et (X, Y ) de loi P .
Soit F X|y (x) la fonction de rpartition de la loi conditionnelle L(X | Y = y).
Soient U, V deux variables alatoires indpendantes et de loi uniforme sur [ 0, 1 ].
Y
Montrer que le couple (F Y (U ), F X|F (U ) (V )) est de loi P . Ceci donne un
procd de simulation dun vecteur alatoire.
Exercice VI.13. On reprend les notations de lexercice IV.13. Montrer que
P { Si+1,n s | Xi,n = x } =

 1 F (x + s) ni
1 F (x)

x R, s 0,

et que
P { Si+1,n s | Xi+1,n = x } =

 F (x s) i
F (x)

x R, s 0.
169

i
i

barbe 2007/1/8 10:41 page 170 #178

Chapitre VI. Probabilits et esprances conditionnelles

Exercice VI.14. Soient X1 , . . . , Xn des variables alatoires relles, indpendantes


et de mme loi admettant une densit f . Soit X1,n Xn,n ces variables alatoires ordonnes, et dnissons les espacements Si,n = Xi,n Xi1,n ,
2 i n, qui mesurent les distances entre les variables adjacentes (faire un
dessin). Soit

1
[0,x] (nSi,n)
Ln (x) =
n1
2in

la fonction de rpartition empirique des espacements, laquelle compte la proportion despacements plus petits que x/n. Notons

f (z)exf (z) dz .
L(x) = 1
R

Soit enn Ii,n = 1, si aucune des variables X1 , . . . , Xn ne tombe dans lintervalle


] Xi , Xi + x/n ] et Ii,n = 0 sinon.
a) Montrer que le vecteur (I1,n , . . . , In,n ) est changeable, cest--dire que sa loi
est invariante par permutation des coordonnes
(voir aussi exercice III.8).

1
b) Montrer que 1 Ln (x) = (n 1)
1in Ii,n .
c) Montrer que Ii,n suit une loi de Bernoulli de paramtre

n1 
.
E 1 F (X1 + x/n) + F (X1 )
d) valuer P { Ii,n = 1 ; Ij,n = 1 }.
e) Montrer que limn E(Ln (x)) = L(x) et que limn E(Ln (x)2 ) = L(x)2 .
Indication : Penser au thorme de convergence domine !
En dduire que Ln (x) converge vers L(x) en probabilit
f) En utilisant la continuit, la bornitude et la monotonie de L, montrer que
lim sup |Ln (x) L(x)| = 0

n xR

en probabilit.

Pour n assez grand, ce rsultat donne une ide sur la taille des carts entre les
points alatoires adjacents X1,n , . . . , Xn,n .
g) Soit maintenant h une fonction continue borne sur R. Observons que L est
la fonction de rpartition dune loi Q. Montrer que e) implique


1
h(nSi,n ) = h dQ en probabilit.
lim
n n 1
2in

loi de probabilit de
Indication : Soit Qn la

 fonction de rpartition Ln . Remarquer que (n 1)1 2in h(nSi,n ) = h dQn , puis utiliser la dnitionthorme V.4.1.
170
i

i
i

barbe 2007/1/8 10:41 page 171 #179

Exercices

Exercice VI.15. La proposition III.2.7 nous donne une faon dengendrer des
variables alatoires relles, pourvu que la fonction de quantile soit facile calculer. Ce nest pas toujours le cas en pratique. Une mthode assez ecace est
la mthode dite du rejet qui fonctionne comme suit.
Soient f , g, deux densits sur R. On souhaite simuler une variable de densit g, en supposant quon sache facilement simuler une variable de densit f , et
quil existe une constante c telle que g cf . Soit (X, U ) un couple de variables
alatoires indpendantes, respectivement de lois de densit f et uniforme sur
[ 0, 1 ].
a) Montrer que le couple (X, cU f (X)) est uniformment distribu sous le graphe
de f
f = { (x, y) R2 : 0 y f (x) } ;
cest--dire quen notant la mesure de Lebesgue sur R2 ,
A B(R2 ) ,

P { (X, cU f (X)) A } = (A f ).

Indication : Remarquer que




A(x, cuf (x))f (x) du dx =

Ax cuf (x) duf (x) dx

o Ax est la section de A selon x.


En dduire que L(X | cU f (X) g(X)) a pour densit g.
b) Soient (Ui , Xi ) des couples indpendants, de mme loi que (X, U ). Soit N0 = 0
et,
i 1.
Ni = min{ i Ni1 : cUi f (Xi ) g(Xi ) } ,
Montrer que P { N1 = k } = (1 c1 )k1 c1 et que E(N1 ) = c. Montrer que
XNi , i 1, est une suite de variables alatoires indpendantes, de lois de densit
g. Expliquer pourquoi en pratique il faut prendre c le plus petit possible.
c) Soit maintenant
p (x) = (p)1 xp1 ex ,

x 0,

p 1,

la densit de la loi p . Soit f (x) = ex , x 0. Expliquer comment simuler


des variables alatoires indpendantes de loi p partir dune suite de variables
alatoires indpendantes et uniformes sur [ 0, 1 ].

Exercice VI.16. (Processus de Poisson)


a) On considre une famille de variables alatoires (X1 , . . . , Xn ), indpendantes
et uniformment distribues sur [ 0, t ]. On note X1,n Xn,n la famille
rarrange dans lordre croissant. On dit alors que (X1,n Xn,n ) est une
n-statistique dordre sur [ 0, t ]. Donner la loi de (X1,n Xn,n ).
171
i

i
i

barbe 2007/1/8 10:41 page 172 #180

Chapitre VI. Probabilits et esprances conditionnelles

Indication : on pourra introduire les ensembles




A = (X1,n Xn,n ) = (X(1) X(n) )
pour toute permutation n lments.
b) Montrer que si (X1,n Xn,n ) est une n-statistique dordre sur [ 0, t ],
alors la loi conditionnelle de (X1,n Xn,n ) sachant { Xn,n = x } a la loi
dune (n 1)-statistique dordre sur [ 0, x ].
c) Supposons que (X1,n Xn,n ) est une n-statistique dordre sur
[ 0, t ]. Considrons des rels 0 = t0 t1 tp t et des entiers
0 = k0 k1 kp = n. Montrer que


P j = 0, . . . , p 1, i = kj + 1, . . . , kj+1 , xi,n ] tj , tj+1 ]
=

n!
tn


0jp1

(tj+1 tj )kj+1 kj
.
(kj+1 kj )!

Indication : On pourra utiliser a) et comparer le rsultat cherch une loi


multinomiale.
d) On considre une suite de variables exponentielles de paramtre , indpendantes, (Tk )k1 , et on note Sn = T1 + + Tn , n 1. Calculer la loi de
(S1 , . . . , Sn ), puis la loi de Sn . Montrer que la loi conditionnelle de (S1 , . . . , Sn )
sachant Sn+1 = s est

la loi dune n-statistique dordre sur [ 0, s ].


e) On pose Nt =
n [0,t] (Sn ). Montrer que la variable Nt est nie presque
srement. En utilisant c) et d), montrer que, pour tous 0 t1 tn , pour
tous entiers k1 , . . . , kn , on a


P Nt1 = k1 , Nt2 Nt1 = k2 . . . , Ntn Ntn1 = kn


 (ti ti1 ) ki


exp (ti+1 ti ) .
=
ki !
1in

En dduire que les variables Nti+1 Nti sont indpendantes et suivent des lois
de Poisson de paramtre (ti+1 ti ).

172
i

i
i

barbe 2007/1/8 10:41 page 173 #181

VII
MARTINGALES
( TEMPS DISCRET)

La notion de martingale est une notion fondamentale du calcul des probabilits. Elle a son origine en thorie des jeux et introduit le temps dans lanalyse
probabiliste. Sa donne fondamentale est celle dune famille croissante (Ft )t0 de
tribus reprsentant lvolution de linformation avec le temps. Dans cette tude,
nous nous contenterons de lexamen de modles temps discret.

VII.1. Gnralits
Definition VII.1.1. Sur un espace probabilis (, F, P ), on appelle ltration
toute suite croissante (Fn )nN de sous-tribus de F (on pourra prendre pour F
la tribu, note F , engendre par les tribus Fn , n N).
Intuitivement, la tribu Fn contient tous les vnements qui peuvent survenir
avant linstant n.

Definition VII.1.2. Une suite de variables alatoires relles (Xn )nN dnies
sur (, A, P ) est appele un processus. De plus, on dit que le processus est
adapt la ltration (Fn )nN si pour tout n N la variable alatoire Xn est
Fn -mesurable.

i
i

barbe 2007/1/8 10:41 page 174 #182

Chapitre VII. Martingales ( temps discret)

Definition VII.1.3. Soit un processus adapt (Xn , Fn )nN tel que Xn est intgrable pour tout n. On dit que le processus est
(i) une martingale, si pour tous 0 m n,
E(Xn | Fm ) = Xm

p.s.;

(ii) une sur-martingale, si pour tous 0 m n,


E(Xn | Fm ) Xm

p.s.;

(iii) une sous-martingale, si pour tous 0 m n,


E(Xn | Fm ) Xm

p.s.

En particulier, un processus adapt (Xn , Fn )nN est une martingale si et seulement si cest la fois une sur- et une sous-martingale. Cest une sous-martingale
si et seulement si le processus adapt (Xn , Fn )nN est une sur-martingale. Par
consquent, nous nous contenterons parfois dnoncer des rsultats pour des surou des sous-martingales.
On voit que (Xn , Fn )nN est une martingale (resp. une sur-martingale, sousmartingale) si et seulement si E(Xn Xm | Fn ) = 0 (resp. 0, 0) pour tous
m n, ce qui quivaut ce que pour tout A Fn , A (Xn Xm ) dP = 0 (resp.
0, 0.)
Il sut de vrier la dnition VII.1.3 pour tous n et m = n 1. En eet,
daprs les proprits de conditionnements successifs des esprances conditionnelles, si m < n,

E(Xk Xk1 | Fm )
E(Xn Xm | Fm ) =
m+1kn

E(Xk Xk1 | Fk1 | Fm ) = 0

m+1kn

(resp. 0, 0).
Observons aussi que si (Xn , Fn )nN est une martingale (resp. sur-martingale,
resp. sous-martingale), la suite (E(Xn ))nN est constante (resp. dcroissante, resp.
croissante) car E(Xn ) = E(E(Xn | Fn1 )) = E(Xn1 ) (resp. E(Xn1 ), resp.
E(Xn1 )).
Parfois, nous ne considrerons que des martingales, des sur-martingales ou des
sous-martingales (Xn , Fn )0nk indexes sur un nombre ni dinstants. On peut
aussi dmarrer ces processus n = 1 au lieu de n = 0.
174
i

i
i

barbe 2007/1/8 10:41 page 175 #183

VII.1. Gnralits

Si Xn reprsente la fortune dun joueur linstant n, dire que (Xn ) est une
martingale signie que le jeu est quilibr, au sens o la connaissance des parties
passes ne donne pas, en moyenne, davantage pour la partie venir.

Exemples VII.1.4. (i) Soit Z une variable alatoire intgrable sur (, F, P ) et


(Fn )nN une ltration de F. Posons Xn = E(Z | Fn ), n N. Alors (Xn , Fn )nN
est une martingale.
(ii) Soient Zn , n 1, des variables alatoires indpendantes sur (, F, P ), intgrables et de moyenne M (i.e. E(Zn ) = M ). On dsigne par Fn la tribu engendre par Z1 , . . . , Zn . La suite (Fn )n1 est une ltration. Considrons les sommes
Xn = Z1 + + Zn , n 1. Alors (Xn , Fn )n1 est une martingale (resp. surmartingale, resp. sous-martingale) si M = 0 (resp. M < 0, resp. M > 0). En
eet, si n 2, par les proprits des esprances conditionnelles (IV.2.2),
E(Xn | Fn1 ) = E(Z1 + + Zn1 + Zn ) | Fn1 )
= E(Xn1 | Fn1 ) + E(Zn | Fn1 )
= Xn1 + M .
(iii) Soit (Xn , Fn )nN une martingale ; soit une fonction convexe sur R telle
que (Xn ) soit intgrable pour tout n N. Alors ((Xn ), Fn )nN est une sousmartingale ; en eet, lingalit de Jensen VI.2.2.iv fournit, pour n m,





E (Xn )  Fm E(Xn | Fm ) = (Xm ).
Noter en particulier le choix de (x) = |x| ou (x) = x2 . Le rsultat est bien sr
encore vrai si (Xn , Fn )nN est une sous-martingale et si est en outre croissante.
Par dnition, une sous-martingale (resp. sur-martingale) est un processus
croissant (resp. dcroissant) en moyenne conditionnelle, et donc en moyenne. Le
rsultat suivant, la dcomposition de Doob, nous dit quune sous-martingale (resp.
sur-martingale) peut toujours tre vue comme une martingale laquelle est ajoute un processus croissant (resp. dcroissant). De plus, ce processus monotone
(Zn )nN peut tre pris non seulement adapt (Fn )nN mais (Fn1 )nN , o
lon convient que F1 est la tribu triviale { , }. Autrement dit, idalement, la
valeur de Zn peut tre parfaitement prdite linstant n 1.

Theor`eme VII.1.5 (decomposition de Doob). Soit


(Xn , Fn )nN
une
sousmartingale. Il existe des processus (Yn )nN et (Zn )nN uniques presque srement,
tels que
(i) (Yn , Fn )nN est une martingale ;
175
i

i
i

barbe 2007/1/8 10:41 page 176 #184

Chapitre VII. Martingales ( temps discret)

(ii) Z0 = 0 et Zn est Fn1 -mesurable pour tout n N (avec la convention


F1 = { , }) et presque srement croissant, i.e. Zn Zn+1 p.s. pour tout
n N;
(iii) Xn = Yn + Zn pour tout n N.
Dmonstration. Une martingale est en moyenne constante. Donc le processus Zn

doit cumuler les sauts de la sous-martingale Xn . Ceci conduit considrer les


dirences n = Xn Xn1 , n 1. Soit Z0 = 0, Y0 = X0 et pour tout n 1,

E(i | Fi1 ) et Yn = Xn Zn .
Zn =
1in

Le processus Zn est croissant (car E(n | Fn1 ) 0) et Yn est une Fn -martingale


puisque
E(Yn | Fn1 ) = E(Yn Yn1 | Fn1 ) + Yn1


= E n (Zn Zn1 ) | Fn1 + Yn1
= E(n | Fn1 ) (Zn Zn1 ) + Yn1
= Yn1
(nous avons utilis la Fn1 -mesurabilit de Zn , et le fait que Zn1 est
Fn2 -mesurable, donc aussi Fn1 -mesurable).
Pour dmontrer lunicit de la dcomposition, soit (Yn , Zn ) une autre dcomposition vriant (i)(iii). Alors Z0 = Z0 = 0 et donc Y0 = Y0 . Par rcurrence,
supposons Zj = Zj et Yj = Yj pour tout 0 j n. Alors



= E(Zn+1
| Fn ) = E(Xn+1 Yn+1
| Fn ) = E(Xn+1 | Fn ) Yn
Zn+1

= E(Yn+1 + Zn+1 | Fn ) Yn = Yn Yn + Zn+1 .



= Zn+1 p.s., et donc
En utilisant lhypothse de rcurence, il vient Zn+1


Yn+1 = Yn+1 p.s., ce qui prouve lunicit de la dcomposition.

Intimement lie la notion de martingale se trouve tre celle de temps darrt.

Definition VII.1.6. Sur (, F, P ) muni dune ltration (Fn )nN , une variable
alatoire T : N { } est appele un temps darrt si lon a
{ T n } Fn pour tout n N.
Il est immdiat que lon pourrait dnir un temps darrt T comme tant
une variable alatoire valeurs dans N telle que { T = 
n } Fn (puisque
{ T = n } = { T n } { T n 1 }c et { T n 1 } = 1in1 { T = i }).
176
i

i
i

barbe 2007/1/8 10:41 page 177 #185

VII.1. Gnralits

Nanmoins cette seconde dnition ne se gnralise pas convenablement au cas


des martingales temps continu (i.e. on ne dispose plus dune suite (Xn ) indexe
par les entiers mais dune fonction Xt indexe par R).
Si T est un temps darrt, on dnit la tribu des vnements antrieurs T
en posant


FT = A F : A { T n } Fn pour tout n N .
On obtient bien sr une dnition quivalente en remplaant lvnement
{ T n } par lvnement { T = n }. On vrie immdiatement que FT est effectivement une tribu et que T est FT -mesurable.

Exemple VII.1.7. Soit (Xn , Fn )nN un processus adapt. Soit t un nombre rel et
T = min{ n N : Xn t } avec T = sil nexiste pas de tel n. Alors T est un
temps darrt puisque
{ T n } = { m n : Xm t } Fn
et { T } = F .
Dans la suite, lorsque nous parlerons de temps darrt, il sera toujours sousentendu par rapport une ltration (Fn )nN .
Notons prsent quelques proprits des temps darrt : si S et T sont deux
temps darrt, alors S T et S T sont aussi des temps darrt. En particulier,
une variable S constante tant un temps darrt, pour tout m N, T m est un
temps darrt. On a aussi la proposition suivante.

Proposition VII.1.8. Soient S et T deux temps darrt, tels que S T (partout) ;


alors FS FT .
Dmonstration. Soit A FS . Puisque S T , pour tout n N,



A {T n} = A {S n} {T n}

est bien lment de Fn car intersection de deux lments de Fn .

Montrons maintenant que dun point de vue probabiliste il est raisonnable de


sintresser lobjet XT , cest--dire au processus (Xn )nN vu linstant alatoire T .

Lemme VII.1.9. Si (Xn , Fn )nN est un processus adapt et si T est un temps


darrt de la ltration (Fn )nN , on dnit, une variable alatoire XT en posant XT () = XT () () si T () < (la valeur F-mesurable de XT () quand
T () = + est indirente). Alors XT est FT -mesurable.
177
i

i
i

barbe 2007/1/8 10:41 page 178 #186

Chapitre VII. Martingales ( temps discret)


Dmonstration. Si B est un borlien de R et n un entier,

{ XT B } { T n } =

{ Xk B ; T = k }

0kn

qui est clairement mesurable par rapport Fn puisque Xk est Fk -mesurable pour
tout k.

Nous avons commenc par dnir les martingales, puis la notion de temps
darrt, et venons de montrer que si T est un temps darrt de la martingale, alors
XT est une variable alatoire. Remarquons que la dnition dune martingale (Xn )
suppose que chaque Xn est intgrable. Il est naturel dtudier lintgrabilit de XT .
En gneral, cette variable alatoire na aucune raison dtre intgrable. Une classe
naturelle de martingales considrer pour conserver la proprit dintgrabilit
par arrt est la classe des martingales dites L1 .

Definition VII.1.10. Une martingale (Xn , Fn )nN est dite L1 si




sup Xn 1 = sup E |Xn | < .
nN

nN

Proposition VII.1.11. Soit (Xn , Fn )nN une martingale L1 et T un temps darrt ni p.s. (i.e. P { T < } = 1). Alors XT est intgrable et de plus
E(|XT |) supnN E(|Xn |).
Dmonstration. Soit la fonction

(a, b) = |a| |b| (a b) signe(b) = |a| a signe(b) 0 ,

a, b R .

Soit m N. Pour le temps darrt T m, observons que



|Xi |{i} (T ) + |Xm |[m,)(T ) ,
|XT m | =
0im1

et donc
|XT m | |X0 | =


|Xi+1 | |Xi | ]i,[(T ) .

0im1

Puisque (Xn , Fn )nN est une martingale et signe(Xi ) et ]i,[(T ) sont


Fi -mesurables,


E (Xi+1 Xi )signe(Xi )]i,[ (T )



= E E(Xi+1 | Fi ) Xi signe(Xi )]i,[(T ) = 0 .
178
i

i
i

barbe 2007/1/8 10:41 page 179 #187

VII.1. Gnralits

Ainsi, en utilisant la positivit de ,




E |XT m | |X0 | =


0im1

0im1



E (Xi+1 , Xi )]i,[ (T )


E (Xi+1 , Xi )


E |Xi+1 | |Xi |

0im1





= E |Xm | E |X0 | .
Donc pour tout m N,






E |XT m | E |Xm | sup E |Xn | .
nN

Puisque T < p.s., limm |XT m | = |XT | p.s. et en utilisant le lemme de


Fatou II.2.3,






E |XT | lim inf E |XT m | sup E |Xn | < ,
m

nN

ce qui dmontre lintgrabilit de XT .

Pour une martingale (Xn , Fn )nN et une suite de temps darrt (Tn )nN , la
proposition VII.1.11 donne une condition susante pour vrier la condition
dintgrabilit E(|XTm |) < ; il sut que la martingale soit L1 . Pour les surou les sous-martingales, une condition susante (et plus restrictive) est davoir
Tm < tm < p.s. o tm est une suite dterministe. En eet, dans ce cas,






|Xn | dP
E |Xn | < .
E |XTm |
1ntm

{T =tn }

1ntm

Le thorme suivant, le thorme darrt de Doob, est fondamental. Il exprime


quun jeu reste quilibr tout temps (darrt) alatoire.

Theor`eme VII.1.12 (darret de Doob). Soit (Xn , Fn )nN une sous-martingale


(resp. une sur-martingale, resp. une martingale), et soit (Tm )mN une suite de
temps darrt borns de la ltration (Fn )nN , et tels que Tn Tm pour tous
n m. Alors, le processus (XTm , FTm )mN est une sous-martingale (resp. une
sur-martingale, resp. une martingale).
179
i

i
i

barbe 2007/1/8 10:41 page 180 #188

Chapitre VII. Martingales ( temps discret)


Dmonstration. Daprs le lemme VII.1.9, les XTm sont FTm -mesurables. Il ne reste

plus qu vrier lingalit des sous-martingales (resp. des sur-martingales, resp.


des martingales). Nous nous contentons du cas des sous-martingales, les autres
cas se traitant de faon tout fait identique. Comme les temps darrt Tm sont
borns, il sut de considrer une sous-martingale (Xn , Fn )1nk et deux temps
darrt S et T de la ltration (Fn )1nk tels que S T et de montrer que
E(XT | FS ) XS .
Nous montrons cet eet que pour tout A FS ,

(XT XS ) dP 0
A

(prendre A = { E(XT | FS ) < XS } pour conclure).


Nous examinons dabord le cas o la dirence T S { 0, 1 }. Dans ce cas,
on crit pour tout A FS ,


(XT XS ) dP =
(XT Xn ) dP
A

1nk

A{S=n}

1nk

A{S=n}{T =n}

(Xn+1 Xn ) dP

0
puisque (Xn , Fn )1nk est une sous-martingale, A { S = n } Fn et
{ T = n } = { T = n }c Fn .
Pour en dduire le cas gnral, on pose Rl = min(T, S + l), 1 l k. Les Rl
sont des temps darrt de (Fn )1nk . Observons en outre que R0 = S et Rk = T .
De plus Rl+1 Rl et Rl+1 Rl { 0, 1 }. Maintenant, si A FS , alors A FRl
(proposition VII.1.8) et, daprs le premier cas,


(XT XS ) dP =
(XRl+1 XRl ) dP 0 .
A

Le thorme est tabli.

1lk

Si (Xn , Fn )1nk est une sous-martingale, et si T est un temps


darrt de la ltration (Fn )1nk , le thorme darrt VII.1.12 implique
E(X1 ) E(XT ) E(Xk ).
Le thorme suivant est une consquence du thorme darrt par lintermdiaire de ce corollaire. Cest un nonc faisant partie des ingalits dites
maximales.
180
i

i
i

barbe 2007/1/8 10:41 page 181 #189

VII.1. Gnralits

Theor`eme VII.1.13. Soit (Xn , Fn )1nk une sous-martingale ; pour tout t > 0,
P

max Xn t

1nk

E(Xk+ )
.
t

Dmonstration. On considre le temps darrt

T = min{ 1 n k : Xn t }
ou T = k si cet ensemble est vide. On notera que si max1nk Xn t, alors
XT t, et si max1nk Xn < t, alors XT = Xk . Ainsi, par le thorme darrt VII.1.12, plus prcisment sa consquence ci-dessus,


XT dP +
XT dP
E(Xk ) E(XT ) =
{ max1nk Xn <t }

{max1nk Xn <t}

Par consquent,



tP max Xn t
1nk

puisque Z A

Z+

{max1nk Xn t}

Xk dP + tP

{max1nk Xn t}


max Xn t .

1nk

Xk dP E(Xk+ )

pour toute variable Z et tout vnement A.

Si (Xn , Fn )nN est une martingale, alors (|Xn |, Fn )nN est une sousmartingale, et donc, pour tout k N et tout t > 0,


E |Xk |
.
P { max |Xn | t }
0nk
t
Observons que la suite ([t,[ (max0nk |Xn |))kN est croissante et majore par 1,
et converge presque srement vers [t,[ (supnN (|Xn |)). On dduit donc de lingalit prcdente et du thorme de convergence domine (II.2.8) que pour une
martingale L1 ,


1
P { sup |Xn | t } sup E |Xn | .
t nN
nN
En particulier, supnN |Xn | < p.s. Lorsque de plus Xn est de carr intgrable,
(Xn2 , Fn )nN est une sous-martingale (exemple VII.1.4.iii). Le thorme VII.1.12
fournit dans ce cas,




1
P max |Xn | t P max Xn2 t2 2 E(Xk2 ) .
1nk
1nk
t
Par exemple, si Xn = Z1 + + Zn o les Zi sont indpendantes centres et de
carr intgrable, on retrouve par ces mthodes lingalit de Kolmogorov (exercice IV.16).
181
i

i
i

barbe 2007/1/8 10:41 page 182 #190

Chapitre VII. Martingales ( temps discret)

VII.2. Thormes de convergence


Il convient de remarquer que la dnition dune sur-martingale est peu prs
celle dune suite qui en tendance, conditionnellement au pass, dcrot. Il est bien
connu en analyse quune suite dcroissante minore converge. Lun des buts de
cette partie est de dmontrer le rsultat analogue pour les sur-martingales. La
condition de minoration des suites relles (inf n xn > ) implique la bornitude
et deviendra ici une condition de bornitude desprance, supn E(|Xn |) < . On
peut imaginer alors limportance dun tel thorme de convergence.
Avant de montrer la convergence des sur-martingales, nous montrerons celle
des martingales L1 , et conclurons grce la dcomposition de Doob. Ltude de
la convergence des martingales fournira dans certaines situations une alternative
lutilisation du lemme de Borel-Cantelli V.1.2.
Toujours par analogie avec ltude des suites relles, observons que pour
quune suite relle (xn )nN converge, il sut (mais ce nest pas ncessaire) que
pour
croissante dentiers nj , j N, avec n0 = 0, on ait

toute suite strictement


2 < . En eet, si (x )
(x

x
)
nj
n nN ne converge pas, elle ne vrie pas
jN nj+1
le critre de Cauchy ; alors il existe > 0 et une suite

croissante nj avec par


exemple n0 = 0 telle que |xnj+1 xnj | , et donc jN (xnj+1 xnj )2 = .
Si nous voulons quune martingale converge p.s., nous pouvons tenter dutiliser
ce critre de convergence pour presque tout ala . Lanalogue de la suite croissante nj est naturellement une suite croissante de temps darrt. Nous pouvons
maintenant noncer puis dmontrer la convergence des martingales L1 .

Theor`eme VII.2.1 (de convergence des martingales). Soit (Xn , Fn )nN une martingale L1 . Alors limn Xn existe p.s.
Dmonstration. En suivant le commentaire prcdent, montrons dabord que pour

toute suite presque

srement croissante de temps darrt borns, (Tn )nN , avec


T0 = 0 p.s., la srie nN (XTn+1 XTn )2 converge p.s.
Puisque le dveloppement (XTn+1 XTn )2 = XT2n+1 + XT2n 2XTn+1 XTn fait
apparatre des carrs et que nous supposons seulement que les Xn sont intgrables,
nous utilisons une troncature. La dmonstration est alors dans le mme esprit que
celle de la proposition VII.1.11.
Pour tout p > 0, soit p la fonction positive, convexe, drivable, dnie par
p (x) =

#
x2
2p|x|

si |x| p,
p2

si |x| p.

182
i

i
i

barbe 2007/1/8 10:41 page 183 #191

VII.2. Thormes de convergence

Soit de plus la fonction positive


p (x, y) = p (y) p (x) (y x) (x) ,

x, y R .

Observons que p (x, y) = (y x)2 si |x| |y| p et que de plus p (x) 2p|x|
pour tout x R. Considrons la variable alatoire X = supnN |Xn | qui est bien
dnie daprs la discussion suivant lingalit maximale VII.1.13. Pour tout k,


(XTn+1 XTn )2 [0,p] (X )
E
0nk

=E


0nk

0nk

=E


p (XTn , XTn+1 )[0,p] (X )

p (XTn , XTn+1 )

(puisque p 0)


p (XTn+1 ) p (XTn ) (XTn+1 XTn )p (XTn )

0nk






E (XTn+1 XTn )p (XTn ) .
= E p (XTk+1 ) E p (XT0 )


0nk

Daprs le thorme darrt VII.1.12, (XTn , FTn )nN est une martingale. Ainsi,
 





E (XTn+1 XTn )p (XTn ) = E E XTn+1 XTn  FTn p (XTn ) = 0 .
Il sensuit que






(XTn+1 XTn )2 [0,p] (X ) E p (XTk+1 ) E p (X0 )
E
0nk



2pE |XTk+1 |


2p sup E |Xn | < .

(1)

nN

Supposons alors que la martingale (Xn , Fn )nN ne converge pas presque srement.
Considrons lvnement


|Xm Xn | > .
A=
nN mn

La discussion suivant la dnition V.1.1 montre quil existe > 0 tel que
P (A) > 2. Par convergence monotone, P (A { X p }) > pour tout p assez
grand.
183
i

i
i

barbe 2007/1/8 10:41 page 184 #192

Chapitre VII. Martingales ( temps discret)

Dnissons alors la suite croissante de temps darrt (Tn )nN par T0 = 0 et


pour tout n 0,


Tn+1 = min m > Tn : |Xm XTn | >
si Tn < (et Tn+1 = si Tn = ). Soit N un entier positif. Lgalit (1)
applique aux temps darrt Tn N montre que





(XTn+1 N XTn N )2
2p sup E |Xn | E A [0,p] (X )
nN

E
2

0nk

A [0,p] (X )card{ 0 n k : Tn+1 N } .

Par convergence monotone (en k et N ),






2 E A [0,p](X )card{ n N : Tn < } 2p sup E |Xn | .

(2)

nN

Nous avons montr que lvnement A {X p} a une probabilit positive ; or


si lvnement A a lieu, alors lensemble { n N : Tn < } est inni, ce qui
contredit (2).

Comme annonc, nous dduisons de la convergence des martingales L1 celle
des sous-martingales.

Corollaire VII.2.2. Soit (Xn , Fn )nN une sous-martingale (resp. sur-martingale),


telle que supnN E(|Xn |) < . Alors limn Xn existe p.s.
Dmonstration. Soit Xn = Yn + Zn la dcomposition de Doob 1.5 de la sousmartingale (Xn , Fn )nN . Comme Zn 0 p.s., supn E(|Yn |) < et, par convergence monotone,
E(sup Zn ) = sup E(Zn ) < .
n

Ainsi, le processus (Zn ) est croissant et born p.s., donc converge p.s. La martingale (Yn ) est quant elle dans L1 , donc converge p.s. daprs le thorme VII.2.1.
La convergence presque sre de la sous-martingale (Xn , Fn )nN sen dduit. 
Lnonc suivant dcrit les martingales uniformment intgrables.

Theor`eme VII.2.3. Soit (Xn )nN une suite de variables alatoires adaptes la
ltration (Fn )nN ; pour que (Xn ) soit une martingale uniformment intgrable
(relativement (Fn )nN ), il faut et il sut quil existe une variable alatoire
intgrable Y telle que Xn = E(Y | Fn ) p.s. pour tout n.
184
i

i
i

barbe 2007/1/8 10:41 page 185 #193

VII.2. Thormes de convergence


Dmonstration. Si (Xn ) est uniformment intgrable, par le corollaire VII.2.2 et

le thorme V.VII.3.5, Xn converge p.s. vers X et aussi dans L1 . On choisit


Y = X , pour lequel il faut vrier que E(Y | Fn ) = Xn p.s. pour tout n. Or
pour tout m n, E(Xm | Fn ) = Xn et




E E(Y |Fn ) E(Xm |Fn ) E |Y Xm |
qui tend vers 0 lorsque m .
Rciproquement, il faut montrer luniforme intgrabilit de toute suite du type
(E(Y | Fn ))nN . Cela se fait en revenant la dnition. Soit Xn = E(Y | Fn ).
Pour tout n N et tout c > 0,







|Xn | dP
E |Y |  Fn dP E |Y |]c,[(|Xn |)
{|Xn |>c}

{|Xn |>c}

Y est intgrable, pour tout > 0, il existe


puisque Xn est Fn -mesurable. Comme

> 0 tel que P (A) assure A |Y | dP . Or, pour chaque n,
 1  
 1 
 1 

P |Xn | > c E |Xn | = E E(Y |Fn ) E |Y | .
c
c
c
Donc, si c0 = E(|Y |)/, pour tout c > c0 ,


sup E |Y |]c,[ (|Xn |) ,
n

et la conclusion sensuit.

On peut aussi dmontrer des thormes de convergence presque sre pour des
ensembles dindices ltrant gauche, et ceux-ci sont parfois bien utiles. Une telle
situation est par exemple le cas des entiers ngatifs, ou de faon quivalente, de
lensemble des entiers naturels avec un ordre renvers.

Definition VII.2.4. Sur (, F, P ), soient une suite dcroissante (Fn )nN de


sous-tribus de F, et (Xn )nN une suite de variables alatoires intgrables adaptes (Fn )nN . La suite (Xn , Fn )nN est une martingale (resp. sur-martingale,
resp. sous-martingale) renverse, si, lorsque m n,
E(Xm | Fn ) = Xn p.s.
(resp. E(Xm | Fn ) Xn , resp. E(Xm | Fn ) Xn ).
Le thorme suivant se dmontre en utilisant le mme schma que pour lordre
habituel. Les hypothses sont quelques peu modies. Cest lanalogue du thorme danalyse armant que toute suite de rels croissante et majore converge.
185
i

i
i

barbe 2007/1/8 10:41 page 186 #194

Chapitre VII. Martingales ( temps discret)

Theor`eme VII.2.5. Soit (Xn , Fn )nN une sur-martingale renverse telle que
supnN E(Xn ) < . Alors les variables alatoires Xn convergent p.s. vers une
variable alatoire intgrable X .
Notons en particulier quune martingale renverse est toujours p.s. convergente
(puisque la suite (E(Xn ))nN est constante).
Nous omettons la dmonstration du thorme VII.2.5. Elle est tout fait
semblable celle du thorme VII.2.1 ; il sut de noter que, puisque Xn est une
sous-martingale renverse, pour tout n,


E |Xn | = E(Xn ) + 2E(Xn ) sup E(Xk ) + 2E(X0 ) ,
kN

et donc supnN E(|Xn |) < . Cette hypothse sut alors pour appliquer le
schma usuel.

Remarque. Il est possible de dmontrer que sous les hypothses du thorme,


la suite (Xn )nN est uniformment intgrable. La convergence a donc aussi lieu
dans L1 .

VII.3. Application la loi des grands nombres


Soient Zn , n 1, des variables alatoires relles, indpendantes, de mme
loi, dnies sur (, F, P ), et telles que E(|Z1 |) < . Pour tout n 1, posons
Sn = Z1 + + Zn .
Nous allons vrier que Xn = Sn /n, n 1, est une martingale renverse pour
la ltration Fn = (Sn , Sn+1 , . . .), n 1. cet eet, il nous sut de montrer que
pour tout n 1,
E(X1 | Fn ) = Xn p.s.,
car si cest le cas, pour tout m n,
E(Xm | Fn ) = E(X1 | Fm | Fn ) = E(X1 | Fn ) = Xn .
Notons en outre que X1 = Z1 . Or, par linarit, on peut crire, pour tout n 1,

E(Zi | Fn ) .
Sn = E(Sn | Fn ) =
1in

La tribu Fn est aussi engendre par Sn , Zn+1 , Zn+2 , . . . Comme les Zi sont indpendantes, la proposition VI.2.2.viii montre que


E(Zi | Sn , Zn+1 , Zn+2 , . . .) =
E(Zi | Sn ) .
Sn =
1in

1in

186
i

i
i

barbe 2007/1/8 10:41 page 187 #195

VII.3. Application la loi des grands nombres

Les Zi ayant mme loi, il vient ensuite


E(Zi | Sn ) = nE(Z1 | Sn ) = nE(Z1 | Fn ) = nE(X1 | Fn ) ,

1in

do le rsultat.
En vertu du thorme VII.2.5, Xn converge p.s. Par la loi du 01 (IV.3.3), la
limite est non alatoire. Notons la a. Il ne reste plus qu montrer que a = E(X1 ).
Ceci sera en particulier le cas si la suite (Xn )n1 est uniformment intgrable
puisqualors Xn convergera dans L1 vers a, et donc E(Xn ) a. Cela fournira
le rsultat puisque E(Xn ) = E(X1 ) pour tout n. Daprs la remarque suivant le
thorme VII.2.5, une martingale renverse est toujours uniformment intgrable.
La dmonstration est identique la deuxime partie du thorme VII.2.3. Pour
tout c > 0 et tout n 1,



1
|Xn | dP
|Zi | dP =
|Z1 | dP .
n
{|Xn |>c}
{|Sn /n|>c}
{|Sn /n|>c}
1in

Soit > 0 x, et soit > 0 tel que si P (A) alors


c > 0 et tout n,

A |Z1 | dP

. Pour tout


 1 


1 
E |Sn | E |Z1 | ,
P |Sn /n| > c
nc
c
de sorte que si c0 = E(|Z1 |)/, pour tout c c0 et tout n 1,



{|Xn |>c}

|Xn | dP

{|Sn /n|>c}

|Z1 | dP .

La suite (Xn )n1 est donc bien uniformment intgrable.


En rsum, nous venons de dmontrer la loi forte des grands nombres :

Theor`eme VII.3.1. Soit (Zi )i1 une suite de variables alatoires indpendantes et
de mme loi et soit Sn = Z1 + + Zn , n 1. Alors
lim



Sn
= E(Z1 ) p.s. si et seulement si E |Z1 | < .
n

En fait, nous navons fait que dmontrer une partie de la loi des grands
nombres, i.e. que E(|Z1 |) < implique la loi forte. La rciproque a t tablie dans le thorme V.5.2.
187
i

i
i

barbe 2007/1/8 10:41 page 188 #196

Chapitre VII. Martingales ( temps discret)

Exercices
Exercice VII.1. Soit (Xn )n1 une suite de variables alatoires indpendantes, de
mme loi de Bernoulli P { Xn = 0 } = P { Xn = 2 } = 1/2. Pour tout
$ n 1, on
dsigne par Fn la tribu engendre par X1 , . . . , Xn , et lon pose Zn = 1kn Xk .
Dmontrer que (Zn )n1 est une martingale par rapport la ltration (Fn )n1
qui nest pas uniformment intgrable.

Exercice VII.2. Soient c1 , . . . , ck des rels tels que 1ik ci = 0. Soit une
permutation alatoire de { 1, 2, . . . , k } uniformment rpartie sur le groupe des
permutations de k lments, cest--dire telle que pour toute permutation de
k lments, P { = } = 1/k!. Soit
Xn =


k
c(i)
kn
1in

et soit la suite de tribus Fn = ((1), . . . , (n)), 1 n k. Montrer que


(Xn , Fn )1nk est une martingale.
Indication : Montrer que
Xn Xn1 =



k 
1
c(n)
c(i) ,
kn
kn+1
nik

puis montrer que pour tout n i k, L((i) | (1), . . . , (n 1)) est la loi
uniforme sur { 1, 2, . . . , n } \ { (1), . . . , (n 1) }.

Exercice VII.3. (Urne de Polya) Une urne contient n boules noires et b boules
blanches. Une boule est tire au hasard, selon une probabilit uniforme sur les
boules dans lurne. Elle est remise dans lurne, et on ajoute aussi a boules de
la couleur tire. On itre cette procdure de tirage-ajout. Soit X0 = n/(n + b)
la proportion de boules noires initialement dans lurne, et soit Xk la proportion
de boules noires la k-ime tape du tirage-ajout. Montrer que Xk est une
martingale, pour la suite de tribus Fk = (X1 , . . . , Xk ). Montrer que cette
martingale converge, et donc que la proportion de boules noires converge vers
une proportion a priori alatoire Y .
Note : On peut montrer, mais cela demande un peu de calcul, que Y a pour loi
une loi de densit


n+b
n
b
a
 n   b  (1 x) a 1 x a 1 ,
0<x<1
a a
(voir par exemple Feller (1971)).
188
i

i
i

barbe 2007/1/8 10:41 page 189 #197

Exercices

Exercice VII.4. (Lemme de Wald.) Soit (Xn )n1 une suite de variables alatoires
indpendantes, de mme loi, et soit, pour tout n 1, Sn = X1 + + Xn . Soit
en outre T un temps darrt intgrable relatif la ltration engendre par cette
suite. Dmontrer que E(ST ) = E(X1 )E(T ).
Exercice VII.5. Sur (, F, P ), soit (Xn )n1 une suite de variables alatoires
relles indpendantes, de mme loi. Pour tout n 1, soit Fn la tribu engendre
par X1 , . . . , Xn . On note les sommes partielles Sn = X1 + + Xn , n 1. On
convient que S0 = 0 et, pour tout x R, on dsigne par E x lesprance dnie
par E x () = E( + x). On parle alors de la marche alatoire Sn partant de x au
temps 0.
a) Soit N 1 un entier x et soit T un temps darrt valeurs dans { 1, . . . , N }
de la ltration (Fn )1nN . Dmontrer que, pour tout n 1, Sn+T ST est
indpendant de FT et de mme loi que Sn .
b) Dduire de la question prcdente que pour toute fonction borlienne borne
sur R, et tout n 1,





E (Sn+T )  FT = E ST (Sn )

p.s.

Exercice VII.6. Soit (Xn , Fn )1nk une martingale de carr intgrable. On dnit X = max1nk |Xn |. En utilisant lingalit maximale de Doob, dmontrer que


E (X )2 4E(Xk2 ) .
Exercice VII.7. Sur un espace probabilis (, F, P ), soit (Mn )1nk une martingale par rapport une ltration (Fn )1nk et soit (Hn )1nk une famille
de variables alatoires sur (, F, P ) telles que Hn soit mesurable par rapport
Fn1 , pour tout n = 1, . . . , k (avec la convention F0 = { , }).
Soit a > 0 ; on dnit T = min{ 1 n k 1 : |Hn+1 | > a } et T = k si
lensemble dont on prend le minimum est vide. Dmontrer que T est un temps
darrt de la ltration (Fn )1nk . On pose, pour tout n = 1, . . . , k,
Xn =

Hi (Mi Mi1 )

1iT n

(M1 = 0). Dmontrer que (Xn )1nk est une martingale de (Fn )1nk .

Exercice VII.8. On considre une variable alatoire T valeurs dans N, de loi


gomtrique
P { T = n } = a(1 + a)n1 ,

n N,

189
i

i
i

barbe 2007/1/8 10:41 page 190 #198

Chapitre VII. Martingales ( temps discret)

o a est un rel positif donn. On appelle Fn la plus petite tribu rendant mesurable la variable T n, n N. Vrier que la famille de tribus (Fn )nN est une
ltration. Dmontrer que Fn est engendre par une partition de n + 1 atomes
que lon prcisera.
a) Dmontrer que, pour tout n,


E {T n+1} | Fn = (1 + a)1 {T n} .
b) Dduire de la question prcdente que


E T (n + 1) | Fn = T n + (1 + a)1 {T n} .
c) Pour quelle valeur du paramtre rel le processus
Xn = (T n) + {T n} ,

n N,

est-il une martingale par rapport la ltration (Fn )nN ?


d) En prenant pour la valeur trouve la question c), calculer lesprance
conditionnelle E((Xn+1 Xn )2 | Fn ). En dduire que le processus
Xn2 a(T (n 1)) ,

n 1,

est une martingale par rapport la ltration (Fn )nN .


Exercice VII.9. Soient X1 , . . . , Xn des variables alatoires indpendantes sur
(, A, P ), valeurs dans Rd ; on considre une norme quelconque   sur
Rd , et on suppose que E(Xi 2 ) < pour tout i = 1, . . . , n. Posons
Sn = X1 + + Xn .
Dsignons par Ai , 1 i n, la sous-tribu de A engendre par les variables
X1 , . . . , Xi et par A0 la tribu triviale compose de et . Pour tout i = 1, . . . , n,
posons
 




di = E Sn   Ai E Sn   Ai1 .
a) tablir que




di .
Sn  E Sn  =
1in

Dmontrer que pour tous i < j, E(dj | Ai ) = 0, et que, de plus, les variables di ,
i = 1, . . . , n, sont orthogonales.
b) Dmontrer que pour tout i = 1, . . . , n,
 




E Sn Xi   Ai = E Sn Xi   Ai1 .

190
i

i
i

barbe 2007/1/8 10:41 page 191 #199

Exercices

Indication : On pourra utiliser le fait que si X est une variable alatoire intgrable sur (, A, P ), et T1 , T2 sont deux sous-tribus de A telles que T2 est
indpendante de la tribu engendre par T1 et X, alors E(X | T1 ) = E(X | T )
o T est la tribu engendre par T1 et T2 . En dduire que
 




di = E Sn  Sn Xi   Ai E Sn  Sn Xi   Ai1 .
c) Par lingalit du triangle et la question prcdente, tablir que

i = 1, . . . , n .
E(d2i | Ai1 ) E Xi 2 ) ,
En conclure, laide de la premire question, que




E Xi 2 .
Var Sn 
1in

Exercice VII.10. Soit Ank , k = 1, . . . , 2n1 , n 1, la famille des intervalles dyadiques de lintervalle [ 0, 1 ] muni de la mesure de Lebesgue . Si P est une
mesure de probabilit sur [ 0, 1 ] absolument continue par rapport , poser
Xn =


1k2n1

P (Ank )
Ank ,
(Ank )

n 1.

Dmontrer que, sur ([ 0, 1 ], ), (Xn )n1 est une martingale par rapport la
suite de tribus Fn = (Ank , 1 k 2n1 ), n 1. Dmontrer par labsurde
quelle est uniformment intgrable et en conclure lexistence de la densit de
Radon-Nikodym de P par rapport .

191
i

i
i

barbe 2007/1/8 10:41 page 192 #200

i
i

barbe 2007/1/8 10:41 page 193 #201

VIII
CHANES DE MARKOV
( ESPACE DTATS DNOMBRABLE)

Le but de ce chapitre est de dnir et de construire dans un cadre simple


(ensemble dindices et espace dtats discrets) des volutions markoviennes et
dtudier leur comportement asymptotique. La proprit de Markov, la base
de ce chapitre, dcrit un processus stochastique qui volue avec le temps. La
dpendance simple vis--vis du pass autorise de nombreux dveloppements qui
font la richesse de ces modles.

VIII.1. La proprit de Markov


Dans tout ce chapitre, E est un ensemble dnombrable ; P(E) est lensemble
de ses parties. La dnition suivante prsente lobjet fondamental de cette tude.

Definition VIII.1.1. On dit quune suite de variables alatoires (Xn )nN , valeurs dans (E, P(E)) et dnies sur un espace probabilis (, A, P ), est une
chane
 tout (n + 1)-uplet (i0 , . . . , in ) de points de E tel que
 de Markov si, pour
P 0jn1 { Xj = ij } > 0,

P



Xn = in 


{Xj = ij }




= P Xn = in  Xn1 = in1 .

(1)

0jn1

Autrement dit, la loi de Xn conditionnellement (X0 , . . . , Xn1 ) et la loi de


Xn conditionnellement Xn1 sont identiques.
On appelle E lespace des tats. La loi de X0 est appele la loi ou la mesure
initale.

i
i

barbe 2007/1/8 10:41 page 194 #202

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Lgalit (1) sappelle proprit de Markov. Nous verrons (proposition VIII.1.3) quelle traduit le fait que le futur du processus ne dpend du pass
qu travers le prsent.
Les exemples suivants montrent quil existe des chanes de Markov.

Exemples VIII.1.2. (i) Marche alatoire sur Zd . Soit (Yn )nN une suite de variables
alatoires indpendantes sur (Zd , P(Zd)).
Soit Xn = Y0 +  + Yn , n N. Pour
tous i0 , . . . , in Zd tels que lon ait P 0jn1 { Xj = ij } > 0,

P



Xn = in 


{ Xj = ij }

0jn1



P 0jn { Xj = ij }

= 
P 0jn1 { Xj = ij }



P { Yn = in in1 } 0jn1 { Xj = ij }


=
P 0jn1 { Xj = ij }
= P { Yn = in in1 }

puisque Yn est indpendante de (X0 , . . . , Xn1 ) (Y0 , . . . , Yn1 ). De faon


analogue,



P Xn = in  Xn1 = in1 = P { Yn = in in1 } ,
et donc (Xn )nN est bien une chane de Markov valeurs dans (Zd , P(Zd )).
Lorsque d = 1 et Yn suit une loi de Bernoulli sur { 1, 1 } de paramtre p, on
appelle (Xn )nN la marche alatoire sur Z. Lorsque de plus p = 1/2, on parle de
la marche alatoire symtrique.
(ii) Marche alatoire sur Z avec barrires absorbantes. Soit N 1 et considrons
E = [ N, N ] Z. Soit (Yn )n1 une suite de variables alatoires de Bernoulli symtriques sur { 1, 1 }, et Y0 une variable alatoire indpendante de cette suite,
valeurs dans E. On dnit







Yk  = N .
= min n 0 : 


0kn

194
i

i
i

barbe 2007/1/8 10:41 page 195 #203

VIII.1. La proprit de Markov

La variable alatoire est un temps darrt relativement la ltration naturelle


Fn = (Y0 , . . . , Yn ), n N. Ce temps darrt est ni presque srement puisque






P { = } = P n N : 
Yk  < N
0kn






Yk  < 2N
P n N : 
1kn




 1
 2N
.
Yk  <
inf P 
nN
n
n
1kn

Cette dernire quantit est nulle daprs le thorme

limite central (V.5.4).


Pour tout n 0, dnissons Xn = Sn , o Sn = 0kn Yk et montrons que
(Xn )nN est une chane de Markov valeurs dans E.
Soient i0 , . . . , in2 , i et j des lments de E. On veut calculer
P { Xn = j | Xn1 = i, Xn2 = in2 , . . . , X0 = i0 } .
Distinguons deux cas. Si |i| = N ,




P Xn = j  { Xn1 = i }

{ Xj = ij }

0jn2



= P Yn = j i  {Xn1 = i }



{ Xj = ij }

0jn2

= P { Yn = j i }
= P { Xn = j | Xn1 = i } ,
et si |i| = N ,



P Xn = j  { Xn1 = i }

{ Xj = ij }

0jn2

= ij = P { Xn = j | Xn1 = i } .
(iii)
Marche alatoire sur Z/mZ. Dans
 cet exemple, Z/mZ est identi lensemble
 2ik/m
: k { 0, 1, . . . , m 1 } .
e
Soit (Yn )nN une suite de variables alatoires indpendantes et de mme loi
valeurs dans { 0, 1, . . . , p 1 }. On dnit X0 = Y0 , et pour tout n 1,
Xn = Y0 exp

 2i
p


Yk .

1kn

195
i

i
i

barbe 2007/1/8 10:41 page 196 #204

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Puisque Xn est une fonction de X0 , Y1 , . . . , Yn , cest une variable alatoire


(Y0 , . . . , Yn )-mesurable, et donc indpendante de Yn+1 . De plus,
Xn+1 = Xn exp(2iYn+1 /m) ,

n N.



Do pour tout i0 , . . . , in e2ik/m : k { 0, 1, . . . , m 1 } ,



P Xn = in  Xn1 = in1 , . . . , X0 = i0





= P in1 exp 2iYn+1 /m = in  Xn1 = in1 , . . . , X0 = i0



in 
= P exp 2iYn+1 /m =
in1
= P { Xn = in | Xn1 = in1 } .
La proposition suivante rexprime la proprit de Markov en montrant quelle
quivaut dune part lindpendance du prsent au pass non immdiatement
antrieur, dautre part lindpendance du prsent et futur au pass non immdiatement antrieur, et enn lindpendance du futur et du pass du processus,
conditionnellement son prsent.

Proposition VIII.1.3. Une suite de variables alatoires (Xn )nN dnies sur
(, A, P ), valeurs dans (E, P(E)), est une chane de Markov si et seulement
si lune des trois proprits quivalentes suivantes est vrie :
(i) Pour tout 1 k n et tous ik , . . . , in E tels que
P { Xn1 = in1 , . . . , Xk = ik } > 0 ,
lgalit suivante lieu :



P Xn = in 

{Xj = ij }

= P { Xn = in | Xn1 = in1 } .

kjn1

(ii) Pour tout 1 k n, tout m 0 et tous points ik , . . . , in+m E tels que


P { Xn1 = in1 , . . . , Xk = ik } > 0,
P


0jm



Xn+j = in+j 


{Xj = ij }

kjn1

=P




{Xn+j = in+j }  Xn1 = in1 .

0jm

196
i

i
i

barbe 2007/1/8 10:41 page 197 #205

VIII.1. La proprit de Markov

(iii) Pour tous points i0 , . . . , in+m E tels que P { Xn = i0 } > 0,







{Xn+j = in+j }
{Xj = ij }  Xn = in
P
1jm

=P

0jn1

 


{Xj = ij }  {Xn = in } P

1jm




{Xj = ij }  Xn = in .

0jn1

Dmonstration. (i) En prenant k = 0, on voit que la condition est clairement

susante. Pour montrer sa ncessit, par dnition dune chane de Markov,





{ Xj = ij }
P { Xn = in | Xn1 = in1 } = P Xn = in |
0jn1


P
0jn { Xj = ij }
.
= 
P
0jn1 { Xj = ij }


(2)

Par
 rcurrence, on montre que si A0 , . . . , An sont des vnements tels que
P
0jn1 Aj > 0, alors



  
Aj =
P Aj 
Aj P (A0 ).
(3)
P
0jn

1ln

0jl1

En utilisant cette formule avec Aj = { Xj = ij }, en vertu de (2),


P { Xn = in | Xn1 = in1 }



$

P
X
=
i
{
X
=
i
}

j
j
l
l
1ln
0jl1



=$

P
X
=
i
{
X
=
i
}

j
j
l
l
1ln1
0jl1



$

P
X
=
i
{
X
=
i
}
P { Xk = ik }

j
j
k
k
k+1ln
0jl1



.
=$

k+1ln1 P Xk = ik  0jl1 { Xj = ij } P { Xk = ik }
En utilisant encore (3), le membre de droite de lgalit prcdente est


P { Xn = in , . . . , Xk = ik }

= P Xn = in 
P { Xn1 = in1 , . . . , Xk = ik }


Xj = ij

kjn1

(ii) L encore, la condition est clairement susante en prenant m = 0 et k = 0.


Pour montrer quelle est ncessaire, observons dabord que, par -additivit de
la mesure de probabilit, la positivit de P { Xn1 = in1 , . . . , Xk = ik } entrane
197
i

i
i

barbe 2007/1/8 10:41 page 198 #206

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

quil existe i0 , . . . , ik1 tels que P { Xn1 = in1 , . . . , X0 = i0 } > 0. Pour un tel
(i0 , . . . , in1 ),





{Xj = ij }  Xn1 = in1

njn+m


{X
=
i
}
j
j
n1jn+m

P { Xn1 = in1 }




P Xl = il 

nln+m


{Xj = ij } .

n1jl1

Daprs le premier point, ce produit est gal (pour tout k n)





P Xl = il 


nln+m

cest--dire


{Xj = ij } ,

kjl1



{Xl = il } 

nln+m


{Xj = ij } .

kjn1

(iii) La condition est ncessaire puisque




{Xj = ij }

n+1jn+m

=
P




{Xj = ij }  Xn = in

0jn1


{X
=
i
}
j
j
0jn+m
P { Xn = in }


 


n+1jn+m {Xj = ij } 
0jn {Xj = ij } P
0jn {Xj = ij }
P {Xn = in }

Or, daprs le point (ii), ce rapport est gal


P



 

{
X
=
i
}
X
=
i
{
X
=
i
}
P
j
j 
n
n
j
j
n+1jn+m
0jn

=P

P { Xn = in }

 

{Xj = ij }  Xn = in P

n+1jn+m




{ Xj = ij }  Xn = in .

0jn1

198
i

i
i

barbe 2007/1/8 10:41 page 199 #207

VIII.1. La proprit de Markov

Si maintenant la condition est vrie,






{ Xj = ij }
P Xn+1 = in+1 


0jn


{
X
=
i
}
j
j
0jn+1


=
P
0jn { Xj = ij }





P { Xn+1 = in+1 } 0jn1 { Xj = ij }  Xn = in P { Xn = in }



=

P
{
X
=
i
}
X
=
i

j
j
n
n P { Xn = in }
0jn1
P

= P { Xn+1 = in+1 | Xn = in } .

Definition VIII.1.4. On dit quune chane de Markov (Xn )nN est homogne si,
pour tout couple (i, j) de points de E, P { Xn+1 = j | Xn = i } est indpendant
de n, n dcrivant lensemble des entiers pour lesquels P { Xn = i } > 0.
Observons que pour un tat i donn, si lensemble des entiers n pour lesquels
P { Xn = i } = 0 est vide, la chane est valeurs dans E \ { i } avec probabilit 1.
On peut donc, en remplaant au besoin E par E \ { i }, supposer que ce cas ne se
produit pas. On note alors Pij la valeur commune des P { Xn+1 = j | Xn = i } et
P = (Pij )i,jE. La matrice P est appele matrice de transition de la chane (nous
utilisons encore le terme de matrice lorsque E est inni).

Definition VIII.1.5. Une matrice M = (Mi,j )i,jE (ventuellement de taille innie) est une matrice stochastique si elle vrie
(i) Mij 0 pour tous i, j E,

(ii) jE Mij = 1 pour tout i E.


Ainsi, la matrice de transition dune chane de Markov est une matrice stochastique.

Exemples VIII.1.6. (i) La marche alatoire sur Z/mZ est homogne, et sa matrice
de transition est

q0 q1 . . . qp1

..
qp1 q0
.
.
P=

..
..

.
.
q0
q1 . . .
199
i

i
i

barbe 2007/1/8 10:41 page 200 #208

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

(ii) Chane dEhrenfest. Soit d un entier suprieur ou gal 1. On rpartit d boules


numrotes dans deux urnes A et B. On tire un nombre i au hasard (cest--dire
suivant la probabilit uniforme) entre 1 et d et on change la boule numrote i
durne. Soit Xnd le nombre de boules dans lurne A aprs n tirages indpendants.
La suite (Xnd )nN est une chane de Markov homogne valeurs dans lensemble
E = { 0, . . . , d } et sa matrice de transition, P, est donne par la formule
Pd,i,i+1 =

di
d

Pd,i+1,i =

i+1
,
d

i { 1, . . . , d 1 } .

Proposition VIII.1.7. Le produit de deux matrices stochastiques est encore une matrice stochastique.
Dmonstration. Soient P et Q deux matrices stochastiques. Leur produit est bien

dni. En eet, la srie (PQ)ij = lE Pil Qlj converge puisque la srie lE Pil
converge et que les (Qlj )l,jE sont borns par 1. Clairement, PQ est une matrice
coecients positifs, et de plus,






(P Q)ij =
Pil Qlj =
Pil Qlj =
Pil
Qlj =
Pil = 1 . 
jE

jE lE

lE jE

lE

jE

lE

Remarquons alors que la suite (Xn )nN est une chane de Markov homogne
de matrice de transition P si et seulement si, pour tous i0 , . . . , in E,




{ Xk = ik } = Pin1 in P
{ Xk = ik } .
P
0kn

0kn1

VIII.2. Calcul des lois marginales


La proposition suivante prolonge la dernire remarque de la section prcdente,
en montrant que la donne de la matrice de transition et de la loi initiale sut
caractriser la loi de la chane jusqu tout instant x.

Proposition VIII.2.1. Soit (Xn )nN une chane de Markov homogne, dnie sur
(, A, P ), valeurs dans (E, P(E)), de matrice de transition P et de loi initiale
0 . Alors, pour tout n 1 et tous i0 , . . . , in E,


P { X0 = i0 , . . . , Xn = in } = 0 { i0 } Pi0 i1 Pin1 in .
Dmonstration. Elle se fait par rcurrence sur n. La proprit est vraie pour n = 0

par dnition de 0 . Supposons la vraie au rang n 1. Distinguons deux cas :

200
i

i
i

barbe 2007/1/8 10:41 page 201 #209

VIII.3. Gnralisation de la proprit de Markov

(i) Si P { X0 = i0 , . . . , Xn1 = in1 } = 0, il rsulte de lhypothse de rcurrence


que 0 ({ i0 })Pi0 i1 Pin2 in1 = 0, et donc


0 { i0 } Pi0 ,i1 Pin1 in = 0 .
Or P { X0 = i0 , . . . , Xn = in } = 0 et la proprit est vraie dans ce cas.
(ii) Si maintenant P { X0 = i0 , . . . , Xn1 = in1 } > 0, il vient
P { X0 = i0 , . . . , Xn1 = in }


= P Xn = in | Xn1 = in1 , . . . , X0 = i0 P { Xn1 = in1 , . . . , X0 = i0 }


 


= P Xn = in 
{ Xj = ij } P
{ Xj = ij }


0jn1

0jn1


= P Xn = in | Xn1 = in1 0 { i0 } Pi0 i1 Pin2 in1


= 0 { i0 } Pi0 i1 Pin1 in ,


ce qui dmontre la proposition.

Daprs la proposition VIII.1.7, la matrice Pn = P P (n fois) est une


n ses lments.
matrice stochastique. On notera Pi,j

Corollaire VIII.2.2. Soit (Xn )nN une chane de Markov dnie sur (, A, P ),
valeurs dans (E, P(E)). Pour tous entiers n, m et tous tats i, j E,

 n
0 { k } Pkj
;
(i) P { Xn = j } =
kE

(ii) P { Xm+n = j | Xm = i } = Pijn ;



P { Xm = j | X0 = k }P { Xn = k | X0 = i }.
(iii) P { Xm+n = j | X0 = i } =
kE

Lgalit (iii) est appele quation de Chapman-Kolmogorov.

VIII.3. Gnralisation de la proprit de Markov


Soit X = (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs
dans (E, P(E)). On peut voir X comme un lment de lespace des suites sur E,
EN = { x = (xn )nN : xn E }. Sur EN , considrons la tribu cylindrique B,
cest--dire la tribu engendre par les parties (cylindres) de la forme
B0 Bn E E ,

B1 , . . . , Bn P(E) , n N .
201

i
i

barbe 2007/1/8 10:41 page 202 #210

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

La fonction X est mesurable de (, A, P ) dans (EN , B) daprs la proposition


I.1.14, puisque si C = B0 Bn E E est un cylindre,

X 1 (C) =
X 1 (Bi ) A .
0in

On peut donc parler de la loi de X, cest--dire de la mesure image P X de P par


X (cf. III.1.7).
Sur EN , on dnit loprateur de translation (ou dcalage),
: x = (xn )nN EN  (x) = (xn+1 )nN EN .
Autrement dit, ((x))n = xn+1 , n N. On peut dnir les itrs, k , par
k = k1 , k 1, ce qui donne k (x) = (xn+k )nN .
Le thorme suivant montre quune chane de Markov homogne considre
partir de linstant n et conditionellement Xn , a mme loi que la chane initialise
X0 = 0.

Theor`eme VIII.3.1. Soit X = (Xn )nN une chane de Markov homogne, dnie
sur (, A, P ), valeurs dans (E, P(E)). Alors, pour tous les tats i0 , . . . , ik E,



 


{ Xj = ij } = L X  X0 = ik .
L k (X) 
0jk

Dmonstration. Si C = B0 Bn E E est un cylindre,





{ Xj = ij }
P { k (X) C } 
0jk



= P Xk B0 , . . . , Xk+n Bn  X0 = i0 , . . . , Xk = ik




P Xk = j0 , . . . , Xk+n = jn  Xk = ik
=


(j0 ,...,jn )B0 Bn

= P { k (X) C | Xk = ik }

{ik } (j0 )Pj0 ,j1 Pj1 ,j2 . . . Pjn1 ,jn
=
(j0 ,...,jn )B0 Bn

{ik } (j0 )P X1 = j1 , . . . , Xn = jn  X0 = j0 .

(j0 ,...,jn )B0 Bn

Donc les lois considres concident sur les cylindres. En observant quune union de
cylindres se dcompose en une union disjointe de cylindres (puisque lintersection
de deux cylindres est un cylindre), on voit que les lois considres concident sur
202
i

i
i

barbe 2007/1/8 10:41 page 203 #211

VIII.3. Gnralisation de la proprit de Markov

lalgbre de Boole engendre par les cylindres. Donc elles sont gales daprs la
proposition I.4.7.

Le contenu du thorme prcdent est essentiellement que la loi de la trajectoire dun processus de Markov homogne aprs le temps n est donne par la loi
de la chane au temps n, pour peu bien sr que la matrice de transition soit xe.
Il est remarquable, et cela sera utile pour la suite, que ce rsultat reste vrai si
lon considre un temps non plus xe mais alatoire, pour peu que celui-ci soit un
temps darrt. Cest ce quexprime le thorme suivant.

Theor`eme VIII.3.2 (Propriete de Markov forte). Soit X = (Xn )nN une chane
de Markov dnie sur (, A, P ), valeurs dans (E, P(E)). Soit T un
temps darrt pour la ltration Fn = (X0 , . . . , Xn ) nN . Sur lvnement
{ XT = i } { T < },




L T (X) | FT = L X | X0 = i .

Dmonstration. Comme pour dmontrer le thorme VIII.3.1, soit un cylindre

C = B0 Bn E E
Sur { XT = i } { T < }, il vient



  T

P (X) C  Xn = i {n} (T )
P T (X) C  XT =
nN




P n (X) C  Xn = i {n} (T ).

nN

En utilisant le thorme VIII.3.1, on en dduit





 

P X C  X0 = i {n} (T )
P T (X) C  XT =
nN

= P { X C | X0 = i } .

On remarquera que largument nal dans la dmonstration du thorme VIII.3.1 permet dtendre la proposition VIII.2.1. On voit en eet que la loi
dune chane de Markov homogne (en tant qulment de EN ) est entirement
dtermine par la donne de la mesure initiale et de la matrice de transition.
203
i

i
i

barbe 2007/1/8 10:41 page 204 #212

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

VIII.4. Comportement asymptotique.


Mesures invariantes
Lobjet des paragraphes suivants est ltude de la convergence en loi dune
chane de Markov : le systme qui volue selon cette chane converge-t-il vers un
tat dquilibre ?
Il y a plusieurs mthodes pour rsoudre ce problme, en particulier une mthode de type totalement algbrique lorsque E est ni et une mthode totalement
probabiliste dans le cas gnral ; nous avons choisi dexposer en partie ces deux
mthodes.
Dans toute la suite du chapitre, P est une matrice stochastique. On note
X = (Xn )nN une chane de Markov homogne, dnie sur un espace probabilis
(, A, P ), valeurs dans (E, P(E)), de matrice de transition P et de mesure initiale
. Lensemble EN est muni de sa tribu cylindrique et de la probabilit image P,P
de P par la chane X. Dans ce qui suit, la matrice P est xe et on se contentera
de noter P , ntant pas xe.

Notation VIII.4.1. Si est une probabilit sur E, pour tout i E, on note


i = ({ i }). On dsignera encore par le vecteur de composantes (i )iE .
En particulier, puisque est vue comme un vecteur, t P est un vecteur ; il est
associ une mesure aussi note t P.

Definition VIII.4.2. On dit que , probabilit sur E, est une mesure asymptotique de la chane (Xn )nN sil existe une probabilit 0 sur E telle que si 0
est la loi de X0 , alors (Xn )nN converge en loi vers .
Une mesure asymptotique est donc une probabilit.
Le but de ce chapitre est de dterminer les mesures asymptotiques dune chane
de Markov et leur dpendance par rapport la loi initiale. La notion dterminante
dans cette recherche est celle de mesure invariante.

Definition VIII.4.3. On dit que , mesure positive sur E, est une mesure invariante de la chane si t P = .
On prendra garde au fait que nest pas ncessairement une probabilit,
puisque lon permet (E) = 1. Observons que si est une
mesure invariante de
la chane et que si X0 est de loi , alors P { X1 = j } = iE Pi,j i = j pour
tout j E. Donc X1 est aussi de loi , et par rcurrence, Xn est de loi pour
tout n N. Ceci justie la terminologie.
204
i

i
i

barbe 2007/1/8 10:41 page 205 #213

VIII.4. Comportement asymptotique. Mesures invariantes

Proposition VIII.4.4. Soit une probabilit sur E. Les assertions suivantes sont
quivalentes.
(i) est une mesure asymptotique de la chane ;
(ii) est une mesure invariante de la chane ;
(iii) L(X0 ) = L(Xn ) = pour tout n N.
Dmonstration. Il est clair que (iii) et (ii) sont quivalentes et que (ii) implique (i).
Montrons que (i) implique (ii). Supposons asymptotique ; il existe donc une
probabilit 0 telle que

lim P0 { Xn = j } = j

pour tout j E ,

ce qui scrit encore


lim

pour tout j E .

0,i Pijn = j

iE

Soit i E. Il rsulte du lemme de Fatou (II.2.3) que



jE

Pji j =

Pji lim

jE

lim inf
n

= lim inf
n

n
0,k Pkj

kE

n
Pji 0,k Pkj

jE kE

n+1
Pki
0,k

kE

= i .

Puisque iE ( jE Pji j ) = iE i = 1, on en dduit que jE Pji j = i


pour tout lment i de E.


Exemples VIII.4.5. Nous reprenons les exemples donns en VIII.1.2.


(i) Marches alatoires sur Z. Une mesure est une mesure invariante de la marche
alatoire de paramtre p sur Z si et seulement si pour tout i Z,
pi+1 + (1 p)i1 = i ,
ce qui est quivalent
p(i+1 i ) = (1 p)(i i1 ) .
205
i

i
i

barbe 2007/1/8 10:41 page 206 #214

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

On en dduit que
i+1 i =

 1 p i
p

(1 0 )

pour tout i Z, et par suite, pour i 1,


i 0 =

i1 

1 p k
k=0

et
i 0 =

(1 0 )

i 

p k
(1 0 ) .
1p
k=1

Donc, si p = 1/2, on a i = 0 + i(1 0 ) pour tout i Z. Une telle mesure


nest positive que si 1 = 0 . Les mesures invariantes, dans ce cas, sont donc
les multiples de la mesure de comptage sur Z.
Si p = 1/2,

p  1 p i
1 (1 0 )
i = 0 +
1 2p
p
et
i = 0 +

 p i1 
p 
1
(1 0 )
2p 1
1p

pour tout i 1. Donc, la mesure est positive si et seulement si

p
0 1 1
p 0 si p < 1/2
1 p
0
1
0
p

si p > 1/2.

La chane nadmet donc aucune probabilit invariante.


(ii) Marche alatoire sur Z avec barrires absorbantes. Une mesure est invariante
pour cette marche si et seulement si
+ 12 i1 = i

si

i [ N + 2, N 2 ] Z ,

N 1 = 12 N 2

et

N +1 = 12 N +2 ,

N = 12 N 1 + N

et

N = 12 N +1 + N ,

1
2 i+1

cest--dire si et seulement si i = 0 pour tout i [ N + 1, N 1 ] Z. Les


mesures invariantes sont donc les mesures positives portes par { N, N }.
206
i

i
i

barbe 2007/1/8 10:41 page 207 #215

VIII.4. Comportement asymptotique. Mesures invariantes

(iii) Marches alatoires sur Z/mZ. Une


mesure est invariante si et seulement
si pour tout i { 0, . . . , p 1 }, i = 0kp1 qpk k , cest--dire si est la
mesure uniforme.
(iv) Chane dEhrenfest. Une mesure est invariante pour la chane dEhrenfest
si et seulement si

i = d i + 1 i1 + i + 1 k+1 si 0 < k < d,


d
d
= 1 et = 1
.
0
d
d
d d1
On en dduit aisment par rcurrence que i = Cid 0 , pour tout i d. Donc,
une constante de proportionnalit prs, est la loi binomiale B(d, 12 ).
Dans la suite, nous allons montrer comme le suggrent ces exemples que,
lorsque E est ni, il y a toujours au moins une mesure (et par suite une probabilit)
invariante. Le cas o E est inni est plus complexe ; tous les cas sont possibles :
aucune mesure invariante, une ou des mesures invariantes mais pas de probabilit
invariante, une ou des probabilits invariantes.

Theor`eme VIII.4.6. Toute chane de Markov homogne valeurs dans un ensemble ni admet au moins une mesure invariante.
Dmonstration. Nous donnons deux mthodes de dmonstration, lune topologique, lautre algbrique.
Mthode topologique. On note M1 (E) lensemble des probabilits sur E, i.e.



i = 1 .
M1 (E) = = (i )iE : i E , i 0 , et
iE

Puisque E est ni, M1 (E) est un compact de RcardE . Soit 0 M1 (E) ; pour tout
n 1, on dnit
0 + t P0 + . . . + t Pn 0
.
n =
n+1
La suite (n )nN dlments du compact M1 (E) admet une sous-suite convergente
(nk )kN . Soit la limite de cette sous-suite ; cest une mesure invariante puisque
t

P = lim (t Pnk nk ) = lim


k

t Pnk +1

0 0
= 0.
nk + 1

Mthode algbrique. La somme des colonnes de la matrice t P I est nulle. La


matrice t P admet donc 1 comme valeur propre. Le rsultat cherch rsulte du
lemme suivant.
207
i

i
i

barbe 2007/1/8 10:41 page 208 #216

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Lemme VIII.4.7 (de Perron-Froebenius). Soit P une matrice stochastique de dimension n et v un vecteur propre complexe de la matrice t P associ la valeur
propre de module 1 ; on note w le vecteur de composantes (|v1 |, . . . , |vN |). Alors,
w est un vecteur propre de la matrice t P associ la valeur propre 1.
Dmonstration. Pour tout i E, soit i = (t Pw w)i . On a

i =

Pji wj wi =

jE






Pji |vj | |vi | 
Pij vj  |vi | = 0

jE

jE

car t Pv = v. Dautre part,





i =
Pji wj wi = 0 .
iE

jE

On en dduit que i = 0 pour tout i E.

Remarque VIII.4.8. Nous pouvons reformuler ce lemme en disant quune matrice


stochastique indexe par un ensemble ni admet toujours un vecteur propre associ la valeur propre 1 dont les composantes sont positives.
Le problme de lunicit de la mesure invariante demande une tude plus ne
des communications entre tats.

Exemple VIII.4.9. Soit (Xn )nN une chane de Markov homogne valeurs dans
lensemble E = { 1, . . . , 5 } de matrice de transition

1/2 0 1/2 0 0

1/4 1/2 1/4 0 0

1/2 0 1/2 0 0 .

0 0 0 1/2 1/2
0 0 0 1/2 1/2
La matrice de transition tant une matrice diagonale par blocs, lquation t P =
est donc quivalente un couple de systmes autonomes, le premier ne faisant
intervenir que les variables 1 , 2 , 3 , le second 4 , 5 . Il ny a donc pas unicit de la mesure invariante. Plus prcisment, est une mesure invariante si et
seulement si
2 = 0 ,
4 = 5 .
1 = 3 ,
Les mesures invariantes de la chane sont donc les combinaisons linaires
coecients positifs des mesures uniformes sur les ensembles { 1, 3 } et { 4, 5 }.
Le point 2 nest pas charg par les mesures invariantes, ce qui provient du fait
quil nest pas accessible par la chane si X0 { 1, 3, 4, 5 }. Intuitivement, mme
si la chane dmarre dans ltat 2, elle nira par en partir et ny reviendra plus.
208
i

i
i

barbe 2007/1/8 10:41 page 209 #217

VIII.4. Comportement asymptotique. Mesures invariantes

Definition VIII.4.10. Soient i et j deux lments de E. On dit que i conduit


j, not i j, sil existe n > 0 tel que Pijn > 0 ; on dit que i et j communiquent,
not i j, si i conduit j et j conduit i.
La relation est symtrique et transitive ; elle est rexive sur le sousensemble de E, not E , des lments qui communiquent avec un autre tat
(qui peut tre lui-mme).
On appelle classe de la chane, soit un singleton de E \ E , soit une classe
dquivalence de la relation restreinte E .
On peut reprsenter cette relation de communication entre tats par un
graphe, dit graphe de Markov, dont les sommets sont les points de E, deux points
de E tant joints par une arte si lun deux conduit lautre. Larte joignant i
j est oriente de i j si i conduit j.

Exemple VIII.4.11. Dessinons le graphe de Markov associ la chane dcrite dans


lexemple VIII.4.10.

Definition VIII.4.12. On dit quune chane de Markov est irrductible si elle


nadmet quune classe. Dans ce cas, on dit aussi que la matrice de transition
de la chane est irrductible.
Exemples VIII.4.13. (i) Dans lexemple prcdent, on vrie que E \ E = { 2 }
et que les classes dquivalence de la relation restreinte { 1, 3, 4, 5 } sont les
ensembles { 1, 3 } et { 4, 5 }.
(ii) Marches alatoires sur Z/mZ. Nous utilisons les notations de
lexemple VIII.1.2.iii.
a) Considrons le cas o les variables (Yn )nN prennent leurs valeurs dans
lensemble { 1, 1 }. Si P { Y0 = 1 } et P { Y0 = 1 } sont non nuls, la chane est
irrductible puisque chaque lment de E communique avec ses deux voisins.
209
i

i
i

barbe 2007/1/8 10:41 page 210 #218

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

b) Considrons le cas o les variables (Yn )nN prennent leurs valeurs dans
lensemble { 2, 2 }. Si P { Y0 = 2 } et P { Y0 = 2 } sont non nuls, la chane est
irrductible si et seulement si m est impair ; elle admet deux classes si m est pair.
(iii) Les marches alatoires sur Z de paramtres dirents de 0 et 1 sont irrductibles puisque chaque lment de E communique avec ses deux voisins.
(iv) La marche alatoire symtrique avec barrires absorbantes admet 3 classes :
{ N }, { N } et lensemble des entiers relatifs compris entre N + 1 et N 1.
(v) La chane dEhrenfest est irrductible puisque chaque lment de E communique avec ses deux voisins.

VIII.5. Rcurrence et transience


Notation VIII.5.1. Soit X = (Xn )nN une chane de Markov valeurs dans un
espace dnombrable discret E. Soit i un lment de E. On note
Ni = Ni (X) = card{ n 0 : Xn = i }
le nombre de passages de la chane en i. On dnit les instants successifs de
passage en i,
i = i1 = i1 (X) = inf{ n > 0 : Xn = i }
et, pour n > 1,
in = in (X) = inf{ k > in1 : Xk = i } .
De plus, on note Pi la loi de la chane conditionne dbuter ltat i. On
note aussi Ei lesprance sous Pi , cest--dire lesprance condionnelle X0 = i.
Les in , i E, n 1, sont des temps darrt relativement toute ltration
par rapport laquelle la chane est adapte. En eet,





{ Xjl = i }
{ Xj = i }
{ in m } =
nkm 1j1 jk m 1lk

j {j1 ,...,jk }

est (X1 , . . . , Xm )-mesurable. Nous allons classier les points de E suivant que
ces temps sont nis ou non.

Definition VIII.5.2. Un point i de E est dit rcurrent pour la chane de Markov


(Xn )nN si Pi { i < } = 1. Il est dit transient dans le cas contraire.
Autrement dit, le point i est rcurrent si lorsque lon en part, on est assur
dy revenir en un temps ni. Pour une chane homogne, on est alors assur dy
revenir inniment souvent, comme le montre le lemme suivant.
210
i

i
i

barbe 2007/1/8 10:41 page 211 #219

VIII.5. Rcurrence et transience

Lemme VIII.5.3. Soit (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs dans (E, P(E)). Si i est un point rcurrent, les (in )n1 sont des temps darrt
Pi -p.s. nis.
Dmonstration. La dmonstration se fait par rcurrence en utilisant la proprit
de Markov forte VIII.3.2. Par hypothse, i est presque srement ni. Supposons
que in soit presque srement ni. Alors,




n
Pi { in+1 = } = Ei Pi { i i = | Fin } = Ei Pi { i = } = 0 . 

Avant dtudier la chane issue dun de ses points rcurrents, nous donnons
quelques caractrisations de cette notion de rcurrence fondes sur le nombre de
visites de ltat i.

Theor`eme VIII.5.4. Soit (Xn )nN une chane de Markov dnie sur (, A, P ),
valeurs dans (E, P(E)). Un point i de E est rcurrent si et seulement si
Pi { Ni = } = 1 .
Dmonstration. Cest une consquence du lemme suivant.

Lemme VIII.5.5. Pour tout i E et tout entier n 1,



n1
.
Pi { Ni n } = Pi { i < }
Autrement dit, sous Pi , la variable alatoire Ni suit une loi gomtrique de paramtre Pi { i < }.
Dmonstration. Nous procdons par rcurrence sur n. La proprit est de toute
vidence vrife pour n = 1 puisque Pi { Ni 1 } = 1. Supposons la vrie au
rang n. On peut crire


Pi { Ni n + 1 } = Pi { Ni n } { in < }


= Ei {Ni n} P { in < | F n1 } .
i

in1

(X) sur { in1 < }. Il rsulte donc de la proprit de


Or in (X) = i
Markov forte (VIII.3.2) que
P { in < | F n1 } = Pi { i < }
i

puisque X n1 = i sur
i

{ in1

< }. On en dduit que


n
Pi { Ni n + 1 } = Pi { Ni n }Pi { i < } = Pi { i < } ,

daprs lhypothse de rcurrence.


211

i
i

barbe 2007/1/8 10:41 page 212 #220

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Corollaire VIII.5.6. Soit i un point de E. Alors


Pi { Ni = } = 1

Pi { Ni = } > 0 .

Corollaire VIII.5.7. La variable alatoire Ni est Pi -intgrable si et seulement si i


est un point transient de E.

n
Corollaire VIII.5.8. Ltat i est rcurrent si et seulement si la srie
n0 Pii
diverge.
Dmonstration. Il sut de remarquer que Ni =

n0

{i} (Xn ), de prendre les-

prance et dutiliser le corollaire VIII.2.2.i.

Exemple VIII.5.9. Marches alatoires sur Z. tudions la rcurrence du point 0


pour la marche alatoire de paramtre p. Soit n un entier non nul ; la marche
issue de 0 est de nouveau en 0 linstant n si elle a eectu autant de pas vers la
gauche que vers la droite. Ainsi,
#
m
m si n = 2m,
Cm
2m p (1 p)
n
P00 =
0
si n est impair.

Or n! ( ne )n 2n, daprs la formule de Stirling. On en dduit que


 2m 2m
 m 2m 1
2m
pm (1 p)m

4m
P00
e
e
2m
22m m
p (1 p)m
=
m

m
4p(1 p)

.
=
m
Il sensuit que 0 est un tat rcurrent si p = 12 , transient sinon.
Nous allons en dduire quil en est de mme de tous les tats de la chane en
montrant que la rcurrence est une proprit de classe. Pour cela, nous utilisons la
proprit dite de renouvellement dune chane de Markov nonce ci-dessous. Elle
exprime que sur un point rcurrent, une chane de Markov homogne se renouvelle,
gale elle-mme en loi, indpendante de son pass.

Proposition VIII.5.10. Soit (Xn )nN une chane de Markov homogne et i un point
rcurrent de cette chane ; alors, pour tout entier n non nul, la loi de la chane
n
n
X i est la mme que la loi de la chane X sous Pi . De plus, la chane X i
est indpendante de la tribu Fin .
212
i

i
i

barbe 2007/1/8 10:41 page 213 #221

VIII.5. Rcurrence et transience


Dmonstration. Cest une consquence directe de la proprit de Markov

forte VIII.3.2 applique aux temps darrt presque srement nis (in )nN .

Theor`eme VIII.5.11. La proprit de rcurrence (ou de transience) dun tat est


une proprit de classe.
Dmonstration. Soient i et j des tats qui communiquent. Supposons que i est

rcurrent et dmontrons que j lest aussi. On a




Pj { Nj = } Ej Pj { Nj i = | Fi }{i <}


= Ej Pi { Nj = }[0,[ (i )
= Pi { Nj = }Pj { i < } .
Nous sommes donc ramens montrer que Pi { Nj = } > 0.

Lemme VIII.5.12. Soit i un point rcurrent et j un point de E distinct de i tel que


i conduit j. Alors,
Pi { Nj = } = Pi { j < } = 1 .
Dmonstration. On dnit le nombre de visites du point j avant la premire visite

i
en i, Nji = card{ n > 0 : Xn = j, n i }. Sous Pi , Nj = n0 Nji n . Or, il
i
rsulte de la proprit de Markov forte que les variables alatoires Nji n sont
indpendantes et de mme loi sous Pi . De plus,

Ei (Nj ) Pi { Nj 1 } = Pi { j < } > 0


puisque i conduit j. On en dduit que E(Nji ) > 0 ; il rsulte alors de la loi des

grands nombres V.5.2 que Nj = presque-srement.

Definition VIII.5.13. Une chane de Markov est irrductible sil nexiste quune
seule classe de points rcurrents.
Nous pouvons maintenant tudier les mesures invariantes pour la chane.

Theor`eme VIII.5.14. Une mesure asymptotique ne charge pas les points transients, cest--dire si est une mesure asymptotique et i un point transient, alors
({ i }) = 0.
213
i

i
i

barbe 2007/1/8 10:41 page 214 #222

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)


Dmonstration. Nous allons montrer que, pour toute mesure initiale et tout point

transient i de E, limn P { Xn = i } = 0. Pour cela, il sut de montrer que,


pour tout point j de E, limn Pj { Xn = i } = 0. Or

Pj { Xn = i, i = m }
Pj { Xn = i } =
1mn

Pj { i = m }Pi { Xnm = i } .

1mn

Il sut donc de montrer que limn Pi { Xn = i } = 0. Soit


An = { p n , Xp = i } .
Lvnement { Xn = i } est inclus dans \ An . Ltat i tant transient, il rsulte
VIII.5.4 que Ni est une variable alatoire Pi -p.s. nie, do
 du thorme

Pi n1 An = 1. On en dduit que
lim Pi { Xn = i } lim Pi ( \ An ) = 0 .

Contrairement aux mesures asymptotiques, les mesures invariantes peuvent


charger les classes transientes, comme nous lavons vu pour les marches alatoires
sur Z. Comme nous ne sommes intresss que par les mesures asymptotiques, nous
rduirons donc notre tude des mesures invariantes celles qui ne chargent pas les
classes transientes, cest--dire celles qui sont portes par les classes rcurrentes.
Rappelons que, lorsque la chane est irrductible, les mesures invariantes chargent
tous les points de E. La construction dune mesure invariante est fonde sur lide
suivante : un point de E est dautant plus charg par une mesure invariante quil
est plus visit par la chane ; pour normaliser ce nombre de passages en un point,
on se restreint une excursion de la chane entre deux passages en un point i x
de E.
On travaille dsormais sous lhypothse que la chane de Markov
est irrductible et rcurrente.
(Xn)n
Soient i et j des lments de E. Rappelons que
Nji = card{ n > 0 : Xn = j, n i }
et dnissons ji = Ei (Nji ).
Nous allons montrer que le vecteur i de composantes (ji )jE est un vecteur

propre de la matrice t P associ la valeur propre 1. Pour cela, tudions la loi de


Nji sous Pi et Pj .
214
i

i
i

barbe 2007/1/8 10:41 page 215 #223

VIII.5. Rcurrence et transience

Lemme VIII.5.15. Soient i et j deux points distincts de E. Pour tout entier n,


Pj { Nji = n } = Pj { i < j }Pj { j i }n ,
et
Pi { Nji = n } =

#
Pi { i < j }

si n=0,

Pi { j i }Pj { i < j }Pj { j i }n1

si n>0.

Dmonstration. Remarquons tout dabord que

{ Nji = 0 } = { i < j } .
Soit prsent m un entier non nul. Observons lappartenance de lvnement
{ j i } = \ { i < j } Fj . En conditionnant par la tribu Fj et en
appliquant la proprit de Markov forte VIII.3.2, il vient
Pi { Nji = m } = Pi { Nji j = m 1, j i } = Pi { j i }Pj { Nji = m 1 } .
Calculons Pj { Nji = k } par rcurrence sur k en utilisant le mme conditionnement.
Pour tout k 1
Pj { Nji = k } = Pj { Nji = k, j i } = Pj { j i }Pj { Nji = k 1 } .
On en dduit que pour tout entier k,
Pj { Nji = k } = Pj { i < j }Pj { j i }k .

Montrons maintenant que si lon part dun tat j, on ne peut pas tre sr
datteindre ltat i = j avant de revenir ltat j.

Lemme VIII.5.16. Soient i et j deux points de E. Alors Pj { j i } < 1.


Dmonstration. Supposons que Pj { j i } = 1. Alors, pour tout entier n 2,

Pj { jn i } = 1. En eet,

Pj { jn i } = Pj { jn1 i , j n1 i n1 }
j

Pj { jn1
Pj { jn1

i }Pj { j i }

i } .
=


Les vnements { jn i } n1 forment une suite dcroissante dvnements de
Pj -probabilit 1 ; leur intersection est donc de probabilit 1, cest--dire Pj -presque
srement, i jn pour tout entier n 1. Or, la suite des temps darrt (jn )n1 est
strictement croissante, donc elle tend vers . On en dduit que Pj { i = } = 1,
ce qui contredit le lemme VIII.5.12.

215
i

i
i

barbe 2007/1/8 10:41 page 216 #224

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Corollaire VIII.5.17. Nji est Pi -intgrable.


Theor`eme VIII.5.18. Pour tout lment i de E, t P i = i .
Dmonstration. Remarquons dabord que pour tout l E,

(t P i )l =

Pjl

jE

De plus,
Ei (Nji ) =

Ei (Nji ) .

n1

Pi { i n, Xn = j }

n1

puisque
Nji =

{ j } (Xn ) =

1ni

[0,i ] (n)j (Xn ) =

n1

[n,]{ j } (i , Xn ) .

n1

Donc




Pjl Pi { i n, Xn = j } = P Xn+1 = l  Xn = j Pi { i n, Xn = j }
= Pi { i n, Xn = j, Xn+1 = l } .

Do
( P )l =
t


n1

Pi { i n, Xn+1 = l } = Ei

= Ei


{l} (Xn+1 )

1ni


{l} (Xn+1 ) .

0ni 1

En eet Pi { Xi +1 = l } = Pi { X1 = l }. On en dduit, en posant m = n + 1,




t
i
{l} (Xm ) = li .
( P )l = Ei
1mi

Cest le rsultat.

On dduit du thorme prcdent que si lE li est convergente, la chane


admet une probabilit invariante. Nous allons montrer que cette condition est
ncessaire et susante lexistence
et lunicit
dune probabilit invariante. Re

marquons auparavant que lE li = Ei ( lE Nli ) = Ei (i ) pour tout i.

Theor`eme VIII.5.19. Soit une probabilit invariante de la chane. Alors, pour


tout lment i et j de E, j = ji i .
216
i

i
i

barbe 2007/1/8 10:41 page 217 #225

VIII.5. Rcurrence et transience


Dmonstration. Nous allons utiliser, pour dmontrer ce thorme, une technique

de retournement du temps. Remarquons dabord que pour tout n,


P { i n, Xn = j, X0 = i }
P { X0 = i }
P { i n, Xn = j, X0 = i }
.
=
i

Pi { i n, Xn = j } =

Pour tout entier k n, introduisons Xkn = Xnk . Alors,


Pi { i n, Xn = j } =

P { i n, X0n = j, Xnn = i }
.
i

Nous allons tudier la loi jointe des variables alatoires (Xkn )0kn . Plus prcisment, nous allons montrer quelles possdent la proprit de Markov relativement
la famille de tribus (Gkn )0kn , o Gkn est la tribu engendre par les variables
alatoires Xn , Xn1 , . . . , Xnk .

Lemme VIII.5.20. Soient k et n des entiers tels que k n, et soient i et j des


lments de E. Alors,


 n

 n

j
= j  Gkn = P Xk+1
= j  Xkn = Pji
P Xk+1
i
sur { Xkn = i }.
Dmonstration. En utilisant la formule de Bayes (VI.1.4), il vient
n

 n

 P { Xk+1
 n

=j}
= j  Xkn = i = P Xkn = i  Xk+1
=j
P Xk+1
n
P { Xk = i }


 P { Xnk1 = j }

= P Xnk = i  Xnk1 = j
P { Xnk = i }
j
= Pji .
i
Il sut prsent de montrer que si i0 , . . . , ik sont des lments de E,
P { Xnk1 = j, Xn = i0 , . . . , Xnk = ik }
j
P { Xn = i0 , . . . , Xnk = ik } .
= Pjik
ik
217
i

i
i

barbe 2007/1/8 10:41 page 218 #226

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Or, il rsulte de la proposition VIII.2.1 et de linvariance de que


P { Xnk1 = j, Xn = i0 , . . . , Xnk = ik }
= Pjik Pik ik1 Pi1 i0 j
j
= Pjik
Pi i Pi1 i0 ik
ik k k1
j
= Pjik
P { Xn = i0 , . . . , Xnk = ik } ,
ik


ce qui dmontre le lemme.

Proposition VIII.5.21. Soit P une matrice stochastique indexe par un ensemble E,


irrductible, rcurrente et admettant une probabilit invariante . On dnit une
matrice Q indexe par E en posant
Qij = Pji

j
,
i

i, j E .

La matrice Q est stochastique, irrductible, rcurrente et admet comme


probabilit invariante.
De plus, si (Xn )nN est une chane de Markov homogne, de matrice de transition P sur EN et n un entier non nul, la loi du vecteur alatoire (Xnk )0kn
sous P,P est identique celle du vecteur alatoire (Xk )0kn sous P,Q .
Dmonstration. On vrie aisment que Q est une matrice stochastique qui admet

comme mesure invariante. Pour montrer que Q est irrductible et rcurrente,


calculons les puissances successives de Q ; plus prcisment, dmontrons par rcurrence sur n que
j
Qnij = Pjin .
i
Cest vrai pour n = 1. Supposons le vrai pour n. Pour i, j E,


j n
j n+1
j
n
n l
=
Q
Q
=
P
P
=
Pli Pjl =
P
.
Qn+1
lj
jl
il
li
ij
i
l
i
i ji
lE

lE

lE

Soient i et j deux lments de E ; puisque P est irrductible il existe un entier N


N
par suite que Q est irrductible.
tel que PN
ij > 0 ; on en dduit que Qij > 0 et,

Dautre

part, si i est un lment de E, la srie nN Qnii est de mme nature que


la srie nN Piin , cest--dire divergente. On en dduit que i est rcurrent pour
toute chane de matrice de transition Q.
La n de la proposition rsulte du lemme VIII.5.20.

218
i

i
i

barbe 2007/1/8 10:41 page 219 #227

VIII.5. Rcurrence et transience

Nous pouvons conclure prsent la dmonstration du thorme VIII.5.19. Il


rsulte en eet de ce qui prcde que si i, j E, pour tout n,
P { i n, Xn = j, X0 = i }
i
P,Q { i n, X0 = j, Xn = i }
=
i
j
= Pj,Q { i n, Xn = i } .
i

Pi { i n, Xn = j } =

En sommant par rapport n, on obtient


j
Pj,Q { i n, Xn = i }
Ei (Nji ) =
i
n1
j
Pj,Q (i = n)
=
i
n1

j
= Pj,Q { i < } .
i
Ltat i est rcurrent pour la chane de matrice de transition Q. Le lemme VIII.5.12
montre que Pj,Q { i < } = 1, et ceci conclut la dmonstration du thorme VIII.5.19.


Corollaire VIII.5.22. Les assertions suivantes sont quivalentes :


(i) la chane (Xn )nN admet une probabilit invariante ;
(ii) il existe un lment i de E tel que Ei (i ) < ;
(iii) Ei (i ) < pour tout lment i de E.
Lorsquelles sont vries, la chane admet une unique probabilit invariante
donne pour tout i lment de E par :
j =

Ei (Nji )
Pi (j i )
1
=
=
Ei (i )
Ei (i )
Ej (j )

pour tout j E .

Terminons ce paragraphe par une dnition immdiatement issue de ce qui


prcde.

Definition VIII.5.23. Un point i de E est dit rcurrent positif pour la chane


(Xn )nN si et seulement si Ei (i ) < . Le fait dtre rcurrent positif est une
proprit de classe. La classe dun lment rcurrent positif est dite rcurrente
positive.
219
i

i
i

barbe 2007/1/8 10:41 page 220 #228

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Un point rcurrent de E qui nest pas rcurrent positif est dit rcurrent
nul. La classe dun lment rcurrent nul est dite rcurrente nulle.

Exemple VIII.5.24. Puisque la marche alatoire symtrique sur Z nadmet pas de


probabilit invariante, les lments de Z sont rcurrents nuls pour cette chane en
vertu du corollaire VIII.5.22.

VIII.6. Comportement asymptotique


dune chane de Markov
Pour les raisons exposes dans les paragraphes prcdents, nous nous intresserons, dans ce paragraphe, au comportement asymptotique dune chane de
Markov (Xn )nN admettant une et une seule classe rcurrente positive. Le rsultat
attendu est le suivant : pour toute loi initiale, la chane de Markov converge vers
la mesure invariante. Nous allons voir sur un cas trs simple que ceci nest pas
toujours vri.

Exemple VIII.6.1. Reprenons lexemple de la marche alatoire sur Z/mZ avec


m = 4 et les (Yn )n1 suivant la loi uniforme sur { 1, 1 }. Prenons Y0 = 0. Alors
la loi de Xn est porte par { 0, 2 } pour n pair et par { 1, 3 } pour n impair. Il ne
peut donc y avoir convergence en loi de la chane. Cet exemple nous conduit la
dnition de la priode dun point.
Definition VIII.6.2. On dit quun point i E est de priode d pour la chane
(Xn )nN si d = pgcd{ n 1, Piin > 0 }.
Dans lexemple VIII.6.1, la priode de chaque point est 2.

Proposition VIII.6.3. Le fait dtre de priode d est une proprit de classe. Une
classe de priode 1 est dite apriodique.
Dmonstration. Soit i E un point de priode d et j E tel que i j. Montrons

que la priode d de j est gale d. On a lquivalence

i j k, l 1 , Pijk > 0 et Pjil > 0 .


On en dduit que Piik+l > 0 et, par suite, que d divise k + l. Soit n 1 tel que
n > 0. Alors P n+k+l P k P n P l > 0. Do d divise n + k + l et par suite, d
Pjj
ij jj ji
ii

divise n. On en dduit que d divise d et par symtrie d = d .
220
i

i
i

barbe 2007/1/8 10:41 page 221 #229

VIII.6. Comportement asymptotique dune chane de Markov

Comme il apparat dans lexemple ci-dessus, il est naturel, lorsquune chane


est de priode d = 1, dtudier la chane de matrice de transition Pd . Avant
de dcrire les proprits de cette chane auxiliaire, nous nonons un rsultat
technique trs utile dans la suite.

Lemme VIII.6.4. Pour i E, notons Di = { n 1, Piin > 0 } et di la priode de i.


Alors, il existe un entier ni non nul tel que Di contienne tous les entiers multiples
de di suprieurs ni .
Dmonstration. Remarquons tout dabord que si m, n Di , alors m + n Di ,

cest--dire que Di est un semi-groupe pour laddition dans N. En eet


Piim+n Piim Piin > 0. Par hypothse, le pgcd des lments de Di est di . Notons nk les lments de Di rangs par ordre croissant. Si Di est inni, la suite
pgcd(n1 , . . . , nk ), k 1, est une suite dcroissante dentiers. Son plus petit lment est donc atteint partir dun certain rang. Par hypothse, ce plus petit
lment est di . Il existe donc une famille nie dlments de Di dont le pgcd est
existe alors des entiers
di ; notons les n1 , . . . , np . Il

relatifs 1 , . . . , p tels que

p
 =

n
=
d
.
Notons
q
=

n
et
q
i
i|i >0 i i
i|i <0 i ni . Alors q et q sont
i=1 i i

lments de Di et q q = di . Soit n un entier non nul multiple de di : alors
n = aq  + rdi avec rdi < q  . Do n = (a r)q  + rq Di si a q  . On pose
ni = q  (q  + di ) ; alors Di contient tous les entiers multiples de di et suprieurs

ni .

Proposition VIII.6.5. Supposons la matrice P irrductible et de priode d = 1.


Alors, la matrice Pd nest pas irrductible ; elle possde exactement d classes que
lon peut dsigner par C0 , . . . , Cd1 de telle faon que, si la loi de X0 est porte
par Ci , alors celle de X1 est porte par Ci+1 (avec Cd = C0 ).
Dmonstration. Soit i un lment x de E. Si j est un autre lment de E, on note

Dij = { n 1 , Pijn > 0 }. Soit nij le plus petit lment de Dij et rij le reste de sa
division euclidienne par d. Dmontrons que pour tout n Dij , n = rij mod d.
La chane tant irrductible, il existe un entier m > 0 tel que Pjim > 0. Donc,
m+nij

si Pii

> 0 et Piim+n > 0, on a


m + nij 0 mod d

et

m + n 0 mod d,

do n nij mod d. Pour 0 r < d, notons Cr = { j E, rij = r }. Dmontrons


que C0 , . . . , Cd1 sont les classes de la chane de matrice de transition Pd . Pour
cela, xons r et dmontrons que deux lments j et k de Cr communiquent pour
cette chane. Or j Cr si et seulement si il existe n 1, n = r mod d tel que
221
i

i
i

barbe 2007/1/8 10:41 page 222 #230

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Pijn > 0 et de la mme faon k Cr si et seulement si il existe m 1, m = r


m > 0. Dautre part, k conduit i ; donc il existe l > 0 tel que
mod d tel que Pik
l
Pki > 0. On en dduit que m + l Di et donc que d divise m + l. On a, de plus,
l+n
l P n > 0 avec l + n = l + m m + n 0 mod d, do k conduit j
Pki
Pkj
ij
pour la chane de matrice de transition P d .
Soient r et r  deux lments distincts de { 0, . . . , d 1 }, j Cr et k Cr .
Supposons que j conduit k pour la chane de matrice de transition Pd . Il existe
dn > 0. Soit m D ;
n > 0 tel que Pjk
ij
m+dn
dn
Pijm Pjk
> 0 m + dn Dik
Pik

m + dn r  mod d
m = r  mod d ,
ce qui est absurde puisque j Cr .
Enn, soient j Cr et k E tels que Pjk > 0. Soit n Dij ; alors,
n+1
Pijn Pjk > 0. Do n + 1 Dik et n + 1 = r + 1 mod d, do lon dPik

duit que k est un lment de Cr+1 .
Ces deux lemmes vont nous permettre de donner une caractrisation algbrique des chanes de Markov apriodiques valeurs dans un espace ni.

Theor`eme VIII.6.6. Soit (Xn )nN une chane de Markov sur (, A, P ), valeurs
dans un ensemble ni E et irrductible. Les proprits suivantes sont quivalentes :
(i) la chane est apriodique ;
(ii) pour tout n assez grand, pour tous i, j E, Pijn > 0 ;
(iii) 1 est la seule valeur propre de module 1 de la matrice t P.
Dmonstration. Montrons tout dabord que (i) implique (ii). Soit, pour tout lment i de E, ni lentier construit dans le lemme VIII.6.4 et N = maxiE ni . ReN
marquons dautre part que, pour tous i, j E, il existe Nij > 0 tel que Pij ij > 0.
N

nN

Soit n = maxi,jE(Nij ) et n = N + N  . Alors, si i, j E, Pijn Pij ij Pj,j ij > 0


puisque n Nij n N  = N .
Supposons prsent (ii) vri et dmontrons (iii). Soit R et v RcardE
tels que t Pv = ei v. Alors t Pn v = ein v pour tout n N. Il rsulte alors du lemme
de Perron-Froebenius (VIII.4.8) que t Pn |v| = |v|. On en dduit que




n 

P
v
Pjin |vj |
j
ji
=

jE

jE

222
i

i
i

barbe 2007/1/8 10:41 page 223 #231

VIII.6. Comportement asymptotique dune chane de Markov

pour tout i E. Si n N , les (Pijn )jE sont non nuls ; il existe donc R tel
que, pour tout j E, vj = ei |vj |. On a donc, dune part t Pn v = ein v, dautre
part
ein v = ein(+) |v| = ein(+) (t Pn )|v| = ein (t Pn )v .
On en dduit que ein = 1. Ceci tant vrai pour une innit dentiers n, il sensuit
que = 0.
Il reste prouver que (iii) implique (i). Nous allons le faire par labsurde.
Supposons que la priode d est strictement suprieure 1. Nous allons utiliser la
proposition VIII.6.5 pour construire un vecteur propre de la matrice t P associ
la valeur propre e2i/d . En eet, soit lunique mesure invariante de la chane de
matrice de transition Pd restreinte C0 (on identie une probabilit sur E).
Alors pour tout 0 r d 1, t Pr est porte par Cr . Donc

r
e2i d (t Pr )
=
0rd1

est non nul et vrie de plus t P = e2i/d .

Nous concluons ce chapitre par le thorme ergodique, lequel dcrit la convergence des chanes de Markov vers une mesure limite. Il nonce que les moyennes
en temps (i.e. sur lindice n) convergent vers les moyennes en espace (i.e. par
rapport la mesure invariante ).

Definition VIII.6.7. On dit quune chane de Markov (Xn )nN est ergodique
sil existe une probabilit telle que, pour toute condition initiale X0 , la suite
(Xn )nN converge en loi vers .
Theor`eme VIII.6.8. Une chane de Markov est ergodique si elle est irrductible,
rcurrente positive et apriodique.
Dmonstration. On pourra se reporter Revuz (1975).

Nous tudions prsent le comportement asymptotique de moyennes temporelles, cest--dire du type



1
f (X1 ) + + f (Xn ) .
n
Pour cela, nous allons nous ramener la loi des grands nombres classique en
utilisant les excursions de la chane entre deux passages en un mme point.
223
i

i
i

barbe 2007/1/8 10:41 page 224 #232

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Theor`eme VIII.6.9 (loi forte des grands nombres). Soit (Xn )nN une chane de
Markov irrductible et rcurrente positive. Soit lunique mesure invariante de la
chane. Alors, pour toute fonction f L1 () et toute loi initiale 0 ,
1
f (Xk ) =
lim
n n
n

k=0

f d p.s.
E

Dmonstration. On peut supposer la fonction f positive. On xe i E et, pour

n > 0, on dnit Ni (n) =

1kn

{i} (Xk ), le nombre de fois o la chane est


Ni (n)

passe en i avant linstant n. On a alors i


f (Xk )

N (n)
0ki i

Ni (n)+1

n < i

f (Xk )

0kn

. Do

f (Xk ).

N (n)+1
0ki 1

Introduisons

les variables alatoires Zn , n N, dnies par Z0 =


et Zn = n +1k n+1 f (Xk ) pour tout entier n 1. Alors
i

1ki

f (Xk )


0kNi (n)1

Zk

f (Xk )

0kn

Zk .

0kNi (n)

Les temps darrt (in )n1 tant p.s. nis, on a


lim Ni (n) = p.s.

Nous utiliserons pour nir le lemme suivant.

Lemme VIII.6.10. Les variables


alatoires Zn , n 1, sont indpendantes, de

mme loi et de moyenne E f d/Ei (i ).
n

Dmonstration. Remarquons tout dabord que pour tout n 1, Zn = Z0 i .

Ainsi, pour toute fonction : E R borne,








E (Zn ) = E E((Zn ) | Fin ) = Ei (Z0 ) .

Les Zn , n 1, sont donc de mme loi. Montrons prsent leur indpendance.


Remarquons que Zn est Gn -mesurable, o Gn = F n+1 ; lindpendance est donc
i
une consquence de la relation





E (Zn )  Gn1 = E (Zn ) .
224
i

i
i

barbe 2007/1/8 10:41 page 225 #233

Exercices

Enn, on a
Ei (Z0 ) =

f (j)Ei

jE

0ki



j
. 
{j} (Xk ) =
f (j)Ei (Nji ) =
f (j)
Ei (i )
jE

jE

Il rsulte de ce lemme et de la loi forte des grands nombres (V.5.2) que





f d
1
1
Zk = lim
Zk = Ei (Z0 ) = E
lim
n Ni (n)
n Ni (n)
Ei (i )
0kNi (n)1

0kNi (n)

presque srement. Do




1
f (Xk ) =
f d (Ei (i ))1 p.s.
lim
n Ni (n)
E
0kn

Prenant f 1, on obtient
Ni (n)
= Ei (i )
n
n
ce qui conduit au rsultat annonc.
lim

Exercices
Exercice VIII.1. quelles conditions deux matrices
P = (Pij )1in,1jm

et

Q = (Qij )1im,1jn

sont-elles les lois conditionnelles L(X | Y ) et L(Y | X) de deux variables alatoires X et Y prenant respectivement n et m valeurs ? Montrer que si lon connat
L(X | Y ) = P et L(Y | X) = Q, alors on connat la loi du couple (X, Y ).

Exercice VIII.2. Montrer que (X0 , . . . , Xn ) est une chane de Markov valeurs dans un ensemble ni E si et seulement si il existe des fonctions
gi : E E [ 0, [, 0 i n 1, telles que, pour tous x0 , . . . , xn E,
P { X0 = x0 , . . . , Xn = xn } = g0 (x0 , x1 )g1 (x1 , x2 ) gn1 (xn1 , xn ) .

Exercice VIII.3. Sur lensemble ni E = Z/mZ, on considre la chane (Xn )n0


de gnrateurs Pi,i+k = Pi,ik = 1/2, Pi,j = 0 sinon, o 1 k < m. Pour quelles
valeurs de m et k la chane est-elle rcurrente irrductible ? Donner, dans tous
les cas, ses classes de rcurrence et la mesure invariante de ses classes. Lorsque
la chane est rcurrente irrductible, dterminer quand elle est apriodique.
Montrer que lon peut raliser la chane (Xn )n0 sous la forme
Xn+1 = f (Xn , n ) avec une fonction f et une suite (n )n0 de variables alatoires dans { 1, +1 } que lon dterminera.
225
i

i
i

barbe 2007/1/8 10:41 page 226 #234

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Exercice VIII.4. Soit (Xn )n0 une chaine de Markov de matrice de transition
Pij avec Pij > 0 pour tout couple (i, j). On suppose que X0 = i p.s. et lon
choisit j = i. Soit
T = inf{ n 1 : Xn = j } .
Dmontrer quil existe ] 0, 1[ tel que P { T > n } n pour tout n 1.

Exercice VIII.5. Soit (Xi )iN une suite de variables alatoires relles et de mme
loi de fonction de rpartition continue F . Considrons les temps de record Tn ,
n 1, et les records XTn , dnis par T0 = 0 et
Tn+1 = min{ i > Tn : Xi XTn } .
Dmontrer que (Tn )nN et (XTn )nN sont deux chanes de Markov non homognes.
Exercice VIII.6. Soit (V, E) un graphe connexe non orient densemble de sommets ni V et densemble dartes E V
V . On associe chaque arte (i, j) un
poids wi,j = wj,i > 0 et lon pose wi = j wi,j . Dterminer la mesure invariante
de la chane de Markov sur V de matrice de transition Pi,j = wi,j /wi .

226
i

i
i

barbe 2007/1/8 10:41 page 227 #235

BIBLIOGRAPHIE

Dacunha-Castelle, D., Duo, M. (1982). Probabilits et statistiques, Masson.


Dudley, R.M. (1989). Real Analysis and Probability, Wadsworth.
Feller, W. (1971). An Introduction to Probability Theory and its Applications,
Wiley.
Fine, T.L. (1973). Theories of Probabilities : An Examination of Foundations,
Academic press.
Foata, D., Fuchs, A. (1998). Cours de probabilits pour la licence (2e dition),
Dunod.
Grimmett, G. (1993). Probability Theory, Cambridge University Press.
Malliavin, P. (1982). Intgration et probabilits, analyse de Fourier et analyse
spectrale, Masson.
Neveu, J. (1964). Bases mathmatiques du calcul des probabilits, Masson.
Norris, J.R. (1997). Markov Chains, Cambridge University Press.
Pollard, D. (1984). Convergence of Stochastic Processes, Springer.
Revuz, D. (1975). Markov Chains, North Holland.
Revuz, D. (1997). Probabilits, Hermann.
Rudin, W. (1975). Functional Analysis, McGraw-Hill.
Williams, D. (1991). Probability with Martingales, Cambridge University Press.

i
i

barbe 2007/1/8 10:41 page 228 #236

i
i

barbe 2007/1/8 10:41 page 229 #237

APPENDICE
LOIS DE PROBABILITS USUELLES

1. Loi de Bernoulli
Definition. Une variable alatoire X, valeurs dans { 0, 1 }, suit une loi de
Bernoulli de paramtre p [ 0, 1 ], note B(1, p), si
P{X = 1} = p = 1 P{X = 0}.
Esprance : p
Variance : p(1 p)
Fonction caractristique : 1 p + peit

2. Loi binomiale
Soit Ckn le coecient binomial

n!
.
k!(n k)!

Definition. Une variable alatoire X, valeurs entires, suit une loi binomiale
de taille n 1 et de paramtre p [ 0, 1 ], note B(n, p), si
P { X = k } = Ckn pk (1 p)nk ,

k = 0, 1, . . . , n .

Esprance : np
Variance : np(1 p)
Fonction caractristique : (1 p + peit )n

i
i

barbe 2007/1/8 10:41 page 230 #238

Probabilit

Stabilit par convolution : B(n, p)B(m, p) = B(n+m, p), ou de faon quivalente,


si X, Y sont indpendantes et de lois respectives B(n, p) et B(m, p), alors X + Y
est de loi B(n + m, p). En particulier, si (Xi )1in est une suite de variables de
Bernoulli indpendantes, alors X1 + + Xn est de loi B(n, p). Il en rsulte que
si une urne contient n boules, une proportion p dentre elles tant noires, 1 p
tant blanches, et si lon tire au hasard sans remise n boules, le nombre de boules
noires tires suit une loi B(n, p).

Proposition. (i) Si Xn suit une loi B(n, pn ) avec limn npn = , > 0, alors Xn
converge en loi quand n vers une variable de loi de Poisson de paramtre .

(ii) Si Xn suit une loi B(n, p), alors (Xn np)/ np(1 p) converge en loi quand
n vers une variable de loi normale centre rduite N (0, 1).

3. Loi de Poisson
Definition. Une variable alatoire X, valeurs entires, suit une loi de Poisson
P() de paramtre > 0, si
P { X = k } = e

k
,
k!

k N.

Esprance :
Variance :


Fonction caractristique : exp (eit 1)
Stabilit par convolution : P() P() = P( + ). Autrement dit, si X et Y
sont indpendantes et suivent respectivement des lois P() et P(), alors X + Y
est de loi P( + ).

Proposition. Si X suit une loi P(), alors (X )/ converge en loi quand


vers une variable de loi normale N (0, 1).

4. Loi multinomiale
Definition. Un vecteur alatoire X = (X1 , . . . , Xd ), valeurs dans Nd , suit une
loi multinomiale de paramtres n N, p1 , . . . , pd [ 0, 1 ], p1 + + pd = 1,
note M(n, p1 , . . . , pd ), si


P X = (n1 , . . . , nd ) =

n!
pn1 . . . pnd d ,
n1 ! . . . nd ! 1

n1 + + nd = n ,
n1 , . . . , nd N .

230
i

i
i

barbe 2007/1/8 10:41 page 231 #239

Appendice : Lois de probabilits usuelles

Esprance : (np1 , . . . , npd )


Covariance : cov(Xi , Xj ) = npi pj , i = j
Variance : Var(Xi ) = npi (1 pi )



itj n
Fonction caractristique :
1jd pj e
Si lon dispose de n boules que lon jette une par une alatoirement dans d
botes direntes, chaque boule ayant la probabilit pi dtre jete dans la i-me
bote, les nombres (N1 , . . . , Nd ) de boules dans les botes 1, . . . , d, suivent une loi
multinomiale M(n, p1 , . . . , pd ).

5. Loi hypergomtrique
Definition. Une variable alatoire X, valeurs entires, suit une loi hypergomtrique de paramtres (N, n, p) avec N p N et p [ 0, 1 ] si
P{X = k } =

CkN p Cnk
N (1p)
CnN



max 0, n N (1 p) k min(n, N p) .

Esprance : np
n
Variance : N
N 1 np(1 p)
Si on tire n boules sans remise dans une urne en contenant N , une proportion
p tant noires, 1 p tant blanches, le nombre de boules noires tires suit une loi
hypergomtrique de paramtres (N, n, p).

Proposition. Si XN suit une loi hypergomtrique de paramtres (N, n, p), alors


XN converge en loi quand N vers une variable de loi binomiale B(n, p).

6. Loi binomiale ngative


Definition. Une variable alatoire X, valeurs entires, suit une loi binomiale
ngative de paramtres (n, p) N [ 0, 1 ] si
n
k
P { X = k } = Cn1
n+k1 p (1 p) ,

Esprance : n(1 p)/p


Variance : n(1 p)/p2
Fonction caractristique :

p
1 (1 p)eit

k N.

n

231
i

i
i

barbe 2007/1/8 10:41 page 232 #240

Probabilit

Si (Xi )i1 est une suite de variables alatoires indpendantes et de mme loi
de Bernoulli B(1, p), reprsentant un succs si Xi = 1, un chec si Xi = 0, le
nombre total dchecs avant le n-ime succs suit une loi binomiale ngative de
paramtres (n, p).
Lorsque n = 1, on parle aussi de loi gomtrique.

7. Loi uniforme continue


Definition. Une variable alatoire X, valeurs relles, suit une loi uniforme
sur [ a, b ], a < b, note U[a,b] , si sa densit par rapport la mesure de Lebesgue
sur R est
1
(x) .
f (x) =
b a [a,b]
Esprance : (a + b)/2
Variance : (b a)2 /12
Fonction caractristique : eita e e
it(b a)
itb

ita

8. Loi de Parto
Definition. Une variable alatoire X, valeurs positives, suit une loi de Parto
de paramtre p > 1 si sa densit par rapport la mesure de Lebesgue sur R est
f (x) =

(p 1)
[1,[ (x) .
xp

p1
Esprance : p 2 si p > 2
p1
si p > 3
Variance :
(p 3)(p 2)2

9. Loi gamma


Pour p > 0, on dnit lintgrale gamma , (p) =

xp1 ex dx.

232
i

i
i

barbe 2007/1/8 10:41 page 233 #241

Appendice : Lois de probabilits usuelles

Definition. Une variable alatoire X, valeurs positives, suit une loi gamma
de paramtres p > 0 et > 0, note (p, ), si sa densit par rapport la
mesure de Lebesgue sur R est
f (x) =

p x p1
e x
[0,[ (x) .
(p)

La loi (1, ) est appele loi exponentielle de paramtre , note Exp().


Esprance : p/
Variance : p/ 2
1
(1 it)p
Stabilit par convolution : (p, ) (q, ) = (p + q, ). Autrement dit, si X et Y
sont deux variables alatoires indpendantes, de lois respectives (p, ) et (q, ),
alors X + Y est de loi (p + q, ).

Proposition. Si Xp suit une loi (p, 1), alors (Xp p)/ p converge en loi quand
p vers une variable alatoire de loi N (0, 1).
Fonction caractristique :

10. Loi bta


Pour p, q > 0, on dnit lintgrale bta par
 1
(p)(q)
.
xp1 (1 x)q1 dx =
B(p, q) =
(p + q)
0

Definition. Une variable alatoire X, valeurs sur ] 0, 1 [, suit une loi bta de
premire espce de paramtres p, q > 0, note (p, q), si sa densit par rapport
la mesure de Lebesgue est

f (x) =

xp1 (1 x)q1
B(p, q)

]0,1[ (x) .

Esprance : B(p + 1, q)/B(p, q)


pq
Variance :
(p + q)2 (p + q + 1)

Proposition. Si X et Y sont indpendantes et suivent respectivement une loi (p)


et (q), alors X/(X + Y ) suit une loi (p, q). En outre X/(X + Y ) et X + Y sont
indpendantes.
233
i

i
i

barbe 2007/1/8 10:41 page 234 #242

Probabilit

11. Loi de Laplace


Definition. Une variable alatoire X, valeurs relles, suit une loi de Laplace
(ou double exponentielle) si sa densit par rapport la mesure de Lebesgue est
f (x) =

1 |x|
e
,
2

x R.

Esprance : 0
Variance : 2
Fonction caractristique : 1/(1 + t2 )

12. Loi normale unidimensionnelle


Definition. Une variable alatoire X, valeurs relles, suit une loi normale
N (m, 2 ) de moyenne m et variance 2 > 0 si sa densit par rapport la
mesure de Lebesgue est
 (x m)2 
1
exp
,
f (x) =
2 2
2 2

x R.

Esprance : m
Variance : 2


2 2

Fonction caractristique : exp itm 2t


Stabilit par convolution : N (m1 , 12 ) N (m2 , 22 ) = N (m1 + m2 , 12 + 22 ). Autrement dit, si X1 et X2 sont indpendantes, de lois respectives N (m1 , 12 ) et
N (m2 , 22 ), alors X1 + X2 est de loi N (m1 + m2 , 12 + 22 ).

13. Loi du chi-deux


Definition. Une variable alatoire X, valeurs positives, suit une loi du chideux 2 (d) d N degrs de libert si sa densit par rapport la mesure de
Lebesgue est
1
x(d/2)1 ex/2 [0,[ (x) .
f (x) = d/2
2 (d/2)
En particulier, X/2 suit une loi (d/2, 1/2).

234
i

i
i

barbe 2007/1/8 10:41 page 235 #243

Appendice : Lois de probabilits usuelles

Esprance : d
Variance : 2d
Fonction caractristique : (1 2it)d/2
Stabilit par convolution : 2 (d1 ) 2 (d2 ) = 2 (d1 + d2 ). Autrement dit, si X1
et X2 sont des variables alatoires indpendantes, de lois respectives 2 (d1 ) et
2 (d2 ), alors X1 + X2 est de loi 2 (d1 + d2 ).

Proposition. (i) Si X1 , . . . , Xd sont des variables gaussiennes centres rduites


indpendantes, alors X12 + + Xd2 suit une loi du chi-deux d degrs de libert.

(ii) Si Xd suit une loi du chi-deux d degrs de libert, alors (Xd d)/ d converge
en loi quand d vers une variable alatoire de loi N (0, 1).

14. Loi de Student


Definition. Une variable alatoire X, valeurs relles, suit une loi de Student
d N degrs de libert si sa densit par rapport la mesure de Lebesgue est
f (x) =


x2  d+1
1
2
1+
,
d
dB(1/2, d/2)

x R.

Lorsque d = 1, la loi de Student d degrs de libert sappelle loi de Cauchy,


et sa densit est
1
,
x R.
f (x) =
(1 + x2 )

Esprance : 0 pour d > 1


Variance : d/(d 2) pour d > 2
Fonction caractristique : e|t| pour la loi de Cauchy

Proposition. Si Y est une variable normale centre rduite, si Z suit une


loi du
chi-deux d degrs de libert, et si Y et Z sont indpendantes, alors Y / Z/d
suit une loi de Student d degrs de libert. En particulier, lorsque d = 1, si Y
et Y  sont indpendantes de loi N (0, 1), la variable alatoire Y /|Y  | suit une loi
de Cauchy. Par symtrie, il en va de mme de Y /Y  .
235
i

i
i

barbe 2007/1/8 10:41 page 236 #244

Probabilit

15. Loi normale multidimensionnelle


Definition. Un vecteur alatoire X = (X1 , . . . , Xd ), valeurs dans Rd , suit une
loi normale N (m, ) de moyenne m Rd et de matrice de covariance inversible
si sa densit par rapport la mesure de Lebesgue est

f (x) =

(2)d/2



1
exp t(x m)1 (x m) ,
2
dt

x Rd .

Esprance : m
Covariance :


Fonction caractristique : exp it, m

1t
2 t t

Stabilit par convolution : N (m1 , 1 ) N (m2 , 2 ) = N (m1 + m2 , 1 + 2 ). Autrement dit, si X et Y sont deux vecteurs alatoires indpendants, de lois respectives
N (m1 , 1 ) et N (m2 , 2 ), alors X + Y est de loi N (m1 + m2 , 1 + 2 ).

236
i

i
i

i
barbe 2007/1/8 10:41 page 237 #245

INDEX TERMINOLOGIQUE

A
absolument continue, 31, 45, 145
adapt, 173
algbre, 2, 16, 44
algbre engendre, 3
argument de bloc, 95, 113, 134
atome, 153, 154
B
barrire absorbante, 194, 206
base (dun cylindre), 90
Bayes (formule de), 152
Borel-Cantelli, 111, 116
borlien, 4
C
Cauchy (critre de), 110, 116
centr, 164
chane dEhrenfest, 200, 207
Chapman-Kolmogorov (quation de), 201
chne de Markov, 193
classe (dune chane de Markov), 209
classe (Markov), 213
classe monotone, 9, 11
communiquer, 209
compacit relative, 127
conduire, 209
conjugu, 37
convergence dans Lp , 117, 119, 120, 122
convergence domine, 119
convergence domine (thorme), 28
convergence en distribution, 122
convergence en loi, 121
convergence en probabilit, 113, 119, 120, 123
convergence troite, 122, 128
convergence monotone, 26, 158

convergence p.s., 109, 115, 122


convolution, 85, 86, 89, 103
corlation, 80, 101, 113
covariance, 60, 99, 101, 165, 166
cylindre, 90
D
dcomposition de Doob, 175
densit, 31, 43, 45, 78, 160, 167, 171
discrte (loi), 153
discrte (v.a.), 155
distance en variation, 40
distance en variation totale, 146
E
cart type, 56
changeable, 69, 170
ensemble lmentaire, 4
ensemble monotone, 10
ensemble ngligeable, 19, 21, 31
ensemble non mesurable, 20
entropie, 69
quiintgrabilit, 118, 119
quiintgrable, 127
quitension, 127
ergodique, 223
espace gaussien, 164
espace Lp , 36, 117
espace mesurable, 2
espace probabilis, 41
espace produit, 16, 35
espacements, 170
esprance, 53, 64, 79, 80
esprance conditionnelle, 154, 156, 159, 160, 165,
166
tat, 193
trangre (loi), 48

i
i

i
barbe 2007/1/8 10:41 page 238 #246

Probabilit

trangre (mesure), 31
vnement, 43
F
ltration, 173
fonction borlienne, 6
fonction caractristique, 61, 64, 80, 86, 121, 122,
132, 136, 144, 167
fonction de quantile, 50, 171
fonction de rpartition, 46, 51, 57, 102, 121, 122,
169
fonction lmentaire, 8
fonction gnratrice, 96
fonction gnratrice des moments, 66
fonction indicatrice, 5
fonction intgrable, 30
fonction mesurable, 5, 162
H
homogne, 199
I
indpendance, 73, 74, 75, 76, 80, 8991, 101, 164,
169, 131, 145, 158
ingalit de Jensen, 29, 56, 158
ingalit de Tchebitchev, 81
ingalit de Bernstein, Cramr, Cherno, 59
ingalit de Bienaym, 81
ingalit de Bonferoni, 44
ingalit de Cherno, 103
ingalit de Hlder, 37
ingalit de Hlder, 56
ingalit de Kolmogorov, 105, 181
ingalit de Markov, 58
ingalit de Minkowski, 37
ingalit de Tchebitchev, 59, 89, 113
ingalit maximale, 180
in
galit de Bienaym-Tchebitchev, 81
initiale (loi, mesure), 193
initiale (mesure, loi), 203
intgrabilit uniforme, 118
intgrable (fonction), 27, 60
intgrale, 23, 24
intgrale de Riemann, 29
irrductible, 209, 213
L
L2 , 156
Lp , 53

lemme de Borel-Cantelli, 93, 105, 111, 182


lemme de Doob, 159
lemme de Fatou, 26, 28
lemme de Riemann-Lebesgue, 70
loi, 41, 4446, 203
loi (dune variable), 44
loi binomiale, 43, 48, 55, 63, 88, 131, 137, 140,
144, 145
loi conditionnelle, 150, 162, 166, 167, 169
loi de Bernoulli, 42, 43, 45, 57, 77, 87, 94, 95,
104, 106, 111, 114, 137
loi de Cauchy, 55, 64, 68
loi de Laplace, 64
loi de Parto, 68
loi de Poisson, 42, 55, 63, 87, 103, 140, 155
loi des grands nombres, 186
loi dicrte, 45
loi du 01, 92
loi du logarithme itr, 140
loi exponentielle, 48, 55, 63, 68, 103, 111, 130,
144, 150
loi faible, loi forte des grands nombres, TCL, 131
loi forte des grands nombres, 132, 186, 187
loi gomtrique, 42, 70
loi gamma, 103, 171
loi gaussienne, 48
loi log-normale, 68
loi marginale, 51
loi normale, 48, 51, 55, 57, 63, 70, 80, 89, 98, 105,
123, 131, 164, 165
loi produit, 63, 77, 80
loi uniforme, 43, 45, 50, 95, 117, 144, 145, 151,
171
lois inniment divisibles, 106
M
marche alatoire, 194, 195, 205, 209
marche alatoire symtrique, 194
marge, 51, 77, 99, 102
martingale, 173, 174
martingale L1 , 178
masse de Dirac, 13, 40, 42, 43, 45, 47, 48, 62, 86
matrice de transition, 199, 203
matrice stochastique, 199, 208
mdiane, 69
mesurable, 5
mesure, 13, 30
mesure asymptotique, 204, 205, 213
mesure de comptage, 13, 24, 42
mesure de Lebesgue, 23, 30, 145

238
i

i
i

i
barbe 2007/1/8 10:41 page 239 #247

Index terminologique

mesure de Lebesgue (sur R), 16


mesure de Lebesgue (sur R d ), 17
mesure image, 15, 32, 44
mesure invariante, 204, 205
mesure produit, 17, 35
mesure signe, 13
mesures quivalentes, 31
mesures trangres, 31, 145
mthode de rejet, 171
moment, 53, 57, 64, 66, 68
moment absolu, 53
moment centr, 56
moyenne, 53
-essentiellement born, 36
O
orthogonale, 164
orthogonales (variables), 80
P
partition, 151, 152
priode, 220
Peron-Froebenius (lemme), 208
presque partout, 19, 43
presque srement, 43
probabilit, 13, 41, 162
probabilit conditionnelle, 15, 149, 150, 153
probabilits totales (formule des), 152
probabilit invariante, 206
processus, 173
Processus de Poisson, 171
produit scalaire (dans L2 ), 39
prolongement, 16, 44
proprit de Markov, 196, 201
proprit de Markov forte, 203
R
rcurrence, 213
rcurrence nulle, 220
rcurrent, 210212, 213
rcurrent positif, 219
rduite (variable), 56
renverse (martingale, sur-martingale,
sous-martingale), 185

-algbre, 2
somme de v.a., 81, 84, 93, 105, 131
sous-additivit, 14
sous-martingale, 174
statistique dordre, 171
suite dexhaustion, 13
sur-martingale, 174
systme complet, 151, 153, 154
T
temps darrt, 176
tension, 127
tension uniforme, 127
terminal (vnement), 92
terminale (tribu), 92
thorme darrt, 179
thorme dEgorov, 20
thorme de Fubini, 36
thorme de Kolmogorov, 145
thorme de prolongement (de Kolmogorov), 90
thorme de Radon-Nikodym, 31
thorme de transport, 32, 53
thorme des moments, 66
thorme limite central, 136, 141
thorme limite central poissonien, 139
transforme de Fourier, 6163
transforme de Laplace, 66, 103, 143
transience, 213
transient, 210, 212, 213
transition, 162
tribu, 2, 9, 44, 152
tribu borlienne, 4, 6
tribu complte, 21
tribu complte, 21
tribu engendre, 5, 153, 164
tribu produit, 4, 35
tribu terminale, 92
tribu trace, 15
tribu triviale, 2
V
variable alatoire, 43, 45
variance, 56, 57, 81, 136
vecteur alatoire, 50, 77, 98, 159, 164, 169

section, 19
-additif, 13

Wald (lemme de), 189

239
i

i
i

barbe 2007/1/8 10:41 page 240 #248

i
i

i
barbe 2007/1/8 10:41 page 241 #249

INDEX DES NOTATIONS

La rfrence est celle du premier emploi de la notation.


resp. signie respectivement
N = ensemble des entiers naturels
Z = ensemble des entiers relatifs
Q = ensemble des rationnels
R = ensemble des rels
= maximum
= minimum
\ A, 2
\ A, 2
P(), 2
, 2
resp., 3
Ac , 3
f 1 (B), 5
(f ), 5
A , 5
x y, 7
f +, 8
f , 8
M(E), 9
  , 10
x , 13
f , f 1 , 15
1 2 , 17
x, y, 18
p.p., 19
A , 19
A , 21

f d, 23
d, 30
dx, 30
 , 31
d
, 31
d
, 31

Lp (, A, ), 36
Lp , 36
f p , 36
f  , 36
Lp (, A, ), 38
Lp , 38
f, g, 39
P , 41
P(), 42
Ckn , 43
B(n, p), 43
p.s., 43
U[0,1] , 43
P X , 44
L(X), 44
P { X B }, 44
F X , 46
Exp(), 48
N (0, 1), 48
F , 50
F X , 51
E(X), 53
 p , 56
  , 56
Var(X), 56
Cov(X), 60
X (t), 62

LX (s), 66
A , 92
i.s., 93
P

, 113
L

, 122
d

, 122
P ( | B), 149
E( | B), 154
S, 155
E( | Z), 155
E( | B), 156
E(X | B | C), 158
E( | Y ), 159
P ( | B), 159
L( | ), 162
FT , 177
XT , 177
E, 193
i j, 209
i j, 209
E , 209
Ni , Ni (X), 210
i , i (X), in , in (X), 210
Pi , 210
Ei , 210
Nji , 213
ji , 214

i
i

Pub dans Probabilit

7/12/06

13:31

Page 1

Dans la mme collection :


Gomtrie
L3M1
Michle Audin
Ce livre est destin aux tudiants de Licence ou Master de Mathmatiques (L3M1) et ceux
qui prparent le CAPES ou l'agrgation.
L'ouvrage traite de gomtrie affine, euclidienne, projective, de coniques et quadratiques, de
gomtrie diffrentielle des courbes et des surfaces. Il contient un expos rigoureux, bas sur
l'algbre linaire et, en mme temps, de la "vraie" gomtrie : des triangles, des sphres,
des polydres, des angles inscrits, des inversions, des paraboles, des enveloppes... Ce livre est
illustr de 195 figures et de 411 exercices avec indications de solution. L'ouvrage se
dcoupe en 8 chapitres : la gomtrie affine ; la gomtrie euclidienne (gnralits) ;
la gomtrie euclidienne plane ; la gomtrie euclidienne dans l'espace ; la gomtrie projective ; coniques et quadriques ; courbes, enveloppes et developpes ; surfaces dans l'espace de dimension 3.
Michle Audin est professeur de mathmatiques l'Universit Louis Pasteur de Strasbourg o
elle a enseign la gomtrie tous les niveaux, mais aussi l'analyse complexe ou la topologie algbrique. Elle est spcialiste de gomtrie symplectique et de systmes intgrables, des
sujets sur lesquels elle a publi des articles de recherche et plusieurs livres.
Avril 2006 2-86883-883-9 428 pages 35

Calcul intgral
L3M1
Jacques Faraut
Cet ouvrage traite du calcul intgral, outil essentiel de l'analyse mathmatique et du calcul
des probabilits.
L'ouvrage est dcoup en 11 chapitres : Mesure et intgrale ; Mesure de Lebesgue ;
Espaces Lp ; Intgration sur un espace produit ; Intgration sur Rn ; Mesures de LebesgueStieltjes ; Fonctions dfinies par des intgrales ; Convolution ; Transformation de Fourier ;
Sries de Fourier ; Applications et complments.
Jacques Faraut est professeur de mathmatiques l'universit Pierre et Marie Curie de Paris,
o il a enseign l'analyse tous les niveaux. Il est spcialiste de l'analyse des groupes de Lie
et a publi plusieurs ouvrages sur le sujet.
Octobre 2006 2-86883-912-6 208 pages 21

Retrouvez tous nos ouvrages sur www.edpsciences.org

Vous aimerez peut-être aussi