Académique Documents
Professionnel Documents
Culture Documents
Probabilite Livre
Probabilite Livre
5/01/07
11:53
Page 1
www.edpsciences.org
26 euros
ISBN : 978-2-86883-931-2
i
i
PROBABILIT
i
i
i
i
PROBABILIT
i
i
Imprim en France
ISBN : 978-2-86883-931-2
Tous droits de traduction, dadaptation et de reproduction par tous procds rservs pour tous
pays. Toute reproduction ou reprsentation intgrale ou partielle, par quelque procd que ce soit, des
pages publies dans le prsent ouvrage, faite sans lautorisation de lditeur est illicite et constitue une
contrefaon. Seules sont autorises, dune part, les reproductions strictement rserves lusage priv
du copiste et non destines une utilisation collective, et dautre part, les courtes citations justies
par le caractre scientique ou dinformation de luvre dans laquelle elles sont incorpores (art. L.
122-4, L. 122-5 et L. 335-2 du Code de la proprit intellectuelle). Des photocopies payantes peuvent
tre ralises avec laccord de lditeur. Sadresser au : Centre franais dexploitation du droit de copie,
3, rue Hautefeuille, 75006 Paris. Tl. : 01 43 26 95 35.
c 2007, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc dactivits de Courtabuf,
91944 Les Ulis Cedex A
i
i
Prface
I
II
III
IV
Thorie de la mesure
I.1
Algbre, tribu . . . . . . . . . . . .
I.2
Ensembles de fonctions mesurables .
I.3
Classes monotones . . . . . . . . . .
I.4
Mesures . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Intgration
II.1
Intgrale de fonctions positives . . . . . . . . . . .
II.2
Intgrale de fonctions quelconques et thormes de
II.3
Thorme de Radon-Nikodym . . . . . . . . . . .
II.4
Intgration par rapport une mesure image . . .
II.5
Thormes de Fubini-Tonelli . . . . . . . . . . . .
II.6
Espaces Lp . . . . . . . . . . . . . . . . . . . . . .
Mesures de probabilit
III.1 Dnition et exemples . .
III.2 Fonctions de rpartition .
III.3 Vecteurs alatoires . . . .
III.4 Moyennes et ingalits .
III.5 Fonctions caractristiques
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
. 1
. 6
. 9
. 13
. . . . . . .
convergence
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
23
23
25
30
32
35
36
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
45
50
52
61
Indpendance
IV.1 Indpendance . . . . . . . . . . . . . . . . . . .
IV.2 Sommes de variables alatoires indpendantes .
IV.3 Applications de lindpendance . . . . . . . . . .
IV.4 Vecteurs alatoires gaussiens et lois gaussiennes
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
84
90
98
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i
i
Probabilit
VI
109
. 109
. 113
. 117
. 121
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
thorme limite
. . . . . . . . . . 131
. . . . . .
. . . . . .
. . . . . .
gaussiens
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
149
150
156
159
164
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
193
193
200
201
204
210
220
Bibliographie
227
229
Index terminologique
237
241
iv
i
i
i
PRFACE
Le calcul des probabilits est une branche trs vivante des mathmatiques
actuelles. Les premires formalisations de la notion de hasard au XVIIe sicle
rpondaient pour lessentiel diverses questions issues de la thorie des jeux. Au
cours du XXe sicle, le calcul des probabilits a trouv avec A. N. Kolmogorov
une axiomatique rigoureuse et ecace sappuyant sur lintgration de Lebesgue.
Lintuition probabiliste est aujourdhui un outil ecace dans diverses branches
des mathmatiques, de lanalyse et la thorie de la mesure jusqu la gomtrie
et mme lalgbre, et forme le support thorique des statistiques modernes.
Ce livre est consacr lexposition des notions de base du calcul des probabilits. Il sappuie de faon essentielle sur la thorie de la mesure et de lintgration de
Lebesgue. (Mesures de probabilits discrtes ou densit sont donc tudies dans
un mme cadre, au titre dexemples priviligis les plus usuels.) Les deux premiers
chapitres sont en fait un rappel des lments de base de la thorie lmentaire de
la mesure et de lintgrale de Lebesgue. Ils ne peuvent cependant tre considrs
comme un traitement exhaustif. Le lecteur peut consulter le livre de J. Faraut,
dans la mme collection, pour un expos plus complet. Le chapitre III introduit
les premiers aspects des probabilits avec les notions de variables alatoires et
de leurs lois, illustres par de nombreux exemples. Les fonctions caractristiques
(transformes de Fourier) y sont galement tudies. Le chapitre IV fait rellement
entrer le lecteur dans les considrations probabilistes avec le concept dindpendance. Laddition des variables alatoires indpendantes y est interprte comme
la traduction fonctionnelle, la riche intuition, du produit de convolution des mesures. Au chapitre V sont prsentes les diverses notions de convergence de suites
de variables alatoires, convergence presque sre, en probabilit, en loi. La loi des
grands nombres et le thorme central limite constituent les exemples fondamentaux de ces divers modes de convergence. Le chapitre suivant est un expos des
notions de conditionnement (probabilits, esprances, lois), illustr par le modle
gaussien. Le chapitre VII est une brve introduction la notion de martingale
i
i
Probabilit
vi
i
i
i
Prface
vii
i
i
i
i
i
I
THORIE DE LA MESURE
Exemples I.1.1. (i) pourra tre R ou Rd , un espace mtrique, ou plus gnralement topologique.
i
i
(ii) On joue au d en le lanant une fois. Lensemble peut tre pris comme
lensemble des faces du d, = { 1, 2, 3, 4, 5, 6 }. Lorsque lon lance le d au
hasard, cela revient choisir ( au hasard ) un lment de .
Il convient de remarquer que lon peut toujours ajouter des points . Dans
lexemple I.1.1.ii nous pourrions tout aussi bien prendre = { 1, 2, 3, 4, 5, 6, 7 }.
Mais intuitivement, 7 a une probabilit nulle dtre ralis.
On considre P() lensemble des parties de . Un sous-ensemble C de P()
est un ensemble de parties de .
Definition I.1.2. Un sous-ensemble C de P() est une algbre (de Boole) sur
si
(i) C,
(ii) C est stable par passage au complmentaire (i.e. A C \ A C),
(iii) C est stable par runion nie (i.e. A1 , . . . , Ak C A1 Ak C).
Dans laxiome (iii) de la dnition I.1.2, on pourrait se contenter de k = 2,
le cas gnral sen dduisant par rcurrence. Par passage au complmentaire, une
algbre est aussi stable par intersection nie.
Exemples I.1.4. (i) P() est toujours une algbre et une tribu.
(ii) Le sous-ensemble { , } de P(), compos de la partie vide et de , est une
algbre et une tribu, appele algbre ou tribu triviale.
2
i
i
i
(iii) Lensemble des ouverts de Rd nest pas une algbre (et donc nest pas une
tribu) car le complmentaire dun ouvert nest pas ncessairement ouvert.
(iv) Une runion de deux algbres nest pas une algbre en gnral. Considrer par exemple = { 0, 1, 2 }, les algbres C1 = { , { 0, 1, 2 }, { 0 }, { 1, 2 } } et
C2 = { , { 0, 1, 2 }, { 1 }, { 0, 2 } }, puis remarquer que la runion de { 0 } et { 1 }
nappartient pas C1 C2 .
(v) Une intersection dun nombre quelconque dalgbres (resp. de tribus) est une
algbre (resp. une tribu).
Certains auteurs dnissent les algbres comme tant stables par runion et
intersection nies.
En gnral, il est dicile dexpliciter tous les lments dune tribu. Les algbres
et les tribus se dcrivent le plus souvent par leurs lments gnrateurs.
3
i
i
i
Exemple I.1.8. Sur R, la tribu borlienne concide avec la tribu engendre par les
intervalles ] a, b [, a < b . Elle concide aussi avec la tribu engendre
par les intervalles [ a, b ], ou ] a, b ], ou [ a, b [.
On prendra bien soin de constater que si les lments dune famille gnratrice
sont explicites, il nen est rien en gnral des lments de la tribu (la plupart des
borliens de R ne sont pas des intervalles !).
Dans la suite, lorsque est Rd (ou un espace topologique), il sera toujours
muni de sa tribu borlienne. Si est discret, on le munira de la tribu de ses
parties.
Lorsque lon a deux ensembles 1 et 2 , on dnit leur produit 1 2 , sur
lequel on peut ventuellement dnir des structures produits (topologie produit,
groupe produit, etc). Lorsque lon a des espaces mesurables (i , Ai ), i = 1, 2, on
souhaite faire de lespace produit 1 2 un espace mesurable.
i
i
f 1 (x) < f 1 (y)). De mme, la structure topologique est prserve par application de la rciproque dune application continue (i.e. f est continue si f 1 (U ) est
ouvert pour tout ouvert U ). La notion analogue dans le contexte de la thorie de
la mesure est celle de mesurabilit.
Si f est une application de dans E et si B est une partie de E, on notera
f 1 (B) = : f () B .
Si B est une famille de parties de E, on notera
f 1 (B) = f 1 (B) : B B .
Noter que si B est une algbre (resp. tribu), f 1 (B) est une algbre (resp. tribu)
daprs les proprits de limage rciproque ensembliste f 1 .
Definition I.1.11. (i) Soient (, A) et (E, B), deux espaces mesurables. Soit
f une fonction de dans E. On dit que f est mesurable (pour A et B) si
f 1 (B) A ; cest--dire, f 1 (B) A pour tout B B.
(ii) Si f est une fonction de dans (E, B), on appelle tribu engendre par f ,
note (f ), la plus petite tribu (sur ) qui rend f mesurable ; autrement dit,
(f ) = f 1 (B).
(iii) Plus gnralement, si F est une famille de fonctions dun ensemble
valeurs dans (E, B), on appelle tribu engendre par F la plus petite tribu (sur
) qui rend mesurable toute fonction de F (i.e. la tribu engendre par les
ensembles de la forme f 1 (B) pour B B et f F). On la note (F).
Avec les notations de cette dnition, dire que f est mesurable de (, A) dans
(E, B) revient dire que (f ) A.
i
i
(iii) La tribu borlienne de R2 est engendre par les projections 1 et 2 sur les
1
coordonnes. En eet, 1
1 (A) 2 (B) = (A ) ( B) = A B, et les
2
rectangles engendrent la tribu B(R ) = B(R) B(R) (cf. I.1.9 et I.1.10).
T =
B E : f 1 (B) f 1 (E) .
Il est ais de vrier que T est une tribu qui contient E. Donc T contient (E).
Soit prsent A (f ). Par dnition, A = f 1 (B) pour un certain B (E).
Il sensuit B T et par construction de T , A = f 1 (B) (f 1 (E)). Ainsi,
(f ) (f 1 (E)). Linclusion rciproque est vidente.
Le cas dune famille quelconque se traite de la mme faon.
Enn, si f 1 (E) A, alors (f 1 (E)) A. Comme (f 1 (E)) = (f ) par le
premier point, la conclusion sensuit.
i
i
Lemme I.2.2. Si f, g sont des fonctions mesurables de (, A) dans (R, B(R)), alors
(f (), g()) R2 est mesurable de (, A) dans (R2 , B(R2 )).
Dmonstration. Soit AB un rectangle dans B(R2 ), et h() = (f (), g()). Alors,
Proposition I.2.3. Soient 1 , 2 deux espaces topologiques munis de leur tribu borlienne. Toute fonction continue de 1 dans 2 est mesurable (ou borlienne
ici).
Dmonstration. Remarquer que si U est ouvert dans 2 et f est une fonction
Il est facile de voir quune limite ponctuelle de fonctions croissantes est croissante, mais quune limite ponctuelle de fonctions continues nest pas ncessairement continue. La classe des fonctions mesurables est stable par limite simple.
7
i
i
i
Theor`eme I.2.5. Soit (fn )nN une suite de fonctions mesurables de (, A) dans un
espace mtrique (E, d) muni de sa tribu borlienne. Si fn converge ponctuellement
vers f (i.e. pour tout , lim fn () = f ()), alors f est mesurable.
n
fn1 (Ur )
r,m nm
est un borlien.
On peut approcher toute fonction mesurable par des fonctions mesurables plus
simples.
An,k =
k1
k
f
()
<
.
2n
2n
Les An,k sont lments de A en tant quimages rciproques par la fonction mesurable f dintervalles. La suite
fn () =
1k2n2
k1
An,k ()
2n
i
i
Definition I.3.1. Une famille M de parties de est appele une classe monotone si
(i) M,
(ii) si A, B M et B A, alors A \ B M,
(iii) M est stable
par runion monotone croissante (i.e. Ai M, i N,
Ai Ai+1 iN Ai M).
Si E P(), on note M(E) la classe monotone engendre par E, cest-dire lintersection de toute les classes monotones contenant E.
Exemples I.3.2. (i) Une tribu est une classe monotone.
(ii) Une classe monotone M, stable par intersection nie, est une tribu. En eet,
M est aussi stable par runion nie envertu de I.3.1.ii,
et toute runion peut
scrire comme une runion croissante ( iN Ai = iN ( ji Aj ) pour toute famille Ai , i N).
Pour que la dnition dune classe monotone engendre par E ait un sens, il
faut vrier que lintersection de deux, ou dun nombre quelconque, de classes
monotones est une classe monotone.
Le thorme important suivant arme que la classe monotone engendre par
une famille de parties de stable par intersection nie concide avec la tribu
engendre par cette famille.
Theor`eme I.3.3 (des classes monotones). Soit E une famille de parties de , stable
par intersection nie. Alors M(E) = (E).
Dmonstration. En vertu de lexemple I.3.2.i, (E) est une classe monotone qui
contient E et donc M(E) (E). Pour dmontrer linclusion inverse, nous montrons que M(E) est stable par intersection nie. Alors, daprs I.3.2.ii, M(E)
9
i
i
i
sera une tribu contenant E, et donc (E) M(E). Il sut de prouver que si
A, B M(E), alors A B M(E). Soit
M1 = { A M(E) : B E , A B M(E) } .
Lensemble M1 est une classe monotone qui contient E, donc M(E). Soit prsent
M2 = { B M(E) : C M(E) , B C M(E) } .
Lensemble M2 est une classe monotone. Montrons quil contient E. Il faut dmontrer pour cela que si B E, alors
C M(E) , B C M(E) .
Or C M(E) M1 , et donc, puisque B E, B C = C B M(E). Ainsi,
M2 E, donc M2 M(E), ce qui montre que M(E) est stable par intersection
nie. Le thorme est tabli.
Il existe dans la littrature direntes dnitions dune classe monotone donnant lieu direntes versions du thorme des classes monotones. Par exemple,
on peut supprimer laxiome (ii) de la dnition I.3.1 et imposer dans le thorme I.3.3 que la classe E soit en outre stable par passage au complmentaire,
cest--dire quelle soit une algbre. La version prsente est la mieux adapte
ltude de lindpendance dans le chapitre IV.
Nous tudions prsent la version fonctionnelle du thorme des classes monotones. Pour cela, si f est une fonction dnie sur un espace , valeurs relles
et borne, nous notons f = sup{|f ()| : } sa norme uniforme.
Rappelons quune suite de fonctions (fn )nN sur est croissante si pour tout
dans , la suite fn () est croissante. De plus, la suite est borne sil existe une
constante positive C telle que |fn ()| C pour tout n et tout ; autrement dit,
si supnN fn est ni. Clairement, une suite croissante borne converge.
Definition I.3.4. (i) Un ensemble H de fonctions de dans R est dit stable par
convergence monotone borne si la limite de toute suite croissante et borne
de H est aussi dans H.
(ii) Un ensemble H est dit monotone sil contient les constantes et est stable
par convergence monotone borne.
Observons que lintersection dun nombre arbitraire densembles monotones
de fonctions relles dnies sur est un ensemble monotone.
10
i
i
i
Rappelons que si F est une famille de fonctions sur valeurs relles, (F)
dsigne la plus petite tribu sur qui rend mesurables les fonctions de F lorsque
R est muni de sa tribu borlienne. Rappelons enn quun ensemble C est stable
par multiplication si pour tous f, g dans C, le produit f g est dans C.
Le thorme suivant peut tre considr comme une version mesurable du
thorme de Stone-Weierstrass.
i
i
i) Montrons que H0 est stable par lapplication valeur absolue. Soit donc f une
fonction non nulle dans H0 . Quitte remplacer f par f /f , on peut supposer
|f | 1. Observons que
i (1 f 2 )i
|f | = 1 (1 f 2 ) = 1
i1
o les i
i
i
I.4. Mesures
I.4. Mesures
Definition I.4.1. Soit (, A) un espace mesurable.
Une application de A dans R { } est -additive si pour toute fade A, indexe par un ensemble I ni ou dnombrable,
mille
Ai dlments
( iI Ai ) = iI (Ai ).
On appelle mesure (positive) toute application de A dans R+ { },
-additive, et telle que () = 0.
On dit quune mesure est
-nie sil existe une famille dnombrable
An A, n N, telle que = nN An et (An ) < . Une telle famille est
appele une suite dexhaustion de .
Un espace mesurable muni dune mesure est appel espace mesur. De plus,
si () = 1, on dit que est une mesure de probabilit ou simplement une
probabilit. Une mesure de probabilit est -nie.
On appelle mesure signe la dirence de deux mesures (positives).
i
i
(ii) ( iI Ai ) iI (Ai ) (i.e. est sous-additive).
(iii) Si Ai Ai+1 pour tout i, alors ( i Ai ) = limi (Ai ).
(iv) Si Ai Ai+1 pour tout i et (Ai0 ) < pour un certain i0 , alors ( i Ai ) =
limi (Ai ).
Dmonstration. (i) A2 est la runion disjointe des ensembles mesurables A1 et
iN
0ik
En considrant les ensembles croissants Bk = 0ik Ai , le rsultat se dduit de
(iii) que nous montrons maintenant.
(iii) Soit B
k = Ak+1 \ Ak , k N. Les ensembles Bk sont disjoints, et comme
Ai = A0 0ki1 Bk , i N, on a
Ai = A0 Bk .
i
k0
= (A0 ) + lim
0ki1
= lim (A0 ) +
i
(Bk )
(Bk )
0ki1
= lim (Ai ) .
i
(iv) Soit i0 tel que (Ai0 ) < . Les Bi = Ai0 \ Ai , i i0 forment une suite
croissante et (Ai0 ) = (Bi ) + (Ai ) (Bi ). Ainsi, la suite (Bi ), i i0 , est
14
i
i
i
I.4. Mesures
une suite croissante borne. Donc la limite limi (Bi ) existe et, la premire
galit ci-dessous venant de (iii),
Bi = Ai0 \
Ai = (Ai0 )
Ai .
lim (Bi ) =
i
Donc
ii0
Ai
ii0
ii0
= (Ai0 ) lim (Bi ) = lim (Ai0 ) (Bi ) = lim (Ai ) ,
i
ii0
Exemple I.4.6. Considrons le jeu de d avec = { 1, 2, 3, 4, 5, 6 } et la probabilit dnie par (A) = card(A)/6. Soit f : { 0, 1 } dnie par f () = 1 si
est pair, et 0 si est impair. On vrie que
f ({ 0 }) = f ({ 1 }) = 1/2 ,
i.e. on a une chance sur deux dobtenir un chire pair en jouant au d. Cet exemple
montre simplement que le formalisme utilis nest pas absurde et concide avec
lintuition que lon peut avoir du hasard.
15
i
i
i
Proposition I.4.7. Soient , deux mesures sur (, A). Soit C une algbre qui
engendre A. Si et concident sur C, alors elles sont gales.
Dmonstration. Lensemble M = { A A : (A) = (A) } est une classe mono-
tone qui contient C. Puisque C est stable par intersection nie, par le thorme
I.3.3 des classes monotones, A M M(C) = (C) = A et ainsi M = A. Donc
et concident bien partout.
Exemple I.4.8. Sur un espace produit, une mesure est dtermine par sa valeur
sur les pavs (voir dnition I.1.9 et I.1.10.i.)
Un deuxime pas nous est fourni par le thorme de prolongement de Carathodory. Une application dnie sur une algbre
de Boole
C valeurs dans
R+ { } est dite additive si () = 0 et si ( 1in Ai ) = 1in (Ai ) pour
tous A1 , . . . , An C disjoints.
Theor`eme I.4.9 (de prolongement). Si est une fonction additive densembles, positive, dnie sur une algbre de Boole C de parties de avec () < , elle se
prolonge de faon unique en une mesure sur (, (C)).
La dmonstration de ce thorme est admise. On peut se rfrer Neveu (1964,
I.5).
Exemples I.4.10. (i) Sur R, les runions nies dintervalles forment une algbre
de Boole C. Dnissons
(] a, b ]) = b a et prolongeons par additiv C.
Prcisment, si A = 1in ] ai , bi ] avec ] ai , bi ] disjoints,
(A) =
(bi ai ) .
1in
16
i
i
i
I.4. Mesures
x (A) = (A)
est stable par intersection nie et contient tous les pavs. Donc M(E) = (E) =
B(Rd ) daprs le thorme des classes monotones I.3.3 et la dnition de B(Rd )
(exemple I.1.12.iii). On peut de plus dmontrer que la mesure de Lebesgue est,
une constante de proportionnalit prs, lunique mesure invariante par translation
sur Rd .
(iv) Soit D lensemble des droites du plan. Nous allons construire sur D une mesure
analogue la mesure de Lebesgue sur Rd , laquelle nous permettra de mesurer des
ensembles de droites du plan.
17
i
i
i
=
et
p =
mod 2
p + x, e()
|p + x, e()|
On voit donc quune translation x se traduit par un translation sur (, p). Puisque
la mesure est invariante par translation modulo 2, est invariante par x . De
mme est invariante par toute rotation R dangle , puisque
R D(, p) = D( + mod 2, p)
induit encore une translation sur (, p).
On dmontre que la mesure ainsi dnie est, une constante de proportionnalit prs, lunique mesure sur les ensembles de droites qui est invariante par les
mouvements euclidiens.
Signalons enn la dnition suivante qui sera trs utile pour la suite.
18
i
i
i
Exercices
Exercices
Exercice I.1. Soit E une partie (xe) dun ensemble , et soit
E = { A P() : A E } .
Dterminer lalgbre de Boole engendre par E.
i
i
n mn
i
i
Exercices
21
i
i
i
i
i
II
INTGRATION
Dans tout ce chapitre, nous considrons des fonctions dun espace mesur
(, A, ) valeurs dans R muni de sa tribu borlienne B(R). Ces fonctions seront
appeles borliennes sur (, A, ).
Les thormes importants de la thorie de lintgration sont le thorme de
convergence monotone et le thorme de convergence domine de Lebesgue. De faon grossire, on veut que si une suite croissante de fonctions positives fn converge
simplement, alors la limite des intgrales de fn est lintgrale de la limite des fn .
Cette ncessit conduit naturellement prendre une dnition de lintgrale
utilisant lapproximation des fonctions par des limites croissantes. Mais lon veut
aussi que lintgrale concide avec ce que lintuition attend lorsque lon intgre des
fonctions tages.
i
i
ai (Ai B) =
1in
1in
1in ai Ai ()
ai
B
avec les Ai
Ai d .
Le lecteur peut alors vrier que la valeur de lintgrale B f d ne dpend pas
de la dcomposition de f en somme dindicatrices et en dduire la linarit de
lintgrale sur les fonctions tages positives.
Nous pouvons tendre la dnition de lintgrale aux fonctions positives.
d =
f d.
i
i
(iii) Si f 0 et c 0, alors B cf d = c B f d.
(iv) B (f + g) d = B f d + B g d.
(v) Si f = 0 alors f d = 0.
(vi) Si (B) = 0, alors B f d = 0.
(vii) Si f 0, alors B f d = B f d.
(viii) Si f 0 et B f d = 0, alors B f = 0 -p.p.
Ces proprits sont encore vraies si les hypothses sur f (et g) ont seulement
lieu -presque partout.
Dmonstration. Commencer par tablir les assertions (i)(vii) sur les fonctions
tages, puis passer au supremum pour les fonctions positives.
Dmontrons par
cf d =
B
cai (B Ai ) = c
1in
ai (B Ai ) = c
f d .
B
1in
n 1.
An d n
f d = 0 .
Lgalit { f > 0 } = n1 An et la proposition I.4.3.iii montrent alors que lensemble { : f () > 0} est de -mesure nulle. Puisque f 0, on en dduit que
f = 0 -p.p.
i
i
Theor`eme II.2.1 (de convergence monotone). Soit (fn )nN une suite croissante de
fonctions mesurables positives sur (, A, ), convergeant ponctuellement vers f .
Alors f est mesurable et
fn d = f d .
lim
n
1im
la seconde galit rsultant de I.4.3.iii et du
fait que n { fn cg } = . Or c
tant arbitraire dans [ 0, 1 [, on obtient
tage
g d, ceci pour toute fonction
0 g f . Par dnition de lintgrale f d, on en dduit f d. Ainsi
= f d et le thorme est dmontr.
Le rsultat suivant est un exemple dapplication du thorme de convergence
monotone.
Corollaire
II.2.2. Soit (fn )nN
une suite
de fonctions mesurables positives et soit
f = nN fn . Alors f d = nN fn d.
Dmonstration. La suite gn =
est
et converge simplement
croissante
vers f . Le thorme II.2.1 implique limn gn d = limn gn d, ce qui est
le rsultat.
0mn fm
Corollaire II.2.3 (Lemme de Fatou). Soit (fn )nN une suite de fonctions mesurables positives. Alors
lim inf fn d lim inf fn d .
n
26
i
i
i
Exemple II.2.5. On vrie sans peine que si (, A) est un espace mesurable et f est
une fonction mesurable valeurs dans (R, B(R)), alors pour
tout , f est int= f (). Plus ggrable par rapport
la masse de Dirac (cf. I.4.2.ii) et f d
f d
g d.
27
i
i
i
Si f g, alors f g 0. Donc (f g) d 0 daprs la proposition II.1.4.i,
et la conclusion sensuit par linarit.
Lnonc suivant est une forme gnralise du lemme de Fatou.
Corollaire II.2.7. Soit g une fonction intgrable et soit (fn )nN une suite de fonctions intgrables.
(i) Si g fn , alors lim inf n fn d lim inf n fn d.
(ii) Si fn g, alors lim supn fn d lim supn fn d.
Dmonstration. (i) Daprs le lemme de Fatou (corollaire II.2.3), on a
(fn g) d
Le rsultat suivant est encore un corollaire du thorme de convergence monotone, mais nous lui attribuons la valeur dun thorme compte tenu de son
importance.
Theor`eme II.2.8 (de convergence dominee de Lebesgue). Soit (fn )nN une suite de
fonctions telles que |fn | g o g est intgrable et fn converge simplement vers f .
Alors f est intgrable et
fn d = f d .
lim
n
28
i
i
i
mesurables
fonction intgrable. Alors i1 Ai g d = i1 Ai g d. En eet, la suite de fonctions fn = 1in Ai g converge simplement vers f = i1 Ai g et chaque fonction
|fn | est majore par la fonction intgrable |g|. Le thorme de convergence domine II.2.8 montre que
fn d = lim
g d = f d = lim
g d .
Ui1 Ai
1in Ai
Lingalit suivante est trs importante pour les applications. Elle ne concerne
que les mesures de probabilit.
f d (f ) d .
Dmonstration. La convexit de assure quen tout point le graphe de
est au-dessus de sa tangente. Donc pour tout t R, il existe tel que
(x) (t) + (x t) pour tout x (on peut prendre pour
la drive gauche
ou droite de en t). Appliquons cette ingalit t = f d et x = f () pour
tout , et intgrons les deux membres. La conclusion sensuit puisque lintgrale
conserve le sens des ingalits (cf. proposition II.2.6).
La dmonstration
de Jensen montre que si est strictement
de lingalit
convexe, lgalit ( f d) = (f ) d na lieu que si f est -presque partout
constante. De plus, si lgalit a lieu pour toute fonction f , alors la fonction est
linaire.
Dans le cas de la mesure de Lebesgue, mentionnons que lintgrale construite
tend celle de Riemann et donc quen pratique le calcul dune intgrale seectue
laide des techniques usuelles (calcul de primitives, changement de variables, intgration par parties). En eet, rappelons quune fonction f est Riemann intgrable
sur un intervalle ferm born [ a, b ] si pour tout > 0 il existe des fonctions en
29
i
i
i
b
escalier g et h avec g f h et a (hg)(x) dx . Soit la mesure de Lebesgue
(cf. I.4.10.i). Pour les fonctions en escalier g et h, par dnition des intgrales de
b
b
Riemann et de Lebesgue, a g(x) dx = [a,b] g d et a h(x) dx = [a,b] h d. Donc
g d
g(x) dx =
a
[a,b]
f d
[a,b]
h d =
h(x) dx
a
[a,b]
b
et ainsi [a,b] f d = a f (x) dx. Labus usuel de notation confond alors les notations d et dx.
La construction de lintgrale donne ici est plus gnrale, dune part parce
que lon peut intgrer par rapport dautres mesures que celle de Lebesgue et
sur dautres espaces que R ou Rd , dautre part, parce que mme sur R, il existe
des fonctions Lebesgue-intgrables (i.e. intgrables au sens de ce chapitre) qui ne
sont pas Riemann intgrables (cf. exercice II.1).
i1
Ai
i1
Ai
i1
Af
d = 0.
30
i
i
i
(1982).
Theor`eme II.3.4. Soient , deux mesures -nies sur (, A). Alors il existe une
unique dcomposition = ac + avec ac et trangre par rapport .
La mesure ac est appele la partie absolument continue de par rapport et
la partie trangre de par rapport .
Dmonstration. On se reportera par exemple Neveu (1964), Rudin (1975) ou
Malliavin (1982).
31
i
i
i
df =
E
et la formule est vraie dans ce cas. Si est tage, la formule est valide par linarit (par rapport ). Si est positive, soit (n )nN une suite de fonctions
tages positives convergeant en croissant vers (I.2.7). Alors fn est tage et converge simplement en croissant vers f . En utilisant le thorme de
convergence monotone (II.2.1), la fois pour la mesure et la mesure f ,
f
f
d = lim
n d = lim
n f d =
f d .
E
n E
=
f d
f d =
f d .
32
i
i
i
Exemple II.4.2. Continuons lexemple I.4.10.iv en valuant la mesure de lensemble des droites qui coupent un segment S de longueur l donne, i.e.
{ D : D S = } .
Puisque est invariante par les mouvements euclidiens, ou peut supposer que S
est sur laxe Ox, lune de ses extrmits tant lorigine. Alors
{ D : D S = } = {DS=} d(D) (dnition II.1.1 de lintgrale)
2
{D(,p)S=} dp d
(par transport)
=
0
0
/2
=2
0
{0pl cos } dp d
= 2l .
Supposons
maintenant que nous disposons de k segments S1 , . . ., Sk , et posons
S = 1ik Si . Soit card(D S) le nombre de points dintersection de D avec S.
Alors
1
1
card(D S) d(D) =
DSi d(D)
2
2
1ik
1
{ D : D Si = }
=
2
1ik
i
i
1jn
34
i
i
i
2 2 : (1 , 2 ) A
et A2 =
1 1 : (1 , 2 ) A
(A) =
1
2 (A1 ) d1 (1 ) =
1 (A2 ) d2 (2 ) ,
(1)
(A) =
1 2
=
2
A (1 , 2 ) d2 (2 ) d1 (1 )
A (1 , 2 ) d1 (1 ) d2 (2 ) .
En eet, soit
M=
A A : (A) =
1
2 (A1 ) d(1 ) =
2
1 (A2 ) d(2 )
i
i
1
2
f (1 , 2 ) d1 (1 ) d2 (2 ) .
=
2
sur
Dmonstration. Daprs la remarque prcdant le thorme, les galits sont satisfaites lorsque f est positive. On tend les galits aux fonctions intgrables en
sparant parties positive et ngative et en utilisant la linarit de lintgrale.
Dans la pratique, pour vrier quune fonction f est intgrable par rapport
une mesure produit = 1 2 , on value |f | d par permutation des intgrales.
Si |f | d est nie, on est alors en droit dutiliser le thorme de Fubini pour le
calcul de f d. Des exemples simples montrent en outre que la permutation de
lordre dintgration peut tre en dfaut si f nest pas intgrable pour la mesure
produit .
II.6. Espaces Lp
Nous avons dni la classe des fonctions intgrables ( valeurs dans R) sur un
espace mesur (, A, ), quil est dusage de noter L1 (, A, ). Pour 0 < p < ,
on note Lp (, A, ) (ou simplement Lp si le contexte est clair) lensemble des fonctions relles de puissance p-ime intgrable,
cest--dire lensemble des fonctions
f mesurables de dans R, telles que |f |p d < .
L0 est dni simplement comme tant lensemble des fonctions mesurables de
(, A, ) dans R.
On dnit L comme tant lensemble des fonctions mesurables f de (, A, )
dans R telles quil existe c > 0 avec
({ : |f ()| > c }) = 0 .
Cest lensemble des fonctions (mesurables) -essentiellement bornes.
Si f Lp , 0 < p < , on pose
1/p
p
|f | d
.
f p =
Pour f
L ,
on pose
f = inf c > 0 : : |f ()| > c = 0 ,
i
i
II.6. Espaces Lp
37
i
i
et donc |g| [0,n] (|g|)q . En passant la limite lorsque n tend vers linni,
gq < .
Il reste montrer que si les formes linaires f f g d et concident sur
L , alors elles concident sur Lp . Lorsque () < , on montre que tout espace
Lp est dense dans tout espace Lr et donc que deux formes linaires continues
concidant sur L concident sur Lp . Si () = , on utilise la -nitude de la
mesure et on partitionne lespace pour se ramener au cas ni.
La dernire armation dcoule du thorme de Hahn-Banach sur les duaux.
38
i
i
i
Exercices
Exercices
Exercice II.1. Un exemple de fonction Lebesgue intgrablequi nest pas Riemann
intgrable : f (x) = Q[0,1] (x), x [ 0, 1 ]. Montrer que f d = 0 mais que f
nest pas Riemann intgrable sur [ 0, 1 ].
Exercice II.2. Soit (, A, ) un espace mesur, et soient A et B deux lments de
A. Examiner le lemme de Fatou sur lexemple suivant : f2n = A , f2n+1 = B .
Exercice II.3. Soit une mesure de probabilit sur I = [ 0, 1 ]. On note
v = (x m)2 d(x) ,
m = x d(x) ,
I
I
2
1
2
2
m + x(1 x) d(x) .
b=
a = x d(x) m ,
2
I
I
Exprimer v et b en fonction de a. En dduire que a 1/4 et que a = 1/4 pour
une unique mesure que lon dterminera.
Exercice II.4. Soit (, A, ) un espace mesur, f , fn , n N, des fonctions mesurables positives intgrables. On suppose que
et
lim
fn d = f d .
fn f -p.p.
n
En utilisant lingalit (f fn )+ f , dmontrer que limn (f fn )+ d = 0.
En dduire que fn f dans L1 ().
Exercice II.5. Soit C
K (R) lensemble des fonctions sur R, inniment direntiables, support compact. Montrer que si A est intervalle ouvert, alors A est
limite simple de fonctions dans C
K (R), majores par 1.
Indication : on pourra dabord considrer lintervalle [ 0, 1 ] et les fonctions
exp(/x(1 x)) si x ] 0, 1 [ et 0 si x ] 0, 1 [.
39
i
i
i
d1
d1 d2
Exercice II.6. Si 1 2 3 , montrer que
=
, 3 -p.p. Si de
d3
d2 d3
d2
d1 1
=
, 1 -p.p. et 2 -p.p.
plus 2 1 , alors
d1
d2
Exercice II.7. Cet exercice montre que le dual topologique de
L ([ 0, 1 ], B([ 0, 1 ]), ) = L nest pas L1 ([ 0, 1 ], B([ 0, 1 ]), ) = L1 . En
eet, C[ 0, 1 ] L (L1 ) o dsigne ledual. La masse de Dirac 0 est dans
le dual de C[ 0, 1 ] par la dualit 0 , f = f d0 = f (0). De plus la norme de
0 C[ 0, 1 ] est 1. Par le thorme de Hahn-Banach, montrer que lon peut
prolonger 0 en une forme linaire sur L , de norme 1. Prouver que nest
pas dans L1 .
Exercice II.8. Soit L1 ([ 0, 1 ], ) lespace des fonctions relles intgrables pour la
mesure de Lebesgue sur [ 0, 1 ]. On considre la suite de fonctions
t R,
an (t) = 2 + sin(nt) ,
n N.
[ 0,1 ]
dmontrer que
1
P Q =
2
|f g| d .
40
i
i
i
III
MESURES DE PROBABILIT
Dans ce chapitre, nous dnissons les notions de base des probabilits, savoir,
ce que sont une mesure de probabilit et une variable alatoire. Il ne faut pas
perdre de vue que les mathmatiques ne proposent au mieux quun modle de
certains mcanismes rels. La dnition mathmatique dune variable alatoire
est choquante premire vue, puisque nous verrons quil ny a absolument rien
dalatoire et de variable dans cette dnition ! Mais lusage, nous verrons que
le calcul des probabilits que lon peut dvelopper partir de cette dnition
concide avec lintuition que lon peut avoir en observant des phnomnes qualis
dalatoires.
Laxiomatique que nous prsentons ici est essentiellement due Kolmogorov
(19031987). Cest la plus communment utilise. Ce nest pas la seule possible.
Il en existe de nombreuses autres et lon pourra utilement consulter louvrage de
Fine (1973) ce propos.
i
i
En particulier, si est une mesure sur (, A) avec 0 < () < , on voit que
P = /() est une probabilit.
Si P est une probabilit, observons que P est valeurs dans [ 0, 1 ] puisque
pour tout ensemble A mesurable, P (A) P () = 1. De plus, P () = 0.
Donnons prsent quelques exemples de mesures de probabilit. Lappendice
donne un inventaire des mesures de probabilit usuelles et de leurs caractristiques
principales.
k
kN
k!
k ,
i
i
i
i
(iv) P ( nN An ) nN P (An ) .
(v) Si les ensembles An sont croissants, ou dcroissants,
P ( lim An ) = lim P (An ) .
n
0nmk
0nk
0nk
=P
1nk
An
1nk
1nk
An
+ P (A0 ) P A0
An
+ P (A0 )
1nk
P A0 An .
1nk
Les noncs sur les mesures peuvent tre reformuls sur les probabilits. En
particulier le thorme de prolongement de Carathodory (I.4.9) montre quune
probabilit est dnie si elle est donne sur une algbre qui engendre la tribu.
De mme que nous avons dni les mesures images, on peut dnir les lois
images. La dnition suivante introduit la notion fondamentale de loi dune variable alatoire.
i
i
(prendre lidentit pour la variable alatoire !). Donc toute mesure de probabilit est la loi dune variable alatoire. Pour les applications, en gnral, seule
compte la mesure image, et lon explicite rarement la variable alatoire et lespace
(, A, P ). On crira par exemple soit X une variable de Bernoulli de paramtre p, cest--dire telle que P { X = 1 } = 1 P { X = 0 } = p au lieu de
soit X une variable alatoire de lespace (, A, P ) dans { 0, 1 }, de loi de Bernoulli, cest--dire telle que P X ({ 1 }) = 1 P X ({ 0 }) = p, ou plus exactement
P {X = 1} = 1 P {X = 0} = p . De mme, on crira souvent soit X une variable alatoire de loi P pour dire soit X une variable alatoire dnie sur
lespace (, A, ) o est une mesure de probabilit telle que la mesure image
X est P .
Il sensuit que lon peut considrer de faon complmentaire les variables alatoires et leurs lois. Selon le contexte, lun ou lautre de ces points de vue est
prfrable. Souvent nous utiliserons les variables alatoires. On prendra garde au
fait que le langage aura souvent tendance confondre les variables alatoires et
leurs lois.
La reprsentation dune loi par une variable alatoire nest pas unique. Par
exemple, pour la loi de Bernoulli B(1, p), on peut choisir = { 0, 1 } muni de
la tribu des parties et de la probabilit P = p 1 + (1 p) 0 et X lapplication
identit de { 0, 1 } dans lui-mme. On peut aussi choisir = [ 0, 1 ], A = B([ 0, 1 ]),
P la mesure uniforme sur [ 0, 1 ] (Lebesgue) et X : { 0, 1 } dnie par
X() = [0,p](). La mesure image P X est la loi de Bernoulli de paramtre p.
La dnition suivante a pour but de rsumer les deux classes fondamentales
de lois rencontres dans les exemples prcdents.
Definition III.1.8. On dit quune loi est discrte si cest une combinaison linaire nie ou
i
i
t R.
h0
i
i
tervalles, donc sur lalgbre et la tribu engendres par les intervalles. La tribu
engendre par les intervalles est la tribu borlienne et le rsultat sensuit.
Propriete III.2.4. Une fonction de rpartition admet au plus un nombre dnombrable de points de discontinuit.
Dmonstration. Soit Dn lensemble des points de discontinuit avec un saut damplitude plus grande que 1/n ; en notant F (t) la limite gauche de F en t,
Dn = t R : F (t) F (t) 1/n .
Puisque 0 F
1, ncessairement card(Dn ) n. Lensemble des points de
discontinuit est n1 Dn , et donc est dnombrable. Notons que le mme raisonnement sapplique en fait toute fonction croissante.
Exemple III.2.5. Soit F une fonction de rpartition. Soit (xn )nI , I N, la suite
des points de discontinuit
de F et an = F (xn ) F (xn ) le saut correspondant.
1
en fait la fonction de rpartition de la mesure de probabilit nI an xn . Si
1
(F Fd ) est une fonction de
= 1, alors F = Fd est discrte. Sinon, Fc = 1
rpartition continue. Ainsi F est la moyenne Fd + (1 )Fc dune fonction de
rpartition continue et dune fonction de rpartition discrte.
Notons Pc la mesure de probabilit sur (R, B(R)) de fonction de rpartition
Fc . En dcomposant Pc suivant la mesure de Lebesgue par le thorme II.3.4,
on pourra crire Pc = Pac + (1 )P pour un [ 0, 1 ], Pac tant une
mesure de probabilit absolument continue par rapport la mesure de Lebesgue,
et P lui tant singulire. Notons Fac et F leur fonction de rpartition. Labsolue
continuit de Pac par rapport permet dexprimer
t
f d =
f d , t R ,
Fac (t) =
],t]
i
i
trangre par rapport la mesure de Lebesgue (un exemple classique dune telle
mesure trangre est donn dans lexercice V.13).
Si P X admet une densit par rapport la mesure de Lebesgue, sa fonction de
rpartition scrit
t
f (x) d(x) ,
F (t) =
Exemples III.2.6. (i) Soit > 0 et soit F (t) = 1et si t 0 et F (t) = 0 si t < 0.
Cest une fonction de rpartition. Sa densit est et si t 0 et 0 si t < 0. Cest
la fonction de rpartition de la loi exponentielle de paramtre , note Exp().
(ii) F = [x,[ est la fonction de rpartition de la masse de Dirac x en x R.
(Faire un dessin.)
x2 /2
e
R
2
2
x2 /2
d(x) =
e
dx
2
2
=
e(x +y )/2 dx dy
2
r 2 /2
re
dr d = 2 .
=
0
t
2
Sa fonction de rpartition F (t) = (2)1/2 ex /2 dx, t R, est la fonction
de rpartition dune loi appele loi normale ou loi gaussienne, centre, rduite,
note N (0, 1).
Si X est de fonction de rpartition F , alors pour m R et > 0, la variable
alatoire Y = X + m a pour fonction de rpartition F (t m)/ puisque
tm
.
P X + m t = P X
i
i
(x m)2
exp
.
2 2
2 2
1
La densit reprsente la cloche gaussienne, symtrique par rapport m, dautant plus pointue
que est petit. En particulier, N (m, 0) peut tre vue comme la masse de Dirac
en m.
(v) F (t) = t si t [ 0, 1 ], 0 si t < 0 et 1 si t > 1 est une fonction de rpartition
(faire un dessin). Cest la fonction de rpartition de la mesure de Lebesgue sur
[ 0, 1 ], appele loi uniforme et note U[0,1] . Plus gnralement, on dnit une loi
uniforme U[a,b] sur un intervalle born [ a, b ] quelconque. On pourrait tout aussi
bien considrer les intervalles ouverts ou semi-ouverts.
(vi) Soit la fonction de rpartition F dune loi P , donne par
0
si t 0,
t/4
si 0 t < 1,
F (t) =
1/2
si 1 t < 2,
2 + 1 (1 e(t2) ) si t 2.
3
3
Le graphe de F comporte deux points de discontinuit en 1 et 2 damplitudes respectives 1/4 et 1/6. La partie continue est drivable presque partout par rapport
la mesure de Lebesgue, de densit
f (x) =
1
1
[0,1[ (x) + e(x2) [2,[ (x) .
4
3
1
1
1 + 2 + ac
4
6
i
i
F (t) u. En eet, si F (u) t, pour tout s > t il existe x < s tel que F (x) > u ;
ainsi F (s) > u, et par continuit droite de F , F (t) u. Rciproquement, si
F (t) > u, alors t appartient { x : F (x) > u } et donc F (u) t. Par voie de
consquence, pour tout t R,
F (t) = P { U < F (t) } P { F (U ) t }
P { F (t) U } = F (t) ,
de sorte que P { F (U ) t } = F (t) et donc F (U ) a pour fonction de rpartition F .
Remarquons que la fonction de quantile est bien dnie (i.e. est nie) sur
] 0, 1 [. Elle croissante, et donc elle admet au plus un nombre dnombrable de
points de discontinuit (par un argument tout fait analogue celui que nous
avons utilis dans la dmonstration de la proprit III.2.4, en remarquant que
F (1 u) F (u) < pour tout u < 1/2). De plus, on vrie facilement que
si F est inversible, alors F est linverse de F .
La proprit suivante nous sera utile ultrieurement.
Proposition III.2.8. Si F est une fonction de quantile, elle est continue droite
et admet une limite gauche en tout point.
Dmonstration. La limite gauche en tout point provient de la croissance de F .
i
i
lim
F X (t) .
Exemples III.3.3. (i) Supposons que X = (X1 , X2 ) soit de loi discrte dans R2
concentre en les points (1, 0), (0, 1), (0, 1), (1, 0) tous de probabilit 1/4.
Autrement dit,
PX =
1
1
1
1
(1,0) + (0,1) + (0,1) + (1,0) ,
4
4
4
4
X2
Y2
1
0
1
X1
1
0
0
1/4
1/4 0
0
1/4
1
0
1/4
0
1
0
1
Y1
1
0
1/16 1/8
1/8
1/4
1/16 1/8
1
1/16
1/8
1/16
51
i
i
1
exp(x2 /2)
(2)d/2
t1
t2
t1 , t2 R .
f (x, y) dx dy ,
R
P {X t1 } = lim F (t1 , t2 ) =
t2
t1
f (x, y) dy dx ,
i
i
E(X) =
Theor`eme III.4.2 (de transport). Soit X un vecteur alatoire sur (, A, P ) valeurs dans (Rd , B(Rd )) et soit une fonction borlienne de Rd dans R. Si est
valeurs positives,
X() dP () =
(x) dP X (x) .
E (X) =
Rd
i
i
= P (A) = P {X A} .
(ii) Soit X un vecteur alatoire valeurs dans Rd , admettant une densit f . Soit h
une bijection sur Rd , de classe C1 , de jacobien Jh (x) = 0 pour tout x. Le vecteur
Y = h(X) a pour densit
1
g(y) = |Jh1 (y)|f h1 (y) = Jh h1 (y) f h1 (y) .
En eet, si est une fonction borlienne borne (par exemple une indicatrice
de borlien), daprs le thorme de transport et la formule de changement de
variables pour des intgrales de Lebesgue, on a
h(x) dP X (x)
E h(X) =
d
R
h(x)f (x) dx
=
Rd
(y)Jh1 (y)f h1 (y) dy .
=
Rd
Rd
Rd
nN pn xn ,
E (X) =
(x) dP X (x) =
Rd
nN
(xn )pn =
(xn )P {X = xn } .
nN
i
i
Exemples III.4.4. (i) Soit X de loi 12 0 + 12 1 . Alors E(X) = 1/2 : dans un jeu de
pile ou face quilibr, on tire en moyenne une fois sur deux pile (X = 1) et une
fois sur deux face (X = 0) !
1
xi
n
1in
= pn
k1
Ck1
(1 p)(n1)(k1)
n1 p
1kn
= pn
Ckn1 pk (1 p)(n1)k = pn .
0kn1
(iv) Si X suit une loi de Poisson P(), on vrie comme dans lexemple (iii) que
E(X) = .
(v) Soit X de loi exponentielle de fonction de rpartition 1 F (t) = et , t 0.
Elle a pour densit ex [0,[ (x). Ainsi, en intgrant par parties,
1
x
xe
dx =
ex dx = .
E(X) =
0
0
(vi) Soit X de densit 1/(1 + x2 ) par rapport la mesure de Lebesgue sur R (loi
de Cauchy). Alors X nadmet pas desprance, mais admet tout moment absolu
dordre p < 1.
(vii) Si X est de loi N (0, 1), alors, par symtrie,
2
dx
xex /2 = 0 .
E(X) =
2
R
Donc si X est de loi N (m, 2 ) (cf. III.2.6.iv), E(X) = m.
(viii) Plus gnralement, si X est une variable alatoire relle, intgrable, la linarit de lintgrale implique
E(X + m) = E(X) + m
pour tous , m R.
55
i
i
i
Theor`eme III.4.5. (i) (Ingalit de Jensen) Si est convexe sur R et si X est une
variable alatoire relle telle que X et (X) sont intgrables, alors
E(X) E (X) .
(ii) (Ingalit de Hlder) Si X Lp , Y Lq , p, q 1 et p1 + q 1 = 1, alors
XY L1 et
1/p q 1/q
.
E |XY | E |X|p
E |Y |
1/p
est croissante.
(iii) Lapplication p E |X|p
(iv) p = (E| |p )1/p est une norme sur Lp (, A, P ), p 1.
(v) On dnit X = limp Xp . Cest une norme, appele norme supremum
essentiel, sur L (, A, P ) = { X : X < }.
Noter que lingalit triangulaire dans le point (iv) de ce thorme est quivalente lingalit de Minkowski. Le point (iii) de ce thorme dcoule aussi bien
de lingalit de Jensen ou de Hlder. Dans la pratique, lingalit de Jensen est
le plus souvent utilise pour les fonctions (x) = |x|, x2 et 1/x lorsque x > 0. En
particulier, pour une variable alatoire X intgrable, |E(X)| E(|X|) ; pour une
2
variable alatoire X dont le carr est intgrable, E(X) E(X 2 ) ; pour une
variable alatoire X valeurs strictement positives, E(1/X) 1/E(X).
La dnition suivante dcrit une mesure de la dispersion dune variable alatoire ou de sa loi.
Definition III.4.6. Soit X une variable alatoire relle dont le carr est intgrable. On appelle variance de X, ou de sa loi P X , et on note Var(X), la
quantit
2
.
Var(X) = E X E(X)
Var(X) est appele lcart type, parfois not (X). Une variable
La racine
alatoire dcart type 1 est dite rduite.
Une expression quivalente de la variance est
Var(X) = E(X 2 ) E(X)2 .
56
i
i
i
Exemples III.4.7. (i) Si Var(X) = 0, alors X est p.s. constante, gale sa moyenne
E(X).
(ii) Si X est de loi de Bernoulli B(n, p), sa variance est np(1 p).
(iii) Si X suit une loi N (0, 1), E(X) = 0 et donc
2
dx
2
x2 ex /2 = 1
Var(X) = E(X ) =
2
R
(intgration par parties). Ceci justie la terminologie de loi normale centre rduite pour N (0, 1).
(iv) Si est un nombre rel, Var(X + ) = Var(X) et Var(X) = 2 Var(X). En
particulier, si X est de loi N (m, 2 ), on a Var(X) = 2 et (X) = .
La dnition et les exemples (iii)(iv) montrent que plus la variance est grande,
plus la variable alatoire est disperse, cest--dire prend avec forte probabilit
des valeurs loignes de sa moyenne.
Il est parfois plus commode de calculer une esprance partir de la fonction
de rpartition.
nN
57
i
i
i
p1
tp1 E ]t,[(X) dt
0
X
p1
t
dt
=E p
P {X > t} dt = p
0
p
= E(X ) .
Pour la seconde partie, prenons p = 1 et notons que
P {X > n + 1}
P {X > t} dt
P {X > n}
0
nN
nN
nN
nN
Les ingalits suivantes sont essentielles dans lanalyse des variables alatoires
relles.
E(|X|)
E(X + )
.
t
t
[t,[(X)
X
X+
|X|
[t,[ (X)
t
t
t
Cette ingalit est utilise gnralement soit pour X positive, soit pour |X|.
Elle nest intressante que si le second membre est plus petit que 1.
E(|X|p )
tp
i
i
t > 0,
I(t) = sup t ln E(eX ) ,
t R.
Cette ingalit est lingalit de Bernstein, Cramr ou Cherno. Elle est dun
usage frquent dans ltude des sommes de variables alatoires indpendantes et
dans la thorie des grandes dviations.
(iv) Nous prsentons un exemple dapplication du calcul des probabilits lapproximation des fonctions. Le thorme de Stone-Weierstrass indique que lensemble des polynmes est dense dans lespace C[ 0, 1 ] des fonctions continues sur
[ 0, 1 ] valeurs relles, muni de la norme uniforme . Montrons ce rsultat
de faon plus constructive.
une fonction f C[ 0, 1 ], nous associons son n-ime polynme de Bernstein,
f (k/n)Ckn xk (1 x)nk , x [ 0, 1 ] .
Bn (f, x) =
0kn
Observons que Bn (f, x) = E(f (Z/n)) o Z est de loi binomiale B(n, x). Notons
(f, ) = sup |f (x) f (y)| , x, y [ 0, 1 ] , |x y|
le module de continuit de f sur [ 0, 1 ]. Ce module est ni pour tout > 0
puisque f est continue sur le compact [ 0, 1 ], donc uniformment continue. Pour
tout x [ 0, 1 ],
f (x) Bn (f, x) = f (x) E f (Z/n)
E f (x) f (Z/n)
(f, )P |Z/n x| + 2f P |Z/n x| .
59
i
i
i
(n ) ,
1id
60
i
i
i
si x t,
1
n (x) = 1 + n(t x) si t x t + n1 ,
0
si x > t + n1
(faire un dessin). Il sensuit, daprs le thorme de convergence domine, que la
donne de E((X)) pour toute fonction continue borne sur R caractrise P X .
Plus gnralement, les fonctions indicatrices peuvent tre approches simplement
par des fonctions C bornes ; et donc la donne de E((X)) pour toute fonction
inniment drivable caractrise galement P X . On pourrait mme se restreindre
aux fonctions C support compact ! (cf. exercice II.5).
Ces raisonnements et conclusions sappliquent de la mme faon aux vecteurs
alatoires.
Une autre caractrisation intressante en pratique (voir IV.2, V.4 et V.5) est
celle des fonctions caractristiques, ou transformes de Fourier, qui remplace la
classe des fonctions C bornes par la famille des fonctions sinus et cosinus.
i
i
Rd
i
i
eitk e
kN
k N,
(eit )k
k
= e
= exp (eit 1) .
k!
k!
kN
0 k n,
0kn
(vii) Si X = (X1 , . . . , Xd ) est un vecteur alatoire dont la loi est le produit des
lois marginales, P X1 P Xd , alors X (t) = X1 (t1 ) Xd (td ). (Utiliser le
thorme de Fubini, II.5.1).
Puisque la transforme de Fourier caractrise la loi, il est souhaitable davoir
une formule dinversion permettant dobtenir eectivement la loi partir de la
fonction caractristique. Il existe plusieurs formules de ce type permettant de
calculer la densit si elle existe, ou la fonction de rpartition (voir exercice V.9).
En voici une possible.
Theor`eme III.5.4 (Formule dinversion de Fourier). Soit X la fonction caractristique dun vecteur alatoire X, suppose intgrable par rapport la mesure de
Lebesgue sur Rd . Alors, la loi de X admet une densit continue borne f X par
rapport la mesure de Lebesgue sur Rd , donne, pour tout x Rd , par
1
X
eit,x X (t) dt .
f (x) =
(2)d Rd
63
i
i
i
+
=
.
2 1 it 2 1 + it
1 + t2
(ii) Soit f (x) = 1/(1 + x2 ), x R, la densit de la loi dite de Cauchy, sur R. En
utilisant lexemple prcdent et le thorme III.5.4, il vient
1
1
1 |x|
e
=
eitx
dt .
2
2 R
1 + t2
En changeant t et t dans lintgrale, on constate que la tranforme de Fourier
de f est e|t| .
Lorsque X est une variable alatoire relle, eitX = nN (it)n X n /n! ; en intgrant terme terme (nous verrons plus loin des conditions permettant de le
justier),
(it)n
E(X n ) .
X (t) =
n!
nN
La formule de Taylor montre alors que les moments de la variable sont proportionnels aux drives de la transforme de Fourier. Le rsultat rigoureux est le
suivant.
n1
n
iu
|u| ,
e 1 iu . . . (iu)
1!
(n 1)!
n!
64
i
i
i
u ix
se dmontre en remarquant que f1 (u)
=
i
0 e dx est de module plus petit
u
que |u|, et par rcurrence fn (u) = i 0 fn1 (x) dx est de module plus petit que
|u|n /n!. Dmontrons pour commencer que est drivable en tout point t R
lorsque E(|X|) < . Pour tout h = 0,
(t + h) (t)
=
h
eitx
eihx 1
dP X (x) .
h
(t) = lim
h0
itx
eihx 1
dP X (x) =
h
ixeitx dP X (x) = iE(XeitX ) .
2
h0 h
lim
existe et est gale (2k) (0). Comme, daprs le point (i), pour tout h rel,
(2k2)
k1
(h) = (1)
x2k2 eihx dP X (x) ,
on a
k1 (2k)
(1)
2
(0) = lim 2
h0 h
x2k2 cos(hx) 1 dP X (x) .
Utiliser le lemme de Fatou (II.2.3) et la limite limh0 1 cos(hx) /h2 = x2 /2
pour conclure que
x2k dP X (x) (1)k (2k) (0) < .
Application III.5.7. Remarquons quen gnral une loi nest pas caractrise par
ses moments (exercice III.7). Toutefois, si = X est analytique, la proposition III.5.6 et le thorme III.5.2 montrent que la loi P X est caractrise par
65
i
i
i
ses moments. Une condition simple pour que ceci ait lieu est de supposer que
E(e|X| ) < pour un > 0. En eet, en intgrant lingalit utilise pour
dmontrer III.5.6.i et en utilisant III.5.6.i, il vient
n1
|h|n
(n1)
(t + h) (t) h (1) (t) h
,
(t) E |X|n
1!
(n 1)!
n!
ce qui fournit lanalyticit de h (t + h) sur ] , [. Ceci ayant lieu pour
chaque rel t, de proche en proche, est analytique sur tout R. Un exemple
important est le cas particulier des lois concentres sur un intervalle born de R.
Ceci est rsum dans le thorme dit des moments.
Proposition III.5.10. Soit X une variable alatoire relle telle que etX est intgrable
pour t dans un intervalle ouvert contenant 0. Alors la transforme de Laplace LX
est dnie sur un intervalle ouvert contenant 0. De plus elle est analytique dans
un voisinage de 0 et
tn
E(X n )
LX (t) =
n!
nN
66
i
i
i
Exercices
|tx|n
= e|tx| etx + etx ,
n!
nN
le thorme de convergence domine II.2.8 montre que pour tout |t| < ,
LX (t) = E(etX ) =
1
tn
E (tX)n =
E(X n ) ,
n!
n!
nN
nN
Exercices
Exercice III.1. Un tiroir contient n paires de chaussures. On choisit au hasard 2r
chaussures (2r n). Quelle est la probabilit quil ny ait parmi ces 2r chaussures aucune paire complte ? Quelle est la probabilit quil y ait exactement k
paire(s) complte(s) (1 k r) ?
Exercice III.2. Soit X une variable alatoire valeurs dans un ensemble M muni
de la tribu de ses parties, telle que P {X = x} > 0 pour tout x M . Montrer
que M est ni ou dnombrable.
Indication : Pour tout n 1, soit Mn = {x M : P {X = x} > 1/n}. Montrer
que Mn est ni.
Exercice III.3. (Paradoxe de Bertrand). Soit C le cercle de centre O et de rayon
1 dans R2 . On cherche dterminer la probabilit pour que la corde AB de ce
cercle, choisie au hasard, soit plus grande que le ct du triangle quilatral
inscrit dans le cercle. Faire le calcul dans les dirents cas suivants :
a) On xe un point I du cercle ; on choisit un point M sur le segment OI selon
la probabilit uniforme ; on lui associe la corde AB perpendiculaire OI et
passant par M .
b) On xe A sur le cercle et on choisit B selon la probabilit uniforme sur le
cercle.
c) On choisit M dans le disque selon la probabilit uniforme ; AB est alors la
corde passant par M et perpendiculaire OM .
67
i
i
i
Exercice III.5. Soit X une variable alatoire valeurs dans N telle que
P {X = k} =
e2 2k
(1 + k) ,
4k!
k N,
c= n
1kn ck ,
1
2
s2c = n
1 1kn (ck c) ,
u =n
1kn uk ,
1
2
s2u = n
1 1kn (uk u) .
de u(k) , puis la
Exercice III.7. Soit X une variable alatoire de loi N (0, 1). Montrer que Z = eX
2
est de densit f Z (z) = (2)1/2 z 1 e(ln z) /2 si z > 0 et f Z (z) = 0 si z 0. La
loi de Z sappelle la loi log-normale.
Pour a [ 1, 1 ], soit fa (x) = f Z (x)(1 + a sin(2 ln x)), x > 0. Montrer
que si Za est de densit fa , alors Za et Z ont mmes moments, et donc que les
moments ne caractrisent pas une loi de probabilit (comparer avec III.5.7 et le
thorme III.5.8).
68
i
i
i
Exercices
VarX1
,
d1
i = j .
E |X b| E |X a| =
(x) dx
a
de probabilit sur {1, 2, . . . , n}, on dnit lentropie de P par H(P ) = 1kn pk ln pk o pk = P ({k}), avec
la convention 0 ln 0 = 0. Montrer que H est valeurs dans R+ et trouver P telle que H(P ) = 0. Dmontrer que la mesure uniforme sur {1, 2, . . . , n}
ralise le maximum de H.
69
i
i
i
Si P est
|X (t)|
P =
n2
c
n2 ln n
(n + n )
sin2 (nt/2)
,
tn2 ln n
2nN
gN (t) =
sin2 (nt/2)
.
tn2 ln n
n>N
i
i
Exercices
71
i
i
i
i
i
IV
INDPENDANCE
IV.1. Indpendance
Definition IV.1.1. Sur un espace probabilis (, A, P ), deux vnements A, B
sont dit indpendants si
P (A B) = P (A)P (B) .
i
i
sont intuitivement indpendants, puisque les deux jets le sont. Nous pouvons
modliser le tirage des deux ds en prenant
= (i, j) : 1 i, j 6
muni de la tribu de ses parties et de la probabilit uniforme P . Clairement, P (A) =
2/3 et P (B) = 1/6. Observons que
A B = (1, 6), (2, 6), (3, 6), (4, 6)
est de probabilit 4/36 = 1/9, qui est bien le produit de P (A) et P (B).
Remarquons que si deux vnements A et B sont indpendants, les tribus
({A}) = { , A, Ac , } et ({B}) sont indpendantes au sens o tout lment
de ({A}) est indpendant de tout lment de ({B}). Dmontrons par exemple
que A et B c sont indpendants. En eet,
P (A B c ) = P (A) P (A B) = P (A) P (A)P (B)
= P (A)(1 P (B)) = P (A)P (B c ) .
La dnition suivante amplie cette premire ide intuitive de lindpendance dans
deux directions, dune part pour des familles quelconques dvnements, dautre
part pour des tribus.
jJ
Aj
P (Aj ) .
jJ
i
i
IV.1. Indpendance
P (A C) = 1/4 ,
P (B C) = 1/4 ,
Proposition IV.1.5. Si C1 et C2 sont deux algbres indpendantes dans lespace probabilis (, A, P ), alors les tribus (C1 ) et (C2 ) sont indpendantes.
Dmonstration. Soit A1 C1 . La classe monotone
M2 =
75
i
i
des vnements indpendants de A1 contient C2 . Elle contient donc la classe monotone engendre par C2 qui est gale (C2 ) daprs le thorme I.3.3. Soit
prsent un lment A2 (C2 ). La classe monotone
M1 = { A1 (C1 ) : P (A1 A2 ) = P (A1 )P (A2 ) }
des vnements indpendants de A2 contient C1 daprs le point prcdent, et
donc (C1 ). La conclusion sensuit.
Il surait de considrer dans la proposition prcdente des familles C1 et C2
stables par intersection nie.
La dnition dindpendance se formule de faon quivalente en terme de
variables alatoires.
{ Xj Bj } =
P { Xj Bj } .
jJ
jJ
i
i
IV.1. Indpendance
P (A B) = P (A1 B2 ) =
(i,j)A1 B2
1 1
1
=
36
6
6
iA1
jB2
1k2n1
2(k1) 2k1
2n , 2n
n 1,
i
i
dindpendance,
P (X1 ,...,Xd ) (B) = P (X1 , . . . , Xd )1 (B1 Bd )
= P X11 (B1 ) . . . Xd1 (Bd )
= P X11 (B1 ) P Xd1 (Bd )
= P X1 (B1 ) P Xd (Bd ) .
Lidentit stend lalgbre des runions nies disjointes de pavs, laquelle engendre la tribu borlienne produit B(Rd ). La rciproque dcoule des identits
prcdentes et de la dnition dune loi puisque
P (X1 , . . . , Xd ) B1 Bd = P (X1 ,...,Xd ) (B)
= P X1 (B1 ) P Xd (Bd )
P { Xi Bi } .
=
1id
et, par le mme argument que dans lexemple IV.1.4.iii, les tribus
1 j k, sont indpendantes.
"
iIj
(Xi ),
Proposition IV.1.10. Sur un espace probabilis (, A, P ), soit (Ai )iI une famille
de sous-tribus indpendantes de A. Soit (Jl )lL une partition arbitraire de lensemble I. La famille de tribus ((Ai : i Jl ))lL est une famille indpendante.
78
i
i
i
IV.1. Indpendance
Dmonstration. Daprs la dnition IV.1.3, il sut de faire la dmonstration
iJ
=
1in
1in
1in
i (xi ) dP Xi (xi )
E i (Xi ) .
1in
79
i
i
Nous dduisons aussi du corollaire prcdent un critre dindpendance utilisant les fonctions caractristiques.
Corollaire IV.1.12. La famille (X1 , . . . , Xn ) de variables alatoires relles est indpendante si et seulement si pour tout (t1 , . . . , tn ) Rn ,
(X1 ,...,Xn ) (t1 , . . . , tn ) = X1 (t1 ) Xn (tn ) .
Dmonstration. Le produit X1 Xn est la fonction caractristique de la loi
Exemples IV.1.14. (i) Daprs le corollaire IV.1.11, deux variables alatoires indpendantes de carr intgrable sont non corrles.
(ii) Si X est une variable alatoire relle de loi normale N (0, 1), alors X et Y = X 2
sont non corrles. En eet, X et Y sont de carr intgrable et
E(XY ) = E(X 3 ) = 0 = E(X)E(Y )
par application, par exemple, de la proposition III.5.6 pour calculer les moments
de la loi normale. Il est clair intuitivement que X et Y ne sont pas indpendantes,
ce qui est conrm par le fait que
P { X 1 , Y 1 } = P { X 1 } = P { X 1 }P { Y 1 }
puisque P { Y 1 } < 1.
Pour les variables non corrles, on peut facilement valuer la variance de leur
somme.
80
i
i
i
IV.1. Indpendance
1in
t > 0.
1in
dans L2 ,
Var
Xi
=E
1in
2
Xi E(Xi )
1in
1i,jn
Xi E(Xi ) Xj E(Xj )
2
Xi E(Xi )
1in
Var(Xi ) .
1in
Exemples IV.1.16. (i) Donnons une application du calcul des probabilits ltude
de la gomtrie des espaces vectoriels.
Soient u1 , . . . , ud Rd , muni de la structure
euclidienne, des vecteurs de norme
au plus 1. Soient p1 , . . . , pd [ 0, 1 ] et w = 1id pi ui . Montrons quil existe
1 , . . . , d { 0, 1 } tels que
i ui d/2 .
w
1id
81
i
i
i
o xi { 0, 1 }, et soit
X=
Xi ui .
1id
+ 2E
=
(Xi pi )(Xj pj )ui , uj
1i,jd
ui pi (1 pi )
2
1id
d/4 .
Observons alors que si X w2 > d/4 pour presque toute valeur de X, alors
E(X w2 ) > d/4 (proposition II.2.6). Donc il existe une valeur de (X1 , . . . , Xd )
pour laquelle
X w2 d/4 ,
ce qui est le rsultat.
(ii) Voici enn un exemple dapplication en thorie des nombres.
Soit (n) le nombre de diviseurs premiers de n. Nous allons montrer, quen
un certain sens, pour la plupart des entiers i n, (i) est de lordre de ln ln i.
Proposition. Si a(n) est une suite qui tend vers linni, alors
1
card i n : |(i) ln ln n| > a(n) ln ln n = 0 .
n n
lim
82
i
i
i
IV.1. Indpendance
p premier Xp .
1
card i n : |(i) ln ln n| a(n) ln ln n
n
= Pn |X ln ln n| a(n) ln ln n .
Sous la loi Pn , en notant la partie entire, pour tout entier k 1
E(Xpk ) = Pn { Xp = 1 } =
1
n
1in
En particulier, sous Pn ,
E(Xp ) =
1
+ O(n1 )
p
et
Var(Xp ) =
1
1
1
+ O(n1 ) .
p
p
Donc, sous Pn ,
E(X) =
p1 + O(n1 ) = ln ln n + o(1) .
pn
n
n
n
1
1
1
p
q
pq
n
n
1 1 1
+
.
n p q
83
i
i
i
Donc, sous Pn ,
Var(X) =
Var(Xp ) + 2
p premier
pn
Cov(Xp , Xq )
p,q premiers
p<qn
1
1 1 1
1
1
1
+O
+
+
p
p
n
n p q
pn
p=qn
1
1 1
1
ln ln n +
+
+O
1
n
p q
n
p,q premiers
p,qn
p premier
pn
(n)
2
ln ln n +
O(1) + O(1)
n
n
= ln ln n + O(1) .
= ln ln n +
lim sup Pn |X ln ln n| t ln ln n 1/t2
n
Var(X1 )
.
Xi E(Xi ) t n
P
t2
1in
est au plus n.
Ainsi, lordre de
grandeur de la somme
1in (Xi E(Xi ))
i
i
plus
n. Les rsultats de cette section nous servirons, dune part pour valuer la
loi de 1in Xi , dautre part pour prciser au chapitre V le comportement du
85
i
i
Remarque IV.2.2. Le produit de convolution vrie un certain nombre de proprits algbriques issues de la description en terme de variables alatoires (mais qui
ne susent cependant pas le caractriser) :
(i) P 0 = P (puisque X + 0 = X) ;
(ii) (commutativit) P Q = Q P (puisque X + Y = Y + X) ;
(iii) (associativit) (P Q)R = P (QR) (puisque (X +Y )+Z = X +(Y +Z)) ;
(iv) (distributivit) P (Q + (1 )R) = (P Q) + (1 )(P R) pour tout
[ 0, 1 ] ; en eet, si est borlienne et borne,
d P (Q + (1 )R) = (x + y) dP (x) d Q + (1 )R (y)
= (x + y) dP (x) dQ(y)
+ (1 ) (x + y) dP (x) dR(y)
= d(P Q) + (1 ) d(P R)
= d P Q + (1 )P R .
Les fonctions caractristiques fournissent un autre moyen de dterminer la loi
de la somme de deux variables alatoires indpendantes.
t R.
t R,
X+Y (t) = E eit(X+Y ) = E eitX eitY = E eitX E eitY = X (t)Y (t) .
On prendra soin de ne pas confondre la fonction caractristique dun couple
(X, Y ) de variables indpendantes, donne par (X,Y ) (s, t) = X (s)Y (t),
s, t R, avec la fonction caractristique de la somme X + Y dcrite ci-dessus.
i
i
et Y suit
n
P() = nN e n! n , et en appliquant IV.2.2.iv,
P() P() =
e e
nN mN
n m
n m
n! m!
n m
n+m
n! m!
nN mN
n m
(+)
k
=e
n! m!
= e(+)
kN
= e(+)
m+n=k
( + )k
k!
kN
k = P( + ) .
Une autre dmonstration, plus probabiliste, consiste crire que pour tout k N,
{ X + Y = k } est la runion disjointe des vnements { X + n = k ; Y = n },
0 n k. Ainsi, par indpendance de X et Y ,
P{X + n = k ; Y = n}
P{X + Y = k } =
0nk
P { X = k n }P { Y = n }
0nk
0nk
= e(+)
kn n
e
(k n)!
n!
( + )k
.
k!
it 1)
e(e
it 1)
= e(+)(e
it 1)
i
i
= Ckn pk (1 p)nk .
Une autre dmonstration, dans lesprit de la proposition IV.2.1, consiste
crire, pour 1 k n,
P { Sn = k } = E {k} (Sn )
= {k} (x1 + + xn ) dP X1 (x1 ) . . . dP Xn (xn )
{k} (x1 + + xn )
pxi (1 p)1xi
=
x1 ,...,xn {0,1}
1in
x1 ,...,xn {0,1}
= card (x1 , . . . , xn ) {0, 1}n : x1 + + xn = k pk (1 p)nk
= Ckn pk (1 p)nk .
On peut aussi utiliser le produit de convolution, ou encore les fonctions caractristiques (voir III.5.3.vi).
La description de la loi binomiale comme loi de la somme de variables de
Bernoulli indpendantes permet un calcul rapide de sa moyenne et de sa variance,
88
i
i
i
et
En particulier, Sn /n est le nombre moyen de piles sur les n jets. Observons que
lingalit de Tchebitchev dans la version III.4.10.ii montre que pour tout > 0,
S p(1 p)
S
1
n
n
p 2 Var
=
.
P
n
n
2 n
Donc la probabilit que Sn /n scarte de sa moyenne tend vers 0 lorsque n tend
vers linni. Ainsi si nous tirons un grand nombre de fois pile ou face, la proportion de pile sera avec forte probabilit peu prs 1/2 (cest intuitivement clair,
et montre encore que laxiomatique des probabilits que nous avons utilise est
raisonnable).
Une autre interprtation de la loi binomiale peut tre donne en terme durne.
Supposons quune urne contienne une proportion p de boules lapis-lazuli et 1 p
de boules vert uorescent. On tire une boule, note sa couleur, puis la remet dans
lurne. On recommence ainsi n tirages avec remise. Le nombre Nn de boules lapislazuli ainsi tires suit une loi binomiale B(n, p). En eet, au i-me tirage, notons
Xi = 1 si la boule est lapis-lazuli, et 0 sinon. Alors, Nn = X1 + + Xn est une
somme de variables alatoires de Bernoulli de paramtre de succs p.
(iv) Soient X, Y deux variables alatoires relles, indpendantes, dont les lois
admettent des densits respectives f et g par rapport la mesure de Lebesgue. Il
est ais de constater que la loi de la somme X + Y a une densit h par rapport
la mesure de Lebesgue, donne par le produit de convolution des fonctions f et g,
f (x y)g(y) dy =
g(x y)f (y) dy , x R .
h(x) = f g(x) =
R
En eet, si est
borne,
une fonction borlienne
(x + y)f (x)g(y) dx dy
d(P X P Y ) =
=
(z)f (z y)g(y) dy dz
= (z)h(z) dz .
En particulier, on vrie ainsi que N (0, 12 ) N (0, 22 ) = N (0, 12 + 22 ). Plus gnralement, N (m1 , 12 ) N (m2 , 22 ) = N (m1 + m2 , 12 + 22 ). Comme prcdemment,
ces relations peuvent se vrier rapidement sur les fonctions caractristiques. Si
X1 et X2 sont indpendantes de lois respectives N (m1 , 12 ) et N (m2 , 22 ), pour
tout t R,
2 2 /2
2 2 /2
eim2 t2 t
2 /2
.
89
i
i
90
i
i
i
pour montrer la -additivit de Q sur A, il sut de montrer que si (An )nN est
une suite dcroissante dans C dintersection vide, alors
lim Q(An ) = inf Q(An ) = 0 .
nN
Supposons le contraire, cest--dire que pour une certaine suite (An )nN dcroissante
dans C et un certain > 0, inf nN Q(An ) et montrons alors que
A
nN n = .
Pour
tout k 1, on peut construire une fonction densembles additive Qk sur
$
E k = ik Ei limage de la dnition de Q = Q1 sur = E 1 . Par le thorme
de Fubini (II.5.1), pour tout n
Q(An ) = Q2 (An1 ) dP1 (1 )
o An1 = { E 2 : (1 , ) An } est la section de An suivant 1 E1 . Soit
Bn = 1 E1 : Q2 (An1 ) /2 ,
(An1 appartient la tribu cylindrique sur E 2 par lexercice I.3). Par dnition de
Bn , puisque Q2 (An1 ) < /2 sur le complmentaire de Bn et Q2 (An1 ) 1 partout,
Q(An ) 2 1 P1 (Bn ) + P1 (Bn ) 2 + P1 (Bn ) .
Ainsi, P1 (Bn ) /2. La suite (B
n )nN dcrot dans E1 , et donc, ncessairement,
puisque P1 est une probabilit, n Bn nest pas vide. Soit 1 un lment de n Bn .
Ce que lon a fait pour Q = Q1 et la suite (An )nN , nous le recommenons pour
la fonction densembles Q2 et la suite (An1 )nN , car inf n Q2 (An1 ) /2. On
construit de cette faon un point = (i )i1 dans tel que pour tout k 1,
inf n Qk+1 (An1 ,...,k ) > 0 o
An1 ,...,k = E k+1 : (1 , . . . , k , ) An
(qui est un cylindre de E k+1 ). En particulier, n x, pour tout k 1,
An1 ,...,k = . Mais An est un cylindre de la forme An = CN E N +1 . Or on peut
vrier, en sappuyant sur un dessin par exemple, que An1 ,...,N est non vide si et
seulement si (1 , . . . ,
N ) CN . Ainsi An . Comme ceci lieu pour nimporte
quel n, lintersection nN An nest pas vide puisquelle contient . Le thorme
est tabli.
En consquence de ce thorme, nous pouvons parler plus librement dune suite
(Xn )nN de variables alatoires relles indpendantes sur un espace probabilis
91
i
i
i
Definition IV.3.2. Soit (Tn )nN une famille indpendante de tribus sur (, A, P )
(par exemple Tn = (Xn ) o les Xn sont indpendantes).
On dsigne par An
la tribu engendre par Tn , Tn+1 , . . . et pose A = nN An . La tribu A
est appele tribu des vnements terminaux ou tribu terminale (de la suite
(Tn )nN ).
La tribu terminale vrie la loi du tout ou rien suivante, aussi appele loi
du 01.
Theor`eme IV.3.3 (loi du 01). Si A est une tribu terminale, alors tout A A
vrie P (A) = 0 ou 1.
Dmonstration. Soit A A x. On considre la classe monotone des vnements
indpendants de A,
M=
B A : P (A B) = P (A)P (B) .
92
i
i
i
Exemples IV.3.4. (i) Soit (An )nN une suite dvnements indpendants de
(, A, P ) ; alors
Am = { An a lieu une innit de fois }
A=
nN mn
Theor`eme IV.3.5 (Lemme de Borel-Cantelli). Soit (An )nN une suite dvnements sur un espace probabilis (, A, P ).
A=
Am
nN mn
mn
Am ,
mn
93
i
i
i
nmN
1 P (Am ) .
=1
nmN
nmN
nmN
= 1.
mn
Am .
mn
n P { Xn
M } < ,
(ii) On jette une innit de fois une pice quilibre. Quelle est la probabilit dobtenir une innit de fois deux piles conscutifs ? On reprsente le jeu
par une suite (Xn )nN de variables alatoires sur (, A, P ), indpendantes, avec
P { Xn = 1 } = P { Xn = 0 } = 1/2. Posons An = { Xn = Xn+1 = 1 }. On sintresse P (An i.s.). Il est clair que les An ne forment pas une suite indpendante,
94
i
i
i
2i Ui ()
i1
i
i
Soit Nn le nombre de blocs dans les n premiers chires. Cest une variable
alatoire puisque pour tout entier k positif, lvnement { N = k } est gal
{ U1 = = Un1 } { Un1 = Un1 +1 }
1n1 ,...,nk n
sk P { Nn = k } .
k1
1 dk
(s)
.
G
n
k! dsk
s=0
Cette fonction peut tre calcule comme suit. Observons que pour u { 0, 1 },
P { Nn = k ; Un = u }
= P { Nn1 = k ; Un1 = u ; Un = u }
+ P { Nn1 = k 1 ; Un1 = 1 u ; Un = u }
1
1
= P { Nn1 = k ; Un1 = u } + P { Nn1 = k 1 ; Un1 = 1 u }
2
2
96
i
i
i
1 k
s P { Nn1 = k ; Un1 = 1 } + P { Nn1 = k 1 ; Un1 = 0 }
2
k1
+ P { Nn1 = k ; Un1 = 0 } + P { Nn1 = k 1 ; Un1 = 1 }
1 k
s P { Nn1 = k } + P { Nn1 = k 1 }
=
2
k1
1+s
Gn1 (s) .
=
2
Ainsi, par rcurrence, et puisque G1 (s) = s,
1 + s n1
s.
Gn (s) =
2
Nous pouvons maintenant encadrer Nn de la faon suivante, similaire
lexemple III.4.10.iii. Observons que pour tout s 1 et tout cn 0,
n
n
P Nn cn P { sNn s 2 cn } scnn/2 Gn (s) .
2
Donc, en optimisant en s, et pour n assez grand,
n
2
P Nn cn inf scn n/2 Gn (s) = e2cn /n(1+o(1))
0s1
2
i
i
n
n
n
ln
n
et
+
n
ln
n
pour n assez grand. On voit de plus que
2
2
Gn (1) =
kP { Nn = 1 } = E(Nn ) =
k1
n
n+1
,
2
2
n .
exp 2 (x m)
,
x R.
2
2 2
De faon quivalente, sa transforme de Fourier est
X (t) = eimt
2 t2 /2
t R.
Rappelons aussi que si Y suit une loi N (0, 1), alors X = m + Y suit une loi
N (m, 2 ). On notera pour toutes ces dnitions que, dans la famille des lois
gaussiennes, les paramtres de moyenne m et de variance 2 caractrisent une loi
donne. Une variable gaussienne a des moments de tous ordres (III.5.6).
Nous allons nous intresser prsent des variables alatoires gaussiennes
valeurs dans Rd , ou vecteurs alatoires gaussiens.
i
i
1id
et sa variance
i Xi =
i j E (Xi E(Xi ))(Xj E(Xj )) .
Var
1id
1i,jd
1i,jd
On voit trs simplement sur ces formules comment se ramener au cas dun vecteur
gaussien centr (E(X) = (0, . . . , 0)), en soustrayant simplement la moyenne ; dans
ce cas, la matrice de covariance scrit (E(Xi Xj ))1i,jd ; nous le supposerons
souvent par la suite.
En terme de transforme de Fourier, si u = (u1 , . . . , ud ) Rd , et si le vecteur
alatoire X = (X1 , . . . , Xd ) est gaussien,
1t
X
(u) = E exp(iu, X) = exp iu, m u u .
2
Notons que si X = (X1 , . . . , Xd ) est un vecteur gaussien, ses marges X1 , . . . , Xd
sont gaussiennes (considrer pour le i-me vecteur de base dans la dnition IV.4.1), mais, sauf si elles sont indpendantes, la rciproque est fausse (par
exemple si Z est gaussienne relle de loi N (0, 1) et est de loi de Bernoulli symtrique P { = +1 } = P { = 1 } = 1/2, indpendante de Z, alors (Z, Z) nest
pas gaussien, mais de marges gaussiennes).
Un exemple lmentaire, mais fondamental, est constitu par un vecteur
G = (G1 , . . . , Gd ) dont les composantes sont indpendantes, de loi N (0, 1). Le
vecteur G est centr et sa matrice de covariance est la matrice identit. La loi de
G a pour densit (2)d/2 exp(x2 /2) par rapport la mesure de Lebesgue dx
sur Rd (o lon rappelle que x2 = x21 + +x2d pour tout x = (x1 , . . . , xd ) Rd ).
On note N (0, Id) la loi de G. Montrons alors lexistence de vecteurs gaussiens de
matrice de covariance .
Toute matrice de covariance tant symtrique et semi-dnie positive peut
tre crite = A tA, o A est une matrice carre.
99
i
i
i
E (AG)i (AG)j = E
ai,k Gk
1kd
aj,l Gl
1ld
1kd
x,
A
x
dx .
P{X B } =
2
(2)d/2 |dtA| B
En eet, daprs la proposition prcdente,
P { X B } = P G A1 (B) ,
ce qui se calcule en utilisant la densit de G.
Remarquons aussi que la proposition IV.4.2 nous dit que pour simuler numriquement un vecteur X de loi N (0, ), il sut de savoir simuler des variables
alatoires relles de loi N (0, 1). Ayant simul un vecteur alatoire X de loi N (0, ),
on peut simuler un vecteur de loi N (m, ) en considrant X + m.
On peut tre plus prcis sur la dcomposition prcdente de la matrice de
covariance . Mme si celle-ci est dgnre, on peut toujours lcrire sous la
forme = P tP o P est une matrice orthogonale (i.e. P 1 = tP ) et est une
matrice diagonale positive, avec ventuellement des zros sur la diagonale rendant
compte des dgnrescences de (ou de X). (Un cas extrme est par exemple
1 0 0
0 0 0
0 0 0
qui est la matrice de covariance du vecteur gaussien X = (X1 , X2 , X3 ) o X1 suit
100
i
i
i
= P tP = P t(P ) ,
et A = P .
En terme de changement de base, on notera que le vecteurgaussien tP X a
pour matrice de covariance la matrice
diagonale (puisque P G a mme loi
que X, donc tP X a mme loi que G, qui a pour matrice de covariance ).
La diagonalisation de la matrice de covariance dun vecteur gaussien centr
X nous a donc permis de dterminer une nouvelle base dans laquelle les composantes de X sont orthogonales. Lintrt de cette observation provient du thorme
suivant qui est une autre faon de formuler la proposition IV.4.2.
2
1
uk Xk
uk Xk
= exp E
E exp i
2
1kd
1kd
1
2
uk E(Xk )
= exp
2
1kd
E exp(iuk Xk ) .
=
1kd
i
i
Exercices
Exercice IV.1. Une urne contient r boules rouges et b boules blanches. On tire
ces boules une une, sans remise, jusqu puisement. Pour 0 k b, quelle
est la probabilit pour quexactement k boules blanches soient tires avant la
premire boule rouge ?
Exercice IV.2. Deux joueurs A et B jouent une suite de parties indpendantes.
Lors de chacune delles, ils ont respectivement les probabilits p pour A et
q = 1 p pour B de gagner. Le vainqueur nal est celui des deux joueurs qui le
premier obtient 2 victoires de plus que son adversaire. Quelle est la probabilit
pour que A soit vainqueur ?
Exercice IV.3. Vrier lindpendance des An dans lexemple IV.1.4.i.
Exercice IV.4. Soient X et Y deux variables dnies sur (, A, P ), ne pouvant
prendre que deux valeurs distinctes. Montrer que X et Y sont indpendantes si
et seulement si E(XY ) = E(X)E(Y ).
Indication : Si X prend les valeurs x1 , x2 et Y les valeurs y1 , y2 , dduire de
lhypothse que
E (X xi )(Y yj ) = E(X xi )E(Y yj ) , i, j = 1, 2 .
Exercice IV.5. Soit X une variable alatoire relle et soient f et g deux fonctions
croissantes de R dans R. On suppose que E(f (X)2 ) < et E(g(X)2 ) < .
Dmontrer que
E f (X)g(X) E f (X) E g(X) .
Indication : remarquer que (f (x) f (y))(g(x) g(y)) 0 pour tous x, y R et
utiliser le thorme de Fubini aprs avoir introduit une variable Y indpendante
de X et de mme loi que X.
En dduire que si |X| < 1 p.s.,
E
1 1
1
.
E
1 X2
1X 1+X
i
i
Exercices
Exercice IV.8. Soient Xi , 1 i n, des variables alatoires indpendantes, Xi tant de fonction de rpartition Fi . Soit mn = min1in Xi et
M
de rpartition de Mn en x est
$
$n = max1in Xi . Montrer que la fonction
F
(x),
que
celle
de
m
est
1
(1
Fi (x)) et que
n
1in i
1in
(Fi (x2 ) Fi (x1 )) .
P { x1 < mn Mn x2 } =
1in
Indication : { Mn x } = 1in { Xi x }.
Exercice IV.9. Soient X1 , . . . , Xn des variables indpendantes de mme loi exponentielle de paramtre 1. Montrer que P { i, j : Xi = Xj } = 0. On pose
Z = min Xi
1in
et
N = min{ 1 i n : Xi = Z } .
k = 1, . . . , n ,
t > 0.
i
i
Exercice IV.12. Soient X1 , . . . , Xn , Xn+1 des variables alatoires indpendantes de loi exponentielle de paramtre 1. Calculer la loi de la somme
Sk = X1 + + Xk , 1 k n+1. Dmontrer que la loi du vecteur (U1 , . . . , Un )
dni par Ui = Si /Sn+1 , i = 1, . . . , n, a une densit par rapport la mesure de
Lebesgue sur Rn donne par n! D , o
D = x = (x1 , . . . , xn ) Rn ; 0 x1 xn 1 .
Exercice IV.13. Soient X1 , . . . , Xn des variables alatoires relles, indpendantes, de mme loi de fonction de rpartition F ayant une densit f . Ces
variables, ordonnes par ordre croissant, sont notes X1,n X2,n Xn,n .
Clairement les Xi,n , 1 i n, ne sont pas indpendantes puisque par construction Xi,n Xi+1,n .
a) Montrer que la probabilit que k des variables X1 , . . . , Xn soient infrieures
x et n k soient
x est Ckn F (x)k (1 F (x))nk . En dduire que
suprieures
k
P { Xi,n x } = ikn Cn F (x)k (1F (x))nk , et que Xi,n admet pour densit
ni
,
fi,n (x) = i Cin f (x)F (x)i1 1 F (x)
x R.
Exercice IV.14. Soit (Xn )nN une suite de variables alatoires indpendantes, de
mme loi de Bernoulli de paramtre p. Pour tout n 1, on dnit par rcurrence, Tn = inf{ k > Tn1 ; Xk = 1 } si cet inmum est ni, Tn = sinon,
et T0 = 0. Dmontrer que les variables alatoires T1 , T2 T1 , . . . , Tn Tn1 , . . .
sont indpendantes et de mme loi. Calculer la loi de T1 et sa fonction caractristique. En dduire la loi de Tn .
104
i
i
i
Exercices
P (Ai )
1in
= 1 alors
(i) Si n1 P (An ) = et lim inf n
1in
1jn P (Ai Aj )
P (An i.s. ) = 1 (Rnyi).
1in
1 k n,
j<k
1kn Ak
Sk2 dP .
Ak
Sk2 dP .
Exercice IV.17. Trouver une fonction h de R dans R et un rel c > 0 tel que la
fonction
c2 (x2 +y2 )/2
e
+ h(x)h(y) ,
(x, y) R2 ,
f (x, y) =
2
soit la densit de la loi dun vecteur non gaussien de R2 , dont les lois marginales
sont gaussiennes.
i
i
Exercice IV.19. Soit X une variable alatoire suivant une loi N (0, 1), et soit
une variable de Bernoulli telle que P { = +1 } = P { = 1 } = 1/2, indpendante de X. Dmontrer que X et |X| ont mme loi que X. Le couple (X, X)
est-il gaussien ?
Exercice IV.20. Soit X un vecteur gaussien centr, valeurs dans Rd , et
soit Y une copie indpendante de X. On pose X = X cos + Y sin et
X = X sin + Y cos , [ 0, 2 ]. Dmontrer que pour tout , X et X
sont indpendantes, de mme loi que X.
Exercice IV.21. Soient X et Y deux vecteurs alatoires de Rd , indpendants et
de mme loi, tels que X + Y et X Y sont indpendants. On dsigne par la
fonction caractristique de la loi de X.
a) Montrer que pour tous s, t Rd ,
(s + t)(s t) = (s)2 |(t)|2 .
En dduire lexistence dune fonction continue sur Rd telle que = e .
b) On pose p (t) = 12 ((t) + (t)) et i (t) = 12 ((t) (t)), t Rd .
Dmontrer quil existe m Rd tel que i (t) = im, t, t Rd .
c) Soit Q(s, t) = p (s + t) p (s) p (t), s, t Rd . Dmontrer que Q est relle,
symtrique ngative. tablir que Q est bilinaire.
d) Dduire de ce qui prcde que la loi de X est gaussienne.
Exercice IV.22. (Lois inniment divisibles) Soit X une variable alatoire relle
sur un espace probabilis (, A, P ), de loi ; on dit que est inniment divisible si, pour chaque entier n 1, il existe des variables alatoires relles
X1,n , . . . , Xn,n indpendantes et de mme loi n telles que la loi de la somme
X1,n + + Xn,n soit .
a) Dmontrer quune loi est inniment divisible si et seulement si sa fonction
caractristique est, pour tout entier n 1, la puissance n-ime dune fonction
caractristique.
b) est-elle inniment divisible dans les cas suivant : (i) = a , a R ;
(ii) est la loi gaussienne de moyenne m et de variance 2 ; (iii) est la loi de
Poisson de paramtre ; (iv) est la loi de Cauchy (on rappelle que la fonction
caractristique de la loi de Cauchy est donne par e|t| ) ?
c) Soit X de loi de Bernoulli sur { 0, 1 } de paramtre 0 < p < 1 ; soient
galement Y et Z des variables alatoires indpendantes de loi commune
telles que la somme Y + Z soit de loi .
(i) Si B est un intervalle ne contenant pas 0 et 1/2, dmontrer que (B + B) = 0
(o B + B = { x + y : x, y B }). En dduire que (B B) = 0.
(ii) Dduire de la question prcdente que Y ne peut prendre que les valeurs 0
et 1/2.
106
i
i
i
Exercices
t R.
Sur (, A, P ), on considre une suite (Xn )nN de variables alatoires indpendantes de mme loi de fonction caractristique , ainsi quun variable alatoire
N suivant une loi de Poisson de paramtre , indpendante de la suite (Xn )nN .
Pour chaque , on pose
Xk ()
Y () =
1kN ()
(avec la convention 1k0 = 0). Dmontrer que Y est une variable alatoire
de fonction caractristique . Montrer que la loi de Y est inniment divisible.
107
i
i
i
i
i
V
CONVERGENCE DE SUITES
DE VARIABLES ALATOIRES
i
i
(prendre 1/(p + 1) < p). Cette condition peut aussi scrire, par passage au
complmentaire,
= 0.
|Xn X|
> 0 , P
mN nm
(1)
(2)
nm
La convergence p.s. peut aussi tre dcrite laide du critre de Cauchy. Par
exemple Xn X p.s. si et seulement si
= 1.
|Xn Xm | <
> 0 , P
nN mn
On peut aussi dire, quitte enlever un ensemble de mesure nulle (celui pour
lequel Xn () ne converge pas vers X()), que Xn X p.s. si et seulement si
Xn converge ponctuellement vers X, en tant que suite de fonctions de dans R.
Il sensuit que si est une fonction continue sur R, alors (Xn ) converge vers
(X) presque srement. En particulier, si Xn et Yn , n N, sont deux suites de
variables alatoires relles convergeant presque srement vers X et Y , alors pour
tous a et b rels, aXn + bYn converge presque srement vers aX + bY et Xn Yn
converge presque srement vers XY .
Un des outils classiques pour montrer la convergence presque sre est le lemme
de Borel-Cantelli.
110
i
i
i
Proposition V.1.2 (Lemme de Borel-Cantelli). Soient Xn , n N, et X, des variables alatoires relles dnies sur (, A, P ).
An =
|Xn X| ,
n N.
Exemples V.1.3. (i) Soit (Xi )iN une suite de variables alatoires indpendantes
et de mme
loi de Bernoulli B(1, p), i.e. P { Xi = 1 } = 1 P { Xi = 0 } = p. Soit
Ainsi
nN mn
{ : 2n < }
nN mn
{ : 2n < }
nN
= .
puisque 0 U i1 2i = 1.
(ii) Souvent on ne peut appliquer le lemme de Borel-Cantelli que sur des soussuites, et un argument supplmentaire est ncessaire pour conclure. Un exemple
de cette situation est le suivant. Soient Xi , i 1, des variables alatoires indpendantes, de loi exponentielle P { Xi > t } = et , t 0. Soit Mn = max1in Xi .
Alors
{ Xi t } = (1 et )n .
P { Mn t } = P
1in
111
i
i
i
Donc lim supk Mnk / ln nk 1 + p.s. Pour conclure la majoration, pour tout
n N , il existe k N tel que nk n < nk+1 . Et donc, en remarquant que la
suite Mn est croissante,
Mnk+1 ln nk+1
Mn
.
ln n
ln nk+1 ln nk
Puisque limk (ln nk )/(ln nk+1 ) = 1, on conclut que
lim sup Mn / ln n 1 + p.s.
n
112
i
i
i
Mn
Mn
lim sup
1 + .
ln n
n ln n
Autrement dit, pour tout > 0, il existe n0 tel que pour tout entier n n0 ,
P { |Xn X| } .
On mesure tout de suite la dirence avec la convergence presque sre qui
exige un supremum (voir (2), p. 110). En particulier, la convergence p.s. implique
la convergence en probabilit.
Exemples V.2.2. (i) Soit Xi , i 1, des variables alatoires relles non corrles,
2
telles que E(X
i ) = 0 et Var(Xi ) = pour tout i 1. Alors leurs moyennes par
1in
i
i
Xn 0
lim pn = 0
nN pn
< .
|X Y |
.
1 + |X Y |
P |Xn X| = P |Xn X| 1 d(Xn , X)/ .
114
i
i
i
{|Xn X|}
|Xn X| 1 dP
+
{|Xn X|<}
|Xn X| 1 dP
P |Xn X| + .
P |Xnk X| 1/k < .
k1
Proposition V.2.5. Soient (Xn )nN , (Yn )nN , deux suites de variables alatoires
relles dnies sur un espace (, A, P ). Supposons que Xn (resp. Yn ) converge en
probabilit vers une variable alatoire X (resp. Y ) dnie sur (, A, P ).
115
i
i
i
(i) Si est une application continue de R valeurs dans R, alors (Xn ) (X).
P
extraire une sous-suite (n ) telle que Xn X p.s. De (n ), on peut extraire
une sous-suite (n ) tel que Yn Y p.s. Alors Xn + Yn X + Y p.s.
On conclut laide du thorme V.2.4. (Il peut tre instructif de dmontrer cette
proposition sans laide du thorme V.2.4.)
Enn, lespace L0 (, A, P ) est complet pour la distance d mtrisant la convergence en probabilit.
Theor`eme V.2.6. Soit (Xn )nN une suite de variables alatoires relles dnies sur
(, A, P ). Supposons quelle vrie le critre de Cauchy en probabilit, cest--dire
que
> 0 , n0 , n n0 P |Xn Xn0 | ,
ou de faon quivalente, que
> 0 , n0 , n n0 , d(Xn , Xn0 ) .
Alors Xn converge en probabilit .
Dmonstration. En considrant = 1/2k dans la condition de Cauchy en probabi-
Xn () Xn ()
k
k+1
lkp1
2k
lkp1
2k 2l+1 .
kl
116
i
i
i
Ainsi, si l0 k0 () et 2l0 +1 < , pour tous p > l > l0 , |Xnl () Xnp ()| .
Donc Xnk converge p.s. vers une limite X. En particulier, cette sous-suite converge
en probabilit vers X. Observons que dans un espace mtrisable, une suite de Cauchy dont une sous-suite converge est une suite convergente. Puisque la convergence
en probabilit dans lespace L0 (, A, P ) est mtrisable, la suite (Xn )nN converge
en probabilit vers X.
Comme pour les suites usuelles (non alatoires), lintrt du critre de Cauchy
et du thorme V.2.6 est quil assure lexistence dune limite sans que nous ayons
besoin de la calculer explicitement.
Definition V.3.1. Soient (Xn )nN , X, des variables alatoires relles dans
p
Lp (, A, P ), 0 < p < . On dit que Xn converge vers
X dansp L si
limn Xn Xp = 0, ou de faon quivalente, limn E |Xn X| = 0.
Lingalit de Markov III.4.10.i montre que pour tout p > 0, la convergence
dans Lp implique la convergence en probabilit. Le lemme V.2.3 justie la terminologie de convergence dans L0 pour cette dernire.
Les exemples suivants montrent quen gnral la convergence en probabilit,
ou mme presque sre, nimplique pas la convergence dans Lp .
n 1.
117
i
i
i
(ii) Soit = R muni de sa tribu borlienne. Pour tout n 1, soit Xn une variable
alatoire de loi (1 np )0 + np n , cest--dire telle que
P { Xn = n } = np = 1 P { Xn = 0 } ,
p > 1.
Definition V.3.3. Une famille quelconque (Xi )iI de variables alatoires relles,
dnies et intgrables sur un espace probabilis (, A, P ) est dite quiintgrable ou uniformment intgrable si
lim sup
c iI
{|Xi |>c}
|Xi | dP = 0 .
Les thormes de convergence monotone (II.2.1) ou de convergence domine (II.2.8) montrent quune famille nie de variables alatoires intgrables est
uniformment intgrable. De mme, si |Xi | Y p.s. pour tout i I et Y est
intgrable, alors (Xi )iI est quiintgrable.
Rappelons que par convergence domine,
si X est intgrable, pour tout > 0
il existe > 0 tel que si P (A) alors A |X| dP . En eet, le thorme de
convergence domine (II.2.8) implique que pour c assez grand,
|X| dP /2 .
{|X|>c}
De plus,
|X| dP
A
|X| dP +
A{|X|>c}
|X| dP
A{|X|c}
/2 + cP (A)
/2 + c .
Il sut donc de prendre = /2c.
Lanalogue uniforme est donn par la proposition suivante.
Proposition V.3.4. La famille de variables alatoires relles intgrables (Xi )iI dnies sur (, A, P ) est uniformment intgrable si et seulement si
118
i
i
i
(i) pour tout > 0 , il existe > 0 tel que pour tout A A, P (A) implique
|Xi | dP ,
i I ,
A
et
(ii) supiI
|Xi | dP < (ou supiI E |Xi | < ).
tel que
sup
iI
{|Xi |>c}
Si A A, pour tout i I,
|Xi | dP
A
|Xi | dP /2 .
A{|Xi |>c}
|Xi | dP +
A{|Xi |c}
|Xi | dP
/2 + cP (A) ,
ce qui dmontre (i) en prenant = /2c
et (ii) en prenant A = .
Rciproquement, soit M = supiI |Xi | dP < . Soit de plus > 0 et > 0
fournis par (i). Posons c0 = M/. Pour tout c c0 et tout i, P { |Xi | > c }
(ingalit de Markov, III.4.9). Appliquons alors (i) A = { |Xi | > c } pour chaque
i pour obtenir supiI {|Xi |>c} |Xi | dP . La conclusion sensuit.
Lintrt de la notion dquiintgrabilit apparat dans le thorme suivant,
lequel peut tre vu comme une amlioration du thorme de convergence domine.
traire une sous-suite (nk ) telle que Xnk converge vers X p.s. Par le lemme de
Fatou (II.2.3) et la proposition V.3.4,
E |X| lim inf E |Xnk | sup E |Xn | < .
k
nN
119
i
i
i
{|Xn X|}
{|Xn X|}
Il sensuit que la suite (Xn )nN vrie le point (i) de la proposition V.3.4. Le
point (ii) est immdiat puisque par lingalit triangulaire E(|Xn |) est major par
E(|Xn X|) + E(|X|). Donc la suite (Xn )nN est uniformment intgrable.
Corollaire V.3.6. Soit (Xn )nN une suite de variables alatoires relles, dnies sur
P
{|Xn
|q >c}
|Xn |q dP c(qp)/q
c
(qp)/q
{|Xn
|q >c}
|Xn |p dP
sup E |Xk |p .
kN
120
i
i
i
i
i
Exemples V.4.2. (i) Si Xn converge p.s. vers X, alors Xn converge en loi vers X.
Cela se dduit par exemple du thorme de convergence domine (II.2.8) et du
point (ii) de la dnition.
(ii) Si Xn converge en probabilit vers X, alors Xn converge en loi vers X. En
eet, pour tout > 0, et tout t,
F Xn (t) = P { Xn t }
P { X t + } + P |Xn X|
F X (t + ) + o(1)
et
(n )
F Xn (t) P { X t } P |Xn X|
F X (t ) + o(1)
(n )
122
i
i
i
et lon conclut laide de V.4.1.i puisque > 0 est arbitraire. Rappelons que la
convergence dans Lp , p > 0, entrane la convergence en probabilit, et donc la
convergence en loi.
(iii) Soit X de loi N (0, 1) et Xn = (1)n X. Alors Xn converge en loi vers X
(puisque, par symtrie de la loi normale centre, Xn a mme loi que X pour
tout n), mais ne converge pas p.s. vers X et ne converge pas en probabilit vers X.
Le couple (X, Xn ) ne converge pas non plus en loi.
(iv) Nous notons cependant le rsultat suivant, utile en statistique. Si Xn converge
en loi vers une variable constante c, alors Xn converge en probabilit vers c. En
eet, pour tout > 0,
lim P < Xn c = lim F Xn (c + ) F Xn (c ) = 1 ,
n
0lk
P { Xn = l }
P { X = l } = F X (k) = F X (t) .
0lk
123
i
i
i
(i)(iv). Soit lespace probabilis ( , A , P ) = ] 0, 1 [, B( ] 0, 1 [ ), o est
la mesure de Lebesgue. Soit U une variable alatoire uniforme sur ] 0, 1 [, dnie
sur ( , A , P ) (par exemple la fonction identit !). Alors (proposition III.2.7),
Xn = Fn (U ) et X = F (U ) ont respectivement mmes lois que Xn et X.
Il sut donc de montrer que limn Fn (u) = F (u), sauf peut-tre sur un
ensemble de mesure de Lebesgue nulle.
+
+
des points de continuit de F tels que t < t < t et |t t | (de tels points
existent daprs la proprit III.2.4). Daprs les proprits de F utilises lors
+
de la dmonstration de la proposition III.2.7, F (t
) u et F (t ) u. Ainsi, par
lhypothse (i), pour tout > 0 tel que 0 < u < u + < 1, Fn (t
) < u + et
+
Fn (t ) > u pour tout n assez grand. Daprs les mmes proprits appliques
Fn ,
Fn (u + ) > t
t
et
Fn (u ) t+
t + .
et
F ,
(t Xn )+
1
= lim inf E
n
lim inf E ],t](Xn )
],t](x)
124
i
i
i
De la mme faon,
(t + X)+
1
F (t + ) = E ],t+](X) E
(t + Xn )+
1
lim sup E
n
lim sup E ],t](Xn )
(2)
i
i
Puisque n converge vers simplement et que eitx Xn (t) X (t) 2, le
thorme de convergence domine (II.2.8) implique que
2
2
lim supf Xn+ N (x) f X+ N (x) = 0 .
n xR
(3)
(4)
F X+
2N
(t + ) .
De faon analogue,
2
lim inf F Xn (t) lim inf F Xn + N (t ) E |N |
n
n
lim inf P Xn + 2 N [ a, t ] E |N |
n
FX (t 2) 2E |N | .
126
i
i
i
Puisque > 0 est arbitraire et F est continue droite et admet en tout point une
limite gauche, nous obtenons,
F X (t) lim inf F Xn (t) lim sup F Xn (t) F (t) ,
n
i
i
Sur Rd , toute loi de probabilit est tendue puisque Rd est la runion des
compacts KM = { x Rd : |x| M } pour M = 1, 2, . . . et quune mesure vrie
la proposition I.4.3.iii.
Theor`eme V.4.4. Toute suite de lois quitendue sur Rd admet une sous-suite
convergeant troitement.
Dmonstration. (Esquisse ; pour plus de dtails, voir Rudin (1975), Dudley
(1989)). La preuve sappuie sur un argument de dualit. Le dual de lespace des
fonctions continues bornes sur Rd contenant des objets qui ne sont pas des mesures, il nous faut travailler avec lespace C0 (Rd ) des fonctions continues sur Rd
tendant vers 0 linni. Muni de la norme supremum , cest un espace espace de Banach sparable. Son dual sidentie avec lespace M(Rd ) des mesures
signes bornes = + , o + et sont des mesures positives et bornes,
laide de la dualit
, = d = d+ d .
On peut munir M(Rd ) de la topologie faible* dont une base de voisinages est
donne par les ensembles
d
M(R ) : i d i d , 1 i k
pour M(Rd ), i C0 (Rd ), 1 i k, > 0. En particulier, une suite (n )nN
dlments de M(Rd ) converge faiblement* vers si pour toute C0 (Rd ),
dn = d .
lim
n
i
i
elle admet une sous-suite (Pn )n N convergeant vers une mesure Q, a priori signe mais de norme infrieure ou gale 1. Cette valeur dadhrence Q de la
sinon on montre
suite (Pn )nN est ncessairement une mesure positive. En eet,
d
positive de C0 (R ) telle que dQ < 0, et alors
lexistence dune fonction
dPn < 0 pour n assez grand, ce qui contredit la positivit des lois Pn . Il
ne nous reste plus qu montrer que Q est une probabilit et que Pn converge
troitement vers Q. Il sut de dmontrer cet eet que pour toute : Rd R
continue telle que 0 1,
dPn = dQ .
lim
n
Ceci est une consquence de lquitension de la suite (Pn )nN . Pour tout M > 0,
soit KM le compact de Rd donn par KM = { x Rd : x M }.
Pour tout > 0, il existe M tel que Pn (KM ) 1 pour tout n. Soit
M (x) = (M + 1 x)+ 1, x Rd . Pour tout n,
dPn + M dPn +
dPn
KM
i
i
Pour cela, notons dabord que lingalit (sin x)/x sin 1 est vraie pour tout
|x| 1. Puis, par le thorme de Fubini-Tonelli (II.5.1),
1
u
u
0
1 u
1 e (t) dt =
1 cos(tx) dP Z (x) dt
u 0 R
sin(ux)
1
dP Z (x)
=
ux
R
1 sin(1) P |Z| 1/u .
Z
lim sup 7M
n
1/M
= 7M
1/M
1 e Xn (t) dt
1 e X (t) dt
Exemples V.4.5. (i) Une suite (xn )nN de rels converge vers x si et seulement si
xn converge vers x troitement (daprs V.4.1.ii).
(ii) Si X est une variable alatoire, alors X/n converge en loi vers 0 lorsque n .
Par contre, sauf si X = 0 p.s., la suite des lois de (nX)nN nest pas tendue. Donc
nX ne peut pas converger en loi.
(iii) Soit (Xi )i1 une suite de variables alatoires indpendantes, de loi exponentielle Exp(1). Nous avons vu lexemple V.1.3.ii que
Mn = max Xi = ln n + o(ln n) p.s.
1in
Nous pouvons maintenant prciser un peu le contenu du terme o(ln n). En effet, montrons que Zn = Mn ln n converge en loi vers une variable Z de loi
F Z (t) = exp(et ), t R. En eet (voir plus prcisment la dmonstration du
130
i
i
i
V.5. Les lois faible et forte des grands nombres, le thorme limite central
thorme V.5.4),
F Zn (t) = P max Xi t + ln n
1in
n
= 1 exp(t ln n)
et
= exp n ln 1
= exp(et ) + o(1)
n
lorsque n .
(iv) Si Xn est de loi binomiale B(n, p) et Zn = (Xn np)/ np(1 p), alors Zn
converge en loi vers une variable alatoire gaussienne N (0, 1). En eet,
n
)
np
it 1p
Zn
it/ np(1p)
1 p + pe
(t) = e
n
)
np
t2
itp
it 1p
+ o(n1 )
=e
1+
np(1 p) 2n(1 p)
= et
2 /2
+ o(1)
(n )
et donc Zn (t) converge vers la fonction caractristique dune loi N (0, 1).
Dun point de vue pratique, cela signie
t que2 pour n assez grand, on peut
approximer P { Zn t } par (2)1/2 ex /2 dx (on applique ici lquivalence entre V.4.1.iii et V.4.1.i.) Cest trs utile en pratique puisque le calcul de
P { Zn t } ncessite dvaluer une somme pondre de coecients binomiaux
(numriquement dicile pour n grand), tandis que lapproximation gaussienne ne
ncessite que lvaluation dune intgrale. Cet exemple est un cas particulier du
thorme limite central que nous allons voir dans le paragraphe suivant.
i
i
avons de plus montr que la loi de (Sn E(Sn ))/ n ressemble une loi normale
lorsque n est assez grand (exemple V.4.5.iv).
De faon gnrale, une population est souvent dcrite statistiquement, ou rsume par la donne dune statistique moyenne (ge moyen, poids moyen, taille
moyenne, prix moyen etc). Un sondage est donc un exemple typique o lon est
naturellement conduit des sommes de variables alatoires.
Notre premier rsultat est la loi des grands nombres. Elle montre dune part
que lintuition est correcte, cest--dire, par exemple, que si lon jette une pice
quilibre un grand nombre de fois, la proportion de piles tend se stabiliser
vers 1/2, dautre part que la thorie des probabilits que nous avons construite ne
conduit pas une modlisation absurde du rel, et enn quune certaine rgularit
apparat dans les phnomnes alatoires.
Theor`eme V.5.1 (loi faible des grands nombres). Si E(|X|) < , alors Sn /n
converge en probabilit vers E(X) lorsque n .
Dmonstration. Quitte centrer les variables Xi , on peut supposer que E(Xi ) = 0.
Theor`eme V.5.2 (loi forte des grands nombres). Les deux conditions suivantes sont
quivalentes :
(i) E(|X|) < ;
(ii) limn Sn /n = E(X) p.s.
Dmonstration. (ii)(i). Si la suite Sn /n converge p.s., alors Xn /n
converge p.s. vers 0. Daprs le lemme de Borel-Cantelli (proposition V.1.2.ii) et puisque les Xi sont indpendantes et toutes de mme loi
(que X), pour tout (ou seulement un) > 0,
P |X| n =
P |Xn | n < .
n1
n1
i
i
V.5. Les lois faible et forte des grands nombres, le thorme limite central
1
4 n4
E Sn4 .
Observons que
Sn4 =
Xi4 + 4
1in
Xi3 Xj + 3
1i=jn
+6
Xi Xj Xk2
1i,j,k
distinctsn
Xi2 Xj2
1i=jn
Xi Xj Xk Xl .
1i,j,k,l
distinctsn
1in
+6
E(Xi4 ) + 4
E(Xi3 )E(Xj ) + 3
1i=jn
1i,j,k
distinctsn
2
= nE X 4 + 3n(n 1) E(X 2 ) .
E(Xi2 )E(Xj2 )
1i=jn
1i,j,k,l
distinctsn
Donc n1 P { |Sn | > n } < , ce qui dmontre la loi forte des grands nombres
dans ce cas daprs le lemme de Borel-Cantelli V.1.2.
Supposons maintenant X intgrable et centre, sans autre hypothse. Soit
indpen > 0 x. Il existe, pour tout i 1, des variables Yi tages, centres,
133
i
i
i
1
Zi .
n
1in
Pour cela, nous utilisons un argument de bloc. Pour tout k et tout > 0, la
probabilit
1
Zi 2E(Z) +
P
max
2k <n2k+1 n
1in
1i2k+1
2k+1 P { Z > 2k } + P
Zi [0,2k ] (Zi ) E Zi [0,2k ] (Zi ) 2k .
1i2k+1
max
2k <n2k+1
1
Zi 2E(Z) +
n
1in
2k+1 P { Z > 2k } +
2k+1 P { Z > 2k } +
1
2 22k
2
2 2k
2k+1 E Z 2 [0,2k ] (Z)
E Z 2 [0,2k ] (Z) .
134
i
i
i
V.5. Les lois faible et forte des grands nombres, le thorme limite central
2k+1
2k
P { Z > t } dt 2k P Z > 2k+1 ,
De plus
2k E Z 2 [0,2k ] (Z) = E Z 2
2k [0,2k ] (Z) 4E(Z)
k0
k0
kl+1
k0
2k <n2k+1
1
Zi < 2E(Z) + .
n
(2)
1in
1
Zi 2E(Z) p.s.
n
1in
1
1
1
|Sn | lim sup
Zi + lim sup Tn
n
n n
n n
1in
2E |X1 Y1 | 2 p.s.
135
i
i
noter quen travaillant avec une sous-suite (k )kN pour un > 1 bien
choisi en fonction de > 0 en lieu
Exemple V.5.3. Reprenons les notations de lexemple IV.3.6.iii. Puisque les variables Ui sont indpendantes et de loi de Bernoulli B(1, 1/2), la loi forte sapplique et
1
Ui () = 1/2 = 1 .
P : lim
n n
1in
i.e. presque tout nombre a de lordre de n/2 blocs de 0 et de 1 dans ses n premiers
chires.
Une autre faon dnoncer la loi forte des grands nombres est de dire que si
E(|X|) < , alors Sn /n = E(X)+o(1) p.s. lorsque n . En un certain sens, le
thorme limite central donne un terme de plus dans le dveloppement asymptotique de Sn /n, prcisant le comportement limite en loi du terme o(1) (modulo une
hypothse supplmentaire sur la loi des Xi ). Il permet dapproximer la loi de Sn /n
lorsque n est grand. Le fait remarquable est que sous la condition E(X 2 ) < ,
converge
Theor`eme V.5.4 (limite central). (i) Si E(X 2 ) < , alors
n
en loi vers une variable de loi N 0, Var(X) .
(ii) Si Sn / n converge en loi, alors E(X) = 0 et E(X 2 ) < et la loi limite est
normale centre, de variance Var(X).
Dmonstration. (i) Si X est constante p.s., le rsultat est vident puisque N (0, 0)
n
Sn / n (t) = X (t/ n)
136
i
i
i
V.5. Les lois faible et forte des grands nombres, le thorme limite central
o X est une variable ayant la loi des Xi . Or X est de carr intgrable. On peut
donc driver deux fois sa fonction caractristique X (proposition III.5.6.i) et
X
X
(0) = E(X) = 0,
(0) = E X 2 = 1 .
Donc
X (u) = 1
Lorsque n ,
Sn / n
(t) =
u2
+ o(u2 )
2
lorsque u 0 .
1 n
t2
2
+o
1
= et /2 + o(1) .
2n
n
z k
zn n
n
1=
Ckn
.
1+
n
n
1kn
Donc
|z | k
zn n
n
1
Ckn
1+
n
n
1kn
|z | k+1
n
=
Ck+1
n
n
0kn1
|z | k |z |
n
n
=
Ckn1
n
k+1
0kn1
|zn | n1
|zn | 1 +
n
tend vers 0 quand n .
(ii) est admis ici. On peut se reporter par exemple Feller (1971, IX.8).
b =
dt .
lim P a
n
2
np(1 p)
a
137
i
i
i
np(1 p)
k[np+a
np(1p),np+b
np(1p)]
Lorsque k [ np + a np(1 p), np + b np(1 p) ], on peut utiliser la formule
de Stirling pour approximer le coecient binomial Ckn , ce qui conduit au rsultat
en approximant la somme sur k par une intgrale.
Daprs lexemple V.4.2.iv, puisque Sn /n converge vers p en probabilit daprs
la loi des grands nombres, on a aussi
*
#
b t2 /2
Sn np
e
b
=
dt .
lim P a )
n
2
S
S
a
n
n
n n 1 n
Autrement dit, lintervalle alatoire
+
+
b
Sn
Sn
a
Sn
Sn
Sn
Sn
1
,
1
n
n n
n
n
n n
n
b
2
contient p avec une probabilit voisine de (2)1/2 a et /2 dt lorsque n est grand.
Si maintenant p est inconnu, on voit quen observant des ralisations des Xi , on
peut construire un intervalle (puisqualors Sn /n est observe) qui contient p avec
une probabilit assez grande. Ce type de rsultat est essentiel en statistique.
(ii) Montrons maintenant lintrt du point (iv) du thorme V.4.1 et de la proposition III.2.7. Prenons Sn une somme de variables alatoires indpendantes, de
mme loi et de carr intgrable. Alors Sn vrie le thorme limite central V.5.4.
Soit maintenant N une variable alatoire de loi de Poisson de paramtre > 0,
cest--dire telle que P { N = k } = e k /k!, k N, indpendante de (Sn ).
Que peut-on-dire alors de SN , somme dun nombre alatoire de termes, lorsque
?
Soient
Sn nE(X1 )
N
et T =
.
Zn =
n
i
i
V.5. Les lois faible et forte des grands nombres, le thorme limite central
P { Sk t ; N = k }
kN
P { Sk t}P {N = k }
kN
kN
P { Sk t }P { N = k } = P { SN
t}.
La dmonstration du thorme V.4.1 ((iv)(i)) montre que Zn converge p.s. vers
Z de loi N (0, Var(X1 )) tandis que T converge p.s. vers T de loi N (0, 1). Puique Z
est (U )-mesurable et T est (V )-mesurable, Z et T sont indpendantes. Puisque
T converge p.s. vers T , observons aussi que N converge p.s. vers + lorsque
. Il vient alors
E(X )
N E(X ) ,
SN
SN
1
1
N N
=
+
EX1
,
N
+ T E(X1 ) .
= ZN
vers Z+T E(X1 ) qui est de loi N (0, Var(X1 )+E(X1 )2 ). Ainsi, (SN E(X1 ))/
converge en loi vers N (0, E(X12 )). Un examen attentif de cet exemple montre que
tout lintrt du point (iv) de la dnition-thorme V.4.1 est quil permet de
transformer un problme de probabilit en un problme danalyse ; ayant une
convergence presque sre, on peut travailler en xant lala , donc, en un certain
sens, sur des suites dterministes.
Lorsque le paramtre p = pn de la loi binomiale B(n, p) tudie lexemple
(i) dpend de n et est de lordre de /n, > 0, la loi de Sn converge vers la loi
de Poisson de paramtre .
139
i
i
i
Theor`eme V.5.6 (limite central poissonien). Soit Sn une variable alatoire de loi
B(n, pn ). Si limn npn = > 0, Sn converge en loi vers une variable alatoire
de Poisson de paramtre .
Dmonstration. En vertu de lexemple V.4.2.v, il sut de prouver que pour tout
k N,
lim P { Sn = k } = e
k
.
k!
1
n!
npn nk
k
(np
)
.
n
k! (n k)!nk
n
Lorsque n ,
n!
1
(n k)!nk
et
(npn )k k ,
La conclusion sensuit.
central nous dit que Sn / n converge en loi vers N (0, 1). Que se passe-t-il pour
P
On peut montrer que si limn an / n = , alors Sn /an 0 (ingalit
de Markov : P { |Sn | an } E(Sn2 )/2 a2n = nE(X 2 )/2 an ). Cest encore vrai
presque srement si an = n1/p avec 1 < p < 2. Mais ce nest
plus le cas si an
est trop proche de n. Le cas limite est obtenu pour an = 2n ln lnn o lon
obtient la loi, dite du logarithme itr : presque srement, la suite Sn / 2n ln ln n
est relativement compacte et lensemble de ses valeurs dadhrence est lintervalle
[ 1, 1 ]. En particulier,
lim inf
n
Sn
= 1 p.s.
2n ln ln n
et
lim sup
n
Sn
= 1 p.s.
2n ln ln n
140
i
i
i
V.5. Les lois faible et forte des grands nombres, le thorme limite central
nous dit que si E(X 2 ) < , alors Zn = (Sn nE(X))/ n converge en loi vers
une variable alatoire gaussienne. Existe-t-il une variable Z gaussienne telle que
Zn converge en probabilit ou p.s. vers Z ? La loi du logarithme itr montre que
non. Supposons que Zn converge en probabilit vers Z. Quitte extraire une soussuite, en vertu du thorme V.2.4, nous pouvons supposer que Zn converge
presque
srement vers Z. La loi du logarithme itr implique lim supn Zn / 2 ln ln n =
1/2
p.s. ce qui contredit le fait que limn Zn / 2 ln ln n = 0 p.s., puisque
E(X 2 )
Zn converge vers Z p.s. Ainsi, la convergence en loi, comme son nom lindique
et la dnition le montre, ne concerne que les lois et non les variables. Elle nen
demeure pas moins extrmement utile en pratique o lon est souvent intress
par les lois.
que E((Sn / n)) converge vers E((Z)) o Z est de loi N (0, 1) et est une
fonction continue borne arbitraire (cf. dnition-thorme V.4.1). En fait, on
peut montrer quil sut de ne considrer que les fonctions continues, bornes,
tendant vers 0 linni et drives bornes (puisque ces fonctions sont denses
dans lensemble des fonctions continues, bornes, tendant vers 0 linni). Soient
donc une telle fonction et Zi des copies indpendantes de Z, et indpendantes
des Xi . Soient Sj,n = X1 + + Xj1 + Zj+1 + + Zn , j = 1, . . . , n. Alors
E
n
n
1jn
S
S
S
Sj,n
Xj
Zj
j,n
j,n
j,n
=
E n + n n n + n + n
1jn
Xj3
Xj Sj,n Xj2 Sj,n
+
+ 3/2 (j,n )
E
n
n
2n
n
6n
1jn
.
Zj3
Zj Sj,n Zj2 Sj,n
3/2 (j,n )
n
n
2n
n
6n
141
i
i
i
o j,n et j,n sont donns par la formule de Taylor. Puisque Xj et Zj sont indpendantes de Sj,n , de moyenne nulle et de variance 1, il vient
E |Xj |3 + |Zj |3 = o(1)
E (Sn / n) E (Z)
3/2
n
1jn
lorsque n .
Un ranement de la mthode permet dobtenir le thorme limite central sous
la seule condition E(X 2 ) < (voir par exemple Pollard (1984)). Il convient aussi
de remarquer que la mme dmonstration fournit un thorme limite central pour
des sommes de vecteurs alatoires indpendants et de mme loi.
Exercices
Exercice V.1. Soit (Xn )nN une suite de variables alatoires relles sur un espace
probabilis (, A, P ) ; on suppose quil existe une suite de rels (an )nN telle que
les sries
an
et
P { Xn = an }
n
Exercice V.2. Soit (Xn )nN une famille de variables alatoires gaussiennes, centres, de variance (n2 )nN convergeant en loi vers une variable alatoire X.
a) Montrer que la suite (n2 )nN est convergente et en dduire que X suit une
loi gaussienne. tudier le cas o les Xn ne sont pas centres.
b) On suppose que Xn X en probabilit. Dmontrer que Xn converge vers
X dans tous les espaces Lp .
Exercice V.3. Montrer que pour x > 0,
+
1
2
2
1
x2 /2 1
3
et /2 dt ex /2 .
e
x x
x
x
Indication : intgrer par parties t1 tet /2 .
Soit maintenant (Xn )nN une suite de variables alatoires indpendantes,
toutes de mme loi N (0, 1). Montrer que
2
lim sup
n
Xn
2 ln n
=1
p.s.
1.
2 ln n
142
i
i
i
Exercices
Exercice V.4. Soit (Xi )iI une famille de variables alatoires relles sur
(, A, P ) ; on suppose quil existe une fonction G : [ 0, [ [ 0, [ vriant
limt G(t)/t = telle que supiI E(G(|Xi |)) est ni. Dmontrer que la famille (Xi )iI est uniformment intgrable.
Exercice V.5. Soient (Xn )nN et (Yn )nN deux suites de variables alatoires
relles sur (, A, P ) convergeant en loi respectivement vers X et Y .
a) On suppose que pour tout n, Xn et Yn sont indpendantes et que X et Y
sont indpendantes. Dmontrer que Xn + Yn converge en loi vers X + Y . Donner
un exemple montrant que lhypothse dindpendance est indispensable.
b) On suppose que Y = 0. Prouver que Xn + Yn converge en loi vers X et Xn Yn
converge en loi vers 0.
Exercice V.6. Soit (n )nN une suite de nombres appartenant [ 0, 1 ] ; on lui
associe une suite (Xn )nN de variables alatoires indpendantes sur un espace
probabilis (, A, P ) dont les lois vrient
0
P { Xn t } = n + (1 n )tn
si t < 0,
si t [ 0, 1 ],
si t > 1.
formule dinversion
n
a) Soit P() = nN e n! n la loi de Poisson de paramtre . Montrer que
si X est de loi P() alors (X )/ converge en probabilit vers 0 lorsque
. En dduire que
lim e
k
=
k!
kx
#
0 si > x,
1 si < x.
b) Soit L(t) = 0 etx dP (x) la transforme de Laplace dune loi P sur R+ .
Montrer que L(t) est inniment drivable. Montrer que si P est de fonction de
rpartition F , alors
(1)k
k L(k) () = F (x)
lim
k!
kx
i
i
eitx eity X
(t) dt
it
m
m
1 m sin t(z y)
sin t(z x)
1
dt
dt f X (z) dz .
=
t
0
t
0
m
sin(tx)
dt = signe(x)/2.
t
0
En dduire que si x et y sont des points de continuit de F X , alors
On rappelle que
1
F (y) F (x) = lim
m 2
X
eitx eity X
(t) dt ,
it
Exercice V.11. Appliquer le thorme limite central une suite (Xn )nN de variables alatoires indpendantes de mme loi de Poisson de paramtre 1 pour
trouver la limite de la suite
un = en
nk
,
k!
n N.
0kn
Rponse : 1/2.
Exercice V.12. Soit (Xi )i1 une suite de variables alatoires relles, indpendantes et de mme loi
i
i
Exercices
i
x = i1 2 xi son dveloppement en base 2.
a) En utilisant la loi forte des grands nombres, montrer que sous L(p) , pour
presque
Exercice V.14. Au thorme IV.3.1 nous avons vu comment construire une suite
innie de variables alatoires indpendantes. Donnons ici une construction plus
explicite sur R. Soient Xn , n 1, les variables alatoires de loi B(1, 1/2)
construites lexemple IV.1.7.ii. En utilisant lexercice V.13 et lexemple V.1.3.i,
montrer quon peut construire une suite (Un )n1 de variables alatoires uniformes sur [ 0, 1 ], indpendantes.
Indication : considrer la construction en triangle
U1 = 21 X1 + 22 X2 + 23 X4 + 24 X7 +
U2 = 21 X3 + 22 X5 + 23 X8 +
U3 = 21 X6 + 22 X9 +
U4 = 21 X10 +
..
.
Montrer alors que si lon se donne une famille de loi Pi , i N, sur R, on peut
construire une suite de variables alatoires relles (Zi )iN , indpendantes, telles
que Zi est de loi Pi . Nous avons donc dans ce cas une preuve constructive du
thorme de Kolmogorov IV.3.1.
145
i
i
i
Exercice V.15. On considre une marche alatoire sur Z, partant de lorigine, reprsente par une suite (Xn )n1 de variables alatoires sur un espace probabilis
(, A, P ), mutuellement indpendantes, et de mme loi de Bernoulli sur { 1, 1 }
de paramtre 0 < p < 1 (autrement dit P { Xn = 1 } = 1 P { Xn = 1 } = p
pour tout n). On pose Sn = X1 + + Xn , n 1, et par convention S0 = 0. La
variable alatoire Sn reprsente donc la position au temps n du marcheur parti
de 0. On sintresse la probabilit de revenir une innit de fois son point
de dpart, cest--dire la probabilit de lvnement
A = { Sn = 0 pour une innit de n } .
a) Dmontrer que Sn /n converge presque srement vers une limite que lon
prcisera.
b) Dduire de la question prcdente que P (A) = 0 si p = 1/2.
c) On suppose prsent que p = 1/2.
=
(S
2k . Prouver que Zk a mme loi
i) Pour tout
k
0,
soit
Z
k+1 S2k )/
k
2
k
que S2k / 2 . En dduire, en faisant usage du thorme limite central, que pour
tout rel M ,
P { Zk M } = .
k0
Exercice V.16. Soient et deux mesures de probabilit sur un espace mesurable (E, B). On appelle distance en variation totale la quantit
= sup |(B) (B)| .
BB
i
i
Exercices
p2i .
1in
147
i
i
i
i
i
VI
PROBABILITS ET ESPRANCES
CONDITIONNELLES
P (A B)
,
P (B)
A A,
i
i
formaliser cela. Mais commenons par le cas simple o lon conditionne par un
vnement de probabilit positive.
Comme pour la construction usuelle de lintgrale, ceci se vrie dabord sur les
variables indicatrices et tages, puis se prolonge.
Enn, dans le cas o = Rd , puisque la probabilit conditionnelle P ( | B) est
une probabilit, on peut dnir une fonction de rpartition conditionnelle sachant
B, x Rd P (] , x ] | B) [ 0, 1 ], une fonction caractristique conditionnelle
t Rd eit,x dP (x | B), lesquelles caractrisent la loi conditionnelle P ( | B).
Exemples VI.1.2. (i) Soit X une variable alatoire de loi exponentielle de paramtre 1. Observons que pour tous s, t > 0, la probabilit que X dpasse s + t
sachant que X dpasse s est donne par
P{X s + t | X s} =
=
P{X s + t}
P{X s + t; X s}
=
P{X s}
P{X s}
e(s+t)
= et .
es
150
i
i
i
P { U1 u1 , . . . , Un un ; a mn ; Mn b }
P { a mn ; Mn b }
P { a U1 u1 b ; . . . ; a Un un b }
P { a U1 b ; . . . ; a Un b }
$
1in P { a Ui ui b }
$
P{a U b}
$ 1in
1in (ui b a)
$
1in (b a)
ui b a
.
ba
1in
Definition VI.1.3. Soit (, A, P ) un espace probabilis. Une famille dvnements (Bi )iI ,I N, forme
iI
Bi ,
i
i
iI P (A | Bi )P (Bi )
Exemple VI.1.5. Voici une application de la rgle de Bayes qui justie pleinement
lutilisation des questionnaires choix multiple aux examens.
Considrons des questions o m rponses possibles sont proposes et supposons quun candidat a une probabilit p de connatre la rponse une question
prise au hasard parmi un ensemble ni de questions. Sachant que le candidat a
rpondu correctement la question, quelle est la probabilit quil sache eectivement la rponse ? On suppose quun candidat ne sachant pas la rponse rpond
au hasard , et donc que chacune des m rponses possibles sont quiprobables.
Soit A lvnement le candidat rpond correctement et B lvnement le
candidat connat la rponse . Appliquons la rgle de Bayes,
P (A | B)P (B)
P (A | B)P (B)
=
P (A)
P (A B) + P (A B c )
1p
P (A | B)P (B)
=
=
1
P (A | B)P (B) + P (A | B c )P (B c )
1p+ m
(1 p)
mp
.
=
mp + 1 p
P (B | A) =
Donc, plus m est grand, plus P (B | A) est grand ; cest assez intuitif ; il est probable que le candidat connaisse la rponse sil a donn une bonne rponse parmi de
nombreuses proposes. Remarquons que pour m = 3 et p = 1/2, P (B | A) = 3/4,
ce qui est somme toute assez grand. On conoit donc quun questionnaire dune
trentaine de questions, chacune trois ou quatre rponses possibles, soit mme
de rendre compte du savoir dun tudiant !
Observons maintenant que la tribu B engendre par une partition (Bi )iI ,
I N, dvnements de A est dcrite comme la collection de toutes les unions
possibles dvnements Bi et de leurs complmentaires. De ce point de vue, tout
ensemble A B peut tre fractionn sur les ensembles lmentaires Bi . Ceci
conduit la dnition suivante.
152
i
i
i
Definition VI.1.8. Soit B une sous-tribu dans (, A, P ), engendre par un systme complet dvnements (Bi )iI , I N. Soit I = { i I : P (Bi ) > 0 }.
On
P (A | B) dP = P (A B) =
B
A dP .
153
i
i
En eet, puisque B = iJ Bi pour un certain ensemble dindices J, il sut
de montrer lidentit pour un atome ; cest alors une consquence de la dnition VI.1.1, puisque
P (A | B)() dP () =
P (A | Bi )Bi () dP ()
Bj
Bj iI
= P (A | Bj )
Bj
Bj () dP ()
= P (A | Bj )P (Bj ) = P (A Bj ) .
Il est important de comprendre cette notion de proximit. titre de comparaison, deux variables alatoires
relles intgrables X et Y sur (, A, P ) sont gales
p.s. si et seulement si A X dP = A Y dP pour tout A A. En eet, prenant
A = {X Y }, il vient
(X Y ) dP = (X Y )+ dP ,
0=
{XY }
iI
iI
1
P (Bi )
X dP
Bi
Bi .
Il est tout fait important de remarquer que dans la dnition de lesprance conditionnelle, la somme est sur lensemble dindices I . En consquence,
154
i
i
i
sa valeur en tout point I\I Bi nest pas dnie. On pourrait aussi altrer
les vnements Bi et leur adjoindre ou retrancher des vnements de mesure nulle.
Ceci changerait ventuellement lesprance conditionnelle, mais seulement sur un
ensemble de mesure nulle. Il convient donc de bien comprendre que lesprance
conditionnelle nest dnie que P -presque srement.
De mme que E(A ) = P (A), par construction, E(A | B) = P (A | B). Remarquons aussi que si B B,
E(X | B) dP =
X dP ,
B
Notation VI.1.10. Si B est engendre par une variable alatoire discrte Y , on note
E(X | Y ) = E(X | B).
Exemple VI.1.11. Soit X une variable alatoire sur (, A, P ) suivant une loi de
Poisson de paramtre > 0. Soit Y = 2X/2, o est la fonction partie
entire. Calculons les esprances conditionnelles E(X | Y ) et E(Y | X). Puisque
Y est X-mesurable, E(Y | X) = Y p.s. Pour valuer E(X | Y ), nous tudions les
atomes de (Y ) ; ce sont les ensembles Bn = { Y = 2n }, n 0. On value
X dP =
X dP +
X dP
{ X=2n }
Bn
{X=2n+1}
2n
2n+1
+ (2n + 1)e
.
(2n)!
(2n + 1)!
De mme,
P (Bn ) = P { Y = 2n } = P { X = 2n } + P { X = 2n + 1 }
= e
Do
1
P (Bn )
2n
2n+1
+ e
.
(2n)!
(2n + 1)!
X dP =
Bn
(2n + )(2n + 1)
.
2n + 1 +
Ainsi
E(X | Y ) =
(2n + )(2n + 1)
n0
2n + 1 +
{Y =2n} =
(Y + )(Y + 1)
.
Y +1+
155
i
i
i
On voit sur cet exemple, comme dans la situation gnrale, que lesprance conditionnelle est dnie seulement p.s., puisquelle peut prendre nimporte quelle valeur sur les atomes de mesure nulle.
et donc Z1 = Z2 p.s.
ii) Existence. Montrons-la dabord en supposant X de carr intgrable. Alors X
est un lment de lespace de Hilbert L2 (, A, P ). Lespace L2 (, B, P ) est ferm
dans L2 (, A, P ). On peut donc parler de la projection QX de X sur L2 (, B, P ).
Cette projection vrie
U L2 (, B, P ) , X QX, U = (X QX)U dP = 0 .
156
i
i
i
i
i
dmonstration de VI.2.1.
(ii) a t dmontr dans la dmonstration de VI.2.1 : si X 0, E(X | B) 0 p.s.
en prenant B = { E(X | B) < 0 } dans VI.2.1.ii.
(iii) vient de la construction dans la dmonstration de VI.2.1.
(iv) se dmontre comme lingalit de Jensen II.2.10 en utilisant (ii).
(v) vient de VI.2.1.ii.
(vi) vient de ce que L2 (, C, P ) L2 (, B, P ) L2 (, A, P ), et que pour projeter
sur L2 (, C, P ), on peut commencer par projeter sur L2 (, B, P ).
(vii) Prendre B = dans VI.2.1.ii.
(viii) Si B B, B et X sont indpendantes et donc pour tout B B,
E(X | B) dP = B X dP = E(X) P (B) .
B
i
i
Lemme VI.3.1 (de Doob). Soit Y une variable alatoire relle sur (, A) et soit
X : R. Pour que X soit mesurable par rapport (Y ) (et la tribu borlienne), il faut et il sut quil existe une application borlienne h : R R, telle
que X = h(Y ).
Dmonstration. Si X = h(Y ) avec h borlienne, alors X est (Y )-mesurable.
Rciproquement, il sut de dmontrer le rsultat pour une variable alatoire X positive ou nulle (crire X = X + X ). Daprs la proposition I.2.7, X est limite croissante dune suite de variables alatoires tages
159
i
i
i
ai Y 1 (Bi ) =
ai Bi Y ,
iI
o I =
1
P { Y = yi }
X dP
{Y =yi }
i I : P {Y = yi } > 0 . Ainsi, si i I ,
1
E(X | Y = yi ) =
P { Y = yi }
X dP ( | Y = yi )
X dP =
{Y =yi }
i
i
lorsque f (x, y) dy > 0. Soit, cet eet, C un borlien et B = Y 1 (C). Alors,
puisque la loi de Y a pour densit R f (x, y) dx,
Y 1 (C)
h(Y ) dP =
h(y)
{yC}
f (x, y) dx
dy
xf (x, y) dy dx
=
=
=
{yC}
C (Y )X dP
Y 1 (C)
X dP .
(X) dP ( | Y = yi ) .
(x)f (x, Y ) dx
=
f (x, Y ) dx
(x)K Y ( dx)
f (x, y) dx
sinterprte comme la loi conditionnelle de X sao K y (dx) =
f (x, y) dx
chant Y = y. Il sensuit que la densit conditionnelle de X sachant Y = y est
f (x, y)/f Y (y) o f Y est la densit de Y . Cette formule permet le calcul pratique
des lois conditionnelles.
Ces exemples conduisent la dnition suivante.
161
i
i
i
Theor`eme VI.3.4. Soit (X, Y ) un vecteur alatoire dans (R2 , B(R2 )P ), de loi P ,
o B(R2 )P est la tribu borlienne de R2 , P -complte (cf. exercice I.8). Il existe
un noyau de transition K tel que pour toute fonction borlienne borne ,
E (X) Y =
dK Y p.s.
thorme V.4.4. Observons que pour toute fonction continue borne, la variable
alatoire E((X) | Y ) est dnie p.s. par VI.2.1 et VI.3.1, cest--dire sauf sur
un ensemble de mesure nulle dpendant a priori
de , not N (). Soit(i )iN une
famille dense dans (C0 (R), . ). Alors N = iN N (i ) est de mesure nulle, et
K Y () (i )() = E(i (X) | Y )() est dni sur \ N pour tout i N.
Soit maintenant C0 (R). Pour dnir K Y () (), on considre une soussuite (dpendant de ) (ik )kN telle que limk ik = 0. On pose alors
K Y () () = limk K Y () (ik ). On vrie que la limite des K Y () (ik ) ne dpend
pas de la sous-suite ik choisie, mais seulement de , puisque
E (i j )(X) Y () E |i j |(X) Y () i j p.s.
On dnit ainsi pour tout \ N une forme linaire continue sur C0 (R),
laquelle peut tre identie une mesure de probabilit. On pourra se rfrer
Dudley (1989) pour une dmonstration complte.
Le noyau K dpend videmment de la loi du couple (X, Y ). Rciproquement,
la loi du couple peut tre obtenue partir de K et de la loi de Y : si et sont deux
162
i
i
i
fonctions borliennes bornes, par les points (vii) et (ix) de la proposition VI.2.2,
E (Y )(X) = E E((Y )(X) Y )
= E (Y )E((X) | Y )
= E (Y ) (x)K(Y, dx) .
Testons prsent notre comprhension des lois conditionnelles sur quelques
situations simples.
Si
K y ()
f (x, Y )
f (x, Y )
=
.
Y
f (Y )
R f (u, Y ) du
i
i
Theor`eme VI.4.3. Soient H un espace gaussien (ferm, centr) et H1 un sousespace (ferm) de H. Soit X H x. Les proprits suivantes sont quivalentes :
(i) pour tout Y de H1 , E(XY ) = 0 ;
(ii) pour tout Y de H1 , X est indpendante de Y ;
(iii) X est indpendante de la tribu (H1 ) engendre par les variables de H1 .
164
i
i
i
do le rsultat.
165
i
i
i
pour des coecients rels 1 , . . . , p quil convient de calculer. cet eet, on peut
par exemple commencer par multiplier cette identit par Xi1 , et intgrer, pour
obtenir
E(Xn Xi1 ) =
j E(Xij Xi1 )
1jp
Exemples VI.4.5. (i) Soit (X, Y, Z) un vecteur gaussien centr de matrice de covariance
1 0 1
0 5 3 .
1 3 4
Calculons E(Y | X, Z). Daprs ce qui prcde, cette esprance conditionnelle est
de la forme X + Z. Les galits
E(XY ) = E(X 2 ) + E(XZ)
E(Y Z) = E(XZ) + E(Z 2 ) ,
conduisent au systme
0=
3 = + 4 .
4/3 1
.
1 1
7
(Y X), qui est une variable
do 7/3 = 11/3 et E(X | Y X) = 11
gaussienne centre de variance 49/33.
Le calcul des esprances conditionnelles gaussiennes est en un certain sens sufsant pour la connaissance plus prcise des lois conditionnelles. Soit (Z1 , . . . , Zn )
un vecteur alatoire gaussien, centr, et soient pour 1 k n, X = (Z1 , . . . , Zk )
et Y = (Zk+1 , . . . , Zn ). On sintresse la loi conditionnelle de X sachant que
Y = y ( Rnk ). Pour la dterminer, il nous sut de connatre sa transforme de
166
i
i
i
a
=
2
2
+
Ainsi
1
f (x, y)
=
f (x, y) dx
2
c2 2
c 2
b
y
x
exp
dx
b
2
b
c2 2
y .
b
b
c 2
b
exp
x y
,
2
b
i
i
Exercices
Exercice VI.1. Soient X et Y des variables alatoires indpendantes, de mme
loi, intgrables. Comparer les lois des couples (X, X + Y ) et (Y, X + Y ). En
dduire que E(X | X + Y ) = E(Y | X + Y ) = (X + Y )/2.
Exercice VI.2. X1 et X2 tant les rsultats indpendants de deux jets de ds, et
S tant leur somme, quelle est la loi de X1 sachant que S est paire ?
Exercice VI.3. Soit X une variable alatoire relle quelconque, et soit a une
constante relle. Dterminer la loi de X conditionne par X a.
Exercice VI.4. Soit X une variable alatoire valeurs dans N, telle que pour
tous m, n N,
P{X m + n | X m} = P{X n}
(on dit que X est sans mmoire).
a) On pose P { X = 0 } = a. Dterminer la loi de X.
b) Soit Y une copie indpendante de X. Quelle est la loi de S = X + Y ?
Dterminer la loi conditionnelle de X sachant S = p, p N. Interprter le
rsultat.
Exercice VI.5. Soit X = (Xn )nN une suite de variables alatoires. Soit N une
variable alatoire valeurs dans N, indpendante de la suite X. Montrer que XN
est une variable alatoire. Montrer que pour tout k N, la loi de XN sachant
N = k est la loi de Xk .
chacune la loi N (0, 1). Dmontrer que la loi de X1 sachant Sn = 1in Xi est
la loi N (Sn /n, 1 1/n).
Exercice VI.8. Soit X une variable alatoire suivant une loi exponentielle de
paramtre > 0. tablir que
P{X t + s | X > t} = P{X > s},
s, t 0 .
168
i
i
i
Exercices
Montrer que cette proprit caractrise la loi exponentielle parmi les lois densit. Prouver que limh0 h1 P { t < X < t + h | X > t } = pour tout t.
i, j = 1, . . . , n .
1 F (x + s) ni
1 F (x)
x R, s 0,
et que
P { Si+1,n s | Xi+1,n = x } =
F (x s) i
F (x)
x R, s 0.
169
i
i
la fonction de rpartition empirique des espacements, laquelle compte la proportion despacements plus petits que x/n. Notons
f (z)exf (z) dz .
L(x) = 1
R
1
b) Montrer que 1 Ln (x) = (n 1)
1in Ii,n .
c) Montrer que Ii,n suit une loi de Bernoulli de paramtre
n1
.
E 1 F (X1 + x/n) + F (X1 )
d) valuer P { Ii,n = 1 ; Ij,n = 1 }.
e) Montrer que limn E(Ln (x)) = L(x) et que limn E(Ln (x)2 ) = L(x)2 .
Indication : Penser au thorme de convergence domine !
En dduire que Ln (x) converge vers L(x) en probabilit
f) En utilisant la continuit, la bornitude et la monotonie de L, montrer que
lim sup |Ln (x) L(x)| = 0
n xR
en probabilit.
Pour n assez grand, ce rsultat donne une ide sur la taille des carts entre les
points alatoires adjacents X1,n , . . . , Xn,n .
g) Soit maintenant h une fonction continue borne sur R. Observons que L est
la fonction de rpartition dune loi Q. Montrer que e) implique
1
h(nSi,n ) = h dQ en probabilit.
lim
n n 1
2in
loi de probabilit de
Indication : Soit Qn la
fonction de rpartition Ln . Remarquer que (n 1)1 2in h(nSi,n ) = h dQn , puis utiliser la dnitionthorme V.4.1.
170
i
i
i
Exercices
Exercice VI.15. La proposition III.2.7 nous donne une faon dengendrer des
variables alatoires relles, pourvu que la fonction de quantile soit facile calculer. Ce nest pas toujours le cas en pratique. Une mthode assez ecace est
la mthode dite du rejet qui fonctionne comme suit.
Soient f , g, deux densits sur R. On souhaite simuler une variable de densit g, en supposant quon sache facilement simuler une variable de densit f , et
quil existe une constante c telle que g cf . Soit (X, U ) un couple de variables
alatoires indpendantes, respectivement de lois de densit f et uniforme sur
[ 0, 1 ].
a) Montrer que le couple (X, cU f (X)) est uniformment distribu sous le graphe
de f
f = { (x, y) R2 : 0 y f (x) } ;
cest--dire quen notant la mesure de Lebesgue sur R2 ,
A B(R2 ) ,
P { (X, cU f (X)) A } = (A f ).
x 0,
p 1,
i
i
n!
tn
0jp1
(tj+1 tj )kj+1 kj
.
(kj+1 kj )!
En dduire que les variables Nti+1 Nti sont indpendantes et suivent des lois
de Poisson de paramtre (ti+1 ti ).
172
i
i
i
VII
MARTINGALES
( TEMPS DISCRET)
La notion de martingale est une notion fondamentale du calcul des probabilits. Elle a son origine en thorie des jeux et introduit le temps dans lanalyse
probabiliste. Sa donne fondamentale est celle dune famille croissante (Ft )t0 de
tribus reprsentant lvolution de linformation avec le temps. Dans cette tude,
nous nous contenterons de lexamen de modles temps discret.
VII.1. Gnralits
Definition VII.1.1. Sur un espace probabilis (, F, P ), on appelle ltration
toute suite croissante (Fn )nN de sous-tribus de F (on pourra prendre pour F
la tribu, note F , engendre par les tribus Fn , n N).
Intuitivement, la tribu Fn contient tous les vnements qui peuvent survenir
avant linstant n.
Definition VII.1.2. Une suite de variables alatoires relles (Xn )nN dnies
sur (, A, P ) est appele un processus. De plus, on dit que le processus est
adapt la ltration (Fn )nN si pour tout n N la variable alatoire Xn est
Fn -mesurable.
i
i
Definition VII.1.3. Soit un processus adapt (Xn , Fn )nN tel que Xn est intgrable pour tout n. On dit que le processus est
(i) une martingale, si pour tous 0 m n,
E(Xn | Fm ) = Xm
p.s.;
p.s.;
p.s.
En particulier, un processus adapt (Xn , Fn )nN est une martingale si et seulement si cest la fois une sur- et une sous-martingale. Cest une sous-martingale
si et seulement si le processus adapt (Xn , Fn )nN est une sur-martingale. Par
consquent, nous nous contenterons parfois dnoncer des rsultats pour des surou des sous-martingales.
On voit que (Xn , Fn )nN est une martingale (resp. une sur-martingale, sousmartingale) si et seulement si E(Xn Xm | Fn ) = 0 (resp. 0, 0) pour tous
m n, ce qui quivaut ce que pour tout A Fn , A (Xn Xm ) dP = 0 (resp.
0, 0.)
Il sut de vrier la dnition VII.1.3 pour tous n et m = n 1. En eet,
daprs les proprits de conditionnements successifs des esprances conditionnelles, si m < n,
E(Xk Xk1 | Fm )
E(Xn Xm | Fm ) =
m+1kn
m+1kn
(resp. 0, 0).
Observons aussi que si (Xn , Fn )nN est une martingale (resp. sur-martingale,
resp. sous-martingale), la suite (E(Xn ))nN est constante (resp. dcroissante, resp.
croissante) car E(Xn ) = E(E(Xn | Fn1 )) = E(Xn1 ) (resp. E(Xn1 ), resp.
E(Xn1 )).
Parfois, nous ne considrerons que des martingales, des sur-martingales ou des
sous-martingales (Xn , Fn )0nk indexes sur un nombre ni dinstants. On peut
aussi dmarrer ces processus n = 1 au lieu de n = 0.
174
i
i
i
VII.1. Gnralits
Si Xn reprsente la fortune dun joueur linstant n, dire que (Xn ) est une
martingale signie que le jeu est quilibr, au sens o la connaissance des parties
passes ne donne pas, en moyenne, davantage pour la partie venir.
i
i
Definition VII.1.6. Sur (, F, P ) muni dune ltration (Fn )nN , une variable
alatoire T : N { } est appele un temps darrt si lon a
{ T n } Fn pour tout n N.
Il est immdiat que lon pourrait dnir un temps darrt T comme tant
une variable alatoire valeurs dans N telle que { T =
n } Fn (puisque
{ T = n } = { T n } { T n 1 }c et { T n 1 } = 1in1 { T = i }).
176
i
i
i
VII.1. Gnralits
Exemple VII.1.7. Soit (Xn , Fn )nN un processus adapt. Soit t un nombre rel et
T = min{ n N : Xn t } avec T = sil nexiste pas de tel n. Alors T est un
temps darrt puisque
{ T n } = { m n : Xm t } Fn
et { T } = F .
Dans la suite, lorsque nous parlerons de temps darrt, il sera toujours sousentendu par rapport une ltration (Fn )nN .
Notons prsent quelques proprits des temps darrt : si S et T sont deux
temps darrt, alors S T et S T sont aussi des temps darrt. En particulier,
une variable S constante tant un temps darrt, pour tout m N, T m est un
temps darrt. On a aussi la proposition suivante.
A {T n} = A {S n} {T n}
i
i
{ XT B } { T n } =
{ Xk B ; T = k }
0kn
qui est clairement mesurable par rapport Fn puisque Xk est Fk -mesurable pour
tout k.
Nous avons commenc par dnir les martingales, puis la notion de temps
darrt, et venons de montrer que si T est un temps darrt de la martingale, alors
XT est une variable alatoire. Remarquons que la dnition dune martingale (Xn )
suppose que chaque Xn est intgrable. Il est naturel dtudier lintgrabilit de XT .
En gneral, cette variable alatoire na aucune raison dtre intgrable. Une classe
naturelle de martingales considrer pour conserver la proprit dintgrabilit
par arrt est la classe des martingales dites L1 .
nN
Proposition VII.1.11. Soit (Xn , Fn )nN une martingale L1 et T un temps darrt ni p.s. (i.e. P { T < } = 1). Alors XT est intgrable et de plus
E(|XT |) supnN E(|Xn |).
Dmonstration. Soit la fonction
a, b R .
et donc
|XT m | |X0 | =
|Xi+1 | |Xi | ]i,[(T ) .
0im1
i
i
VII.1. Gnralits
0im1
0im1
E (Xi+1 , Xi )]i,[ (T )
E (Xi+1 , Xi )
E |Xi+1 | |Xi |
0im1
= E |Xm | E |X0 | .
Donc pour tout m N,
E |XT m | E |Xm | sup E |Xn | .
nN
nN
Pour une martingale (Xn , Fn )nN et une suite de temps darrt (Tn )nN , la
proposition VII.1.11 donne une condition susante pour vrier la condition
dintgrabilit E(|XTm |) < ; il sut que la martingale soit L1 . Pour les surou les sous-martingales, une condition susante (et plus restrictive) est davoir
Tm < tm < p.s. o tm est une suite dterministe. En eet, dans ce cas,
|Xn | dP
E |Xn | < .
E |XTm |
1ntm
{T =tn }
1ntm
i
i
1nk
A{S=n}
1nk
A{S=n}{T =n}
(Xn+1 Xn ) dP
0
puisque (Xn , Fn )1nk est une sous-martingale, A { S = n } Fn et
{ T = n } = { T = n }c Fn .
Pour en dduire le cas gnral, on pose Rl = min(T, S + l), 1 l k. Les Rl
sont des temps darrt de (Fn )1nk . Observons en outre que R0 = S et Rk = T .
De plus Rl+1 Rl et Rl+1 Rl { 0, 1 }. Maintenant, si A FS , alors A FRl
(proposition VII.1.8) et, daprs le premier cas,
(XT XS ) dP =
(XRl+1 XRl ) dP 0 .
A
1lk
i
i
VII.1. Gnralits
Theor`eme VII.1.13. Soit (Xn , Fn )1nk une sous-martingale ; pour tout t > 0,
P
max Xn t
1nk
E(Xk+ )
.
t
T = min{ 1 n k : Xn t }
ou T = k si cet ensemble est vide. On notera que si max1nk Xn t, alors
XT t, et si max1nk Xn < t, alors XT = Xk . Ainsi, par le thorme darrt VII.1.12, plus prcisment sa consquence ci-dessus,
XT dP +
XT dP
E(Xk ) E(XT ) =
{ max1nk Xn <t }
{max1nk Xn <t}
Par consquent,
tP max Xn t
1nk
puisque Z A
Z+
{max1nk Xn t}
Xk dP + tP
{max1nk Xn t}
max Xn t .
1nk
Xk dP E(Xk+ )
Si (Xn , Fn )nN est une martingale, alors (|Xn |, Fn )nN est une sousmartingale, et donc, pour tout k N et tout t > 0,
E |Xk |
.
P { max |Xn | t }
0nk
t
Observons que la suite ([t,[ (max0nk |Xn |))kN est croissante et majore par 1,
et converge presque srement vers [t,[ (supnN (|Xn |)). On dduit donc de lingalit prcdente et du thorme de convergence domine (II.2.8) que pour une
martingale L1 ,
1
P { sup |Xn | t } sup E |Xn | .
t nN
nN
En particulier, supnN |Xn | < p.s. Lorsque de plus Xn est de carr intgrable,
(Xn2 , Fn )nN est une sous-martingale (exemple VII.1.4.iii). Le thorme VII.1.12
fournit dans ce cas,
1
P max |Xn | t P max Xn2 t2 2 E(Xk2 ) .
1nk
1nk
t
Par exemple, si Xn = Z1 + + Zn o les Zi sont indpendantes centres et de
carr intgrable, on retrouve par ces mthodes lingalit de Kolmogorov (exercice IV.16).
181
i
i
i
x
)
nj
n nN ne converge pas, elle ne vrie pas
jN nj+1
le critre de Cauchy ; alors il existe > 0 et une suite
Theor`eme VII.2.1 (de convergence des martingales). Soit (Xn , Fn )nN une martingale L1 . Alors limn Xn existe p.s.
Dmonstration. En suivant le commentaire prcdent, montrons dabord que pour
#
x2
2p|x|
si |x| p,
p2
si |x| p.
182
i
i
i
x, y R .
Observons que p (x, y) = (y x)2 si |x| |y| p et que de plus p (x) 2p|x|
pour tout x R. Considrons la variable alatoire X = supnN |Xn | qui est bien
dnie daprs la discussion suivant lingalit maximale VII.1.13. Pour tout k,
(XTn+1 XTn )2 [0,p] (X )
E
0nk
=E
0nk
0nk
=E
p (XTn , XTn+1 )[0,p] (X )
p (XTn , XTn+1 )
(puisque p 0)
p (XTn+1 ) p (XTn ) (XTn+1 XTn )p (XTn )
0nk
E (XTn+1 XTn )p (XTn ) .
= E p (XTk+1 ) E p (XT0 )
0nk
Daprs le thorme darrt VII.1.12, (XTn , FTn )nN est une martingale. Ainsi,
E (XTn+1 XTn )p (XTn ) = E E XTn+1 XTn FTn p (XTn ) = 0 .
Il sensuit que
(XTn+1 XTn )2 [0,p] (X ) E p (XTk+1 ) E p (X0 )
E
0nk
2pE |XTk+1 |
2p sup E |Xn | < .
(1)
nN
Supposons alors que la martingale (Xn , Fn )nN ne converge pas presque srement.
Considrons lvnement
|Xm Xn | > .
A=
nN mn
La discussion suivant la dnition V.1.1 montre quil existe > 0 tel que
P (A) > 2. Par convergence monotone, P (A { X p }) > pour tout p assez
grand.
183
i
i
i
E
2
0nk
(2)
nN
Ainsi, le processus (Zn ) est croissant et born p.s., donc converge p.s. La martingale (Yn ) est quant elle dans L1 , donc converge p.s. daprs le thorme VII.2.1.
La convergence presque sre de la sous-martingale (Xn , Fn )nN sen dduit.
Lnonc suivant dcrit les martingales uniformment intgrables.
Theor`eme VII.2.3. Soit (Xn )nN une suite de variables alatoires adaptes la
ltration (Fn )nN ; pour que (Xn ) soit une martingale uniformment intgrable
(relativement (Fn )nN ), il faut et il sut quil existe une variable alatoire
intgrable Y telle que Xn = E(Y | Fn ) p.s. pour tout n.
184
i
i
i
{|Xn |>c}
et la conclusion sensuit.
On peut aussi dmontrer des thormes de convergence presque sre pour des
ensembles dindices ltrant gauche, et ceux-ci sont parfois bien utiles. Une telle
situation est par exemple le cas des entiers ngatifs, ou de faon quivalente, de
lensemble des entiers naturels avec un ordre renvers.
i
i
Theor`eme VII.2.5. Soit (Xn , Fn )nN une sur-martingale renverse telle que
supnN E(Xn ) < . Alors les variables alatoires Xn convergent p.s. vers une
variable alatoire intgrable X .
Notons en particulier quune martingale renverse est toujours p.s. convergente
(puisque la suite (E(Xn ))nN est constante).
Nous omettons la dmonstration du thorme VII.2.5. Elle est tout fait
semblable celle du thorme VII.2.1 ; il sut de noter que, puisque Xn est une
sous-martingale renverse, pour tout n,
E |Xn | = E(Xn ) + 2E(Xn ) sup E(Xk ) + 2E(X0 ) ,
kN
et donc supnN E(|Xn |) < . Cette hypothse sut alors pour appliquer le
schma usuel.
La tribu Fn est aussi engendre par Sn , Zn+1 , Zn+2 , . . . Comme les Zi sont indpendantes, la proposition VI.2.2.viii montre que
E(Zi | Sn , Zn+1 , Zn+2 , . . .) =
E(Zi | Sn ) .
Sn =
1in
1in
186
i
i
i
1in
do le rsultat.
En vertu du thorme VII.2.5, Xn converge p.s. Par la loi du 01 (IV.3.3), la
limite est non alatoire. Notons la a. Il ne reste plus qu montrer que a = E(X1 ).
Ceci sera en particulier le cas si la suite (Xn )n1 est uniformment intgrable
puisqualors Xn convergera dans L1 vers a, et donc E(Xn ) a. Cela fournira
le rsultat puisque E(Xn ) = E(X1 ) pour tout n. Daprs la remarque suivant le
thorme VII.2.5, une martingale renverse est toujours uniformment intgrable.
La dmonstration est identique la deuxime partie du thorme VII.2.3. Pour
tout c > 0 et tout n 1,
1
|Xn | dP
|Zi | dP =
|Z1 | dP .
n
{|Xn |>c}
{|Sn /n|>c}
{|Sn /n|>c}
1in
A |Z1 | dP
. Pour tout
1
1
E |Sn | E |Z1 | ,
P |Sn /n| > c
nc
c
de sorte que si c0 = E(|Z1 |)/, pour tout c c0 et tout n 1,
{|Xn |>c}
|Xn | dP
{|Sn /n|>c}
|Z1 | dP .
Theor`eme VII.3.1. Soit (Zi )i1 une suite de variables alatoires indpendantes et
de mme loi et soit Sn = Z1 + + Zn , n 1. Alors
lim
Sn
= E(Z1 ) p.s. si et seulement si E |Z1 | < .
n
En fait, nous navons fait que dmontrer une partie de la loi des grands
nombres, i.e. que E(|Z1 |) < implique la loi forte. La rciproque a t tablie dans le thorme V.5.2.
187
i
i
i
Exercices
Exercice VII.1. Soit (Xn )n1 une suite de variables alatoires indpendantes, de
mme loi de Bernoulli P { Xn = 0 } = P { Xn = 2 } = 1/2. Pour tout
$ n 1, on
dsigne par Fn la tribu engendre par X1 , . . . , Xn , et lon pose Zn = 1kn Xk .
Dmontrer que (Zn )n1 est une martingale par rapport la ltration (Fn )n1
qui nest pas uniformment intgrable.
Exercice VII.2. Soient c1 , . . . , ck des rels tels que 1ik ci = 0. Soit une
permutation alatoire de { 1, 2, . . . , k } uniformment rpartie sur le groupe des
permutations de k lments, cest--dire telle que pour toute permutation de
k lments, P { = } = 1/k!. Soit
Xn =
k
c(i)
kn
1in
k
1
c(n)
c(i) ,
kn
kn+1
nik
puis montrer que pour tout n i k, L((i) | (1), . . . , (n 1)) est la loi
uniforme sur { 1, 2, . . . , n } \ { (1), . . . , (n 1) }.
Exercice VII.3. (Urne de Polya) Une urne contient n boules noires et b boules
blanches. Une boule est tire au hasard, selon une probabilit uniforme sur les
boules dans lurne. Elle est remise dans lurne, et on ajoute aussi a boules de
la couleur tire. On itre cette procdure de tirage-ajout. Soit X0 = n/(n + b)
la proportion de boules noires initialement dans lurne, et soit Xk la proportion
de boules noires la k-ime tape du tirage-ajout. Montrer que Xk est une
martingale, pour la suite de tribus Fk = (X1 , . . . , Xk ). Montrer que cette
martingale converge, et donc que la proportion de boules noires converge vers
une proportion a priori alatoire Y .
Note : On peut montrer, mais cela demande un peu de calcul, que Y a pour loi
une loi de densit
n+b
n
b
a
n b (1 x) a 1 x a 1 ,
0<x<1
a a
(voir par exemple Feller (1971)).
188
i
i
i
Exercices
Exercice VII.4. (Lemme de Wald.) Soit (Xn )n1 une suite de variables alatoires
indpendantes, de mme loi, et soit, pour tout n 1, Sn = X1 + + Xn . Soit
en outre T un temps darrt intgrable relatif la ltration engendre par cette
suite. Dmontrer que E(ST ) = E(X1 )E(T ).
Exercice VII.5. Sur (, F, P ), soit (Xn )n1 une suite de variables alatoires
relles indpendantes, de mme loi. Pour tout n 1, soit Fn la tribu engendre
par X1 , . . . , Xn . On note les sommes partielles Sn = X1 + + Xn , n 1. On
convient que S0 = 0 et, pour tout x R, on dsigne par E x lesprance dnie
par E x () = E( + x). On parle alors de la marche alatoire Sn partant de x au
temps 0.
a) Soit N 1 un entier x et soit T un temps darrt valeurs dans { 1, . . . , N }
de la ltration (Fn )1nN . Dmontrer que, pour tout n 1, Sn+T ST est
indpendant de FT et de mme loi que Sn .
b) Dduire de la question prcdente que pour toute fonction borlienne borne
sur R, et tout n 1,
E (Sn+T ) FT = E ST (Sn )
p.s.
Exercice VII.6. Soit (Xn , Fn )1nk une martingale de carr intgrable. On dnit X = max1nk |Xn |. En utilisant lingalit maximale de Doob, dmontrer que
E (X )2 4E(Xk2 ) .
Exercice VII.7. Sur un espace probabilis (, F, P ), soit (Mn )1nk une martingale par rapport une ltration (Fn )1nk et soit (Hn )1nk une famille
de variables alatoires sur (, F, P ) telles que Hn soit mesurable par rapport
Fn1 , pour tout n = 1, . . . , k (avec la convention F0 = { , }).
Soit a > 0 ; on dnit T = min{ 1 n k 1 : |Hn+1 | > a } et T = k si
lensemble dont on prend le minimum est vide. Dmontrer que T est un temps
darrt de la ltration (Fn )1nk . On pose, pour tout n = 1, . . . , k,
Xn =
Hi (Mi Mi1 )
1iT n
(M1 = 0). Dmontrer que (Xn )1nk est une martingale de (Fn )1nk .
n N,
189
i
i
i
o a est un rel positif donn. On appelle Fn la plus petite tribu rendant mesurable la variable T n, n N. Vrier que la famille de tribus (Fn )nN est une
ltration. Dmontrer que Fn est engendre par une partition de n + 1 atomes
que lon prcisera.
a) Dmontrer que, pour tout n,
E {T n+1} | Fn = (1 + a)1 {T n} .
b) Dduire de la question prcdente que
E T (n + 1) | Fn = T n + (1 + a)1 {T n} .
c) Pour quelle valeur du paramtre rel le processus
Xn = (T n) + {T n} ,
n N,
n 1,
di .
Sn E Sn =
1in
Dmontrer que pour tous i < j, E(dj | Ai ) = 0, et que, de plus, les variables di ,
i = 1, . . . , n, sont orthogonales.
b) Dmontrer que pour tout i = 1, . . . , n,
E Sn Xi Ai = E Sn Xi Ai1 .
190
i
i
i
Exercices
Indication : On pourra utiliser le fait que si X est une variable alatoire intgrable sur (, A, P ), et T1 , T2 sont deux sous-tribus de A telles que T2 est
indpendante de la tribu engendre par T1 et X, alors E(X | T1 ) = E(X | T )
o T est la tribu engendre par T1 et T2 . En dduire que
di = E Sn Sn Xi Ai E Sn Sn Xi Ai1 .
c) Par lingalit du triangle et la question prcdente, tablir que
i = 1, . . . , n .
E(d2i | Ai1 ) E Xi 2 ) ,
En conclure, laide de la premire question, que
E Xi 2 .
Var Sn
1in
Exercice VII.10. Soit Ank , k = 1, . . . , 2n1 , n 1, la famille des intervalles dyadiques de lintervalle [ 0, 1 ] muni de la mesure de Lebesgue . Si P est une
mesure de probabilit sur [ 0, 1 ] absolument continue par rapport , poser
Xn =
1k2n1
P (Ank )
Ank ,
(Ank )
n 1.
Dmontrer que, sur ([ 0, 1 ], ), (Xn )n1 est une martingale par rapport la
suite de tribus Fn = (Ank , 1 k 2n1 ), n 1. Dmontrer par labsurde
quelle est uniformment intgrable et en conclure lexistence de la densit de
Radon-Nikodym de P par rapport .
191
i
i
i
i
i
VIII
CHANES DE MARKOV
( ESPACE DTATS DNOMBRABLE)
Definition VIII.1.1. On dit quune suite de variables alatoires (Xn )nN , valeurs dans (E, P(E)) et dnies sur un espace probabilis (, A, P ), est une
chane
tout (n + 1)-uplet (i0 , . . . , in ) de points de E tel que
de Markov si, pour
P 0jn1 { Xj = ij } > 0,
P
Xn = in
{Xj = ij }
= P Xn = in Xn1 = in1 .
(1)
0jn1
i
i
Lgalit (1) sappelle proprit de Markov. Nous verrons (proposition VIII.1.3) quelle traduit le fait que le futur du processus ne dpend du pass
qu travers le prsent.
Les exemples suivants montrent quil existe des chanes de Markov.
Exemples VIII.1.2. (i) Marche alatoire sur Zd . Soit (Yn )nN une suite de variables
alatoires indpendantes sur (Zd , P(Zd)).
Soit Xn = Y0 + + Yn , n N. Pour
tous i0 , . . . , in Zd tels que lon ait P 0jn1 { Xj = ij } > 0,
P
Xn = in
{ Xj = ij }
0jn1
P 0jn { Xj = ij }
=
P 0jn1 { Xj = ij }
P { Yn = in in1 } 0jn1 { Xj = ij }
=
P 0jn1 { Xj = ij }
= P { Yn = in in1 }
0kn
194
i
i
i
1
2N
.
Yk <
inf P
nN
n
n
1kn
{ Xj = ij }
0jn2
= P Yn = j i {Xn1 = i }
{ Xj = ij }
0jn2
= P { Yn = j i }
= P { Xn = j | Xn1 = i } ,
et si |i| = N ,
P Xn = j { Xn1 = i }
{ Xj = ij }
0jn2
= ij = P { Xn = j | Xn1 = i } .
(iii)
Marche alatoire sur Z/mZ. Dans
cet exemple, Z/mZ est identi lensemble
2ik/m
: k { 0, 1, . . . , m 1 } .
e
Soit (Yn )nN une suite de variables alatoires indpendantes et de mme loi
valeurs dans { 0, 1, . . . , p 1 }. On dnit X0 = Y0 , et pour tout n 1,
Xn = Y0 exp
2i
p
Yk .
1kn
195
i
i
i
n N.
Do pour tout i0 , . . . , in e2ik/m : k { 0, 1, . . . , m 1 } ,
P Xn = in Xn1 = in1 , . . . , X0 = i0
= P in1 exp 2iYn+1 /m = in Xn1 = in1 , . . . , X0 = i0
in
= P exp 2iYn+1 /m =
in1
= P { Xn = in | Xn1 = in1 } .
La proposition suivante rexprime la proprit de Markov en montrant quelle
quivaut dune part lindpendance du prsent au pass non immdiatement
antrieur, dautre part lindpendance du prsent et futur au pass non immdiatement antrieur, et enn lindpendance du futur et du pass du processus,
conditionnellement son prsent.
Proposition VIII.1.3. Une suite de variables alatoires (Xn )nN dnies sur
(, A, P ), valeurs dans (E, P(E)), est une chane de Markov si et seulement
si lune des trois proprits quivalentes suivantes est vrie :
(i) Pour tout 1 k n et tous ik , . . . , in E tels que
P { Xn1 = in1 , . . . , Xk = ik } > 0 ,
lgalit suivante lieu :
P Xn = in
{Xj = ij }
= P { Xn = in | Xn1 = in1 } .
kjn1
0jm
Xn+j = in+j
{Xj = ij }
kjn1
=P
{Xn+j = in+j } Xn1 = in1 .
0jm
196
i
i
i
=P
0jn1
{Xj = ij } {Xn = in } P
1jm
{Xj = ij } Xn = in .
0jn1
P
0jn { Xj = ij }
.
=
P
0jn1 { Xj = ij }
(2)
Par
rcurrence, on montre que si A0 , . . . , An sont des vnements tels que
P
0jn1 Aj > 0, alors
Aj =
P Aj
Aj P (A0 ).
(3)
P
0jn
1ln
0jl1
Xj = ij
kjn1
i
i
quil existe i0 , . . . , ik1 tels que P { Xn1 = in1 , . . . , X0 = i0 } > 0. Pour un tel
(i0 , . . . , in1 ),
{Xj = ij } Xn1 = in1
njn+m
{X
=
i
}
j
j
n1jn+m
P { Xn1 = in1 }
P Xl = il
nln+m
{Xj = ij } .
n1jl1
nln+m
cest--dire
{Xj = ij } ,
kjl1
{Xl = il }
nln+m
{Xj = ij } .
kjn1
{Xj = ij }
n+1jn+m
=
P
{Xj = ij } Xn = in
0jn1
{X
=
i
}
j
j
0jn+m
P { Xn = in }
n+1jn+m {Xj = ij }
0jn {Xj = ij } P
0jn {Xj = ij }
P {Xn = in }
{
X
=
i
}
X
=
i
{
X
=
i
}
P
j
j
n
n
j
j
n+1jn+m
0jn
=P
P { Xn = in }
{Xj = ij } Xn = in P
n+1jn+m
{ Xj = ij } Xn = in .
0jn1
198
i
i
i
0jn
{
X
=
i
}
j
j
0jn+1
=
P
0jn { Xj = ij }
P { Xn+1 = in+1 } 0jn1 { Xj = ij } Xn = in P { Xn = in }
=
P
{
X
=
i
}
X
=
i
j
j
n
n P { Xn = in }
0jn1
P
= P { Xn+1 = in+1 | Xn = in } .
Definition VIII.1.4. On dit quune chane de Markov (Xn )nN est homogne si,
pour tout couple (i, j) de points de E, P { Xn+1 = j | Xn = i } est indpendant
de n, n dcrivant lensemble des entiers pour lesquels P { Xn = i } > 0.
Observons que pour un tat i donn, si lensemble des entiers n pour lesquels
P { Xn = i } = 0 est vide, la chane est valeurs dans E \ { i } avec probabilit 1.
On peut donc, en remplaant au besoin E par E \ { i }, supposer que ce cas ne se
produit pas. On note alors Pij la valeur commune des P { Xn+1 = j | Xn = i } et
P = (Pij )i,jE. La matrice P est appele matrice de transition de la chane (nous
utilisons encore le terme de matrice lorsque E est inni).
Definition VIII.1.5. Une matrice M = (Mi,j )i,jE (ventuellement de taille innie) est une matrice stochastique si elle vrie
(i) Mij 0 pour tous i, j E,
Exemples VIII.1.6. (i) La marche alatoire sur Z/mZ est homogne, et sa matrice
de transition est
q0 q1 . . . qp1
..
qp1 q0
.
.
P=
..
..
.
.
q0
q1 . . .
199
i
i
i
di
d
Pd,i+1,i =
i+1
,
d
i { 1, . . . , d 1 } .
Proposition VIII.1.7. Le produit de deux matrices stochastiques est encore une matrice stochastique.
Dmonstration. Soient P et Q deux matrices stochastiques. Leur produit est bien
dni. En eet, la srie (PQ)ij = lE Pil Qlj converge puisque la srie lE Pil
converge et que les (Qlj )l,jE sont borns par 1. Clairement, PQ est une matrice
coecients positifs, et de plus,
(P Q)ij =
Pil Qlj =
Pil Qlj =
Pil
Qlj =
Pil = 1 .
jE
jE lE
lE jE
lE
jE
lE
Remarquons alors que la suite (Xn )nN est une chane de Markov homogne
de matrice de transition P si et seulement si, pour tous i0 , . . . , in E,
{ Xk = ik } = Pin1 in P
{ Xk = ik } .
P
0kn
0kn1
Proposition VIII.2.1. Soit (Xn )nN une chane de Markov homogne, dnie sur
(, A, P ), valeurs dans (E, P(E)), de matrice de transition P et de loi initiale
0 . Alors, pour tout n 1 et tous i0 , . . . , in E,
P { X0 = i0 , . . . , Xn = in } = 0 { i0 } Pi0 i1 Pin1 in .
Dmonstration. Elle se fait par rcurrence sur n. La proprit est vraie pour n = 0
200
i
i
i
0jn1
0jn1
= P Xn = in | Xn1 = in1 0 { i0 } Pi0 i1 Pin2 in1
= 0 { i0 } Pi0 i1 Pin1 in ,
Corollaire VIII.2.2. Soit (Xn )nN une chane de Markov dnie sur (, A, P ),
valeurs dans (E, P(E)). Pour tous entiers n, m et tous tats i, j E,
n
0 { k } Pkj
;
(i) P { Xn = j } =
kE
B1 , . . . , Bn P(E) , n N .
201
i
i
Theor`eme VIII.3.1. Soit X = (Xn )nN une chane de Markov homogne, dnie
sur (, A, P ), valeurs dans (E, P(E)). Alors, pour tous les tats i0 , . . . , ik E,
{ Xj = ij } = L X X0 = ik .
L k (X)
0jk
{ Xj = ij }
P { k (X) C }
0jk
= P Xk B0 , . . . , Xk+n Bn X0 = i0 , . . . , Xk = ik
P Xk = j0 , . . . , Xk+n = jn Xk = ik
=
= P { k (X) C | Xk = ik }
{ik } (j0 )Pj0 ,j1 Pj1 ,j2 . . . Pjn1 ,jn
=
(j0 ,...,jn )B0 Bn
{ik } (j0 )P X1 = j1 , . . . , Xn = jn X0 = j0 .
Donc les lois considres concident sur les cylindres. En observant quune union de
cylindres se dcompose en une union disjointe de cylindres (puisque lintersection
de deux cylindres est un cylindre), on voit que les lois considres concident sur
202
i
i
i
lalgbre de Boole engendre par les cylindres. Donc elles sont gales daprs la
proposition I.4.7.
Le contenu du thorme prcdent est essentiellement que la loi de la trajectoire dun processus de Markov homogne aprs le temps n est donne par la loi
de la chane au temps n, pour peu bien sr que la matrice de transition soit xe.
Il est remarquable, et cela sera utile pour la suite, que ce rsultat reste vrai si
lon considre un temps non plus xe mais alatoire, pour peu que celui-ci soit un
temps darrt. Cest ce quexprime le thorme suivant.
Theor`eme VIII.3.2 (Propriete de Markov forte). Soit X = (Xn )nN une chane
de Markov dnie sur (, A, P ), valeurs dans (E, P(E)). Soit T un
temps darrt pour la ltration Fn = (X0 , . . . , Xn ) nN . Sur lvnement
{ XT = i } { T < },
L T (X) | FT = L X | X0 = i .
C = B0 Bn E E
Sur { XT = i } { T < }, il vient
T
P (X) C Xn = i {n} (T )
P T (X) C XT =
nN
P n (X) C Xn = i {n} (T ).
nN
= P { X C | X0 = i } .
On remarquera que largument nal dans la dmonstration du thorme VIII.3.1 permet dtendre la proposition VIII.2.1. On voit en eet que la loi
dune chane de Markov homogne (en tant qulment de EN ) est entirement
dtermine par la donne de la mesure initiale et de la matrice de transition.
203
i
i
i
Definition VIII.4.2. On dit que , probabilit sur E, est une mesure asymptotique de la chane (Xn )nN sil existe une probabilit 0 sur E telle que si 0
est la loi de X0 , alors (Xn )nN converge en loi vers .
Une mesure asymptotique est donc une probabilit.
Le but de ce chapitre est de dterminer les mesures asymptotiques dune chane
de Markov et leur dpendance par rapport la loi initiale. La notion dterminante
dans cette recherche est celle de mesure invariante.
Definition VIII.4.3. On dit que , mesure positive sur E, est une mesure invariante de la chane si t P = .
On prendra garde au fait que nest pas ncessairement une probabilit,
puisque lon permet (E) = 1. Observons que si est une
mesure invariante de
la chane et que si X0 est de loi , alors P { X1 = j } = iE Pi,j i = j pour
tout j E. Donc X1 est aussi de loi , et par rcurrence, Xn est de loi pour
tout n N. Ceci justie la terminologie.
204
i
i
i
Proposition VIII.4.4. Soit une probabilit sur E. Les assertions suivantes sont
quivalentes.
(i) est une mesure asymptotique de la chane ;
(ii) est une mesure invariante de la chane ;
(iii) L(X0 ) = L(Xn ) = pour tout n N.
Dmonstration. Il est clair que (iii) et (ii) sont quivalentes et que (ii) implique (i).
Montrons que (i) implique (ii). Supposons asymptotique ; il existe donc une
probabilit 0 telle que
lim P0 { Xn = j } = j
pour tout j E ,
pour tout j E .
0,i Pijn = j
iE
Pji j =
Pji lim
jE
lim inf
n
= lim inf
n
n
0,k Pkj
kE
n
Pji 0,k Pkj
jE kE
n+1
Pki
0,k
kE
= i .
i
i
On en dduit que
i+1 i =
1 p i
p
(1 0 )
i1
1 p k
k=0
et
i 0 =
(1 0 )
i
p k
(1 0 ) .
1p
k=1
p i1
p
1
(1 0 )
2p 1
1p
p
0 1 1
p 0 si p < 1/2
1 p
0
1
0
p
si p > 1/2.
si
i [ N + 2, N 2 ] Z ,
N 1 = 12 N 2
et
N +1 = 12 N +2 ,
N = 12 N 1 + N
et
N = 12 N +1 + N ,
1
2 i+1
i
i
Theor`eme VIII.4.6. Toute chane de Markov homogne valeurs dans un ensemble ni admet au moins une mesure invariante.
Dmonstration. Nous donnons deux mthodes de dmonstration, lune topologique, lautre algbrique.
Mthode topologique. On note M1 (E) lensemble des probabilits sur E, i.e.
i = 1 .
M1 (E) = = (i )iE : i E , i 0 , et
iE
Puisque E est ni, M1 (E) est un compact de RcardE . Soit 0 M1 (E) ; pour tout
n 1, on dnit
0 + t P0 + . . . + t Pn 0
.
n =
n+1
La suite (n )nN dlments du compact M1 (E) admet une sous-suite convergente
(nk )kN . Soit la limite de cette sous-suite ; cest une mesure invariante puisque
t
t Pnk +1
0 0
= 0.
nk + 1
i
i
Lemme VIII.4.7 (de Perron-Froebenius). Soit P une matrice stochastique de dimension n et v un vecteur propre complexe de la matrice t P associ la valeur
propre de module 1 ; on note w le vecteur de composantes (|v1 |, . . . , |vN |). Alors,
w est un vecteur propre de la matrice t P associ la valeur propre 1.
Dmonstration. Pour tout i E, soit i = (t Pw w)i . On a
i =
Pji wj wi =
jE
Pji |vj | |vi |
Pij vj |vi | = 0
jE
jE
jE
Exemple VIII.4.9. Soit (Xn )nN une chane de Markov homogne valeurs dans
lensemble E = { 1, . . . , 5 } de matrice de transition
1/2 0 1/2 0 0
1/2 0 1/2 0 0 .
0 0 0 1/2 1/2
0 0 0 1/2 1/2
La matrice de transition tant une matrice diagonale par blocs, lquation t P =
est donc quivalente un couple de systmes autonomes, le premier ne faisant
intervenir que les variables 1 , 2 , 3 , le second 4 , 5 . Il ny a donc pas unicit de la mesure invariante. Plus prcisment, est une mesure invariante si et
seulement si
2 = 0 ,
4 = 5 .
1 = 3 ,
Les mesures invariantes de la chane sont donc les combinaisons linaires
coecients positifs des mesures uniformes sur les ensembles { 1, 3 } et { 4, 5 }.
Le point 2 nest pas charg par les mesures invariantes, ce qui provient du fait
quil nest pas accessible par la chane si X0 { 1, 3, 4, 5 }. Intuitivement, mme
si la chane dmarre dans ltat 2, elle nira par en partir et ny reviendra plus.
208
i
i
i
i
i
b) Considrons le cas o les variables (Yn )nN prennent leurs valeurs dans
lensemble { 2, 2 }. Si P { Y0 = 2 } et P { Y0 = 2 } sont non nuls, la chane est
irrductible si et seulement si m est impair ; elle admet deux classes si m est pair.
(iii) Les marches alatoires sur Z de paramtres dirents de 0 et 1 sont irrductibles puisque chaque lment de E communique avec ses deux voisins.
(iv) La marche alatoire symtrique avec barrires absorbantes admet 3 classes :
{ N }, { N } et lensemble des entiers relatifs compris entre N + 1 et N 1.
(v) La chane dEhrenfest est irrductible puisque chaque lment de E communique avec ses deux voisins.
j{j1 ,...,jk }
est (X1 , . . . , Xm )-mesurable. Nous allons classier les points de E suivant que
ces temps sont nis ou non.
i
i
Lemme VIII.5.3. Soit (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs dans (E, P(E)). Si i est un point rcurrent, les (in )n1 sont des temps darrt
Pi -p.s. nis.
Dmonstration. La dmonstration se fait par rcurrence en utilisant la proprit
de Markov forte VIII.3.2. Par hypothse, i est presque srement ni. Supposons
que in soit presque srement ni. Alors,
n
Pi { in+1 = } = Ei Pi { i i = | Fin } = Ei Pi { i = } = 0 .
Avant dtudier la chane issue dun de ses points rcurrents, nous donnons
quelques caractrisations de cette notion de rcurrence fondes sur le nombre de
visites de ltat i.
Theor`eme VIII.5.4. Soit (Xn )nN une chane de Markov dnie sur (, A, P ),
valeurs dans (E, P(E)). Un point i de E est rcurrent si et seulement si
Pi { Ni = } = 1 .
Dmonstration. Cest une consquence du lemme suivant.
in1
puisque X n1 = i sur
i
{ in1
n
Pi { Ni n + 1 } = Pi { Ni n }Pi { i < } = Pi { i < } ,
211
i
i
Pi { Ni = } > 0 .
n
Corollaire VIII.5.8. Ltat i est rcurrent si et seulement si la srie
n0 Pii
diverge.
Dmonstration. Il sut de remarquer que Ni =
n0
4m
P00
e
e
2m
22m m
p (1 p)m
=
m
m
4p(1 p)
.
=
m
Il sensuit que 0 est un tat rcurrent si p = 12 , transient sinon.
Nous allons en dduire quil en est de mme de tous les tats de la chane en
montrant que la rcurrence est une proprit de classe. Pour cela, nous utilisons la
proprit dite de renouvellement dune chane de Markov nonce ci-dessous. Elle
exprime que sur un point rcurrent, une chane de Markov homogne se renouvelle,
gale elle-mme en loi, indpendante de son pass.
Proposition VIII.5.10. Soit (Xn )nN une chane de Markov homogne et i un point
rcurrent de cette chane ; alors, pour tout entier n non nul, la loi de la chane
n
n
X i est la mme que la loi de la chane X sous Pi . De plus, la chane X i
est indpendante de la tribu Fin .
212
i
i
i
forte VIII.3.2 applique aux temps darrt presque srement nis (in )nN .
i
en i, Nji = card{ n > 0 : Xn = j, n i }. Sous Pi , Nj = n0 Nji n . Or, il
i
rsulte de la proprit de Markov forte que les variables alatoires Nji n sont
indpendantes et de mme loi sous Pi . De plus,
Definition VIII.5.13. Une chane de Markov est irrductible sil nexiste quune
seule classe de points rcurrents.
Nous pouvons maintenant tudier les mesures invariantes pour la chane.
Theor`eme VIII.5.14. Une mesure asymptotique ne charge pas les points transients, cest--dire si est une mesure asymptotique et i un point transient, alors
({ i }) = 0.
213
i
i
i
Pj { i = m }Pi { Xnm = i } .
1mn
i
i
#
Pi { i < j }
si n=0,
si n>0.
{ Nji = 0 } = { i < j } .
Soit prsent m un entier non nul. Observons lappartenance de lvnement
{ j i } = \ { i < j } Fj . En conditionnant par la tribu Fj et en
appliquant la proprit de Markov forte VIII.3.2, il vient
Pi { Nji = m } = Pi { Nji j = m 1, j i } = Pi { j i }Pj { Nji = m 1 } .
Calculons Pj { Nji = k } par rcurrence sur k en utilisant le mme conditionnement.
Pour tout k 1
Pj { Nji = k } = Pj { Nji = k, j i } = Pj { j i }Pj { Nji = k 1 } .
On en dduit que pour tout entier k,
Pj { Nji = k } = Pj { i < j }Pj { j i }k .
Montrons maintenant que si lon part dun tat j, on ne peut pas tre sr
datteindre ltat i = j avant de revenir ltat j.
Pj { jn i } = 1. En eet,
Pj { jn i } = Pj { jn1 i , j n1 i n1 }
j
Pj { jn1
Pj { jn1
i }Pj { j i }
i } .
=
Les vnements { jn i } n1 forment une suite dcroissante dvnements de
Pj -probabilit 1 ; leur intersection est donc de probabilit 1, cest--dire Pj -presque
srement, i jn pour tout entier n 1. Or, la suite des temps darrt (jn )n1 est
strictement croissante, donc elle tend vers . On en dduit que Pj { i = } = 1,
ce qui contredit le lemme VIII.5.12.
215
i
i
i
(t P i )l =
Pjl
jE
De plus,
Ei (Nji ) =
Ei (Nji ) .
n1
Pi { i n, Xn = j }
n1
puisque
Nji =
{ j } (Xn ) =
1ni
n1
[n,]{ j } (i , Xn ) .
n1
Donc
Pjl Pi { i n, Xn = j } = P Xn+1 = l Xn = j Pi { i n, Xn = j }
= Pi { i n, Xn = j, Xn+1 = l } .
Do
( P )l =
t
n1
Pi { i n, Xn+1 = l } = Ei
= Ei
{l} (Xn+1 )
1ni
{l} (Xn+1 ) .
0ni 1
Cest le rsultat.
i
i
Pi { i n, Xn = j } =
P { i n, X0n = j, Xnn = i }
.
i
Nous allons tudier la loi jointe des variables alatoires (Xkn )0kn . Plus prcisment, nous allons montrer quelles possdent la proprit de Markov relativement
la famille de tribus (Gkn )0kn , o Gkn est la tribu engendre par les variables
alatoires Xn , Xn1 , . . . , Xnk .
P { Xnk1 = j }
= P Xnk = i Xnk1 = j
P { Xnk = i }
j
= Pji .
i
Il sut prsent de montrer que si i0 , . . . , ik sont des lments de E,
P { Xnk1 = j, Xn = i0 , . . . , Xnk = ik }
j
P { Xn = i0 , . . . , Xnk = ik } .
= Pjik
ik
217
i
i
i
j
,
i
i, j E .
lE
lE
Dautre
i
i
Pi { i n, Xn = j } =
j
= Pj,Q { i < } .
i
Ltat i est rcurrent pour la chane de matrice de transition Q. Le lemme VIII.5.12
montre que Pj,Q { i < } = 1, et ceci conclut la dmonstration du thorme VIII.5.19.
Ei (Nji )
Pi (j i )
1
=
=
Ei (i )
Ei (i )
Ej (j )
pour tout j E .
i
i
Un point rcurrent de E qui nest pas rcurrent positif est dit rcurrent
nul. La classe dun lment rcurrent nul est dite rcurrente nulle.
Proposition VIII.6.3. Le fait dtre de priode d est une proprit de classe. Une
classe de priode 1 est dite apriodique.
Dmonstration. Soit i E un point de priode d et j E tel que i j. Montrons
i
i
p
=
n
=
d
.
Notons
q
=
n
et
q
i
i|i >0 i i
i|i <0 i ni . Alors q et q sont
i=1 i i
lments de Di et q q = di . Soit n un entier non nul multiple de di : alors
n = aq + rdi avec rdi < q . Do n = (a r)q + rq Di si a q . On pose
ni = q (q + di ) ; alors Di contient tous les entiers multiples de di et suprieurs
ni .
Dij = { n 1 , Pijn > 0 }. Soit nij le plus petit lment de Dij et rij le reste de sa
division euclidienne par d. Dmontrons que pour tout n Dij , n = rij mod d.
La chane tant irrductible, il existe un entier m > 0 tel que Pjim > 0. Donc,
m+nij
si Pii
et
m + n 0 mod d,
i
i
m + dn r mod d
m = r mod d ,
ce qui est absurde puisque j Cr .
Enn, soient j Cr et k E tels que Pjk > 0. Soit n Dij ; alors,
n+1
Pijn Pjk > 0. Do n + 1 Dik et n + 1 = r + 1 mod d, do lon dPik
duit que k est un lment de Cr+1 .
Ces deux lemmes vont nous permettre de donner une caractrisation algbrique des chanes de Markov apriodiques valeurs dans un espace ni.
Theor`eme VIII.6.6. Soit (Xn )nN une chane de Markov sur (, A, P ), valeurs
dans un ensemble ni E et irrductible. Les proprits suivantes sont quivalentes :
(i) la chane est apriodique ;
(ii) pour tout n assez grand, pour tous i, j E, Pijn > 0 ;
(iii) 1 est la seule valeur propre de module 1 de la matrice t P.
Dmonstration. Montrons tout dabord que (i) implique (ii). Soit, pour tout lment i de E, ni lentier construit dans le lemme VIII.6.4 et N = maxiE ni . ReN
marquons dautre part que, pour tous i, j E, il existe Nij > 0 tel que Pij ij > 0.
N
nN
jE
222
i
i
i
pour tout i E. Si n N , les (Pijn )jE sont non nuls ; il existe donc R tel
que, pour tout j E, vj = ei |vj |. On a donc, dune part t Pn v = ein v, dautre
part
ein v = ein(+) |v| = ein(+) (t Pn )|v| = ein (t Pn )v .
On en dduit que ein = 1. Ceci tant vrai pour une innit dentiers n, il sensuit
que = 0.
Il reste prouver que (iii) implique (i). Nous allons le faire par labsurde.
Supposons que la priode d est strictement suprieure 1. Nous allons utiliser la
proposition VIII.6.5 pour construire un vecteur propre de la matrice t P associ
la valeur propre e2i/d . En eet, soit lunique mesure invariante de la chane de
matrice de transition Pd restreinte C0 (on identie une probabilit sur E).
Alors pour tout 0 r d 1, t Pr est porte par Cr . Donc
r
e2i d (t Pr )
=
0rd1
Nous concluons ce chapitre par le thorme ergodique, lequel dcrit la convergence des chanes de Markov vers une mesure limite. Il nonce que les moyennes
en temps (i.e. sur lindice n) convergent vers les moyennes en espace (i.e. par
rapport la mesure invariante ).
Definition VIII.6.7. On dit quune chane de Markov (Xn )nN est ergodique
sil existe une probabilit telle que, pour toute condition initiale X0 , la suite
(Xn )nN converge en loi vers .
Theor`eme VIII.6.8. Une chane de Markov est ergodique si elle est irrductible,
rcurrente positive et apriodique.
Dmonstration. On pourra se reporter Revuz (1975).
i
i
Theor`eme VIII.6.9 (loi forte des grands nombres). Soit (Xn )nN une chane de
Markov irrductible et rcurrente positive. Soit lunique mesure invariante de la
chane. Alors, pour toute fonction f L1 () et toute loi initiale 0 ,
1
f (Xk ) =
lim
n n
n
k=0
f d p.s.
E
1kn
f (Xk )
N (n)
0ki i
Ni (n)+1
n < i
f (Xk )
0kn
. Do
f (Xk ).
N (n)+1
0ki 1
Introduisons
1ki
f (Xk )
0kNi (n)1
Zk
f (Xk )
0kn
Zk .
0kNi (n)
i
i
Exercices
Enn, on a
Ei (Z0 ) =
f (j)Ei
jE
0ki
j
.
{j} (Xk ) =
f (j)Ei (Nji ) =
f (j)
Ei (i )
jE
jE
0kNi (n)
presque srement. Do
1
f (Xk ) =
f d (Ei (i ))1 p.s.
lim
n Ni (n)
E
0kn
Prenant f 1, on obtient
Ni (n)
= Ei (i )
n
n
ce qui conduit au rsultat annonc.
lim
Exercices
Exercice VIII.1. quelles conditions deux matrices
P = (Pij )1in,1jm
et
Q = (Qij )1im,1jn
sont-elles les lois conditionnelles L(X | Y ) et L(Y | X) de deux variables alatoires X et Y prenant respectivement n et m valeurs ? Montrer que si lon connat
L(X | Y ) = P et L(Y | X) = Q, alors on connat la loi du couple (X, Y ).
Exercice VIII.2. Montrer que (X0 , . . . , Xn ) est une chane de Markov valeurs dans un ensemble ni E si et seulement si il existe des fonctions
gi : E E [ 0, [, 0 i n 1, telles que, pour tous x0 , . . . , xn E,
P { X0 = x0 , . . . , Xn = xn } = g0 (x0 , x1 )g1 (x1 , x2 ) gn1 (xn1 , xn ) .
i
i
Exercice VIII.4. Soit (Xn )n0 une chaine de Markov de matrice de transition
Pij avec Pij > 0 pour tout couple (i, j). On suppose que X0 = i p.s. et lon
choisit j = i. Soit
T = inf{ n 1 : Xn = j } .
Dmontrer quil existe ] 0, 1[ tel que P { T > n } n pour tout n 1.
Exercice VIII.5. Soit (Xi )iN une suite de variables alatoires relles et de mme
loi de fonction de rpartition continue F . Considrons les temps de record Tn ,
n 1, et les records XTn , dnis par T0 = 0 et
Tn+1 = min{ i > Tn : Xi XTn } .
Dmontrer que (Tn )nN et (XTn )nN sont deux chanes de Markov non homognes.
Exercice VIII.6. Soit (V, E) un graphe connexe non orient densemble de sommets ni V et densemble dartes E V
V . On associe chaque arte (i, j) un
poids wi,j = wj,i > 0 et lon pose wi = j wi,j . Dterminer la mesure invariante
de la chane de Markov sur V de matrice de transition Pi,j = wi,j /wi .
226
i
i
i
BIBLIOGRAPHIE
i
i
i
i
APPENDICE
LOIS DE PROBABILITS USUELLES
1. Loi de Bernoulli
Definition. Une variable alatoire X, valeurs dans { 0, 1 }, suit une loi de
Bernoulli de paramtre p [ 0, 1 ], note B(1, p), si
P{X = 1} = p = 1 P{X = 0}.
Esprance : p
Variance : p(1 p)
Fonction caractristique : 1 p + peit
2. Loi binomiale
Soit Ckn le coecient binomial
n!
.
k!(n k)!
Definition. Une variable alatoire X, valeurs entires, suit une loi binomiale
de taille n 1 et de paramtre p [ 0, 1 ], note B(n, p), si
P { X = k } = Ckn pk (1 p)nk ,
k = 0, 1, . . . , n .
Esprance : np
Variance : np(1 p)
Fonction caractristique : (1 p + peit )n
i
i
Probabilit
Proposition. (i) Si Xn suit une loi B(n, pn ) avec limn npn = , > 0, alors Xn
converge en loi quand n vers une variable de loi de Poisson de paramtre .
(ii) Si Xn suit une loi B(n, p), alors (Xn np)/ np(1 p) converge en loi quand
n vers une variable de loi normale centre rduite N (0, 1).
3. Loi de Poisson
Definition. Une variable alatoire X, valeurs entires, suit une loi de Poisson
P() de paramtre > 0, si
P { X = k } = e
k
,
k!
k N.
Esprance :
Variance :
Fonction caractristique : exp (eit 1)
Stabilit par convolution : P() P() = P( + ). Autrement dit, si X et Y
sont indpendantes et suivent respectivement des lois P() et P(), alors X + Y
est de loi P( + ).
4. Loi multinomiale
Definition. Un vecteur alatoire X = (X1 , . . . , Xd ), valeurs dans Nd , suit une
loi multinomiale de paramtres n N, p1 , . . . , pd [ 0, 1 ], p1 + + pd = 1,
note M(n, p1 , . . . , pd ), si
P X = (n1 , . . . , nd ) =
n!
pn1 . . . pnd d ,
n1 ! . . . nd ! 1
n1 + + nd = n ,
n1 , . . . , nd N .
230
i
i
i
itj n
Fonction caractristique :
1jd pj e
Si lon dispose de n boules que lon jette une par une alatoirement dans d
botes direntes, chaque boule ayant la probabilit pi dtre jete dans la i-me
bote, les nombres (N1 , . . . , Nd ) de boules dans les botes 1, . . . , d, suivent une loi
multinomiale M(n, p1 , . . . , pd ).
5. Loi hypergomtrique
Definition. Une variable alatoire X, valeurs entires, suit une loi hypergomtrique de paramtres (N, n, p) avec N p N et p [ 0, 1 ] si
P{X = k } =
CkN p Cnk
N (1p)
CnN
max 0, n N (1 p) k min(n, N p) .
Esprance : np
n
Variance : N
N 1 np(1 p)
Si on tire n boules sans remise dans une urne en contenant N , une proportion
p tant noires, 1 p tant blanches, le nombre de boules noires tires suit une loi
hypergomtrique de paramtres (N, n, p).
p
1 (1 p)eit
k N.
n
231
i
i
i
Probabilit
Si (Xi )i1 est une suite de variables alatoires indpendantes et de mme loi
de Bernoulli B(1, p), reprsentant un succs si Xi = 1, un chec si Xi = 0, le
nombre total dchecs avant le n-ime succs suit une loi binomiale ngative de
paramtres (n, p).
Lorsque n = 1, on parle aussi de loi gomtrique.
ita
8. Loi de Parto
Definition. Une variable alatoire X, valeurs positives, suit une loi de Parto
de paramtre p > 1 si sa densit par rapport la mesure de Lebesgue sur R est
f (x) =
(p 1)
[1,[ (x) .
xp
p1
Esprance : p 2 si p > 2
p1
si p > 3
Variance :
(p 3)(p 2)2
9. Loi gamma
xp1 ex dx.
232
i
i
i
Definition. Une variable alatoire X, valeurs positives, suit une loi gamma
de paramtres p > 0 et > 0, note (p, ), si sa densit par rapport la
mesure de Lebesgue sur R est
f (x) =
p x p1
e x
[0,[ (x) .
(p)
Proposition. Si Xp suit une loi (p, 1), alors (Xp p)/ p converge en loi quand
p vers une variable alatoire de loi N (0, 1).
Fonction caractristique :
Definition. Une variable alatoire X, valeurs sur ] 0, 1 [, suit une loi bta de
premire espce de paramtres p, q > 0, note (p, q), si sa densit par rapport
la mesure de Lebesgue est
f (x) =
xp1 (1 x)q1
B(p, q)
]0,1[ (x) .
i
i
Probabilit
1 |x|
e
,
2
x R.
Esprance : 0
Variance : 2
Fonction caractristique : 1/(1 + t2 )
x R.
Esprance : m
Variance : 2
2 2
234
i
i
i
Esprance : d
Variance : 2d
Fonction caractristique : (1 2it)d/2
Stabilit par convolution : 2 (d1 ) 2 (d2 ) = 2 (d1 + d2 ). Autrement dit, si X1
et X2 sont des variables alatoires indpendantes, de lois respectives 2 (d1 ) et
2 (d2 ), alors X1 + X2 est de loi 2 (d1 + d2 ).
(ii) Si Xd suit une loi du chi-deux d degrs de libert, alors (Xd d)/ d converge
en loi quand d vers une variable alatoire de loi N (0, 1).
x2 d+1
1
2
1+
,
d
dB(1/2, d/2)
x R.
i
i
Probabilit
f (x) =
(2)d/2
1
exp t(x m)1 (x m) ,
2
dt
x Rd .
Esprance : m
Covariance :
Fonction caractristique : exp it, m
1t
2 t t
Stabilit par convolution : N (m1 , 1 ) N (m2 , 2 ) = N (m1 + m2 , 1 + 2 ). Autrement dit, si X et Y sont deux vecteurs alatoires indpendants, de lois respectives
N (m1 , 1 ) et N (m2 , 2 ), alors X + Y est de loi N (m1 + m2 , 1 + 2 ).
236
i
i
i
i
barbe 2007/1/8 10:41 page 237 #245
INDEX TERMINOLOGIQUE
A
absolument continue, 31, 45, 145
adapt, 173
algbre, 2, 16, 44
algbre engendre, 3
argument de bloc, 95, 113, 134
atome, 153, 154
B
barrire absorbante, 194, 206
base (dun cylindre), 90
Bayes (formule de), 152
Borel-Cantelli, 111, 116
borlien, 4
C
Cauchy (critre de), 110, 116
centr, 164
chane dEhrenfest, 200, 207
Chapman-Kolmogorov (quation de), 201
chne de Markov, 193
classe (dune chane de Markov), 209
classe (Markov), 213
classe monotone, 9, 11
communiquer, 209
compacit relative, 127
conduire, 209
conjugu, 37
convergence dans Lp , 117, 119, 120, 122
convergence domine, 119
convergence domine (thorme), 28
convergence en distribution, 122
convergence en loi, 121
convergence en probabilit, 113, 119, 120, 123
convergence troite, 122, 128
convergence monotone, 26, 158
i
i
i
barbe 2007/1/8 10:41 page 238 #246
Probabilit
trangre (mesure), 31
vnement, 43
F
ltration, 173
fonction borlienne, 6
fonction caractristique, 61, 64, 80, 86, 121, 122,
132, 136, 144, 167
fonction de quantile, 50, 171
fonction de rpartition, 46, 51, 57, 102, 121, 122,
169
fonction lmentaire, 8
fonction gnratrice, 96
fonction gnratrice des moments, 66
fonction indicatrice, 5
fonction intgrable, 30
fonction mesurable, 5, 162
H
homogne, 199
I
indpendance, 73, 74, 75, 76, 80, 8991, 101, 164,
169, 131, 145, 158
ingalit de Jensen, 29, 56, 158
ingalit de Tchebitchev, 81
ingalit de Bernstein, Cramr, Cherno, 59
ingalit de Bienaym, 81
ingalit de Bonferoni, 44
ingalit de Cherno, 103
ingalit de Hlder, 37
ingalit de Hlder, 56
ingalit de Kolmogorov, 105, 181
ingalit de Markov, 58
ingalit de Minkowski, 37
ingalit de Tchebitchev, 59, 89, 113
ingalit maximale, 180
in
galit de Bienaym-Tchebitchev, 81
initiale (loi, mesure), 193
initiale (mesure, loi), 203
intgrabilit uniforme, 118
intgrable (fonction), 27, 60
intgrale, 23, 24
intgrale de Riemann, 29
irrductible, 209, 213
L
L2 , 156
Lp , 53
238
i
i
i
i
barbe 2007/1/8 10:41 page 239 #247
Index terminologique
-algbre, 2
somme de v.a., 81, 84, 93, 105, 131
sous-additivit, 14
sous-martingale, 174
statistique dordre, 171
suite dexhaustion, 13
sur-martingale, 174
systme complet, 151, 153, 154
T
temps darrt, 176
tension, 127
tension uniforme, 127
terminal (vnement), 92
terminale (tribu), 92
thorme darrt, 179
thorme dEgorov, 20
thorme de Fubini, 36
thorme de Kolmogorov, 145
thorme de prolongement (de Kolmogorov), 90
thorme de Radon-Nikodym, 31
thorme de transport, 32, 53
thorme des moments, 66
thorme limite central, 136, 141
thorme limite central poissonien, 139
transforme de Fourier, 6163
transforme de Laplace, 66, 103, 143
transience, 213
transient, 210, 212, 213
transition, 162
tribu, 2, 9, 44, 152
tribu borlienne, 4, 6
tribu complte, 21
tribu complte, 21
tribu engendre, 5, 153, 164
tribu produit, 4, 35
tribu terminale, 92
tribu trace, 15
tribu triviale, 2
V
variable alatoire, 43, 45
variance, 56, 57, 81, 136
vecteur alatoire, 50, 77, 98, 159, 164, 169
section, 19
-additif, 13
239
i
i
i
i
i
i
barbe 2007/1/8 10:41 page 241 #249
Lp (, A, ), 36
Lp , 36
f p , 36
f , 36
Lp (, A, ), 38
Lp , 38
f, g, 39
P , 41
P(), 42
Ckn , 43
B(n, p), 43
p.s., 43
U[0,1] , 43
P X , 44
L(X), 44
P { X B }, 44
F X , 46
Exp(), 48
N (0, 1), 48
F , 50
F X , 51
E(X), 53
p , 56
, 56
Var(X), 56
Cov(X), 60
X (t), 62
LX (s), 66
A , 92
i.s., 93
P
, 113
L
, 122
d
, 122
P ( | B), 149
E( | B), 154
S, 155
E( | Z), 155
E( | B), 156
E(X | B | C), 158
E( | Y ), 159
P ( | B), 159
L( | ), 162
FT , 177
XT , 177
E, 193
i j, 209
i j, 209
E , 209
Ni , Ni (X), 210
i , i (X), in , in (X), 210
Pi , 210
Ei , 210
Nji , 213
ji , 214
i
i
7/12/06
13:31
Page 1
Calcul intgral
L3M1
Jacques Faraut
Cet ouvrage traite du calcul intgral, outil essentiel de l'analyse mathmatique et du calcul
des probabilits.
L'ouvrage est dcoup en 11 chapitres : Mesure et intgrale ; Mesure de Lebesgue ;
Espaces Lp ; Intgration sur un espace produit ; Intgration sur Rn ; Mesures de LebesgueStieltjes ; Fonctions dfinies par des intgrales ; Convolution ; Transformation de Fourier ;
Sries de Fourier ; Applications et complments.
Jacques Faraut est professeur de mathmatiques l'universit Pierre et Marie Curie de Paris,
o il a enseign l'analyse tous les niveaux. Il est spcialiste de l'analyse des groupes de Lie
et a publi plusieurs ouvrages sur le sujet.
Octobre 2006 2-86883-912-6 208 pages 21