Vous êtes sur la page 1sur 254

PROBABILIT

PROBABILIT

Philippe Barbe et Michel Ledoux


Collection dirige par Daniel Guin

17, avenue du Hoggar Parc dactivits de Courtabuf, BP 112 91944 Les Ulis Cedex A, France

Lillustration de couverture reprsente une marche alatoire centre, linairement interpole ; les courbes suprieure et infrieure sont les bornes de la loi du logarithme itr, et lintervalle vertical atteint par la marche alatoire illustre une application du thorme limite central.

Imprim en France

ISBN : 978-2-86883-931-2 Tous droits de traduction, dadaptation et de reproduction par tous procds rservs pour tous pays. Toute reproduction ou reprsentation intgrale ou partielle, par quelque procd que ce soit, des pages publies dans le prsent ouvrage, faite sans lautorisation de lditeur est illicite et constitue une contrefaon. Seules sont autorises, dune part, les reproductions strictement rserves lusage priv du copiste et non destines une utilisation collective, et dautre part, les courtes citations justies par le caractre scientique ou dinformation de luvre dans laquelle elles sont incorpores (art. L. 122-4, L. 122-5 et L. 335-2 du Code de la proprit intellectuelle). Des photocopies payantes peuvent tre ralises avec laccord de lditeur. Sadresser au : Centre franais dexploitation du droit de copie, 3, rue Hautefeuille, 75006 Paris. Tl. : 01 43 26 95 35. c 2007, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc dactivits de Courtabuf, 91944 Les Ulis Cedex A

TABLE DES MATIRES

Prface I Thorie de la mesure I.1 Algbre, tribu . . . . . . . . . . . . I.2 Ensembles de fonctions mesurables . I.3 Classes monotones . . . . . . . . . . I.4 Mesures . . . . . . . . . . . . . . . .

v 1 . 1 . 6 . 9 . 13 23 23 25 30 32 35 36 41 41 45 50 52 61 73 73 84 90 98

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

II

Intgration II.1 Intgrale de fonctions positives . . . . . . . . . . . II.2 Intgrale de fonctions quelconques et thormes de II.3 Thorme de Radon-Nikodym . . . . . . . . . . . II.4 Intgration par rapport une mesure image . . . II.5 Thormes de Fubini-Tonelli . . . . . . . . . . . . II.6 Espaces Lp . . . . . . . . . . . . . . . . . . . . . . Mesures de probabilit III.1 Dnition et exemples . . III.2 Fonctions de rpartition . III.3 Vecteurs alatoires . . . . III.4 Moyennes et ingalits . III.5 Fonctions caractristiques

. . . . . . . convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . .

III

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

IV

Indpendance IV.1 Indpendance . . . . . . . . . . . . . . . . . . . IV.2 Sommes de variables alatoires indpendantes . IV.3 Applications de lindpendance . . . . . . . . . . IV.4 Vecteurs alatoires gaussiens et lois gaussiennes

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

Probabilit

Convergence de suites de variables alatoires V.1 Convergence presque sre . . . . . . . . . . . V.2 Convergence en probabilit . . . . . . . . . . V.3 Convergence dans Lp . . . . . . . . . . . . . V.4 Convergence en loi . . . . . . . . . . . . . . . V.5 Les lois faible et forte des grands nombres, le central . . . . . . . . . . . . . . . . . . . . . Probabilits et esprances conditionnelles VI.1 Conditionnement discret . . . . . . . . . . VI.2 Conditionnement (gnral) . . . . . . . . . VI.3 Lois conditionnelles . . . . . . . . . . . . . VI.4 Esprances conditionnelles dans les espaces

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . thorme limite . . . . . . . . .

. . . .

109 109 113 117 121

. 131 149 150 156 159 164

VI

. . . . . . . . . . . . . . . . . . gaussiens

. . . .

. . . .

. . . .

. . . .

. . . .

VII Martingales ( temps discret) 173 VII.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 VII.2 Thormes de convergence . . . . . . . . . . . . . . . . . . . . 182 VII.3 Application la loi des grands nombres . . . . . . . . . . . . . 186 VIII Chanes de Markov ( espace dtats dnombrable) VIII.1 La proprit de Markov . . . . . . . . . . . . . . . . . VIII.2 Calcul des lois marginales . . . . . . . . . . . . . . . . VIII.3 Gnralisation de la proprit de Markov . . . . . . . VIII.4 Comportement asymptotique. Mesures invariantes . . VIII.5 Rcurrence et transience . . . . . . . . . . . . . . . . VIII.6 Comportement asymptotique dune chane de Markov Bibliographie Appendice : Lois de probabilits usuelles Index terminologique Index des notations 193 193 200 201 204 210 220 227 229 237 241

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

iv

PRFACE

Le calcul des probabilits est une branche trs vivante des mathmatiques actuelles. Les premires formalisations de la notion de hasard au XVIIe sicle rpondaient pour lessentiel diverses questions issues de la thorie des jeux. Au cours du XXe sicle, le calcul des probabilits a trouv avec A. N. Kolmogorov une axiomatique rigoureuse et ecace sappuyant sur lintgration de Lebesgue. Lintuition probabiliste est aujourdhui un outil ecace dans diverses branches des mathmatiques, de lanalyse et la thorie de la mesure jusqu la gomtrie et mme lalgbre, et forme le support thorique des statistiques modernes. Ce livre est consacr lexposition des notions de base du calcul des probabilits. Il sappuie de faon essentielle sur la thorie de la mesure et de lintgration de Lebesgue. (Mesures de probabilits discrtes ou densit sont donc tudies dans un mme cadre, au titre dexemples priviligis les plus usuels.) Les deux premiers chapitres sont en fait un rappel des lments de base de la thorie lmentaire de la mesure et de lintgrale de Lebesgue. Ils ne peuvent cependant tre considrs comme un traitement exhaustif. Le lecteur peut consulter le livre de J. Faraut, dans la mme collection, pour un expos plus complet. Le chapitre III introduit les premiers aspects des probabilits avec les notions de variables alatoires et de leurs lois, illustres par de nombreux exemples. Les fonctions caractristiques (transformes de Fourier) y sont galement tudies. Le chapitre IV fait rellement entrer le lecteur dans les considrations probabilistes avec le concept dindpendance. Laddition des variables alatoires indpendantes y est interprte comme la traduction fonctionnelle, la riche intuition, du produit de convolution des mesures. Au chapitre V sont prsentes les diverses notions de convergence de suites de variables alatoires, convergence presque sre, en probabilit, en loi. La loi des grands nombres et le thorme central limite constituent les exemples fondamentaux de ces divers modes de convergence. Le chapitre suivant est un expos des notions de conditionnement (probabilits, esprances, lois), illustr par le modle gaussien. Le chapitre VII est une brve introduction la notion de martingale

Probabilit

temps discret o sont notamment tablis le thorme darrt et les thormes de convergence des martingales. Enn, le dernier chapitre traite succintement de chanes de Markov (mesures invariantes, convergences). Un appendice prsentant les lois de probabilits usuelles avec leurs caractristiques principales complte la rdaction. Ce livre est destin des tudiants de 3e anne de licence de mathmatiques ayant suivi un cours de base de mesure et intgration, dont les lments fondamentaux sont toutefois rappels dans les deux premiers chapitres. Il ne suppose pas une connaissance pralable des notions de probabilits enseignes dordinaire dans les deux premires annes de licence et habituellement axs sur les probabilits discrtes et les problmes de combinatoire dont il nest fait que trs peu tat dans cet ouvrage. Ce livre peut tre utilis comme support dun cours de probabilit de L3, ou dun premier semestre de master. Cet ouvrage contient en outre les prrequis ncessaires lpreuve crite de mathmatiques gnrales pour lagrgation ainsi que pour les leons spcialises. Chaque chapitre est complt par une srie dexercices destins approfondir et illustrer les lments de la thorie venant dtre introduits. Ce livre nest pas la contribution des seuls auteurs, mais rete en partie aussi lenseignement des probabilits par lquipe du laboratoire de statistique et probabilits de luniversit Paul-Sabatier de Toulouse au cours de ces dernires annes. Nous remercions ainsi D. Bakry, M. Benam, Ph. Carmona, L. Coutin, J.-L. Dunau, G. Letac, D. Michel et tous les membres du laboratoire pour nous avoir permis de puiser librement dans leurs notes de cours et leurs rserves dexercices, et pour nous avoir conseill et relu divers moments de la prparation. Nous remercions tout particulirement D. Michel et X. Milhaud pour avoir suppl le chapitre VIII sur les chanes de Markov, ainsi que pour leur soutien et leur aide. P. Lezaud a relu avec un soin extrme tout le manuscrit et a test la plupart des exercices. Quil soit sincrement remerci pour cette tche bien ingrate. Un dernier mot enn. Le temps pass la rdaction de ce livre est trs certainement insusant pour que cet ouvrage puisse prtendre beaucoup doriginalit et pour que le rsultat soit la hauteur des esprances et de lenthousiasme des premires lignes. Il ne saurait tre aussi exempt dimperfections et derreurs pour lesquels nous nous excusons par avance. Un chapitre est numrot par un chire romain, et une section de chapitre par un chire arabe. Un nonc dans une section est dsign par le numro de la section et le numro dordre de cet nonc dans la section. Ainsi, II.3.4 dsigne lnonc 4 dans la section 3 du chapitre II. Toulouse, septembre 1998 vi Ph. Barbe, M. Ledoux

Prface

Prface la seconde dition Nous remercions les ditions EDP Sciences, ainsi que lditeur scientique de la collection, D. Guin, de nous proposer de publier une nouvelle dition de notre ouvrage paru en 1998. Le texte est pour lessentiel identique la version intiale. Celle-ci comporte un nombre trop important derreurs, mineures ou plus srieuses, qui nuisent beaucoup sa lisibilit. Nous avons essay de corriger les principales erreurs et imperfections (sans toutefois pouvoir prtendre les avoir limines toutes). Plusieurs corrections nous ont t aimablement communiques par divers collgues. Nous remercions tout particulirement R. Ben David pour ses corrections et commentaires trs minutieux (mme si nous ne les avons pas tous suivis). Nous remercions aussi M. Arnaudon, Fr. Barthe, M. Benam, B. Bercu, Ph. Carmona, H. Carrieu, R. Chomienne, S. Cohen, Th. Delmotte, Th. Gallay, Ch. Leuridan, P. Lezaud et D. Robert. H. Carrieu prpare actuellement un fascicule des exercices corrigs de ce livre. Nous le remercions bien vivement pour cet excellent complment. Paris, Toulouse, septembre 2006 Ph. Barbe, M. Ledoux

vii

I
THORIE DE LA MESURE

Lobjet de ce chapitre est de rappeler les lments de thorie de la mesure qui seront indispensables au dveloppement du calcul des probabilits dans les chapitres suivants. Une mesure abstraite sur un ensemble gnralise la notion de longueur, daire ou de volume, sur la droite, le plan ou lespace. Intuitivement, le lien avec les probabilits est quune probabilit mesure la vraisemblance dun vnement. Sur la droite (ou le plan, ou lespace), la longueur (ou laire, ou le volume) est une fonction qui un ensemble associe un nombre rel positif. Cette fonction est additive, au sens o applique A B , elle est la somme de la fonction applique en A et de la fonction applique en B , pourvu que A et B soient disjoints. On demandera une mesure abstraite de vrier cette additivit. Un fait peu intuitif est quil existe des sous-ensembles de la droite (ou du plan, ou de lespace) pour lesquels on ne peut pas dnir leur longueur (ou aire, ou volume) (cf. exercice I.6). Il convient donc, dans un premier temps, de dnir la classe densembles que lon veut (et peut) mesurer. Compte tenu de la proprit dadditivit dcrite au paragraphe prcdent, on imposera par exemple que cette classe soit stable par runion nie.

I.1. Algbre, tribu


Soit un ensemble.

Exemples I.1.1. (i) pourra tre R ou Rd , un espace mtrique, ou plus gnralement topologique.

Chapitre I. Thorie de la mesure

(ii) On joue au d en le lanant une fois. Lensemble peut tre pris comme lensemble des faces du d, = { 1, 2, 3, 4, 5, 6 }. Lorsque lon lance le d au hasard, cela revient choisir ( au hasard ) un lment de . Il convient de remarquer que lon peut toujours ajouter des points . Dans lexemple I.1.1.ii nous pourrions tout aussi bien prendre = { 1, 2, 3, 4, 5, 6, 7 }. Mais intuitivement, 7 a une probabilit nulle dtre ralis. On considre P () lensemble des parties de . Un sous-ensemble C de P () est un ensemble de parties de .

D enition I.1.2. Un sous-ensemble C de P () est une algbre (de Boole) sur si


(i) C , (ii) C est stable par passage au complmentaire (i.e. A C \ A C ), (iii) C est stable par runion nie (i.e. A1 , . . . , Ak C A1 Ak C ). Dans laxiome (iii) de la dnition I.1.2, on pourrait se contenter de k = 2, le cas gnral sen dduisant par rcurrence. Par passage au complmentaire, une algbre est aussi stable par intersection nie.

D enition I.1.3. Un sous-ensemble A de P () est une tribu sur si


(i) A, (ii) A est stable par passage au complmentaire (i.e. A A \ A A), (iii) A est stable par runion dnombrable (i.e. Ai A, i N
iN Ai

A).

On dit aussi que A est une -algbre. Le couple (, A) form dun ensemble et dune tribu A sera appel un espace mesurable. Les lments de A sont appels ensembles mesurables. Toute tribu est une algbre. Expliquons le sens de ces deux dnitions. Tout dabord le de -algbre est un acronyme de dnombrable par rfrence laxiome (iii) dans la dnition dune tribu.

Exemples I.1.4. (i) P () est toujours une algbre et une tribu.


(ii) Le sous-ensemble { , } de P (), compos de la partie vide et de , est une algbre et une tribu, appele algbre ou tribu triviale. 2

I.1. Algbre, tribu

(iii) Lensemble des ouverts de Rd nest pas une algbre (et donc nest pas une tribu) car le complmentaire dun ouvert nest pas ncessairement ouvert. (iv) Une runion de deux algbres nest pas une algbre en gnral. Considrer par exemple = { 0, 1, 2 }, les algbres C1 = { , { 0, 1, 2 }, { 0 }, { 1, 2 } } et C2 = { , { 0, 1, 2 }, { 1 }, { 0, 2 } }, puis remarquer que la runion de { 0 } et { 1 } nappartient pas C1 C2 . (v) Une intersection dun nombre quelconque dalgbres (resp. de tribus) est une algbre (resp. une tribu). Certains auteurs dnissent les algbres comme tant stables par runion et intersection nies. En gnral, il est dicile dexpliciter tous les lments dune tribu. Les algbres et les tribus se dcrivent le plus souvent par leurs lments gnrateurs.

D enition I.1.5. Soit E un sous-ensemble de P ().


(i) Lalgbre C (E ) engendre par E est lintersection de toutes les algbres contenant E . (ii) La tribu (E ) engendre par E est lintersection de toutes les tribus contenant E . Compte tenu de la dnition I.1.5, on peut parler de la tribu engendre par deux tribus A1 et A2 , que lon note A1 A2 ou aussi (A1 A2 ), ou encore (A1 , A2 ). On prendra bien soin de remarquer, daprs lexemple I.1.4.iv, que A1 A2 est en gnral dirent de A1 A2 .

Exemples I.1.6. (i) Soit A une partie de . Lalgbre C ({ A }) et la tribu ({ A }) sont { , , A, Ac }. (ii) Plus gnralement, si S = { S1 , . . . , Sn } est une partition nie de , cest-dire = 1in Si et Si Sj = pour i = j , alors
C (S ) =
iT

Si : T {1, . . . , n} ,

o T parcourt lensemble des parties de { 1, . . . , n }, lensemble vide compris. En particulier, C (S ) est en bijection avec lensemble des parties de { 1, . . . , n } et se compose de 2n lments. (iii) Si S = { Si : i N } est une partition de , alors (S ) =
iT

Si : T N .

Chapitre I. Thorie de la mesure

D enition I.1.7. Si est un espace topologique, on appelle tribu borlienne, note B (), la tribu engendre par les ouverts de . Un borlien est un ensemble appartenant la tribu borlienne.
La tribu borlienne est aussi engendre par les ferms puisque la tribu est stable par passage au complmentaire.

Exemple I.1.8. Sur R, la tribu borlienne concide avec la tribu engendre par les intervalles ] a, b [, a < b . Elle concide aussi avec la tribu engendre par les intervalles [ a, b ], ou ] a, b ], ou [ a, b [.
On prendra bien soin de constater que si les lments dune famille gnratrice sont explicites, il nen est rien en gnral des lments de la tribu (la plupart des borliens de R ne sont pas des intervalles !). Dans la suite, lorsque est Rd (ou un espace topologique), il sera toujours muni de sa tribu borlienne. Si est discret, on le munira de la tribu de ses parties. Lorsque lon a deux ensembles 1 et 2 , on dnit leur produit 1 2 , sur lequel on peut ventuellement dnir des structures produits (topologie produit, groupe produit, etc). Lorsque lon a des espaces mesurables (i , Ai ), i = 1, 2, on souhaite faire de lespace produit 1 2 un espace mesurable.

D enition I.1.9. Soient (i , Ai ), i = 1, 2, deux espaces mesurables. On appelle ensemble lmentaire de = 1 2 une runion nie de pavs A1 A2 , avec Ai Ai , i = 1, 2. La tribu produit A1 A2 sur est la tribu engendre par les ensembles lmentaires. Exemples I.1.10. (i) Les ensembles lmentaires forment une algbre.
(ii) En utilisant le fait que tout ouvert de R2 peut scrire comme une runion dnombrable de pavs dintervalles ouverts, on montre que B (R2 ) = B (R) B (R). On montre de mme que la tribu sur Rd engendre par d copies de B (R) est B (Rd ) = B (R) B (R). De faon gnrale, en mathmatique, lorsquune structure est dnie sur un espace, on souhaite pouvoir la transporter sur dautres espaces par des fonctions. En gnral, on utilise dailleurs les images rciproques par les fonctions. Par exemple, sur R, la structure dordre est prserve par la rciproque dune application croissante (i.e. si x < y sont dans limage de R par une fonction f croissante, alors 4

I.1. Algbre, tribu

f 1 (x) < f 1 (y )). De mme, la structure topologique est prserve par application de la rciproque dune application continue (i.e. f est continue si f 1 (U ) est ouvert pour tout ouvert U ). La notion analogue dans le contexte de la thorie de la mesure est celle de mesurabilit. Si f est une application de dans E et si B est une partie de E , on notera f 1 (B ) = : f ( ) B .

Si B est une famille de parties de E , on notera f 1 (B ) = f 1 (B ) : B B .

Noter que si B est une algbre (resp. tribu), f 1 (B ) est une algbre (resp. tribu) daprs les proprits de limage rciproque ensembliste f 1 .

D enition I.1.11. (i) Soient (, A) et (E, B ), deux espaces mesurables. Soit f une fonction de dans E . On dit que f est mesurable (pour A et B ) si f 1 (B ) A ; cest--dire, f 1 (B ) A pour tout B B .
(ii) Si f est une fonction de dans (E, B ), on appelle tribu engendre par f , note (f ), la plus petite tribu (sur ) qui rend f mesurable ; autrement dit, (f ) = f 1 (B ). (iii) Plus gnralement, si F est une famille de fonctions dun ensemble valeurs dans (E, B ), on appelle tribu engendre par F la plus petite tribu (sur ) qui rend mesurable toute fonction de F (i.e. la tribu engendre par les ensembles de la forme f 1 (B ) pour B B et f F ). On la note (F ). Avec les notations de cette dnition, dire que f est mesurable de (, A) dans (E, B ) revient dire que (f ) A.

Exemples I.1.12. (i) Si A est une partie de , on dnit la fonction indicatrice de A par A ( ) = 1 si A et A ( ) = 0 si A. Soit A une tribu sur . En tant que fonction valeurs dans (R, B (R)), la fonction A est mesurable pour A si et seulement si A A.
(ii) Soit R muni de sa tribu borlienne B (R) et soit 1 la projection de R R sur sa premire composante R dnie par 1 (x, y ) = x. La tribu engendre par 1 est forme des ensembles B R o B dcrit les borliens de R. Cette tribu est dirente de la tribu borlienne de R2 . On notera que 1 est mesurable de (R2 , B (R2 )) dans (R, B (R)) bien que (1 ) ne concide pas avec la tribu borlienne de R2 . 5

Chapitre I. Thorie de la mesure

(iii) La tribu borlienne de R2 est engendre par les projections 1 et 2 sur les 1 1 coordonnes. En eet, 1 (A) 2 (B ) = (A ) ( B ) = A B , et les 2 rectangles engendrent la tribu B (R ) = B (R) B (R) (cf. I.1.9 et I.1.10).

D enition I.1.13. Une fonction mesurable de (, A) dans un espace topologique muni de sa tribu borlienne (E, B (E )) est dite borlienne.
Puisque nous munirons toujours R ou Rd de sa tribu borlienne, les fonctions mesurables valeurs relles sont borliennes. En pratique les tribus tant le plus souvent dnies par une partie gnratrice, la dnition I.1.11 est dicile vrier. La proposition suivante montre que pour quune fonction soit mesurable, il sut de vrier sa proprit caractristique sur une famille gnratrice de la tribu darrive.

Proposition I.1.14. Soient et E deux ensembles. Soit E P (E ) et soit B = (E ). La tribu engendre par une fonction f de dans (E, B ) est (f ) = (f 1 (E )) = ({ f 1 (C ) : C E }).
Plus gnralement, si F est une famille de fonctions de dans (E, B ), alors (F ) = ({ f 1 (C ) : C E ; f F }). En particulier, pour quune fonction f de (, A) dans (E, (E )) soit mesurable, il sut que f 1 (E ) soit inclus dans A.
Dmonstration. Soit

T =

B E : f 1 (B ) f 1 (E )

Il est ais de vrier que T est une tribu qui contient E . Donc T contient (E ). Soit prsent A (f ). Par dnition, A = f 1 (B ) pour un certain B (E ). Il sensuit B T et par construction de T , A = f 1 (B ) (f 1 (E )). Ainsi, (f ) (f 1 (E )). Linclusion rciproque est vidente. Le cas dune famille quelconque se traite de la mme faon. Enn, si f 1 (E ) A, alors (f 1 (E )) A. Comme (f 1 (E )) = (f ) par le premier point, la conclusion sensuit.

I.2. Ensembles de fonctions mesurables


Nous rassemblons ici quelques faits sur les fonctions mesurables, montrant que cest une classe assez naturelle de fonctions. 6

I.2. Ensembles de fonctions mesurables

Proposition I.2.1. La compose de deux fonctions mesurables est mesurable.


: (i , Ai ) (i+1 , Ai+1 ), i = 1, 2, mesurables. 1 Soit A A3 . On a (f1 f2 )1 (A) = f 1 (f2 (A)). Puisque f2 est mesurable, 1 1 1 (A) A2 , et puisque f1 est mesurable, f1 (f2 (A)) A1 . f2
Dmonstration. Soient fi

Lemme I.2.2. Si f, g sont des fonctions mesurables de (, A) dans (R, B (R)), alors (f ( ), g( )) R2 est mesurable de (, A) dans (R2 , B (R2 )).
Dmonstration. Soit A B un rectangle dans B (R2 ), et h( ) = (f ( ), g ( )). Alors,

h1 (A B ) = f 1 (A) g1 (B ) A. Puisque les rectangles engendrent B (R2 ), on conclut grce la proposition I.1.14. Les fonctions mesurables par rapport une tribu borlienne forment une classe plus vaste que les fonctions continues :

Proposition I.2.3. Soient 1 , 2 deux espaces topologiques munis de leur tribu borlienne. Toute fonction continue de 1 dans 2 est mesurable (ou borlienne ici).
Dmonstration. Remarquer que si U est ouvert dans 2 et f est une fonction continue, f 1 (U ) est ouvert. Puis appliquer la proposition I.1.14.

Si x et y sont deux nombres rels, on note x y leur maximum.

Corollaire I.2.4. Lespace des fonctions mesurables (borliennes) de (, A) dans (R, B (R)) est stable pour les oprations de multiplication par une constante (f )( ) = f ( ) ( R), daddition (f + g)( ) = f ( ) + g( ), de multiplication (f g)( ) = f ( )g( ), et du maximum (f g)( ) = f ( ) g( )
Dmonstration. La fonction f ( ) est la compose de la fonction mesurable f et de la fonction continue x x. De mme f + g (resp. f g, resp. f g) est la compose de la fonction mesurable (f ( ), g( )) (en vertu du lemme I.2.2), et de la fonction continue (x, y ) x + y (resp. (x, y ) xy , resp. (x, y ) x y ).

Il est facile de voir quune limite ponctuelle de fonctions croissantes est croissante, mais quune limite ponctuelle de fonctions continues nest pas ncessairement continue. La classe des fonctions mesurables est stable par limite simple. 7

Chapitre I. Thorie de la mesure

Th eor` eme I.2.5. Soit (fn )nN une suite de fonctions mesurables de (, A) dans un espace mtrique (E, d) muni de sa tribu borlienne. Si fn converge ponctuellement vers f (i.e. pour tout , lim fn ( ) = f ( )), alors f est mesurable.
n

Dmonstration. Daprs la proposition I.1.14, il sut de montrer que si U est

ouvert dans E , alors f 1 (U ) A. Posons Ur = { x U : d(x, E \ U ) > 1/r }, r 1 entier. Lensemble Ur est ouvert, donc est un borlien de E . Ainsi, f 1 (U ) =
r,m nm 1 fn (Ur )

est un borlien. On peut approcher toute fonction mesurable par des fonctions mesurables plus simples.

D enition I.2.6. Soit (, A) un espace mesurable. On appelle fonction tage ( valeurs dans Rd ) une fonction de la forme f ( ) = 1ik ai Ai ( ) o les Ai sont des lments disjoints de A, et o les coecients ai appartiennent Rd . Proposition I.2.7. Toute fonction f mesurable de (, A) dans (R, B (R)) est limite simple de fonctions tages. Si f est positive, la limite peut tre choisie croissante.
Dmonstration. Prenons dabord f positive. Dnissons pour n, k 1,

An,k =

k1 k f ( ) < n n 2 2

Les An,k sont lments de A en tant quimages rciproques par la fonction mesurable f dintervalles. La suite fn ( ) =
1k 2n2

k1 An,k ( ) 2n

converge en croissant vers f . Si f est quelconque, crivons f = f + f avec f + = f 0 et f = (f ) 0, et approximons les fonctions positives f + et f par la mthode prcdente. 8

I.3. Classes monotones

I.3. Classes monotones


Nous souhaitons nalement pouvoir mesurer les lments dune tribu, cest-dire dnir une fonction qui chaque ensemble de la tribu associe un rel positif, et qui vrie un certain nombre daxiomes. Une des dicults a priori est quune tribu peut contenir beaucoup densembles. On souhaite donc pouvoir dnir la mesure sur une classe plus restreinte densembles et avoir un procd dextension permettant alors de la dnir sur toute la tribu. Le but de cette section est de construire le bon outil pour raliser le procd dextension. Son intrt apparatra clairement dans la suite du cours.

D enition I.3.1. Une famille M de parties de est appele une classe monotone si (i) M, (ii) si A, B M et B A, alors A \ B M, (iii) M est stable par runion monotone croissante (i.e. Ai M, i N, Ai Ai+1 iN Ai M). Si E P (), on note M(E ) la classe monotone engendre par E , cest-dire lintersection de toute les classes monotones contenant E . Exemples I.3.2. (i) Une tribu est une classe monotone. (ii) Une classe monotone M, stable par intersection nie, est une tribu. En eet, M est aussi stable par runion nie en vertu de I.3.1.ii, et toute runion peut scrire comme une runion croissante ( iN Ai = iN ( j i Aj ) pour toute famille Ai , i N).
Pour que la dnition dune classe monotone engendre par E ait un sens, il faut vrier que lintersection de deux, ou dun nombre quelconque, de classes monotones est une classe monotone. Le thorme important suivant arme que la classe monotone engendre par une famille de parties de stable par intersection nie concide avec la tribu engendre par cette famille.

Th eor` eme I.3.3 (des classes monotones). Soit E une famille de parties de , stable par intersection nie. Alors M(E ) = (E ).
Dmonstration. En vertu de lexemple I.3.2.i, (E ) est une classe monotone qui

contient E et donc M(E ) (E ). Pour dmontrer linclusion inverse, nous montrons que M(E ) est stable par intersection nie. Alors, daprs I.3.2.ii, M(E )

Chapitre I. Thorie de la mesure

sera une tribu contenant E , et donc (E ) M(E ). Il sut de prouver que si A, B M(E ), alors A B M(E ). Soit M1 = { A M(E ) : B E , A B M(E ) } . Lensemble M1 est une classe monotone qui contient E , donc M(E ). Soit prsent M2 = { B M(E ) : C M(E ) , B C M(E ) } . Lensemble M2 est une classe monotone. Montrons quil contient E . Il faut dmontrer pour cela que si B E , alors C M(E ) , B C M(E ) . Or C M(E ) M1 , et donc, puisque B E , B C = C B M(E ). Ainsi, M2 E , donc M2 M(E ), ce qui montre que M(E ) est stable par intersection nie. Le thorme est tabli. Il existe dans la littrature direntes dnitions dune classe monotone donnant lieu direntes versions du thorme des classes monotones. Par exemple, on peut supprimer laxiome (ii) de la dnition I.3.1 et imposer dans le thorme I.3.3 que la classe E soit en outre stable par passage au complmentaire, cest--dire quelle soit une algbre. La version prsente est la mieux adapte ltude de lindpendance dans le chapitre IV. Nous tudions prsent la version fonctionnelle du thorme des classes monotones. Pour cela, si f est une fonction dnie sur un espace , valeurs relles et borne, nous notons f = sup{|f ( )| : } sa norme uniforme. Rappelons quune suite de fonctions (fn )nN sur est croissante si pour tout dans , la suite fn ( ) est croissante. De plus, la suite est borne sil existe une constante positive C telle que |fn ( )| C pour tout n et tout ; autrement dit, si supnN fn est ni. Clairement, une suite croissante borne converge.

D enition I.3.4. (i) Un ensemble H de fonctions de dans R est dit stable par convergence monotone borne si la limite de toute suite croissante et borne de H est aussi dans H.
(ii) Un ensemble H est dit monotone sil contient les constantes et est stable par convergence monotone borne. Observons que lintersection dun nombre arbitraire densembles monotones de fonctions relles dnies sur est un ensemble monotone. 10

I.3. Classes monotones

Rappelons que si F est une famille de fonctions sur valeurs relles, (F ) dsigne la plus petite tribu sur qui rend mesurables les fonctions de F lorsque R est muni de sa tribu borlienne. Rappelons enn quun ensemble C est stable par multiplication si pour tous f, g dans C , le produit f g est dans C . Le thorme suivant peut tre considr comme une version mesurable du thorme de Stone-Weierstrass.

Th eor` eme I.3.5 (des classes monotones fonctionnelles). Soit C un ensemble de fonctions relles bornes sur stable par multiplication et contenant les constantes. Tout espace vectoriel monotone contenant C contient les fonctions bornes mesurables par rapport (C ).
Dmonstration. Lensemble des fonctions relles bornes sur est un espace vectoriel. On peut ainsi considrer H0 , le plus petit sous-espace vectoriel monotone contenant C . Puisque C contient les constantes, H0 les contient aussi. Il sut de montrer que H0 contient les fonctions bornes mesurables par rapport (C ).

Lemme I.3.6. H0 est stable par multiplication.


Dmonstration. Elle est semblable la dmonstration du thorme I.3.3. Si A et B sont deux ensembles de fonctions relles, on note AB lensemble des fonctions de la forme f g o f est dans A et g dans B . Dire que A est stable par multiplication revient dire que AA est inclus dans A. On montrera dabord que CH0 H0 , puis que H0 H0 H0 . Pour toute fonction f de H0 , dnissons lensemble

Hf = { g H0 : f g H0 } . Cest un espace vectoriel. Il contient les constantes puisque dune part toute fonction constante est dans C et donc dans H0 , et dautre part parce que f est prise dans H0 . Si f est borne, cet espace vectoriel est aussi stable par convergence monotone borne ; en eet, si (gn ) est une suite de fonctions bornes dans Hf , convergeant en croissant vers g dans H0 , lgalit f gn = (f + f )gn f gn et lappartenance de f gn et f gn H0 montrent que (f + f )g et f g sont aussi dans H0 , et donc que f g est dans H0 . Si f est dans C , lespace Hf contient C . Donc, puisque nous venons de voir que Hf est un espace vectoriel stable par convergence monotone borne, il contient aussi H0 . On a donc H0 = f C Hf , ce qui montre CH0 H0 . Si maintenant f est dans H0 , nous dduisons de ce qui prcde que C est inclus dans Hf . Donc, par minimalit de H0 , on a H0 Hf . Ainsi, H0 = f H0 Hf , ce qui montre que H0 H0 H0 . Si B est une tribu, on note b(B ) lensemble des fonctions B -mesurables bornes. 11

Chapitre I. Thorie de la mesure

Lemme I.3.7. Si H0 est un espace vectoriel monotone de fonctions bornes, stable par multiplication, alors il concide avec b (H0 ) .
Dmonstration. On a linclusion vidente H0 b (H0 ) . i) Montrons que H0 est stable par lapplication valeur absolue. Soit donc f une fonction non nulle dans H0 . Quitte remplacer f par f / f , on peut supposer |f | 1. Observons que

|f | =

1 (1 f 2 ) = 1
i1

i (1 f 2 )i

o les i sont positifs. Il sensuit que 1 |f | est la limite croissante des fonctions bornes 1in i (1 f 2 )i . Puisque chacune de ces fonctions est dans H0 ainsi que les constantes, la fonction |f | est aussi dans H0 . ii) Montrons que H0 est stable par les oprations maximum et minimum . Pour cela, soient f et g deux fonctions de H0 . Puisque f + = (f + |f |)/2 et f = (f )+ sont dans H0 , les reprsentations f g = g + (f g)+ et f g = (f ) (g) montrent la stabilit de H0 par maximum et minimum. iii) Montrons que lensemble A = { A : A H0 } est une tribu. Puisque H0 contient les constantes, A contient . Dautre part, A est stable par complmentation, puisque si A est dans H0 , alors 1 A est aussi dans H0 . Enn, si An , n N, est une suite dlments de A, nN An est la limite monotone borne des fonctions maxin Ai de H0 , et donc appartient H0 . Le reste de la dmonstration consiste montrer que A et (H0 ) concident, puis que H0 et b(A) concident aussi. iv) Montrons que A (H0 ). Si A est dans A, alors A est dans H0 . En crivant A comme limage rciproque de { 1 } par A , on voit que A est dans (H0 ). v) Montrons que (H0 ) A. Daprs la dnition I.1.11, il convient de montrer que toute fonction de H0 est A-mesurable. Soit donc f dans H0 . Quitte remplacer f par f + f , on peut supposer que f est positive. Il sut de montrer que pour tout t positif, { f t }, ou autrement dit { f /t 1 } est dans A. Donc, en remplaant f par f /t, il sut de montrer que { f 1 } est dans A. Cest immdiat puisque {f 1} est limite monotone de la suite (f 1)n dlments de H0 . vi) Montrons que b(A) H0 . La proposition I.2.7 montre que toute fonction positive A-mesurable est limite croissante de fonctions tages A-mesurables. Donc les fonctions positives bornes et A-mesurables sont dans H0 . En crivant toute fonction comme la dirence de sa partie positive et sa partie ngative, linclusion b(A) H0 sensuit. vii) Montrons enn que H0 b(A). Cela dcoule du point v) et de linclusion H0 b (H0 ) . 12

I.4. Mesures

Nous pouvons prsent conclure la dmonstration du thorme. Linclusion C H0 donne (C ) (H0 ), et donc b (C ) b (H0 ) . Enn, le lemme I.3.7 montre que b (H0 ) = H0 .

I.4. Mesures
D enition I.4.1. Soit (, A) un espace mesurable.
Une application de A dans R { } est -additive si pour toute famille Ai dlments de A, indexe par un ensemble I ni ou dnombrable, ( iI Ai ) = iI (Ai ). On appelle mesure (positive) toute application de A dans R+ { }, -additive, et telle que () = 0. On dit quune mesure est -nie sil existe une famille dnombrable An A, n N, telle que = nN An et (An ) < . Une telle famille est appele une suite dexhaustion de . Un espace mesurable muni dune mesure est appel espace mesur. De plus, si () = 1, on dit que est une mesure de probabilit ou simplement une probabilit. Une mesure de probabilit est -nie. On appelle mesure signe la dirence de deux mesures (positives).

Exemples I.4.2. (i) Jeu de d. Soit = { 1, 2, 3, 4, 5, 6 } les 6 faces possibles dun d, muni de la tribu des parties, P (). Vrier que (A) = card(A)/6 est une probabilit. Remarquer que (A) reprsente bien la probabilit que A survienne : cest le nombre de faces qui provoquent A, divis par le nombre total de faces du d. (ii) Soit (, A) un espace mesurable et . Lapplication
: A A (A) = A ( ) est une mesure de probabilit, appele masse de Dirac en . (iii) Sur un ensemble dnombrable muni de la tribu de ses parties, la mesure est appele mesure de comptage. On remarquera que si A , (A) est le cardinal de A, donc compte le nombre dlments de A. La proposition suivante regroupe quelques proprits importantes des mesures.

Proposition I.4.3. Soit (, A) un espace mesurable et (Ai )iI , I N, une famille nie ou dnombrable densembles mesurables.
13

Chapitre I. Thorie de la mesure

(i) Si A1 A2 , alors (A1 ) (A2 ) (i.e. est croissante). (ii) ( iI Ai ) iI (Ai ) (i.e. est sous-additive). (iii) Si Ai Ai+1 pour tout i, alors ( i Ai ) = limi (Ai ). (iv) Si Ai Ai+1 pour tout i et (Ai0 ) < pour un certain i0 , alors ( limi (Ai ).

i Ai )

A2 \ A1 , et laxiome principal de la dnition I.4.1 dune mesure fournit (A2 ) = (A1 ) + (A2 \ A1 ) (A1 ). (ii) Si I est ni, par exemple I = { 1, 2, 3, . . . , n }, on procde par rcurrence en remarquant que (A1 A2 ) = A1 (A2 \ A1 ) = (A1 ) + (A2 \ A1 ) (A1 ) + (A2 ) , puisque A1 et A2 \ A1 sont disjoints et A2 \ A1 A2 . Si I est inni, on peut supposer I = N. On a alors, pour tout k 0,
0ik

Dmonstration. (i) A2 est la runion disjointe des ensembles mesurables A1 et

Ai

iN

(Ai ) .

En considrant les ensembles croissants Bk = 0ik Ai , le rsultat se dduit de (iii) que nous montrons maintenant. (iii) Soit Bk = Ak+1 \ Ak , k N. Les ensembles Bk sont disjoints, et comme Ai = A0 0ki1 Bk , i N, on a Ai = A0
i k

Bk .

On utilise alors la -additivit pour obtenir


i

Ai

= (A0 ) +
k 0

(Bk ) (Bk )
0k i1

= (A0 ) + lim

= lim (A0 ) +
i i 0k i1

(Bk )

= lim (Ai ) . (iv) Soit i0 tel que (Ai0 ) < . Les Bi = Ai0 \ Ai , i i0 forment une suite croissante et (Ai0 ) = (Bi ) + (Ai ) (Bi ). Ainsi, la suite (Bi ), i i0 , est 14

I.4. Mesures

une suite croissante borne. Donc la limite limi (Bi ) existe et, la premire galit ci-dessous venant de (iii),
i

lim (Bi ) =
ii0

Bi

= Ai0 \
ii0

Ai

= (Ai0 )
ii0

Ai .

Donc
ii0

Ai

= (Ai0 ) lim (Bi ) = lim (Ai0 ) (Bi ) = lim (Ai ) ,


i i i

ce qui dmontre lassertion.

Exemples I.4.4. (i) Soit (, A, ) un espace mesur et A A. Alors A dnie par A (B ) = (A B ) est une mesure sur (, A). On peut bien sr remplacer ici la tribu A par la tribu trace de A sur A compose des ensembles mesurables A B , B A. (ii) Si est une mesure sur (, A) et un rel positif, alors dnie par ()(A) = (A), A A, est une mesure. En particulier si 0 < (A) < , alors A ()/(A) est une probabilit. Cest la probabilit conditionnelle sachant A (cf. chapitre VI).
Comme dans la section prcdente o nous avons tudi le transport de structures par des applications, nous souhaitons pouvoir transporter une mesure dun espace vers un autre.

D enition I.4.5. Soit f une application mesurable dun espace mesur (, A, ) dans un espace mesurable (E, B ). Lapplication f de B dans R+ { } dnie par f (A) = (f 1 (A)) dnit une mesure sur (E, B ), appele mesure image de par f .
Nous laissons au lecteur le soin de vrier que f est bien une mesure. Elle est parfois note f 1 .

Exemple I.4.6. Considrons le jeu de d avec = { 1, 2, 3, 4, 5, 6 } et la probabilit dnie par (A) = card(A)/6. Soit f : { 0, 1 } dnie par f ( ) = 1 si est pair, et 0 si est impair. On vrie que
f ({ 0 }) = f ({ 1 }) = 1/2 , i.e. on a une chance sur deux dobtenir un chire pair en jouant au d. Cet exemple montre simplement que le formalisme utilis nest pas absurde et concide avec lintuition que lon peut avoir du hasard. 15

Chapitre I. Thorie de la mesure

La construction de mesures est un point dlicat. En pratique, la tribu sur peut ne pas tre donne de faon trs explicite (penser par exemple la tribu borlienne sur R) et on ne peut pas vraiment dnir une mesure en spciant sa valeur explicitement pour tout ensemble mesurable. Il est donc souhaitable davoir un procd permettant de dnir une mesure sur une partie de la tribu, puis de ltendre de faon canonique lensemble de la tribu. En particulier, cette extension doit tre unique, ce qui ne peut tre vrai que si la classe densembles de dpart est susamment riche. Un premier pas dans cette direction est donn par la proposition suivante, consquence du thorme des classes monotones. Elle montre que deux mesures concident si elles concident sur une algbre qui engendre la tribu.

Proposition I.4.7. Soient , deux mesures sur (, A). Soit C une algbre qui engendre A. Si et concident sur C , alors elles sont gales.
Dmonstration. Lensemble M = { A A : (A) = (A) } est une classe mono-

tone qui contient C . Puisque C est stable par intersection nie, par le thorme I.3.3 des classes monotones, A M M(C ) = (C ) = A et ainsi M = A. Donc et concident bien partout.

Exemple I.4.8. Sur un espace produit, une mesure est dtermine par sa valeur sur les pavs (voir dnition I.1.9 et I.1.10.i.)
Un deuxime pas nous est fourni par le thorme de prolongement de Carathodory. Une application dnie sur une algbre de Boole C valeurs dans R+ { } est dite additive si () = 0 et si ( 1in Ai ) = 1in (Ai ) pour tous A1 , . . . , An C disjoints.

Th eor` eme I.4.9 (de prolongement). Si est une fonction additive densembles, positive, dnie sur une algbre de Boole C de parties de avec () < , elle se prolonge de faon unique en une mesure sur (, (C )).
La dmonstration de ce thorme est admise. On peut se rfrer Neveu (1964, I.5).

Exemples I.4.10. (i) Sur R, les runions nies dintervalles forment une algbre de Boole C . Dnissons (] a, b ]) = b a et prolongeons par additiv C . Prcisment, si A = 1in ] ai , bi ] avec ] ai , bi ] disjoints,
(A) =
1in

(bi ai ) .

16

I.4. Mesures

Alors est une fonction additive densembles et stend la tribu borlienne sur R. On appelle mesure de Lebesgue cette extension. La mesure de Lebesgue dun intervalle [ a, b ], ] a, b [ ou [ a, b [ est sa longueur b a. On pourrait faire une construction analogue laide de ces dirents intervalles. Plus gnralement, pour une fonction croissante F : I R sur un intervalle I de R, on peut poser F (] a, b ]) = F (b) F (a) ; ceci dnit la famille des mesures dites de Stieltjes. (ii) Soient (i , Ai , i ), i = 1, 2 deux espaces mesurs. Sur (1 2 , A1 A2 ) on dnit la mesure produit par 1 2 (A1 A2 ) = 1 (A1 ) 2 (A2 ) pour Ai Ai , i = 1, 2. Par linarit, on tend la dnition aux ensembles lmentaires au sens de la dnition I.1.9. La mesure produit stend de manire unique la tribu produit par le thorme I.4.9. (iii) Si est la mesure de Lebesgue sur R, on dnit sur Rd (mesure de Lebesgue sur Rd ). Alors coincide avec lextension de la fonction additive densembles dnie dabord sur les pavs par (] a1 , b1 ] ] ad , bd ]) = (b1 a1 ) (bd ad ) , et tendue par additivit aux runions nies de pavs. La mesure de Lebesgue sur R ou Rd a la proprit importante dtre invariante par translation. En eet, si x est un vecteur de Rd , A un borlien de Rd , notons x (A) = { a + x : a A } le translat de A par x. Montrons que pour tout x Rd , et tout A B (Rd ), x (A) = (A) . La classe E= A =] a1 , b1 ] ] ad , bd ] Rd : x Rd , x (A) = (A) est stable par intersection nie et contient tous les pavs. Donc M(E ) = (E ) = B (Rd ) daprs le thorme des classes monotones I.3.3 et la dnition de B (Rd ) (exemple I.1.12.iii). On peut de plus dmontrer que la mesure de Lebesgue est, une constante de proportionnalit prs, lunique mesure invariante par translation sur Rd . (iv) Soit D lensemble des droites du plan. Nous allons construire sur D une mesure analogue la mesure de Lebesgue sur Rd , laquelle nous permettra de mesurer des ensembles de droites du plan.

17

Chapitre I. Thorie de la mesure

Si D est une droite du plan, on la reprera par ses coordonnes polaires. Ainsi, on notera D = D(, p) o p est la distance entre la droite D et lorigine O, est langle entre laxe Ox et la droite perpendiculaire D passant par O. On prendra dans [ 0, 2 [ et p positif ou nul. Soit sur [ 0, 2 [[ 0, [ la mesure de Lebesgue dnie partir des pavs par [ 1 , 2 ] [ p1 , p2 ] = (1 2 )(p1 p2 ) , 0 1 2 2 , 0 p1 p2 < . Cette mesure induit une mesure sur lensemble des droites par (A) = (, p) : D (, p) A . La mesure est donc la mesure image de par lapplication (, p) D (, p). Considrons sur D lensemble des mouvements euclidiens, cest--dire les compositions de translations x et de rotations R dangle autour de lorigine. Notons e( ) le vecteur de coordonnes (cos , sin ) dans R2 , et notons x, y le produit scalaire de deux vecteurs x, y R2 . Observons que x D (, p) = D ( , p ) avec = et p = p + x, e( ) |p + x, e( ) | si p + x, e( ) > 0 . sinon + mod 2 si p + x, e( ) > 0 sinon

On voit donc quune translation x se traduit par un translation sur (, p). Puisque la mesure est invariante par translation modulo 2 , est invariante par x . De mme est invariante par toute rotation R dangle , puisque R D (, p) = D ( + mod 2, p) induit encore une translation sur (, p). On dmontre que la mesure ainsi dnie est, une constante de proportionnalit prs, lunique mesure sur les ensembles de droites qui est invariante par les mouvements euclidiens. Signalons enn la dnition suivante qui sera trs utile pour la suite. 18

Exercices

D enition I.4.11. Soit (, A, ) un espace mesur. On dit quun ensemble A est ngligeable sil existe un ensemble B A tel que A B et (B ) = 0.
On dit quune fonction mesurable f sur (, A, ) vrie une proprit P -presque partout (-p.p.) si lensemble { : f ( ) ne vrie pas P } est ngligeable.

Exemples I.4.12. (i) Soit = { 1, 2, 3 } muni de la tribu de ses parties et dnie par ({ 1 }) = ({ 2 }) = 1 et ({ 3 }) = 0. Soit f la fonction mesurable f (1) = f (2) = 1 et f (3) = 0. Alors f est constante et gale 1 -p.p.
(ii) Soit R muni de la tribu borlienne et de la mesure de Lebesgue . Soit f la fonction f ( ) = 1 si est rationnel, et f ( ) = 0 sinon (i.e. f = Q ). Alors f est gal 0 -p.p. En eet, ({ x }) = 0 pour tout x R et puisque Q est dnombrable, (Q) = 0. De mme, la fonction signe, gale 1 sur ] 0, [, valant 0 lorigine et 1 sur ] , 0 [, est continue -p.p. puisque son seul point de discontinuit est 0 et ({ 0 }) = 0.

Exercices
Exercice I.1. Soit E une partie (xe) dun ensemble , et soit
E = { A P () : A E } . Dterminer lalgbre de Boole engendre par E .

Exercice I.2. Si A1 et A2 sont des tribus sur , on pose


J = { A1 A2 : A1 A1 , A2 A2 } , U = { A1 A2 : A1 A1 , A2 A2 } . Dmontrer que (J ) = (A1 A2 ) = (U ). Exercice I.3. Soit ( = 1 2 , A = A1 A2 ) un espace mesur produit. Si A A, montrer que pour tout 1 1 , la section A1 = { 2 2 : (1 , 2 ) A } est mesurable (lment de A2 ). Indication : considrer M = { A A : A1 A2 } et E la classe des unions nies de pavs. Montrer que E M, que M est une classe monotone, puis conclure laide du thorme des classes monotones. 1 (U ) de la dmonstraExercice I.4. Vrier lgalit f 1(U ) = r,m nm fn r tion du thorme I.2.5. 19

Chapitre I. Thorie de la mesure

Exercice I.5. Si x = (x1 , . . . , xn ) Rn , on note (x) le vecteur x ordonn par ordre croissant, i.e. (x) = (x1,n , . . . , xn,n ), o x1,n = min1in xi et
xi,n = min { xi : 1 i n} \ { xj,n : 1 j i 1 } , 2 i n.

Montrer que est mesurable. Indication : on pourra commencer par montrer que x xi,n est mesurable pour tout 1 i n en considrant les ensembles { xi,n a }, a R.

Exercice I.6. Un exemple densemble non mesurable. Sur R on dnit la relation dquivalence x y si x y Q. En utilisant laxiome du choix (si A est une fonction sur un ensemble I telle que A(x) = pour tout x de I , il existe une fonction f telle que f (x) A(x) pour tout x I ), construire un ensemble A [ 0, 1 [ qui contient exactement un point de chaque classe dquivalence. Supposons A mesurable, et soit = (A) sa mesure de Lebesgue. Montrer que si r, s Q et r = s, alors (A + s) (A + r ) = , o A + x = { y + x : y A }, et que (A + s) = (A). Remarquer que
1 = [ 0, 1 ]
r Q] 1,1 [

(A + r )

[ 1, 2 ] = 3 .

En utilisant la -additivit de , montrer que cette ingalit conduit dune part = 0, dautre part > 0. Conclure. Exercice I.7. Thorme dEgorov. Soit (, A, ) un espace mesur tel que () soit ni ; on considre des applications f , fn , n N, de dans R, telles que fn f -p.p., cest--dire, telles que { : fn ( ) f ( ) } = 0 . a) Pour n N et > 0, soit Gn, = { : |fn ( ) f ( )| } et En, = mn Gm, . Dmontrer que pour tout > 0,
n mn

Gm, = 0

et en dduire que limn (En, ) = 0. c) Dduire de la question prcdente que pour tous , > 0, il existe n0 N et B, A tels que (B, ) et pour tout \ B, et tout n n0 , |fn ( ) f ( )| . d) Soit > 0 ; pour tout entier p 1, on pose p = 1/p, p = /2p , Ap = Bp ,p et A = p1 Ap . Dmontrer que (A) et que fn f uniformment sur \ A. 20

Exercices

Exercice I.8. Soit (, A, ) un espace mesur. Une partie N est dite -ngligeable si elle est contenue dans un ensemble mesurable A tel que (A) = 0. La tribu B est dite complte pour si elle contient tous les ensembles ngligeables. Si N dsigne lensemble des parties -ngligeables, soit
A = { A N ; A A , N N } . Montrer que A est une tribu, appele la tribu -complte de A. Exercice I.9. Soient X et Y deux espaces topologiques munis respectivement des tribus borliennes BX et BY , une mesure sur BX , et f : X Y une fonction continue -p.p., cest--dire telle que lensemble N = {x X : f discontinue en x} soit -ngligeable. Dmontrer que f est mesurable de (X, B X ) dans (Y, BY ) o B X est la tribu complte de BX par rapport . Indication : Pour tout ouvert O de Y , on construira un ouvert V de X tel que f 1 (O) (X \ N ) V f 1 (O) , et on montrera qualors f 1 (O) = V (f 1 (O) N ).

21

II
INTGRATION

Dans tout ce chapitre, nous considrons des fonctions dun espace mesur (, A, ) valeurs dans R muni de sa tribu borlienne B (R). Ces fonctions seront appeles borliennes sur (, A, ). Les thormes importants de la thorie de lintgration sont le thorme de convergence monotone et le thorme de convergence domine de Lebesgue. De faon grossire, on veut que si une suite croissante de fonctions positives fn converge simplement, alors la limite des intgrales de fn est lintgrale de la limite des fn . Cette ncessit conduit naturellement prendre une dnition de lintgrale utilisant lapproximation des fonctions par des limites croissantes. Mais lon veut aussi que lintgrale concide avec ce que lintuition attend lorsque lon intgre des fonctions tages.

II.1. Intgrale de fonctions positives


D enition II.1.1. Si A A, la fonction indicatrice de A, f ( ) = A ( ), est mesurable. Son intgrale par rapport , note f d ou f ( ) d( ), est dnie comme tant (A).
Plus gnralement, si B A, lintgrale de f = A sur B par rapport , note B f d ou B f ( ) d( ), est dnie par (A B ), ou, de faon quivalente, par B f d. En particulier, si A = B (R), en prenant la mesure de Lebesgue et A =] a, b ], nous obtenons A d = b a. Cest donc la longueur de lintervalle. Cette

Chapitre II. Intgration

dnition de lintgrale concide, sur les intervalles, avec lintgrale de Riemann, b puisque, au sens de Riemann, R A (x) dx = a 1 dx = b a. Maintenant, si A = P (N), si est la mesure de comptage sur N, et A N, alors A d = card(A). Lun des avantages de la dnition de lintgrale de Lebesgue est de traiter de la mme faon des exemples aussi dirents que la mesure de Lebesgue et la mesure de comptage. Nous savons maintenant intgrer les fonctions indicatrices densembles mesurables, ce qui est bien peu ! Nous souhaitons que lintgrale soit linaire (i.e. (f + g) d = f d + g d), ce qui conduit tendre la dnition par linarit.

D enition II.1.2. Si f est tage positive, f ( ) = mesurables disjoints, on pose


f d =
B 1in

1in ai Ai ( )

avec les Ai

ai (Ai B ) =
1in

ai
B

Ai d .

Le lecteur peut alors vrier que la valeur de lintgrale B f d ne dpend pas de la dcomposition de f en somme dindicatrices et en dduire la linarit de lintgrale sur les fonctions tages positives. Nous pouvons tendre la dnition de lintgrale aux fonctions positives.

D enition II.1.3. Soit f une fonction mesurable positive dnie sur (, A, ). On dnit et note son intgrale par rapport sur lensemble mesurable B par
f d =
B B f

f ( ) d( ) = sup
B

g d : g tage positive, g f f d .

Lintgrale sur est note

d =

Observons que lintgrale dune fonction positive peut tre innie. Montrons que cette construction de lintgrale dune fonction positive ralise ce que lon en attend.

Proposition II.1.4. (i) Si 0 f g alors 0


(ii) Si A B et f 0, alors 24
A

f d

g d .

f d

f d .

II.2. Intgrale de fonctions quelconques et thormes de convergence

(iii) Si f 0 et c 0, alors (iv)


B (f

cf d = c
B

f d .

+ g ) d =

f d +

g d .

(v) Si f = 0 alors (vii) Si f 0, alors

f d = 0.
B

(vi) Si (B ) = 0, alors
B

f d = 0.

B f d. (viii) Si f 0 et B f d = 0, alors B f = 0 -p.p.


f d = Ces proprits sont encore vraies si les hypothses sur f (et g) ont seulement lieu -presque partout.
Dmonstration. Commencer par tablir les assertions (i)(vii) sur les fonctions tages, puis passer au supremum pour les fonctions positives. Dmontrons par exemple, suivant ce schma, (iii). Remarquons que si f = 1in ai Ai alors

cf d =
B 1in

cai (B Ai ) = c
1in

ai (B Ai ) = c
B

f d .

Montrons maintenant (viii). Quitte remplacer f par B f , il sut de montrer le rsultat pour B = . Considrons la suite croissante densembles An = { : f ( ) > 1/n } , On vrie que n 1.

An n1 f . Donc, daprs (i) et (iii),


(An ) =

A n d n

f d = 0 .

Lgalit { f > 0 } = n1 An et la proposition I.4.3.iii montrent alors que lensemble { : f ( ) > 0} est de -mesure nulle. Puisque f 0, on en dduit que f = 0 -p.p.

II.2. Intgrale de fonctions quelconques et thormes de convergence


Le thorme suivant est dun intrt considrable. Ses nombreuses applications justient pleinement lintrt de la thorie de lintgrale de Lebesgue. Il permet en particulier dtendre la dnition de lintgrale des fonctions positives aux fonctions de signe quelconque. 25

Chapitre II. Intgration

Th eor` eme II.2.1 (de convergence monotone). Soit (fn )nN une suite croissante de fonctions mesurables positives sur (, A, ), convergeant ponctuellement vers f . Alors f est mesurable et
n

lim

fn d =

f d .

Dmonstration. La fonction f est mesurable en vertu du thorme I.2.5. Puisque

fn est croissante et positive, fn d est croissante et positive daprs II.1.4.i, donc admet une limite 0 (ventuellement = +). Puisque fn f , II.1.4.i montre aussi que f d. Soit une fonction tage g = 1j m bj Bj telle que 0 g f . Soit 0 c < 1. Notons { fn cg} = { : fn ( ) cg( ) }. Alors, fn d

{fn cg} fn d c

g {fn cg} d = c
1j m

bj Bj { fn cg }

daprs II.1.4.iiii et la dnition de lintgrale sur les fonctions tages. Donc, quand n , c
1im

bj lim Bj { fn cg } = c
n 1im

bj (Bj ) = c

g d ,

la seconde galit rsultant de I.4.3.iii et du fait que n { fn cg } = . Or c tant arbitraire dans [ 0, 1 [, on obtient g d, ceci pour toute fonction tage 0 g f . Par dnition de lintgrale f d, on en dduit f d. Ainsi = f d et le thorme est dmontr. Le rsultat suivant est un exemple dapplication du thorme de convergence monotone.

Corollaire II.2.2. Soit (fn )nN une suite de fonctions mesurables positives et soit f = nN fn . Alors f d = nN fn d.
est croissante et converge simplement vers f . Le thorme II.2.1 implique limn gn d = limn gn d, ce qui est le rsultat.
0mn fm

Dmonstration. La suite gn =

Corollaire II.2.3 (Lemme de Fatou). Soit (fn )nN une suite de fonctions mesurables positives. Alors
lim inf fn d lim inf
n n

fn d .

26

II.2. Intgrale de fonctions quelconques et thormes de convergence Dmonstration. Soit gn = inf mn fm . La suite gn est croissante, converge simplement vers lim inf n fn , et de plus gn fn . Il sut alors dappliquer le thorme II.2.1 et dutiliser la proposition II.1.4.i.

Nous tendons maintenant lintgrale des fonctions positives aux fonctions de signe quelconque. Pour cela, si f est une fonction, on note f + = f 0 sa partie positive et f = (f 0) sa partie ngative, ce qui assure que f = f + f et |f | = f + + f . Les fonctions f + et f sont borliennes si f lest.

D enition II.2.4. Soit f = f + f une fonction mesurable. On dit que f est -intgrable sur B si B |f | d < . Si f est -intgrable sur B , on dnit et crit son intgrale par rapport sur B par B f d = B f + d B f d.
Si B = , on dit que f est -intgrable, et note contexte est clair on dit aussi que f est intgrable. f d =
f

d. Si le

Alors que lintgrale dune fonction positive est toujours dnie, ventuellement innie, nous convenons ici quune fonction de signe quelconque est intgrable si et seulement |f | d < . Il est ais de vrier que si f est intgrable et B A, alors B f d = B f d.

Exemple II.2.5. On vrie sans peine que si (, A) est un espace mesurable et f est une fonction mesurable valeurs dans (R, B (R)), alors pour tout , f est intgrable par rapport la masse de Dirac (cf. I.4.2.ii) et f d = f ( ). Plus gnralement, si = 1in ai i , ai 0, i , alors f d = 1in ai f (i ).
Par convergence monotone, les proprits essentielles de lintgrale sur les fonctions positives stendent lintgrale des fonctions de signe quelconque.

Proposition II.2.6. Si f et g sont intgrables et si , R, alors


(f + g) d = De plus, si f g alors f d g d . f d + g d .

position I.2.7, il existe des suites fn et gn , n N, de fonctions tages positives qui convergent en croissant vers f et g respectivement. Alors la suite fn + gn converge en croissant vers f + g, et le rsultat, dans ce cas, se dduit du thorme de convergence monotone. En gnral, on spare parties positive et ngative et on distingue selon les signes de et .

Dmonstration. Supposons dabord f, g 0 ainsi que , 0. Daprs la pro-

27

Chapitre II. Intgration

Si f g, alors f g 0. Donc (f g) d 0 daprs la proposition II.1.4.i, et la conclusion sensuit par linarit. Lnonc suivant est une forme gnralise du lemme de Fatou.

Corollaire II.2.7. Soit g une fonction intgrable et soit (fn )nN une suite de fonctions intgrables. (i) Si g fn , alors lim inf n fn d lim inf n fn d. (ii) Si fn g, alors lim supn fn d lim supn fn d.
Dmonstration. (i) Daprs le lemme de Fatou (corollaire II.2.3), on a

lim inf (fn g) d lim inf


n n

(fn g) d

ce qui dmontre (i) par linarit de lintgrale. (ii) De mme, le corollaire II.2.3 donne lim inf (g fn ) d lim inf
n n

(g fn ) d .

Le rsultat suivant est encore un corollaire du thorme de convergence monotone, mais nous lui attribuons la valeur dun thorme compte tenu de son importance.

Th eor` eme II.2.8 (de convergence domin ee de Lebesgue). Soit (fn )nN une suite de fonctions telles que |fn | g o g est intgrable et fn converge simplement vers f . Alors f est intgrable et
n

lim

fn d =

f d .

|g| = g est intgrable. Puisque limn fn = f , et g fn g, le corollaire II.2.7 fournit lim sup
n

Dmonstration. Lintgrabilit de f vient de ce que ncessairement |f | g et

fn d = =

lim sup fn d
n

f d lim inf fn d
n n

lim inf 28

fn d .

II.2. Intgrale de fonctions quelconques et thormes de convergence

On peut vrier simplement que, dans les thormes de convergence monotone et de convergence domine, la convergence simple de fn vers f peut tre remplace par la convergence -presque partout (i.e. fn ( ) f ( ) pour tout en dehors dun ensemble de mesure nulle pour ).

Exemple II.2.9. Soit Ai , i 1, des ensembles mesurables disjoints, et soit g une fonction intgrable. Alors i1 Ai g d = i1 Ai g d. En eet, la suite de fonctions fn = 1in Ai g converge simplement vers f = i1 Ai g et chaque fonction |fn | est majore par la fonction intgrable |g|. Le thorme de convergence domine II.2.8 montre que
g d =
Ui1 Ai

f d = lim

fn d = lim

g d .
1in Ai

Lingalit suivante est trs importante pour les applications. Elle ne concerne que les mesures de probabilit.

Th eor` eme II.2.10 (In egalit e de Jensen). Si est une fonction convexe de R dans R, et si f est une fonction borlienne telle que f et (f ) sont intgrables par rapport une mesure de probabilit , alors
f d (f ) d .

Dmonstration. La convexit de assure quen tout point le graphe de est au-dessus de sa tangente. Donc pour tout t R, il existe tel que (x) (t) + (x t) pour tout x (on peut prendre pour la drive gauche ou droite de en t). Appliquons cette ingalit t = f d et x = f ( ) pour tout , et intgrons les deux membres. La conclusion sensuit puisque lintgrale conserve le sens des ingalits (cf. proposition II.2.6).

La dmonstration de lingalit de Jensen montre que si est strictement convexe, lgalit ( f d) = (f ) d na lieu que si f est -presque partout constante. De plus, si lgalit a lieu pour toute fonction f , alors la fonction est linaire. Dans le cas de la mesure de Lebesgue, mentionnons que lintgrale construite tend celle de Riemann et donc quen pratique le calcul dune intgrale seectue laide des techniques usuelles (calcul de primitives, changement de variables, intgration par parties). En eet, rappelons quune fonction f est Riemann intgrable sur un intervalle ferm born [ a, b ] si pour tout > 0 il existe des fonctions en 29

Chapitre II. Intgration

escalier g et h avec g f h et a (h g)(x) dx . Soit la mesure de Lebesgue (cf. I.4.10.i). Pour les fonctions en escalier g et h, par dnition des intgrales de b b Riemann et de Lebesgue, a g(x) dx = [a,b] g d et a h(x) dx = [a,b] h d. Donc
b

g(x) dx =
a b [a,b]

g d
[a,b]

f d
[a,b]

h d =
a

h(x) dx

et ainsi [a,b] f d = a f (x) dx. Labus usuel de notation confond alors les notations d et dx. La construction de lintgrale donne ici est plus gnrale, dune part parce que lon peut intgrer par rapport dautres mesures que celle de Lebesgue et sur dautres espaces que R ou Rd , dautre part, parce que mme sur R, il existe des fonctions Lebesgue-intgrables (i.e. intgrables au sens de ce chapitre) qui ne sont pas Riemann intgrables (cf. exercice II.1).

II.3. Thorme de Radon-Nikodym


tant donne une mesure sur un espace, nous avons vu que lon peut ventuellement construire de nouvelles mesures en considrant les mesures images (cf. I.4.5). Nous considrons ici une nouvelle faon dengendrer des mesures. Intuitivement, une barre dun matriau homogne a un poids proportionnel sa longueur, et la masse des intervalles de cette barre dnit une mesure proportionnelle la mesure de Lebesgue. La proposition ci-dessous revient peu prs considrer la masse dune barre non homogne. Dans ce paragraphe, toutes les mesures sont supposes -nies.

Proposition II.3.1. Soit f une fonction mesurable, positive et intgrable sur un espace mesur (, A, ). La fonction densembles , dnie sur A par (A) = A f d, A A, est une mesure. De plus, si (A) = 0, alors (A) = 0. Enn, si g est positive, g d = gf d. De plus, g est -intgrable si et seulement si gf est -intgrable et dans ce cas, g d = gf d.
Dmonstration. Lexemple II.2.9 montre que la fonction densembles est

-additive : si les Ai , i 1, sont mesurables et disjoints, (Ai ) =


i1 i1 Ai

f d =
i1

f d =
Ai i1

Ai .
Af

Si (A) = 0, la proposition II.1.4.v montre que (A) = 30

d = 0.

II.3. Thorme de Radon-Nikodym

Le dernier point rsulte du schma gnral de construction de lintgrale. Si g est tage positive, il est clair par construction que g d = gf d. Si g est positive, on conclut en lapproximant par des fonctions tages. Enn, pour g intgrable, on conclut en sparant parties positive et ngative, et en utilisant la construction de lintgrale. La proposition prcdente dcrit en fait un phnomne gnral.

D enition II.3.2. Soient deux mesures et dnies sur un espace mesurable (, A).
(i) On dit que est absolument continue par rapport si tout ensemble de mesure nulle pour est de mesure nulle pour (i.e. (A) = 0 (A) = 0). On note alors . De plus, si et , on dit que et sont quivalentes. (ii) On dit que et sont trangres sil existe A A tel que (A) = 0 et (Ac ) = 0.

La proposition II.3.1 founit une classe de mesures absolument continues par rapport . Le thorme suivant, appel thorme de Radon-Nikodym, montre que cest la situation gnrale.

Th eor` eme II.3.3 (de Radon-Nikodym). Si et sont deux mesures -nies, telles que , alors il existe une fonction mesurable positive f telle que (A) = f d pour tout ensemble mesurable A. La fonction f est appele la densit de A par rapport , note f = d . d
Dmonstration. Voir par exemple Neveu (1964), Rudin (1975) ou Malliavin

(1982).

Th eor` eme II.3.4. Soient , deux mesures -nies sur (, A). Alors il existe une et trangre par rapport . unique dcomposition = ac + avec ac La mesure ac est appele la partie absolument continue de par rapport et la partie trangre de par rapport .
Dmonstration. On se reportera par exemple Neveu (1964), Rudin (1975) ou

Malliavin (1982). 31

Chapitre II. Intgration

II.4. Intgration par rapport une mesure image


Nous avons dni les mesures images (cf. I.4.5). Rappelons que si f est une fonction mesurable de (, A, ) dans (E, B ), on note f la mesure sur B dnie par f (B ) = (f 1 (B )). En pratique, lintgrale par rapport une mesure image seectue laide du thorme suivant, qui est une formulation abstraite de la formule classique du changement de variable.

Th eor` eme II.4.1 (de transport). Soit f une application mesurable de (, A, ) dans (E, B ), et soit une fonction borlienne de E dans R. Alors si est valeurs positives,
d f =
E

f d .

Si est valeurs quelconques, est f -intgrable si et seulement si f est -intgrable et, dans ce cas, lidentit prcdente est encore satisfaite. = B pour un B B ,
E

Dmonstration. Elle rpte le schma gnral de construction de lintgrale. Si

B df = f (B ) = f 1 (B ) = { : f ( ) B }
=

B f ( ) d( )

et la formule est vraie dans ce cas. Si est tage, la formule est valide par linarit (par rapport ). Si est positive, soit (n )nN une suite de fonctions tages positives convergeant en croissant vers (I.2.7). Alors fn est tage et converge simplement en croissant vers f . En utilisant le thorme de convergence monotone (II.2.1), la fois pour la mesure et la mesure f , df = lim
E n E

n df = lim

n f d =

f d .

Dans le cas gnral, remarquons que || df =


E

| f | d

et donc f est -intgrable si et seulement si est f intgrable. En posant = + , on conclut que d f =


E E

+ df
E

df f d =

f d
+

f d .

Le thorme est tabli. 32

II.4. Intgration par rapport une mesure image

Exemple II.4.2. Continuons lexemple I.4.10.iv en valuant la mesure de lensemble des droites qui coupent un segment S de longueur l donne, i.e.
{D : D S = } . Puisque est invariante par les mouvements euclidiens, ou peut supposer que S est sur laxe Ox, lune de ses extrmits tant lorigine. Alors {D : D S = } = =
0 0 /2 0

{DS =} d (D) (dnition II.1.1 de lintgrale)


2

{D(,p)S =} dp d

(par transport)

=2
0

{0pl cos } dp d

= 2l . Supposons maintenant que nous disposons de k segments S1 , . . ., Sk , et posons S = 1ik Si . Soit card(D S ) le nombre de points dintersection de D avec S . Alors 1 1 card(D S ) d (D ) = DSi d (D) 2 2
1ik

1 = 2

{ D : D Si = }
1ik

est la somme des longueurs des segments. Enn, si nous avons une courbe C rgulire (i.e. une courbe paramtre (t) = (x(t), y (t)), 0 t 1, avec x, y drivables), celle-ci peut sapproximer par des segments. En utilisant le thorme de convergence domine, on peut montrer que 1 card(D C ) d (D ) = longueur de C . 2 Ce rsultat, loin dtre une abstraction, est tout fait concret et utile. Il permet par exemple de mesurer la longueur dune chane plane de molcules. Pour cela, il sut de remarquer que 1 2 card(D C ) d (D ) = 1 2
2 0 0 c

card D (, p) C dp d ,

o c est un majorant du diamtre de C (i.e. de sup0s,t1 |(s) (t)|) et en supposant que C est translat de sorte que (0) = 0 par exemple. En approximant lintgrale par une somme de Riemann, on voit que pour une subdivision 33

Chapitre II. Intgration

0 = p0 < p1 < < pn de [ 0, c ] et 0 = 0 < 1 < < m = 2 1 2 card(D C ) d (D ) 1 2 (i i1 )


1im 1j n

(pj pj 1 )card D (i , pj ) C .

Lorsque pj pj 1 = est constant, observons que (pj pj 1 )card(D (i , pj ) C )


1j n

est fois le nombre dintersections entre C et un rseau de droites parallles quidistantes de . On se rend compte assez facilement sur un dessin que pour une courbe assez tortueuse, m = 8 (et i i1 = /4) donnera une trs bonne approximation pourvu que c soit assez petit. Implmentons ceci pour mesurer la longueur de la courbe ferme ci-dessous (dans le carr unit).

Prenons pj pj 1 = 1/20 ce qui conduit considrer un rseau de droites espaces de 0, 05. Prenons aussi i i1 = /4. Alors la longueur de la courbe est peu prs 1 132 + 74 + 146 + 114 9,1 . l 24 20

34

II.5. Thormes de Fubini-Tonelli

II.5. Thormes de Fubini-Tonelli


Soient (1 , A1 , 1 ) et (2 , A2 , 2 ) deux espaces mesurs pour des mesures 1 et 2 -nies. Considrons lespace produit = 1 2 muni de la tribu produit A = A1 A2 et de la mesure produit = 1 2 (cf. I.4.10.ii). Si A A, on peut montrer (exercice I.3) que les sections A1 = 2 2 : (1 , 2 ) A et A2 = 1 1 : (1 , 2 ) A

sont mesurables (i.e. A1 A2 et A2 A1 ). De plus

(A) =
1

2 (A1 ) d1 (1 ) =

1 (A2 ) d2 (2 ) ,

(1)

ce qui peut tre rcrit

(A) =
1 2

A (1 , 2 ) d2 (2 ) d1 (1 ) A (1 , 2 ) d1 (1 ) d2 (2 ) .

=
2 1

En eet, soit

M=

A A : (A) =
1

2 (A1 ) d(1 ) =

1 (A2 ) d(2 )

et soit E la classe des pavs de la forme A1 A2 , A1 A1 , A2 A2 . On vrie facilement que M est une classe monotone qui contient E . Donc, en utilisant le thorme des classes monotones I.3.3 et la dnition I.1.9 de la tribu produit, A M M(E ) = (E ) = A, ce qui dmontre (1). Autrement dit, on peut dans ce cas permuter lordre dintgration. La construction de lintgrale montre que cette permutation reste licite lorsquon intgre des fonctions valeurs positives. Cest le thorme de Fubini-Tonelli. Le thorme de Fubini tend ce fait aux fonctions -intgrables. 35

Chapitre II. Intgration

Th eor` eme II.5.1 (de Fubini). Soit f A-mesurable et -intgrable. Alors,


f d =
1 2

une

fonction

relle,

dnie

sur

f (1 , 2 ) d2 (2 ) f (1 , 2 ) d1 (1 )

d1 (1 ) d2 (2 ) .

=
2 1

Dmonstration. Daprs la remarque prcdant le thorme, les galits sont satisfaites lorsque f est positive. On tend les galits aux fonctions intgrables en sparant parties positive et ngative et en utilisant la linarit de lintgrale.

Dans la pratique, pour vrier quune fonction f est intgrable par rapport une mesure produit = 1 2 , on value |f | d par permutation des intgrales. Si |f | d est nie, on est alors en droit dutiliser le thorme de Fubini pour le calcul de f d. Des exemples simples montrent en outre que la permutation de lordre dintgration peut tre en dfaut si f nest pas intgrable pour la mesure produit .

II.6. Espaces Lp
Nous avons dni la classe des fonctions intgrables ( valeurs dans R) sur un espace mesur (, A, ), quil est dusage de noter L1 (, A, ). Pour 0 < p < , on note Lp (, A, ) (ou simplement Lp si le contexte est clair) lensemble des fonctions relles de puissance p-ime intgrable, cest--dire lensemble des fonctions f mesurables de dans R, telles que |f |p d < . L0 est dni simplement comme tant lensemble des fonctions mesurables de (, A, ) dans R. On dnit L comme tant lensemble des fonctions mesurables f de (, A, ) dans R telles quil existe c > 0 avec ({ : |f ( )| > c }) = 0 . Cest lensemble des fonctions (mesurables) -essentiellement bornes. Si f Lp , 0 < p < , on pose f Pour f L , on pose f
p

|f |p d

1/p

= inf c > 0 : : |f ( )| > c

=0 ,

qui est appel le supremum essentiel, ou la borne essentielle, de f . 36

II.6. Espaces Lp

D enition II.6.1. Deux rels p, q 1 sont conjugus si p1 + q 1 = 1. On convient que 1 et sont conjugus. Th eor` eme II.6.2 (In egalit e de H older). Soient p et q conjugus, 1 p , et f Lp , g Lq . Alors f g L1 et
fg
1

Dmonstration. Si p = 1 ou p = lingalit est vidente. Si f p g q = 0, alors f g = 0 -p.p. et lingalit de Hlder est triviale. Supposons donc f p g q = 0. Par homognit, on peut supposer que g q = 1. Il sut donc de dmontrer que
p

|f g| d

|f |p d .

Soit alors la mesure de probabilit de densit |g|q par rapport . Lingalit tablir devient alors |f ||g|
1q p

|f |p |g|q d

qui est une consquence de lingalit de Jensen pour la fonction convexe (x) = xp (thorme II.2.10), car (1 q )p = q . (En toute rigueur, an dassurer lhypothse dintgrabilit, il conviendrait de travailler avec |f | |g|1q n, n 1, en lieu et place de |f | |g|1q , et de conclure avec le thorme de convergence monotone.)

Th eor` eme II.6.3 (In egalit e de Minkowski). Soit p 1. Si f , g sont dans Lp , alors p f + g est aussi dans L et
f +g
p

+ g

Dmonstration. Remarquons que p et p/(p 1) sont conjugus. En utilisant lin-

galit triangulaire puis lingalit de Hlder, f +g


p p

= =

|f + g|p d |f ||f + g|p1 + |g||f + g|p1 d f f


p p

+ g + g

p p

|f + g|p1 f +g
p 1 . p

p/(p1)

Cest le rsultat si f + g

= 0. Lingalit est triviale si f + g

= 0. 37

Chapitre II. Intgration

De lingalit de Minkowski, on dduit que p est une semi-norme sur lespace Lp (en eet f p = 0 nimplique pas f = 0 mais seulement f = 0 -p.p. cf. II.1.4.viii). Notons Lp = Lp (, A, ) le quotient de lespace Lp par la relation dquivalence f = g -p.p. Autrement dit, un lment f de Lp sidentie un reprsentant de la classe de tous les lments g de Lp tels que f = g -p.p. Alors (Lp , p ) est un espace vectoriel norm. Pour les noncs suivants nous supposerons que la mesure est -nie.

Th eor` eme II.6.4. Pour tout p 1, lespace Lp est complet.


Nous dmontrerons ce thorme la n de la section V.3.

Th eor` eme II.6.5. Pour p et q conjugus et 1 p < , le dual de lespace Lp est q L . En dautres termes, les formes linaires continues sur Lp sont les fonctions de la forme f Lp f g d R pour g Lq . La norme dune telle forme linaire est donne par lgalit f p = sup{ f g d : g q 1 }.
Si g Lq , lapplication f f g d dnie sur Lp est linaire et continue daprs lingalit de Hlder. Il convient donc de montrer que toute forme linaire continue sur Lp est ncessairement de cette forme. Soit une telle forme linaire, et posons (A) = (A ). On vrie que est additive (i.e. (A B ) = (A)+ (B ) si A B = ), et mme est une mesure. Si (A) = 0, alors A = 0 (dans Lp ) et (A) = 0, ce qui montre que est absolument continue par rapport . Daprs le thorme de Radon-Nikodym II.3.3, on a donc (A) = d f g d sur L . Pour (A ) = gA d pour g = d . Par linarit, (f ) = q montrer que g L , crivons g = h|g| o |h| = 1 et h est mesurable. Alors
Dmonstration esquisse.

|g|q [0,n] (|g|) d =

|g|q1 [0,n] (|g|)hg d |g|q1 [0,n] (|g|) g [0,n] (|g|)


q/p q

= |g|q1 [0,n] (|g|)h


p

et donc |g| [0,n] (|g|) q . En passant la limite lorsque n tend vers linni, g q < . Il reste montrer que si les formes linaires f f g d et concident sur L , alors elles concident sur Lp . Lorsque () < , on montre que tout espace Lp est dense dans tout espace Lr et donc que deux formes linaires continues concidant sur L concident sur Lp . Si () = , on utilise la -nitude de la mesure et on partitionne lespace pour se ramener au cas ni. La dernire armation dcoule du thorme de Hahn-Banach sur les duaux. 38

Exercices

On prendra garde au fait suivant : L est le dual de L1 , mais le dual de L1 nest pas (en gnral) L (voir exercice II.7). De ce qui prcde nous dduisons le rsultat suivant qui permet dutiliser des arguments gomtriques dans les espaces L2 (, A, ).

Th eor` eme II.6.6. Lespace L2 (, A, ) est un espace de Hilbert pour le produit scalaire f, g = f g d.

Exercices
Exercice II.1. Un exemple de fonction Lebesgue intgrable qui nest pas Riemann intgrable : f (x) = Q[0,1] (x), x [ 0, 1 ]. Montrer que f d = 0 mais que f nest pas Riemann intgrable sur [ 0, 1 ]. Exercice II.2. Soit (, A, ) un espace mesur, et soient A et B deux lments de A. Examiner le lemme de Fatou sur lexemple suivant : f2n = A , f2n+1 = B . Exercice II.3. Soit une mesure de probabilit sur I = [ 0, 1 ]. On note
m=
I

x d(x) , x2 d(x) m2 ,
I

v=
I

(x m)2 d(x) , 1 m 2
2

a=

b=

+
I

x(1 x) d(x) .

Exprimer v et b en fonction de a. En dduire que a 1/4 et que a = 1/4 pour une unique mesure que lon dterminera.

Exercice II.4. Soit (, A, ) un espace mesur, f , fn , n N, des fonctions mesurables positives intgrables. On suppose que
fn f -p.p. et
n

lim

fn d =

f d .

En utilisant lingalit (f fn )+ f , dmontrer que limn (f fn )+ d = 0. En dduire que fn f dans L1 (). Exercice II.5. Soit C K (R ) lensemble des fonctions sur R , inniment direntiables, support compact. Montrer que si A est intervalle ouvert, alors A est limite simple de fonctions dans C K (R ), majores par 1. Indication : on pourra dabord considrer lintervalle [ 0, 1 ] et les fonctions exp(/x(1 x)) si x ] 0, 1 [ et 0 si x ] 0, 1 [. En dduire que (C K (R )) = B (R ) et quune mesure est caractrise par la donne de f d pour toute fonction f C K (R ). 39

Chapitre II. Intgration

Exercice II.6. Si 1
plus 2 1 , alors

3 , montrer que

d 2 d 1 1 = , 1 -p.p. et 2 -p.p. d 1 d 2 Exercice II.7. Cet exercice montre que le dual topologique de L ([ 0, 1 ], B ([ 0, 1 ]), ) = L nest pas L1 ([ 0, 1 ], B ([ 0, 1 ]), ) = L1 . En eet, C [ 0, 1 ] L (L1 ) o dsigne le dual. La masse de Dirac 0 est dans le dual de C [ 0, 1 ] par la dualit 0 , f = f d0 = f (0). De plus la norme de 0 C [ 0, 1 ] est 1. Par le thorme de Hahn-Banach, montrer que lon peut prolonger 0 en une forme linaire sur L , de norme 1. Prouver que nest pas dans L1 . Exercice II.8. Soit L1 ([ 0, 1 ], ) lespace des fonctions relles intgrables pour la mesure de Lebesgue sur [ 0, 1 ]. On considre la suite de fonctions an (t) = 2 + sin(nt) , t R, n N.

d 1 d 1 d 2 = , 3 -p.p. Si de d 3 d 2 d 3

a) Dmontrer que pour toute fonction f de L1 ([ 0, 1 ], ), on a


n [ 0,1 ]

lim

f (t)an (t) d(t) = 2


[ 0,1 ]

f (t) d(t) .

Indication : Utiliser la densit des fonctions de classe C1 dans L1 ([ 0, 1 ], ) et intgrer par parties. b) Dmontrer que pour toute fonction f de L1 ([ 0, 1 ], ), on a
n [0,1] 2

lim

f (t) d(t) = an (t)

f (t) d(t)
[0,1]

o = (2 )1 0 (2 + sin u)1 du. Indication : Utiliser la densit des fonctions en escalier dans L1 ([ 0, 1 ], ). c) Prouver que = 1/2. Exercice II.9. Sur un espace mesur (, A, ), soient f et g deux fonctions intgrables positives ou nulles telles que f d = g d = 1. On dnit les mesures (de probabilit) P et Q de densits f et g par rapport . Si P Q dsigne la distance en variation totale dnie par P Q = sup P (A) Q(A) ,
AA

dmontrer que P Q = 1 2 |f g| d .

40

III
MESURES DE PROBABILIT

Dans ce chapitre, nous dnissons les notions de base des probabilits, savoir, ce que sont une mesure de probabilit et une variable alatoire. Il ne faut pas perdre de vue que les mathmatiques ne proposent au mieux quun modle de certains mcanismes rels. La dnition mathmatique dune variable alatoire est choquante premire vue, puisque nous verrons quil ny a absolument rien dalatoire et de variable dans cette dnition ! Mais lusage, nous verrons que le calcul des probabilits que lon peut dvelopper partir de cette dnition concide avec lintuition que lon peut avoir en observant des phnomnes qualis dalatoires. Laxiomatique que nous prsentons ici est essentiellement due Kolmogorov (19031987). Cest la plus communment utilise. Ce nest pas la seule possible. Il en existe de nombreuses autres et lon pourra utilement consulter louvrage de Fine (1973) ce propos.

III.1. Dnition et exemples


Lobjet de cette section est de transcrire une partie des notions introduites dans les chapitres prcdents en termes probabilistes, dnissant ainsi les notions fondamentales du calcul des probabilits. Nous commenons par dnir ce quest une probabilit.

D enition III.1.1. Soit (, A) un espace mesurable. On appelle probabilit (ou mesure de probabilit) sur (, A) toute mesure positive P sur A telle que P () = 1. On dit que (, A, P ) est un espace probabilis. On dit aussi que P est une loi de probabilit, ou simplement une loi.

Chapitre III. Mesures de probabilit

En particulier, si est une mesure sur (, A) avec 0 < () < , on voit que P = /() est une probabilit. Si P est une probabilit, observons que P est valeurs dans [ 0, 1 ] puisque pour tout ensemble A mesurable, P (A) P () = 1. De plus, P () = 0. Donnons prsent quelques exemples de mesures de probabilit. Lappendice donne un inventaire des mesures de probabilit usuelles et de leurs caractristiques principales.

Exemples III.1.2. (i) Soit (, A) un espace mesurable. La masse de Dirac x en x est la probabilit dnie par x (A) = 1 si x A et 0 si x A. En dautres termes, x (A) = A (x). (ii) Soit = { 1, 2, 3, 4, 5, 6 } muni de la tribu de ses parties et de la mesure P =1 1i6 i , proportionnelle la mesure de comptage. Cette mesure est une 6 probabilit. Cette probabilit sert modliser le jet dun d. Intuitivement, si A P (), P (A) est la probabilit que le jet du d donne un chire appartenant lensemble A. Comme on lattend intuitivement, P ({ i }) = 1/6 pour tout i et, par exemple, la probabilit de tirer un chire pair est P ({ 2, 4, 6 }) = 1/2. (iii) Soit 0 p 1. La mesure de probabilit P = p 1 + (1 p) 0 est appel probabilit ou loi de Bernoulli de paramtre (de succs) p. Plus gnralement, toute mesure de probabilit concentre en deux points distincts sera appele probabilit de Bernoulli. Lorsque p = 1/2, elle est utilise par exemple pour modliser le jet dune pice dans un jeu de pile ou face quilibr. En eet, en comptant 0 pour pile et 1 pour face, elle donne P ({ 0 }) = P ({ 1 }) = 1/2. (iv) Soit (xk )kN une suite de points dun espace (, A) et (pk )kN des rels positifs de somme gale 1. On peut construire une probabilit P en posant P = k0 pk xk . Une telle probabilit est absolument continue par rapport la mesure de comptage sur lensemble E = { xk : k N }, qui toute partie de E associe son cardinal. Toute mesure de probabilit sur (E, P (E )) est de cette forme.
Par exemple, si = N est muni de la tribu des parties A = P (N), si xk = k et pk = e k /k!, > 0, on obtient la probabilit P = e
k N

k k , k!

appele loi de Poisson de paramtre , note P (). Si toujours = N est muni de la tribu de ses parties, et si xk = k, pk = (1 p)pk , la probabilit P = (1 p) kN pk k est appele loi gomtrique de paramtre p [ 0, 1 ]. 42

III.1. Dfinition et exemples

Soient les coecients binomiaux Ck n = n!/k !(n k )!, 0 k n. En prenant k nk pour 0 k n, on obtient = { 0, 1, . . . , n }, xk = k et pk = Ck n p (1 p) la loi dite binomiale de paramtre p [ 0, 1 ] et de taille n, note B (n, p). La loi B (1, p) est une loi de Bernoulli sur { 0, 1 }. (v) Si = R, A = B (R) et f est une fonction mesurable positive telle que f d = 1, on peut considrer la probabilit P (A) = A f d, A A (cf. II.3.1). La fonction f est la densit de P (par rapport ) (cf. II.3.3).

D enition III.1.3. Soit (, A, P ) un espace probabilis. Un ensemble A A est appel un vnement. Un vnement A a lieu P -presque srement (P -p.s.) sil a lieu P -p.p. (i.e. si P (A) = 1). Exemple III.1.4. En reprenant lexemple III.1.2.ii, lensemble { 2, 4, 6 } est un vnement. Il modlise le tirage dun chire pair lors dun lanc de d. Dans cet exemple, le seul vnement qui a lieu presque srement est { 1, 2, 3, 4, 5, 6 }. Nous verrons par la suite, en particulier au chapitre V, des situations beaucoup moins triviales.
Dans tout ce qui suit, on considre un espace probabilis (, A, P ).

D enition III.1.5. On appelle variable alatoire toute application mesurable dnie sur un espace probabilis (, A, P ).
Il est dusage dutiliser X, Y, . . . pour noter des variables alatoires. Pour lessentiel, on se contentera ici de variables valeurs dans (R, B (R)) ou (Rd , B (Rd )). Elles seront appeles variables alatoires relles ou vectorielles. Si X et Y sont deux variables alatoires sur (, A, P ) avec X = Y P -p.p., on crit aussi bien X = Y P -p.s. ou X = Y p.s. sil ny a pas dambigut sur P .

Exemples III.1.6. (i) Soit = [ 0, 1 ], A = B ([ 0, 1 ]) la tribu borlienne de [ 0, 1 ] et soit P (A) = (A), A B (R), la mesure de Lebesgue sur [ 0, 1 ]. Lapplication identit de (, A) dans (, A) est mesurable. Cest donc une variable alatoire. On appelle aussi P la probabilit uniforme sur [ 0, 1 ], que lon notera U[0,1] . (ii) Sur lespace probabilis (, A, x ) o x , toute variable alatoire X est x -p.s. constante. En eet, x ({ : X ( ) = c }) = 1 si c = x et 0 sinon.
En reprenant les proprits des mesures, on voit que si P est une probabilit sur (, A) et si A, B, An , n N, sont mesurables, alors (i) A B P (A) P (B ) . 43

Chapitre III. Mesures de probabilit

(ii) P (Ac ) = 1 P (A) . (iii) P (A B ) = P (A) + P (B ) P (A B ) . (iv) P ( nN An ) nN P (An ) . (v) Si les ensembles An sont croissants, ou dcroissants, P ( lim An ) = lim P (An ) .
n n

(vi) De (iii) et (iv) nous dduisons lingalit de Bonferoni : pour tout k N, P (An )
0nk 0nmk

P An Am P
0nk

An

0nk

P (An ) .

La minoration se dmontre par rcurrence, en notant que P


0nk

An

= P A0
1nk

An An + P (A0 ) P A0
1nk

=P
1nk

An

P
1nk

An

+ P (A0 )
1nk

P A0 An .

Les noncs sur les mesures peuvent tre reformuls sur les probabilits. En particulier le thorme de prolongement de Carathodory (I.4.9) montre quune probabilit est dnie si elle est donne sur une algbre qui engendre la tribu. De mme que nous avons dni les mesures images, on peut dnir les lois images. La dnition suivante introduit la notion fondamentale de loi dune variable alatoire.

D enition III.1.7. Soit X une variable alatoire de (, A, P ) valeurs dans (E, B ). On appelle loi de X sous la probabilit P la mesure de probabilit image P X sur (E, B ). On notera parfois L(X ) la loi de X .
Il est usuel et commode dallger les notations des lois images en posant pour tout B B , P X (B ) = P { : X ( ) B } = P { X B } = P { X B } . En pratique, lespace (, A, P ) est un peu mythique. Si lon se donne une loi, on peut toujours lcrire comme une loi image par une application mesurable 44

III.2. Fonctions de rpartition

(prendre lidentit pour la variable alatoire !). Donc toute mesure de probabilit est la loi dune variable alatoire. Pour les applications, en gnral, seule compte la mesure image, et lon explicite rarement la variable alatoire et lespace (, A, P ). On crira par exemple soit X une variable de Bernoulli de paramtre p, cest--dire telle que P { X = 1 } = 1 P { X = 0 } = p au lieu de soit X une variable alatoire de lespace (, A, P ) dans { 0, 1 }, de loi de Bernoulli, cest--dire telle que P X ({ 1 }) = 1 P X ({ 0 }) = p, ou plus exactement P {X = 1} = 1 P {X = 0} = p . De mme, on crira souvent soit X une variable alatoire de loi P pour dire soit X une variable alatoire dnie sur lespace (, A, ) o est une mesure de probabilit telle que la mesure image X est P . Il sensuit que lon peut considrer de faon complmentaire les variables alatoires et leurs lois. Selon le contexte, lun ou lautre de ces points de vue est prfrable. Souvent nous utiliserons les variables alatoires. On prendra garde au fait que le langage aura souvent tendance confondre les variables alatoires et leurs lois. La reprsentation dune loi par une variable alatoire nest pas unique. Par exemple, pour la loi de Bernoulli B (1, p), on peut choisir = { 0, 1 } muni de la tribu des parties et de la probabilit P = p 1 + (1 p) 0 et X lapplication identit de { 0, 1 } dans lui-mme. On peut aussi choisir = [ 0, 1 ], A = B ([ 0, 1 ]), P la mesure uniforme sur [ 0, 1 ] (Lebesgue) et X : { 0, 1 } dnie par X ( ) = [0,p]( ). La mesure image P X est la loi de Bernoulli de paramtre p. La dnition suivante a pour but de rsumer les deux classes fondamentales de lois rencontres dans les exemples prcdents.

D enition III.1.8. On dit quune loi est discrte si cest une combinaison linaire nie ou dnombrable de masses de Dirac. Une variable alatoire de loi discrte P = iI pi xi ne prend (presque srement) quun nombre ni ou dnombrable de valeurs. Si une loi P est absolument continue par rapport une mesure et si X est de loi P , on dira par abus de langage que X admet la densit f par rapport si f = dP/ d. Si est la mesure de Lebesgue, on dit simplement que X est de densit f .

III.2. Fonctions de rpartition


Soit X une variable alatoire relle (i.e. X est valeurs relles), dnie sur un espace probabilis (, A, P ). 45

Chapitre III. Mesures de probabilit

D enition III.2.1. On appelle fonction de rpartition de X , ou de sa loi P X , et on note F X , la fonction sur R dnie par
F X (t) = P X (] , t ]) = P ({ : X ( ) t }) = P { X t } , t R.

Propri et e III.2.2. Une fonction de rpartition F vrie les proprits suivantes :


(i) 0 F 1, (ii) F est croissante, continue droite avec une limite gauche en tout point, (iii) limt F (t) = 0 et limt F (t) = 1. Rciproquement, une fonction F vriant (i)(iii) est la fonction de rpartition dune variable alatoire relle.
Dmonstration. (i) vient de ce que P est valeurs dans [ 0, 1 ]. La croissance dans (ii) dcoule de la croissance des mesures (i.e. A B P (A) P (B )). La continuit droite peut tre vue comme une consquence de la proposition I.4.3.iv en remarquant que { X t + 1/n } {X t} =
n1

et que la croissance de F implique lim F (t + h) = lim F t +


h0 n 1 n

= F (t) .

La limite gauche est galement une consquence de la croissance de F . La proprit (iii) vient encore de la proposition I.4.3.iv en remarquant que lintersection n1 { X n } et vide, et donc 0 = P () = lim P { X n } = lim F (n)
n n

tandis que 1 = P () = limn P { X n } daprs I.4.3.iii. Soit maintenant une fonction F vriant (i)(iii). Dnissons pour a < b la fonction densembles F (] a, b ]) = F (b) F (a). On tend la dnition de lalgbre des unions nies dintervalles. Le thorme de prolongement I.4.9 permet ensuite de conclure, comme dans lexemple I.4.10.i, que F stend en une mesure de Stieltjes de probabilit.

Propri et e III.2.3. La fonction de rpartition caractrise la loi, cest--dire X F = F Y si et seulement si P X = P Y .


46

III.2. Fonctions de rpartition Dmonstration. En eet, si F X = F Y , alors P X et P Y concident sur les in-

tervalles, donc sur lalgbre et la tribu engendres par les intervalles. La tribu engendre par les intervalles est la tribu borlienne et le rsultat sensuit.

Propri et e III.2.4. Une fonction de rpartition admet au plus un nombre dnombrable de points de discontinuit.
Dmonstration. Soit Dn lensemble des points de discontinuit avec un saut damplitude plus grande que 1/n ; en notant F (t) la limite gauche de F en t,

Dn =

t R : F (t) F (t) 1/n .

Puisque 0 F 1, ncessairement card(Dn ) n. Lensemble des points de discontinuit est n1 Dn , et donc est dnombrable. Notons que le mme raisonnement sapplique en fait toute fonction croissante.

Exemple III.2.5. Soit F une fonction de rpartition. Soit (xn )nI , I N, la suite des points de discontinuit de F et an = F (xn ) F (xn ) le saut correspondant. On peut poser Fd = nI an [xn ,[ . Soit = limt Fd (t). Si = 0, la fonction 1 Fd est une fonction de rpartition discrte. Cest F est continue. Sinon, Fd = 1 en fait la fonction de rpartition de la mesure de probabilit nI an xn . Si 1 = 1, alors F = Fd est discrte. Sinon, Fc = 1 (F Fd ) est une fonction de rpartition continue. Ainsi F est la moyenne Fd + (1 )Fc dune fonction de rpartition continue et dune fonction de rpartition discrte.
Notons Pc la mesure de probabilit sur (R, B (R)) de fonction de rpartition Fc . En dcomposant Pc suivant la mesure de Lebesgue par le thorme II.3.4, on pourra crire Pc = Pac + (1 )P pour un [ 0, 1 ], Pac tant une mesure de probabilit absolument continue par rapport la mesure de Lebesgue, et P lui tant singulire. Notons Fac et F leur fonction de rpartition. Labsolue continuit de Pac par rapport permet dexprimer
t

Fac (t) =

f d =
],t]

f d ,

t R,

pour une fonction de densit f 0 (thorme de Radon-Nikodym, II.3.3). Ainsi, F = (1 )Fac + (1 )(1 )F + Fd . La partie donne par Fd est discrte, et la partie donne par F est continue (i.e. ne contient aucune masse de Dirac, donc tout point est de mesure nulle), mais 47

Chapitre III. Mesures de probabilit

trangre par rapport la mesure de Lebesgue (un exemple classique dune telle mesure trangre est donn dans lexercice V.13). Si P X admet une densit par rapport la mesure de Lebesgue, sa fonction de rpartition scrit
t

F (t) =

f (x) d(x) ,

avec f = dP X / d, et la densit f sobtient pratiquement comme la drive -p.p. de F .

Exemples III.2.6. (i) Soit > 0 et soit F (t) = 1 et si t 0 et F (t) = 0 si t < 0. Cest une fonction de rpartition. Sa densit est et si t 0 et 0 si t < 0. Cest la fonction de rpartition de la loi exponentielle de paramtre , note E xp( ).
(ii) F = [x,[ est la fonction de rpartition de la masse de Dirac x en x R. (Faire un dessin.)
k nk (iii) F (t) = 0kn Cn [k,[ (t) est la fonction de rpartition de la k p (1 p) loi binomiale B (n, p) (cf. exemple III.1.2.iv).

(iv) Soit f (x) = (2 )1/2 ex /2 , x R. On vrie que R f d = 1 et donc que f est une densit. En eet, par un changement de variables en coordonnes polaires,
2

ex
R

2 /2

d(x)

= =
2

ex

2 /2

dx
2 +y 2 )/2

e(x

dx dy d = 2 .

0 t

=
0

rer

2 /2

dr

Sa fonction de rpartition F (t) = (2 )1/2 ex /2 dx, t R, est la fonction de rpartition dune loi appele loi normale ou loi gaussienne, centre, rduite, note N (0, 1).
2

Si X est de fonction de rpartition F , alors pour m R et > 0, la variable alatoire Y = X + m a pour fonction de rpartition F (t m)/ puisque P X + m t =P X tm .

En particulier, si X est de loi normale N (0, 1), on notera N (m, 2 ) la loi de Y = X + m, appele loi normale de moyenne m et variance 2 . (La terminologie sera justie plus loin.) 48

III.2. Fonctions de rpartition

Par un changement de variables, la densit de la loi de Y est 1 2 2 exp (x m)2 . 2 2

La densit reprsente la cloche gaussienne, symtrique par rapport m, dautant plus pointue que est petit. En particulier, N (m, 0) peut tre vue comme la masse de Dirac en m. (v) F (t) = t si t [ 0, 1 ], 0 si t < 0 et 1 si t > 1 est une fonction de rpartition (faire un dessin). Cest la fonction de rpartition de la mesure de Lebesgue sur [ 0, 1 ], appele loi uniforme et note U[0,1] . Plus gnralement, on dnit une loi uniforme U[a,b] sur un intervalle born [ a, b ] quelconque. On pourrait tout aussi bien considrer les intervalles ouverts ou semi-ouverts. (vi) Soit la fonction de rpartition F dune loi P , donne par 0 si t 0, t/4 si 0 t < 1, F (t) = 1/2 si 1 t < 2, 2 + 1 (1 e(t2) ) si t 2. 3 3 Le graphe de F comporte deux points de discontinuit en 1 et 2 damplitudes respectives 1/4 et 1/6. La partie continue est drivable presque partout par rapport la mesure de Lebesgue, de densit f (x) = 1 1 [0,1[ (x) + e(x2) [2,[ (x) . 4 3

La mesure de probabilit P se reprsente donc comme P = 1 1 1 + 2 + ac 4 6

avec ac la mesure de densit f par rapport la mesure de Lebesgue. Une application intressante des fonctions de rpartition est donne par la proposition suivante, qui montre que pour simuler numriquement une variable alatoire de fonction de rpartition F , il sut de savoir simuler une variable alatoire uniforme sur [ 0, 1 ]. Le rsultat fournit galement une preuve alternative la rciproque de la proprit III.2.2. 49

Chapitre III. Mesures de probabilit

Proposition III.2.7. Soit F une fonction de rpartition. On appelle fonction de quantile la fonction
F (u) = inf x : F (x) > u , u ] 0, 1 [ .

Si U est de loi uniforme sur ] 0, 1 [, alors F (U ) a pour fonction de rpartition F .


Dmonstration. Observons dabord que pour tout u ] 0, 1 [, si F (u) t, alors

F (t) u. En eet, si F (u) t, pour tout s > t il existe x < s tel que F (x) > u ; ainsi F (s) > u, et par continuit droite de F , F (t) u. Rciproquement, si F (t) > u, alors t appartient { x : F (x) > u } et donc F (u) t. Par voie de consquence, pour tout t R, F (t) = P { U < F (t) } P { F (U ) t } P { F (t) U } = F (t) , de sorte que P { F (U ) t } = F (t) et donc F (U ) a pour fonction de rpartition F . Remarquons que la fonction de quantile est bien dnie (i.e. est nie) sur ] 0, 1 [. Elle croissante, et donc elle admet au plus un nombre dnombrable de points de discontinuit (par un argument tout fait analogue celui que nous avons utilis dans la dmonstration de la proprit III.2.4, en remarquant que F (1 u) F (u) < pour tout u < 1/2). De plus, on vrie facilement que si F est inversible, alors F est linverse de F . La proprit suivante nous sera utile ultrieurement.

Proposition III.2.8. Si F est une fonction de quantile, elle est continue droite et admet une limite gauche en tout point.
Dmonstration. La limite gauche en tout point provient de la croissance de F .

Pour dmontrer la continuit droite en un point u ] 0, 1 [, montrons (ce qui 1 ) F (u) = t. Sinon, il existe sut par croissance) que lim supn F (u + n 1 > 0 tel que lim supn F (u + n ) > t + . Le long dune sous-suite (nk ), 1 ) > t + . Autrement dit, daprs le raisonnement utilis dans la F (u + n k 1 ; et quand k tend dmonstration de la proposition prcdente, F (t + ) u + n k vers linni, F (t + ) u. En particulier, F (u) > t, ce qui est impossible puisque t = F (u).

III.3. Vecteurs alatoires


Dans ce paragraphe, d est un entier suprieur ou gal 2. 50

III.3. Vecteurs alatoires

D enition III.3.1. Soit (, A, P ) un espace probabilis. On appelle vecteur alatoire une variable alatoire valeurs dans Rd muni de sa tribu borlienne.
En utilisant le lemme I.2.2 et lexemple I.1.12.iii, on voit que X = (X1 , . . . , Xd ) est un vecteur alatoire si et seulement si ses composantes sont des variables alatoires relles.

D enition III.3.2. On appelle fonction de rpartition de X , ou de la loi de X , la fonction


t = (t1 , . . . , td ) Rd F X (t) = P {X1 t1 , . . . , Xd td } . La loi de la variable alatoire Xi est appele la i-me loi marginale (ou i-me marge) de X = (X1 , . . . , Xd ). Elle est donne par F Xi (ti ) =
t1 ,...,ti1 ,ti+1 ,...,td

lim

F X (t) .

Comme il ressort de cette dnition, la loi dun vecteur X = (X1 , . . . , Xd ) dtermine chacune des lois marginales (loi de Xi , 1 i d). Lexemple suivant montre que la rciproque est fausse en gnral.

Exemples III.3.3. (i) Supposons que X = (X1 , X2 ) soit de loi discrte dans R2 concentre en les points (1, 0), (0, 1), (0, 1), (1, 0) tous de probabilit 1/4. Autrement dit,
PX = 1 1 1 1 (1,0) + (0,1) + (0,1) + (1,0) , 4 4 4 4 1 0 1/4 0 X1 0 1/4 0 1/4 1 0 1/4 0

ce qui se rsume dans le tableau ci-contre. Les lois marginales P X1 et P X2 de P X sont gales, et don1 1 nes par P X1 = P X2 = 1 4 1 + 2 0 + 4 1 . On peut produire un autre vecteur, (Y1 , Y2 ), ayant les mmes lois marginales, dont les probabilits sont donnes par le tableau ci-contre. On pourra noter que lon obtient les lois marginales en sommant les probabilits respectivement sur les lignes et les colonnes de la table. (ii) Soit X : (, A, P ) (Rd , B (Rd )) dont la densit par rapport la mesure de Lebesgue sur Rd

X2

1 0 1

Y2

1 0 1

Y1 1 0 1/16 1/8 1/8 1/4 1/16 1/8

1 1/16 1/8 1/16 51

Chapitre III. Mesures de probabilit

( d-fois) est donne par f (x) = 1 exp( x 2 /2) (2 )d/2

2 avec x = (x1 , . . . , xd ) Rd et la norme euclidienne x 2 = x2 1 + + xd . Daprs le thorme de Fubini-Tonelli (II.5.1), les lois marginales sont des lois N (0, 1).

(iii) Plus gnralement, supposons que Z = (X, Y ) admette une densit f (x, y ) par rapport la mesure de Lebesgue sur R2 , i.e.
t1 t2

F (t1 , t2 ) =

f (x, y ) dx dy ,

t1 , t2 R .

La loi de X a pour densit f X (x) = f Y (y ) = R f (x, y ) dx. En eet,

f (x, y ) dy , et celle de Y a pour densit

P {X t1 } = lim F (t1 , t2 ) =
t2

t1

f (x, y ) dy dx ,

et lon conclut avec lexemple III.2.5. Si de plus f (x, y ) = h(x)g(y ) avec f Y = g.

h(x) dx = 1, on voit que f X = h et

La proprit III.2.3 se gnralise sans dicult.

Propri et e III.3.4. Soient deux vecteurs alatoires X , Y , dnis sur (, A, P ), valeurs dans Rd . Alors P X = P Y si et seulement si F X = F Y .

Dmonstration. Comme pour la proprit III.2.3, remarquer que les pavs ] , a1 ] ] , ad ], (a1 , . . . , ad ) Rd , engendrent B (Rd ).

III.4. Moyennes et ingalits


Nous avons vu au chapitre II comment intgrer des fonctions mesurables. Nous pouvons donc intgrer les variables alatoires. 52

III.4. Moyennes et ingalits

D enition III.4.1. Soit X une variable alatoire relle, dnie sur (, A, P ). Si X est intgrable, on appelle esprance ou esprance mathmatique de X (sous la probabilit P ) le nombre rel
E (X ) =

X dP .

On dit que X est centre si elle est intgrable et E (X ) = 0. Lesprance dune variable alatoire nest donc rien dautre que sa valeur moyenne. Une mesure de probabilit tant de masse totale gale 1, lesprance dune variable alatoire constante ou presque srement constante est gale cette constante. Plus gnralement si X Lp , p > 0, on dnit le moment absolu dordre p de X par E (|X |p ) = |X |p dP . Si p est entier, on peut aussi dnir le moment dordre p, E (X p ) = X p dP . Rappelons quelques rsultats du chapitre II sous une autre formulation. Commenons par le thorme de transport II.4.1. Nous le formulons ici, dans le langage probabiliste, pour des vecteurs alatoires.

Th eor` eme III.4.2 (de transport). Soit X un vecteur alatoire sur (, A, P ) valeurs dans (Rd , B (Rd )) et soit une fonction borlienne de Rd dans R. Si est valeurs positives,
E (X ) =

X ( ) dP ( ) =

(x) dP X (x) .
Rd

Si est valeurs quelconques, (X ) L1 (, A, P ) si et seulement si L1 (Rd , B (Rd ), P X ) . Dans ce cas, lgalit prcdente a lieu. En particulier, si X est une variable alatoire relle, intgrable, E (X ) =

X dP =
R

x dP X (x) .

Remarque III.4.3. Notons les deux faits importants suivants.


53

Chapitre III. Mesures de probabilit

(i) Si X est un vecteur alatoire valeurs dans (Rd , B (Rd )) et si A B (Rd ), la fonction A est mesurable. Par dnition de lintgrale et par transport, E

A (X ) =

A X ( ) dP ( ) =

Rd

A (x) dP X (x)

= P X (A) = P {X A} . (ii) Soit X un vecteur alatoire valeurs dans Rd , admettant une densit f . Soit h une bijection sur Rd , de classe C1 , de jacobien Jh (x) = 0 pour tout x. Le vecteur Y = h(X ) a pour densit g(y ) = |Jh1 (y )|f h1 (y ) = Jh h1 (y )
1

f h1 (y ) .

En eet, si est une fonction borlienne borne (par exemple une indicatrice de borlien), daprs le thorme de transport et la formule de changement de variables pour des intgrales de Lebesgue, on a E h(X ) = =
Rd

Rd

h(x) dP X (x) h(x)f (x) dx (y ) Jh1 (y ) f h1 (y ) dy .

=
Rd

Si la densit f est nulle hors dun ouvert U de Rd , la mme formule sapplique si h est dnie sur U . Dans la pratique, la loi de X se dcompose le plus souvent en une partie absolument continue par rapport la mesure de Lebesgue, et une partie absolument continue par rapport une mesure de comptage. Si P X a une densit f par rapport la mesure de Lebesgue, sous les conditions dintgrabilit du thorme III.4.2, E (X ) =
Rd

(x) dP X (x) =
Rd

(x)f (x) dx .

Si P X =

nN pn xn ,

E (X ) =
Rd

(x) dP X (x) =
nN

(xn )pn =
nN

(xn )P {X = xn } .

On voit donc quen pratique, le calcul de E ((X )) ne ncessite pas le calcul de la loi de (X ). 54

III.4. Moyennes et ingalits


1 Exemples III.4.4. (i) Soit X de loi 1 2 0 + 2 1 . Alors E (X ) = 1/2 : dans un jeu de pile ou face quilibr, on tire en moyenne une fois sur deux pile (X = 1) et une fois sur deux face (X = 0) ! (ii) Soient x1 , . . . , xn des rels et Pn = n1 1in xi . Si X est de loi Pn , alors

E (X ) = est la moyenne des xi . (iii) Si X est de loi binomiale B (n, p), E (X ) =


0k n

1 n

xi
1in

k nk k Ck n p (1 p) 1 k 1 Ck (1 p)(n1)(k1) n1 p k (n1)k Ck = pn . n1 p (1 p) 0k n1

= pn
1k n

= pn

(iv) Si X suit une loi de Poisson P (), on vrie comme dans lexemple (iii) que E (X ) = . (v) Soit X de loi exponentielle de fonction de rpartition 1 F (t) = et , t 0. Elle a pour densit ex [0,[ (x). Ainsi, en intgrant par parties,

E (X ) =
0

xex dx =
0

ex dx =

1 .

(vi) Soit X de densit 1/ (1 + x2 ) par rapport la mesure de Lebesgue sur R (loi de Cauchy). Alors X nadmet pas desprance, mais admet tout moment absolu dordre p < 1. (vii) Si X est de loi N (0, 1), alors, par symtrie, E (X ) =
R

xex

2 /2

dx = 0. 2

Donc si X est de loi N (m, 2 ) (cf. III.2.6.iv), E (X ) = m. (viii) Plus gnralement, si X est une variable alatoire relle, intgrable, la linarit de lintgrale implique E (X + m) = E (X ) + m pour tous , m R. 55

Chapitre III. Mesures de probabilit

Nous rappelons prsent les ingalits de Jensen (II.2.10), Hlder (II.6.2) et Minkowski (II.6.3) pour des variables alatoires.

Th eor` eme III.4.5. (i) (Ingalit de Jensen) Si est convexe sur R et si X est une variable alatoire relle telle que X et (X ) sont intgrables, alors
E (X ) E (X ) . (ii) (Ingalit de Hlder) Si X Lp , Y Lq , p, q 1 et p1 + q 1 = 1, alors XY L1 et E |XY | E |X |p (iii) Lapplication p E |X |p (iv)
p 1/p 1/p

E |Y |q

1/q

est croissante.

= (E | |p )1/p est une norme sur Lp (, A, P ), p 1.

(v) On dnit X = limp X p . Cest une norme, appele norme supremum essentiel, sur L (, A, P ) = { X : X < }. Noter que lingalit triangulaire dans le point (iv) de ce thorme est quivalente lingalit de Minkowski. Le point (iii) de ce thorme dcoule aussi bien de lingalit de Jensen ou de Hlder. Dans la pratique, lingalit de Jensen est le plus souvent utilise pour les fonctions (x) = |x|, x2 et 1/x lorsque x > 0. En particulier, pour une variable alatoire X intgrable, |E (X )| E (|X |) ; pour une 2 variable alatoire X dont le carr est intgrable, E (X ) E (X 2 ) ; pour une variable alatoire X valeurs strictement positives, E (1/X ) 1/E (X ). La dnition suivante dcrit une mesure de la dispersion dune variable alatoire ou de sa loi.

D enition III.4.6. Soit X une variable alatoire relle dont le carr est intgrable. On appelle variance de X , ou de sa loi P X , et on note Var(X ), la quantit
Var(X ) = E X E (X )
2

Var(X ) est appele lcart type, parfois not (X ). Une variable La racine alatoire dcart type 1 est dite rduite. Une expression quivalente de la variance est Var(X ) = E (X 2 ) E (X )2 . 56

III.4. Moyennes et ingalits

En eet, le dveloppement du carr et la linarit de lesprance montrent que Var(X ) = E X 2 2XE (X ) + E (X )2 = E (X 2 ) 2E (X )2 + E (X )2 puisque lesprance dune constante est cette constante. Une autre criture de la variance, de contenu plus gomtrique, est en terme de norme dans lespace de Hilbert L2 (, A, P ), mesurant la distance de X son esprance : Var(X ) = X E (X ) 2 . Les variances svaluent comme les esprances partir du thorme de transport.

Exemples III.4.7. (i) Si Var(X ) = 0, alors X est p.s. constante, gale sa moyenne E (X ). (ii) Si X est de loi de Bernoulli B (n, p), sa variance est np(1 p). (iii) Si X suit une loi N (0, 1), E (X ) = 0 et donc
Var(X ) = E (X 2 ) =
R

x2 ex

2 /2

dx =1 2

(intgration par parties). Ceci justie la terminologie de loi normale centre rduite pour N (0, 1). (iv) Si est un nombre rel, Var(X + ) = Var(X ) et Var(X ) = 2 Var(X ). En particulier, si X est de loi N (m, 2 ), on a Var(X ) = 2 et (X ) = . La dnition et les exemples (iii)(iv) montrent que plus la variance est grande, plus la variable alatoire est disperse, cest--dire prend avec forte probabilit des valeurs loignes de sa moyenne. Il est parfois plus commode de calculer une esprance partir de la fonction de rpartition.

Proposition III.4.8. Soit X une variable alatoire relle positive, de fonction de rpartition F = F X . Alors, pour tout 0 < p < ,
E (X p ) = p
0

tp1 P {X > t} dt = p
0

tp1 1 F (t) dt .

De plus, E (X ) < si et seulement si pour un ou tout > 0, P {X > n} <


nN

ou
nN

2n P {X > 2n } < .

57

Chapitre III. Mesures de probabilit Dmonstration. Daprs le thorme de Fubini-Tonelli (II.5.1),

p
0

tp1 P {X > t} dt = p
0

t p 1 E
X

]t,[(X ) dt

=E p
0

t p 1 d t

= E (X p ) . Pour la seconde partie, prenons p = 1 et notons que P {X > n + 1}


nN 0

P {X > t} dt
nN

P {X > n}

en dcoupant lintgrale sur [ 0, [ suivant les intervalles [ n, n + 1 [ . De la mme faon, en dcoupant cette intgrale suivant les intervalles [ 2n , 2n+1 [ , 2n P {X > 2n+1 }
nN 0

P {X > t} dt 1 +
nN

2n P {X > 2n } .

On conclut en remplaant X par X/. Les ingalits suivantes sont essentielles dans lanalyse des variables alatoires relles.

In egalit e de Markov III.4.9. Si X est intgrable et t > 0, alors


P {X t}
Dmonstration. Observer que

E (|X |) E (X + ) . t t

[t,[(X )

X X+ |X | [t,[ (X ) t t t

et intgrer cette ingalit par rapport P . Cette ingalit est utilise gnralement soit pour X positive, soit pour |X |. Elle nest intressante que si le second membre est plus petit que 1.

Exemples III.4.10. (i) Si X Lp , p > 0, alors


P {X t} E (|X |p ) tp

pour tout t > 0 puisque {X t} {|X |p tp }. 58

III.4. Moyennes et ingalits

(ii) Si X L2 , lingalit de Markov implique lingalit de Tchebitchev P |X E (X )| t Var(X ) , t2 t > 0,

puisque E (|X E (X )|2 ) = Var(X ). (iii) Si maintenant E (eX ) < pour > 0, ou seulement ] 0, 0 [ , 0 > 0, alors, pour tout t R, P {X t} inf et E (eX )

puisque {X t} = {eX et } pour tout > 0. Autrement dit, P {X t} eI (t) o I (t) = sup t ln E (eX ) ,

t R.

Cette ingalit est lingalit de Bernstein, Cramr ou Cherno. Elle est dun usage frquent dans ltude des sommes de variables alatoires indpendantes et dans la thorie des grandes dviations. (iv) Nous prsentons un exemple dapplication du calcul des probabilits lapproximation des fonctions. Le thorme de Stone-Weierstrass indique que lensemble des polynmes est dense dans lespace C[ 0, 1 ] des fonctions continues sur [ 0, 1 ] valeurs relles, muni de la norme uniforme . Montrons ce rsultat de faon plus constructive. une fonction f C[ 0, 1 ], nous associons son n-ime polynme de Bernstein, Bn (f, x) =
0k n k nk f (k/n)Ck , n x (1 x)

x [ 0, 1 ] .

Observons que Bn (f, x) = E (f (Z/n)) o Z est de loi binomiale B (n, x). Notons (f, ) = sup |f (x) f (y )| , x, y [ 0, 1 ] , |x y | le module de continuit de f sur [ 0, 1 ]. Ce module est ni pour tout > 0 puisque f est continue sur le compact [ 0, 1 ], donc uniformment continue. Pour tout x [ 0, 1 ], f (x) Bn (f, x) = f (x) E f (Z/n) E f (x) f (Z/n) (f, )P |Z/n x| + 2 f
P

|Z/n x| . 59

Chapitre III. Mesures de probabilit

En utilisant lingalit de Tchebitchev (4.10.ii) pour la variable Z de moyenne E (Z ) = nx et de variance Var(Z ) = nx(1 x), il vient f (x) Bn (f, x) (f, ) + 2 f (f, ) + 2 f (f, ) + Donc, sup f (x) Bn (f, x) inf (f, ) +
>0

1 n2 2

Var(Z )

1 x(1 x) n2

f . 2n2

0x1

f 2n2

= o(1)

(n ) ,

ce qui dmontre le thorme de Weierstrass. En particulier, si f est hldrienne dindice , (f, ) = c , 0 < 1, on obtient
0x1

sup f (x) Bn (f, x) (2c)2/(+2) f

/(+2) /(+2) n

Nous concluons ce paragraphe par les dnitions desprance et de variance pour des vecteurs alatoires.

D enition III.4.11. Si X = (X1 , . . . , Xd ) Rd est un vecteur alatoire sur un espace probabilis (, A, P ), on dit que X est de puissance p-ime intgrable (p > 0) si chacune de ses composantes lest, ce qui quivaut dire que 2 + + X 2 )1/2 du E ( X p ) < , o X est ici la norme euclidienne (X1 d vecteur X . Son esprance est le vecteur de Rd
E (X ) = E (X1 ), . . . , E (Xd ) . Sa (matrice carre de) covariance est Cov(X ) = E (Xi E (Xi ))(Xj E (Xj ))
1i,j d

la variance se substitue prsent une matrice. Cest une matrice symtrique semi-dnie positive puisque pour tous rels 1 , . . . , d , i j E (Xi E (Xi ))(Xj E (Xj )) = E
1i,j d 1id

i (Xi E (Xi ))

0.

60

III.5. Fonctions caractristiques

Elle est dnie positive si aucune combinaison linaire des composantes du vecteur alatoire nest p.s. constante.

Exemple III.4.12. Soit X la variable alatoire de loi dcrite dans lexemple III.3.3.ii. Il est ais de vrier que le vecteur moyenne de X est le vecteur nul (de Rd ), et que sa matrice de covariance est la matrice identit (de Rd ). On parlera plus loin de vecteurs gaussiens de moyenne m et de matrice de covariance , o m est un vecteur quelconque de Rd et est une matrice symtrique semi-dnie positive (d, d).

III.5. Fonctions caractristiques


Nous savons que la fonction de rpartition dune variable alatoire relle ou vectorielle X sur (, A, P ) caractrise sa loi. Autrement dit, sur R par exemple, la donne de F X (t) = E ],t] (X ) , t R , dtermine la loi de X . Puisque les indicatrices sont des fonctions borliennes bornes, la donne de E ((X )) pour toute fonction borlienne borne caractrise la loi P X . La fonction indicatrice ],t] peut tre approche par la suite de fonctions continues bornes si x t, 1 1 n (x) = 1 + n(t x) si t x t + n , 1 0 si x > t + n (faire un dessin). Il sensuit, daprs le thorme de convergence domine, que la donne de E ((X )) pour toute fonction continue borne sur R caractrise P X . Plus gnralement, les fonctions indicatrices peuvent tre approches simplement par des fonctions C bornes ; et donc la donne de E ((X )) pour toute fonction inniment drivable caractrise galement P X . On pourrait mme se restreindre aux fonctions C support compact ! (cf. exercice II.5). Ces raisonnements et conclusions sappliquent de la mme faon aux vecteurs alatoires. Une autre caractrisation intressante en pratique (voir IV.2, V.4 et V.5) est celle des fonctions caractristiques, ou transformes de Fourier, qui remplace la classe des fonctions C bornes par la famille des fonctions sinus et cosinus.

D enition III.5.1. Soit X un vecteur alatoire sur (, A, P ) valeurs dans Rd . On appelle fonction caractristique de X ou de la loi de X , ou transforme de
61

Chapitre III. Mesures de probabilit

Fourier, et on note X , la fonction valeurs complexes t Rd X (t) = E (ei t,X ) = =


Rd

ei t,x dP X (x)
Rd

cos t, x dP X (x) + i
Rd

sin t, x dP X (x) .

La fonction caractristique est valeurs complexes, de module major par 1 (daprs lingalit de Jensen), et X (0) = 1. Si la loi de X a une densit f par rapport la mesure de Lebesgue sur Rd , alors X (t) =
Rd

ei t,x f (x) dx

est aussi appele la transforme de Fourier de la fonction f . Comme son nom lindique, la fonction caractristique caractrise la loi.

Th eor` eme III.5.2. Si X et Y sont deux vecteurs alatoires de lois P X et P Y telles X que = Y , alors P X = P Y .
Dmonstration. La dmonstration utilise le thorme des classes monotones fonctionnelles (I.3.5). On note e1 , . . . , ed la base canonique de Rd . Pour tout t Rd , lgalit des parties relles (resp. imaginaires) de X et Y donne E (cos t, X ) = E (cos t, Y ) (resp. E (sin t, X ) = E (sin t, Y )). Notons C lensemble des combinaisons linaires nies des fonctions x cos t, x et x sin t, x . En particulier, la fonction x n sin ei /n, x appartient C et sa limite simple, la projection sur la i-me coordonne, est mesurable par rapport la tribu (C ) engendre par C . Donc (C ) = B (Rd ) (cf. I.1.12.iii). Soit maintenant H lespace vectoriel des fonctions borliennes bornes telles que E ((X )) = E ((Y )). Lespace H contient les constantes et est stable par convergence monotone borne (daprs le thorme de convergence monotone II.2.1). De plus C H et C est stable par multiplication (linariser un produit de sinus et de cosinus). Le thorme des classes monotones fonctionnelles (I.3.5) montre alors que H contient toute fonction borne mesurable par rapport (C ) = B (Rd ), donc toute fonction borlienne. Le rsultat sensuit.

Exemples III.5.3. (i) Si X = a p.s., i.e. P X = a , a Rd , alors X (t) = ei t,a . (ii) Si X est un vecteur alatoire valeurs dans Rd , une matrice oprant sur Rd et m Rd , alors Y = X + m est un vecteur alatoire de fonction caractristique
Y (t) = ei t,m X (t t) puisque t, X + m = 62
t t, X

+ t, m .

III.5. Fonctions caractristiques

(iii) Si X suit une loi normale N (0, 1), alors X (t) = E ei t,X =
R

eitxx

2 /2

dx 2 = et /2 . 2

Une mthode pour calculer cette intgrale est donne dans lexercice III.12. Si Y est de loi N (m, 2 ), Y a la mme loi que X + m, et donc Y (t) = E eit(X +m) = eitm
2 t2 /2

(iv) Si X est de loi exponentielle de densit ex sur R+ , alors X (t) =


R+

e(it1)x dx =

1 . 1 it k N,

(v) Si X est de loi de Poisson de paramtre , P {X = k} = e k /k! , alors X (t) =


k N

eitk e

k = e k!

k N

(eit )k = exp (eit 1) . k!

(vi) Si X est de loi binomiale de paramtres n et p,


k nk , P { X = k } = Ck n p (1 p)

0 k n,

alors X (t) =
0k n

itp k nk Ck = (1 p + peit )n . n (e ) (1 p)

(vii) Si X = (X1 , . . . , Xd ) est un vecteur alatoire dont la loi est le produit des lois marginales, P X1 P Xd , alors X (t) = X1 (t1 ) Xd (td ). (Utiliser le thorme de Fubini, II.5.1). Puisque la transforme de Fourier caractrise la loi, il est souhaitable davoir une formule dinversion permettant dobtenir eectivement la loi partir de la fonction caractristique. Il existe plusieurs formules de ce type permettant de calculer la densit si elle existe, ou la fonction de rpartition (voir exercice V.9). En voici une possible.

Th eor` eme III.5.4 (Formule dinversion de Fourier). Soit X la fonction caractristique dun vecteur alatoire X , suppose intgrable par rapport la mesure de Lebesgue sur Rd . Alors, la loi de X admet une densit continue borne f X par rapport la mesure de Lebesgue sur Rd , donne, pour tout x Rd , par
f X (x) = 1 (2 )d ei t,x X (t) dt .
Rd

63

Chapitre III. Mesures de probabilit Dmonstration. Voir exercice V.9.


|x| , x R , densit de la loi dite de Laplace, Exemples III.5.5. (i) Si f (x) = 1 2e sa transforme de Fourier est (t) = 1/(1 + t2 ). Pour le montrer, on se reporte lexemple III.5.3.iv, et on remarque que, par symtrie, la transforme de Fourier de f est 1 1 1 1 1 + = . 2 1 it 2 1 + it 1 + t2

(ii) Soit f (x) = 1/ (1 + x2 ), x R, la densit de la loi dite de Cauchy, sur R. En utilisant lexemple prcdent et le thorme III.5.4, il vient 1 1 |x| e = 2 2 eitx
R

1 dt . 1 + t2

En changeant t et t dans lintgrale, on constate que la tranforme de Fourier de f est e|t| . Lorsque X est une variable alatoire relle, eitX = nN (it)n X n /n! ; en intgrant terme terme (nous verrons plus loin des conditions permettant de le justier), (it)n E (X n ) . X (t) = n!
nN

La formule de Taylor montre alors que les moments de la variable sont proportionnels aux drives de la transforme de Fourier. Le rsultat rigoureux est le suivant.

Proposition III.5.6. Soit X une variable alatoire relle, de fonction caractristique = X et de loi P X . (i) Si E (|X |n ) < , alors est n-fois drivable, de drive k-ime (k n)
(k) (t) = ik xk eitx dP X (x) = ik E (X k eitX ) .

En particulier, (k) (0) = ik E (X k ). (ii) Rciproquement, si n est pair et si est n-fois drivable en 0, alors X admet tout moment dordre plus petit ou gal n.
Dmonstration. (i) Lingalit, pour tout u R et tout n N,

eiu 1 64

iu (iu)n1 |u|n ... , 1! (n 1)! n!

III.5. Fonctions caractristiques

se dmontre en remarquant que f1 (u) = i 0 eix dx est de module plus petit u que |u|, et par rcurrence fn (u) = i 0 fn1 (x) dx est de module plus petit que n |u| /n!. Dmontrons pour commencer que est drivable en tout point t R lorsque E (|X |) < . Pour tout h = 0, (t + h) (t) = h eitx eihx 1 dP X (x) . h

Daprs lingalit prcdente pour n = 1, eitx eihx 1 |x| h

qui est intgrable pour P X indpendamment de h. Daprs le thorme de convergence domine (II.2.8), (t) = lim eitx eihx 1 dP X (x) = h ixeitx dP X (x) = iE (XeitX ) .

h0

Les drives dordre suprieur se calculent de la mme faon. (ii) Dmontrons par rcurrence que E (X 2k ) est ni ds que 2k n, ce qui sut en vertu du thorme III.4.5.iii. La proprit est vraie pour k = 0. Supposons-la montre pour k 1. Par hypothse, la limite 1 (2k2) (h) + (2k2) (h) 2(2k2) (0) h0 h2 lim existe et est gale (2k) (0). Comme, daprs le point (i), pour tout h rel, (2k2) (h) = (1)k1 on a (1)k1 (2k) (0) = lim 2 h0 h2 x2k2 eihx dP X (x) ,

x2k2 cos(hx) 1 dP X (x) .

Utiliser le lemme de Fatou (II.2.3) et la limite limh0 1 cos(hx) /h2 = x2 /2 pour conclure que x2k dP X (x) (1)k (2k) (0) < .

Application III.5.7. Remarquons quen gnral une loi nest pas caractrise par ses moments (exercice III.7). Toutefois, si = X est analytique, la proposition III.5.6 et le thorme III.5.2 montrent que la loi P X est caractrise par
65

Chapitre III. Mesures de probabilit

ses moments. Une condition simple pour que ceci ait lieu est de supposer que E (e|X | ) < pour un > 0. En eet, en intgrant lingalit utilise pour dmontrer III.5.6.i et en utilisant III.5.6.i, il vient (t + h) (t) h (1) hn1 (n1) |h|n (t) , (t) E |X |n 1! (n 1)! n!

ce qui fournit lanalyticit de h (t + h) sur ] , [. Ceci ayant lieu pour chaque rel t, de proche en proche, est analytique sur tout R. Un exemple important est le cas particulier des lois concentres sur un intervalle born de R. Ceci est rsum dans le thorme dit des moments.

Th eor` eme III.5.8 (des moments). Soient X, Y deux variables alatoires dnies sur (, A, P ) valeurs dans un intervalle born [ a, b ]. Si E (X k ) = E (Y k ) pour tout k N, alors X et Y ont mme loi.
La dnition suivante est une variante de celle des fonctions caractristiques. Elle impose cependant des conditions dintgrabilit sur la loi de la variable alatoire.

D enition III.5.9. Si X est un vecteur alatoire sur (, A, P ) valeurs dans Rd , on appelle transforme de Laplace (ou fonction gnratrice des moments) la fonction LX (s) = E e s,X dnie pour les valeurs de s pour lesquelles e s,X est intgrable.
La transforme de Laplace, si elle est nie dans un voisinage de 0, caractrise la loi, comme la transforme de Fourier (pour les lois sur R+ , la dmonstration est analogue celle du thorme III.5.2, en remplaant les fonctions sin(tx) et cos(tx) par etx et en remarquant que la fonction identit est limite simple de combinaisons linaires dexponentielles de petits paramtres, puisque x = limt0 t1 (etx 1) et 1 = e0x !). Il existe des formules dinversion de la transforme de Laplace (voir par exemple lexercice V.8). On peut donner un nonc analogue la proposition III.5.6 justiant le nom de fonction gnratrice des moments.

Proposition III.5.10. Soit X une variable alatoire relle telle que etX est intgrable pour t dans un intervalle ouvert contenant 0. Alors la transforme de Laplace LX est dnie sur un intervalle ouvert contenant 0. De plus elle est analytique dans un voisinage de 0 et tn E (X n ) LX (t) = n!
nN

66

Exercices

pour tout t dans ce voisinage. En particulier, pour tout n N, (LX )(n) (0) = E (X n ) .
Dmonstration. Supposons LX dnie sur ] , [ pour un > 0. Puisque

nN

|tx|n = e|tx| etx + etx , n!

le thorme de convergence domine II.2.8 montre que pour tout |t| < , LX (t) = E (etX ) =
nN

1 E (tX )n = n!

nN

tn E (X n ) , n!

ce qui dmontre lanalycit de LX dans un voisinage de 0.

Exercices
Exercice III.1. Un tiroir contient n paires de chaussures. On choisit au hasard 2r chaussures (2r n). Quelle est la probabilit quil ny ait parmi ces 2r chaussures aucune paire complte ? Quelle est la probabilit quil y ait exactement k paire(s) complte(s) (1 k r ) ? Exercice III.2. Soit X une variable alatoire valeurs dans un ensemble M muni de la tribu de ses parties, telle que P {X = x} > 0 pour tout x M . Montrer que M est ni ou dnombrable. Indication : Pour tout n 1, soit Mn = {x M : P {X = x} > 1/n}. Montrer que Mn est ni. Exercice III.3. (Paradoxe de Bertrand). Soit C le cercle de centre O et de rayon 1 dans R2 . On cherche dterminer la probabilit pour que la corde AB de ce cercle, choisie au hasard, soit plus grande que le ct du triangle quilatral inscrit dans le cercle. Faire le calcul dans les dirents cas suivants : a) On xe un point I du cercle ; on choisit un point M sur le segment OI selon la probabilit uniforme ; on lui associe la corde AB perpendiculaire OI et passant par M . b) On xe A sur le cercle et on choisit B selon la probabilit uniforme sur le cercle. c) On choisit M dans le disque selon la probabilit uniforme ; AB est alors la corde passant par M et perpendiculaire OM .
67

Chapitre III. Mesures de probabilit

Exercice III.4. La plupart des ordinateurs disposent dun algorithme permettant de simuler des variables alatoires uniformes sur [ 0, 1]. Supposons donc savoir tirer une variable alatoire de loi U[0,1] . Utiliser la proposition III.2.7 pour simuler une variable alatoire de loi (i) E xp(1),
(ii) de fonction de rpartition F (x) = 1 x si x 1, et F (x) = 0 si x 1 (loi de Parto), (iii) de Cauchy de densit 1/ (1 + x2 ) .

Exercice III.5. Soit X une variable alatoire valeurs dans N telle que
P {X = k} = e2 2k (1 + k) , 4k! k N,

o > 0. Dterminer la valeur de . Calculer lesprance et la variance de X en remarquant que 3 1 P {X = k} = P {Y = k} + P {T = k} 4 4 pour tout k, o T = Z + 1 et Y et Z sont deux variables de loi de Poisson de paramtre 2. Exercice III.6. Soit lensemble des n! permutations des entiers de 1 n muni de la probabilit uniforme. Soient {c1 , . . . , cn } et {u1 , . . . , un } des nombres rels. On dnit S ( ) = 1kn ck u(k) . Posons 1 c= n
1k n ck

, c)2 ,

1 u =n

1k n uk

, u)2 .

1 s2 c = n1

1k n (ck

1 s2 u = n1

1k n (uk

a) Montrer que lesprance de S est gale nc u. b) Calculer la variance de u(k) , puis la covariance de u(k) et u(l) (k = l). Indication : Noter que 1kn u(k) = 1kn uk . 2 c) Dterminer la variance de S en fonction de s2 c et su .

Exercice III.7. Soit X une variable alatoire de loi N (0, 1). Montrer que Z = eX 2 est de densit f Z (z ) = (2 )1/2 z 1 e(ln z ) /2 si z > 0 et f Z (z ) = 0 si z 0. La loi de Z sappelle la loi log-normale. Pour a [ 1, 1 ], soit fa (x) = f Z (x)(1 + a sin(2 ln x)), x > 0. Montrer que si Za est de densit fa , alors Za et Z ont mmes moments, et donc que les moments ne caractrisent pas une loi de probabilit (comparer avec III.5.7 et le thorme III.5.8).
68

Exercices

Exercice III.8. On dit quun vecteur alatoire X = (X1 , . . . , Xd ) est changeable si la loi de X est invariante par permutation des coordonnes, i.e. pour toute permutation de {1, 2, . . . d}, X a mme loi que (X(1) , . . . , X(d) ). Soit donc X un tel vecteur alatoire, changeable, de carr intgrable, tel que de plus X1 + + Xd = 1. Montrer qualors E (Xi ) = 1/d et
Cov(Xi , Xj ) = VarX1 , d1 i=j.

Indication : tudier E (X1 + + Xd ) et E (X1 (X1 + + Xd )).

Exercice III.9. Soit X une variable alatoire relle sur (, A, P ). a) On suppose que X est de carr intgrable. Dmontrer quil existe un unique rel x0 tel que la fonction g(x) = E ((X x)2 ) soit minimum en ce point. Dterminer x0 et g(x0 ). b) On appelle mdiane de X un rel m tel que
P {X m} 1/2 et P {X m} 1/2 . Dmontrer quun tel rel existe toujours, mais quil nest pas ncessairement unique. Prouver que si X est intgrable et m est une mdiane de X , E |X m| = inf E |X | : R . Indication : tablir que si a < b, E |X b| E |X a| =
a b

(x) dx

o (x) = P {X x} P {X x} et tudier le signe de la fonction . Exercice III.10. Soit X une variable alatoire positive de carr intgrable sur (, A, P ) et soit ] 0, 1 [. Dmontrer que (1 )E (X ) E X [E (X ),[ (X ) , et en dduire, par lingalit de Cauchy-Schwarz, que P X E (X ) (1 )2 E (X )2 . E (X 2 )

Exercice III.11. Si P est une mesure de probabilit sur {1, 2, . . . , n}, on dnit lentropie de P par H (P ) = 1kn pk ln pk o pk = P ({k}), avec la convention 0 ln 0 = 0. Montrer que H est valeurs dans R+ et trouver P telle que H (P ) = 0. Dmontrer que la mesure uniforme sur {1, 2, . . . , n} ralise le maximum de H .
69

Chapitre III. Mesures de probabilit

Si P est une mesure de probabilit sur N, on dnit de mme son entropie par H (P ) = nN pn ln pn . Montrer que H est valeurs dans R+ { }. Quand sannule-t-elle ? Dmontrer que la loi gomtrique de paramtre p, 0 < p < 1, ralise le maximum dentropie sur lensemble des mesures de probabilit sur N de moyenne infrieure ou gale p/(1 p). Si P est une mesure de probabilit sur (R, B (R)) de densit f par rapport la mesure de Lebesgue, on note H (P ) = f (x) ln f (x) dx lorsque cette intgrale a un sens, H (P ) = sinon. Calculer lentropie de la loi normale N (0, 1). Dmontrer quelle minimise lentropie de toute mesure de densit f vriant 2 R xf (x) dx = 0 et R x f (x) dx = 1. Indication : on pourra commencer par montrer que pour toute densit g, ln(f (x)/g(x))f (x) dx 0, puis prendre pour g la densit gaussienne.

Exercice III.12. Montrer que la fonction (t) = (2 )1/2 R eitxx /2 dx, t R, est solution dune quation direntielle du premier ordre. En dduire la fonction caractristique de la loi N (0, 1) (cf. III.5.3.iii) ainsi que tous les moments de la loi N (0, 1). Exercice III.13. (Lemme de Riemann-Lebesgue) Soit X une variable alatoire relle, de densit f . Montrer que limt X (t) = 0. Indication : on pourra considrer dabord une densit uniforme, de la forme [ a,b ] /(b a), puis une densit tage, et approcher dans L1 une densit quelconque par une densit tage.
2

|X (t)|

En dduire que si f admet des drives f (1) , . . . , f (k) intgrables, alors = o(|t|k ) lorsque t . Exercice III.14. Soit P la mesure de probabilit sur Z dnie par P =
n2

c n2 ln n

(n + n )

o c est la constante de normalisation faisant de P une probabilit. Cette mesure admet-elle un moment dordre 1 ? Soit la transforme de Fourier de la mesure P . Pour tout entier N 2 et tout t > 0, on dnit fN (t) =
2nN

sin2 (nt/2) , tn2 ln n

gN (t) =
n>N

sin2 (nt/2) . tn2 ln n

Dmontrer que fN (t) tN et que gN (t) 1/tN ln N . Trouver une fonction t N (t) de ] 0, [ dans N telle que limt0 fN (t) (t) = limt0 gN (t) (t) = 0. En dduire que est drivable en 0. 70

Exercices

Exercice III.15. Soit f une densit sur R, paire (i.e. f (x) = f (x)), de fonction caractristique . Pour x > 0, soit g(x) = x t1 f (t) dt et poser g(x) = g(x). t Montrer que g est une densit dont la fonction caractristique est t1 0 (s) ds.

71

IV
INDPENDANCE

Dans ce chapitre, nous dbutons vritablement les considrations probabilistes. Si on jette deux fois un d, le rsultat du second jet est intuitivement indpendant du premier. Nous allons formaliser cette intuition, ce qui nous permettra dvaluer la probabilit de certains vnements. Lindpendance est aux probabilits ce que sont les mesures produit la thorie de la mesure. En particulier, les sommes de variables alatoires indpendantes ont pour loi les produits de convolution de mesures. Cette description permet de dvelopper une intuition claire des phnomnes alatoires modliss par des rptitions indpendantes dpreuves (loi des grands nombres, thorme central limite).

IV.1. Indpendance
D enition IV.1.1. Sur un espace probabilis (, A, P ), deux vnements A, B sont dit indpendants si
P (A B ) = P (A)P (B ) .

Exemple IV.1.2. On jette deux ds, un bleu et un rouge. Les vnements


A = { on obtient un nombre infrieur ou gal 4 avec le d rouge } et B = { on obtient un 6 avec le d bleu }

Chapitre IV. Indpendance

sont intuitivement indpendants, puisque les deux jets le sont. Nous pouvons modliser le tirage des deux ds en prenant = (i, j ) : 1 i, j 6

muni de la tribu de ses parties et de la probabilit uniforme P . Clairement, P (A) = 2/3 et P (B ) = 1/6. Observons que AB = (1, 6), (2, 6), (3, 6), (4, 6)

est de probabilit 4/36 = 1/9, qui est bien le produit de P (A) et P (B ). Remarquons que si deux vnements A et B sont indpendants, les tribus ({A}) = { , A, Ac , } et ({B }) sont indpendantes au sens o tout lment de ({A}) est indpendant de tout lment de ({B }). Dmontrons par exemple que A et B c sont indpendants. En eet, P (A B c ) = P (A) P (A B ) = P (A) P (A)P (B ) = P (A)(1 P (B )) = P (A)P (B c ) . La dnition suivante amplie cette premire ide intuitive de lindpendance dans deux directions, dune part pour des familles quelconques dvnements, dautre part pour des tribus.

D enition IV.1.3. Soit (, A, P ) un espace probabilis.


(i) Une famille quelconque dvnements Ai A, i I , est mutuellement indpendante si pour tout J I ni P
j J

Aj

=
j J

P (Aj ) .

(ii) Une famille quelconque de sous-tribus (ou dalgbres) Ai A, i I , est mutuellement indpendante si toute famille dvnements Ai Ai , i I , est mutuellement indpendante.

Exemples IV.1.4. (i) Prenons = [ 0, 1 ] muni de sa tribu borlienne et P la mesure de Lebesgue sur [ 0, 1 ]. Soit, pour tout n 1,
An =
1k 2n1

2(k 1) 2k 1 , 2n 2n

La famille (An )n1 est mutuellement indpendante (exercice IV.3). 74

IV.1. Indpendance

(ii) Reprenons lexemple du jet de ds. Considrons les vnements A ={ le rsultat du d rouge est impair } , B ={ le rsultat du d bleu est impair } , C ={ la somme des deux ds est impaire } . Il est facile de constater que A, B, C sont indpendants deux deux (cest--dire A et B sont indpendants, B et C sont indpendants, A et C sont indpendants), mais ne sont pas mutuellement indpendants au sens de la dnition prcdente. En eet, P (A) = P (B ) = P (C ) = 1/2 , P (A B ) = 1/4 , P (A C ) = 1/4 , P (B C ) = 1/4 ,

alors que P (A B C ) = 0 car A B C = (la somme des ds ne peut tre impaire si chacun des deux ds ache un rsultat impair). (iii) Soient (i , Ai , Pi ), i = 1, 2, des espaces probabiliss. En identiant tout ensemble A1 de A1 avec A1 2 et tout ensemble A2 de A2 avec 1 A2 , les tribus A1 et A2 deviennent des sous-tribus de A1 A2 . Les tribus A1 et A2 sont alors indpendantes dans (1 2 , A1 A2 , P1 P2 ). En eet, observons que (A1 2 ) (1 A2 ) = A1 A2 et que par dnition de la mesure produit, P1 P2 (A1 2 ) (1 A2 ) = P1 P2 (A1 A2 ) = P1 (A1 )P2 (A2 ) = P1 P2 (A1 2 ) P1 P2 (1 A2 ) . Nous convenons pour la suite que lindpendance dune famille signie lindpendance mutuelle des vnements ou des tribus. Toute autre forme dindpendance (plus faible) sera prcise explicitement. Les tribus contenant parfois beaucoup dlments, il peut tre dlicat de vrier leur indpendance. Dans le cas o elle sont engendres par des algbres, il sut de vrier lindpendance des algbres.

Proposition IV.1.5. Si C1 et C2 sont deux algbres indpendantes dans lespace probabilis (, A, P ), alors les tribus (C1 ) et (C2 ) sont indpendantes.
Dmonstration. Soit A1 C1 . La classe monotone

M2 =

A2 (C2 ) : P (A1 A2 ) = P (A1 )P (A2 ) 75

Chapitre IV. Indpendance

des vnements indpendants de A1 contient C2 . Elle contient donc la classe monotone engendre par C2 qui est gale (C2 ) daprs le thorme I.3.3. Soit prsent un lment A2 (C2 ). La classe monotone M1 = { A1 (C1 ) : P (A1 A2 ) = P (A1 )P (A2 ) } des vnements indpendants de A2 contient C1 daprs le point prcdent, et donc (C1 ). La conclusion sensuit. Il surait de considrer dans la proposition prcdente des familles C1 et C2 stables par intersection nie. La dnition dindpendance se formule de faon quivalente en terme de variables alatoires.

D enition IV.1.6. Une famille quelconque de variables alatoires Xi , i I , sur (, A, P ) et valeurs dans (E, B ) est (mutuellement) indpendante si la famille des tribus engendres par les Xi est (mutuellement) indpendante, i.e. pour tout J I ni et tous les ensembles mesurables Bj B , j J ,
P { Xj Bj : j J } = P
j J

{ Xj Bj }

=
j J

P { Xj Bj } .

Exemples IV.1.7. (i) Reprenons lexemple IV.1.2. Soient X1 et X2 les projections de sur la premire et seconde composante (X1 (i, j ) = i et X2 (i, j ) = j ). Ces projections sont des variables alatoires qui modlisent le tirage de chacun des deux ds. Alors,
1 1 { 1, 2, 3, 4 } X2 {6} P (A) = P X1

= P (1, 6), (2, 6), (3, 6), (4, 6) = 4/36 = 1/9 = P (A)P (B ) . Donc A et B sont bien indpendants. Pour vrier que X1 et X2 sont indpendantes, comme on lattend intuitivement si notre modle reprsente bien la ralit, observons que la tribu (X1 ), engendre par X1 , est forme des ensembles A1 { 1, 2, 3, 4, 5, 6 }, A1 { 1, 2, 3, 4, 5, 6 }. De faon symtrique, (X2 ) = { { 1, 2, 3, 4, 5, 6 } B2 : B2 { 1, 2, 3, 4, 5, 6 } } . 76

IV.1. Indpendance

Donc si A (X1 ) et B (X2 ) sont non vides, A = A1 { 1, 2, 3, 4, 5, 6 }, B = { 1, 2, 3, 4, 5, 6 } B2 , et P (A B ) = P (A1 B2 ) =


(i,j )A1 B2

1 = 36

iA1

1 6

j B2

1 6

= P (A1 )P (B2 ) = P (A)P (B ) . (ii) Poursuivons lexemple IV.1.4.i. La famille de variables alatoires Xn = An =
1k 2n1

2(k 1) 2k 1 2n , 2n

n 1,

de [ 0, 1 ] dans { 0, 1 } est indpendante. Il est ais de vrier que la loi de Xn est donne par P { Xn = 0 } = P { Xn = 1 } = 1/2 (loi de Bernoulli de paramtre 1/2). (iii) Il existe une notion de variables alatoires indpendantes deux deux, plus faible que lindpendance mutuelle. Soient X et Y deux variables alatoires indpendantes sur (, A, P ), chacune de loi de Bernoulli symtrique sur { 1, +1 } (P { X = 1 } = P { X = +1 } = 1/2). Soit Z = XY . La famille de variables alatoires (X, Y, Z ) est forme de variables indpendantes deux deux, mais nest pas mutuellement indpendante. Cet exemple est une variation en terme de variables alatoires de lexemple IV.1.4.ii. Nous reformulons maintenant lindpendance des variables alatoires en terme de lois de ces variables. Cest cette formulation qui permet de travailler avec les variables indpendantes. Rappelons que si X = (X1 , . . . , Xn ) est un vecteur alatoire sur (, A, P ), la loi de X dtermine la loi des marges, cest--dire la loi de chacune des Xi , mais que la rciproque est fausse en gnral (exemple III.3.3.i). Nanmoins, si les coordonnes sont indpendantes, le rsultat suivant montre que la loi du vecteur est dtermine par celles des marges. On ne considre dans lnonc suivant que le cas de variables alatoires relles. Le cas de variables alatoires valeurs vectorielles est similaire.

Proposition IV.1.8. Soit (X1 , . . . , Xd ) une famille nie de variables alatoires relles indpendantes sur (, A, P ). La loi P (X1 ,...,Xd ) du vecteur alatoire sur (Rd , B (Rd )) est gale au produit des lois marginales P X1 P Xd . Rciproquement, si la loi du vecteur est gale au produit des marges, alors les variables sont indpendantes.
77

Chapitre IV. Indpendance Dmonstration. Si B = B1 Bd est un pav dans B (Rd ), par hypothse

dindpendance, P (X1 ,...,Xd ) (B ) = P (X1 , . . . , Xd )1 (B1 Bd )


1 1 (B1 ) . . . Xd (Bd ) = P X1 1 1 (B1 ) P Xd (Bd ) = P X1

= P X1 (B1 ) P Xd (Bd ) . Lidentit stend lalgbre des runions nies disjointes de pavs, laquelle engendre la tribu borlienne produit B (Rd ). La rciproque dcoule des identits prcdentes et de la dnition dune loi puisque P (X1 , . . . , Xd ) B1 Bd = P (X1 ,...,Xd ) (B ) = P X1 (B1 ) P Xd (Bd ) =
1id

P { Xi Bi } .

Exemples IV.1.9. (i) Soit (X, Y ) R2 un couple de variables alatoires, de densit f (x)g(y ) par rapport la mesure de Lebesgue sur R2 . Alors X et Y sont indpendantes, et de densit respective f et g si f (x) dx = 1 (et donc g(x) dx = 1). (ii) Si X1 , . . . , Xd sont des variables alatoires relles indpendantes, si I1 , . . . , Ik forment une partition de { 1, . . . , d } avec nj = card(Ij ), et si de plus j est mesurable sur Rnj valeurs dans R, alors
Yj = j (Xi : i Ij )
1j k

est une famille de k variables alatoires indpendantes. En eet, (Yj ) (Xi : i Ij ) =


iIj

(Xi ) , (Xi ),

et, par le mme argument que dans lexemple IV.1.4.iii, les tribus 1 j k, sont indpendantes.

iIj

La proposition IV.1.5 et lexemple IV.1.9.ii suggrent la vracit de la proposition suivante.

Proposition IV.1.10. Sur un espace probabilis (, A, P ), soit (Ai )iI une famille de sous-tribus indpendantes de A. Soit (Jl )lL une partition arbitraire de lensemble I . La famille de tribus ( (Ai : i Jl ))lL est une famille indpendante.
78

IV.1. Indpendance Dmonstration. Daprs la dnition IV.1.3, il sut de faire la dmonstration lorsque L est ni, L = { 1, . . . , n }. Il sut alors de montrer que (Ai : i J1 ) est indpendante de (Ai : i J2 . . . Jn ). Autrement dit, nous sommes ramens au cas dune partition de I en deux sous-ensembles, J1 et J2 . Notons Tj = (Ai : i Jj ), j = 1, 2. Comme pour la dmonstration de la proposition IV.1.5, nous utilisons un argument de classe monotone. Pour j = 1, 2, soit Ej la famille des intersections nies dlments des tribus Ai , i Jj . Par dnition Ej est stable par intersection nie, et donc M(Ej ) = Tj (cf. thorme I.3.3). Fixons E E1 et notons

M(E ) =

A A : P (E A) = P (E )P (A)

la classe des vnements indpendants de E . Alors M(E ) est une classe monotone qui contient E2 . Donc M(E ) M(E2 ) = T2 . Si prsent F T2 , la classe M(F ) est toujours une classe monotone et contient E1 par le mme argument ; donc elle contient M(E1 ) = T1 , ce qui dmontre le rsultat. De la proposition IV.1.8 nous dduisons un autre critre dindpendance.

Corollaire IV.1.11. Une famille quelconque de variables alatoires relles Xi , i I , sur (, A, P ) est indpendante si et seulement si pour toute famille nie J I et toute famille nie de fonctions borliennes i , i J , telles que i (Xi ), i J , soient intgrables,
E
iJ

i (Xi )

=
iJ

E i (Xi ) .

Dmonstration. Supposons la famille Xi , i I , indpendante. Soit J une partie nie de I , que nous pouvons reprsenter par J = { 1, . . . , n }. Utilisons alors le thorme de Fubini (II.5.1) pour obtenir

E
1in

i (Xi )

=
1in

i (xi ) dP (X1 ,...,Xn ) (x1 , . . . , xn ) i (xi ) dP X1 (x1 ) dP Xn (xn )


1in

= =
1in

i (xi ) dP Xi (xi ) E i (Xi ) .


1in

La rciproque sobtient en considrant pour i des indicatrices de borliens. 79

Chapitre IV. Indpendance

Nous dduisons aussi du corollaire prcdent un critre dindpendance utilisant les fonctions caractristiques.

Corollaire IV.1.12. La famille (X1 , . . . , Xn ) de variables alatoires relles est indpendante si et seulement si pour tout (t1 , . . . , tn ) Rn ,
(X1 ,...,Xn ) (t1 , . . . , tn ) = X1 (t1 ) Xn (tn ) . produit P X1 P Xn . Cest le rsultat puisque la fonction caractristique dtermine la loi (III.5.2). Comme cas particulier du corollaire IV.1.11, nous observons que si X1 , . . . , Xn sont des variables indpendantes et intgrables, E (X1 Xn ) = E (X1 ) E (Xn ) . On prendra garde au fait que cette proprit ne caractrise pas en gnral lindpendance. Elle dcrit en fait une proprit plus faible de non corrlation.
Dmonstration. Le produit X1 Xn est la fonction caractristique de la loi

D enition IV.1.13. Deux variables alatoires relles X, Y L2 (, A, P ) sont non corrles si E (XY ) = E (X )E (Y ) ,
ou, de faon quivalente, si E ((X EX )(Y EY )) = 0. On dit aussi que les variables centres X E (X ) et Y E (Y ) sont orthogonales (pour le produit scalaire dans L2 cf. II.6.6).

Exemples IV.1.14. (i) Daprs le corollaire IV.1.11, deux variables alatoires indpendantes de carr intgrable sont non corrles.
(ii) Si X est une variable alatoire relle de loi normale N (0, 1), alors X et Y = X 2 sont non corrles. En eet, X et Y sont de carr intgrable et E (XY ) = E (X 3 ) = 0 = E (X )E (Y ) par application, par exemple, de la proposition III.5.6 pour calculer les moments de la loi normale. Il est clair intuitivement que X et Y ne sont pas indpendantes, ce qui est conrm par le fait que P { X 1 , Y 1 } = P { X 1 } = P { X 1 }P { Y 1 } puisque P { Y 1 } < 1. Pour les variables non corrles, on peut facilement valuer la variance de leur somme. 80

IV.1. Indpendance

Proposition IV.1.15. Si X1 , . . . , Xn sont deux deux non corrles, elles vrient lidentit de Bienaym,
Var
1in

Xi

=
1in

VarXi .

Nous en dduisons lingalit, dite de Bienaym-Tchebitchev, P


1in

(Xi E (Xi )) t

1 t2

Var(Xi ) ,
1in

t > 0.

Dmonstration. Comme Xi E (Xi ) et Xj E (Xj ), i = j , sont orthogonales

dans L2 , Var
1in

Xi

=E
1in

Xi E (Xi ) E

=
1i,j n

Xi E (Xi ) Xj E (Xj ) Xi E (Xi )


2

=
1in

=
1in

Var(Xi ) .

Lingalit de Bienaym-Tchebitchev est une consquence de lingalit de Tchebitchev (exemple III.4.10.ii).

Exemples IV.1.16. (i) Donnons une application du calcul des probabilits ltude de la gomtrie des espaces vectoriels. Soient u1 , . . . , ud Rd , muni de la structure euclidienne, des vecteurs de norme au plus 1. Soient p1 , . . . , pd [ 0, 1 ] et w = 1id pi ui . Montrons quil existe 1 , . . . , d { 0, 1 } tels que i ui d/2 . w
1id

Autrement dit, toute combinaison linaire des ui coecients dans [ 0, 1 ] peut tre approxime d/2 prs par une combinaison linaire coecients dans { 0, 1 }. Pour cela, prenons (X1 , . . . , Xd ) un vecteur alatoire de loi P (X1 , . . . , Xd ) = (x1 , . . . , xd ) =
1id 1xi i px , i (1 pi )

81

Chapitre IV. Indpendance

o xi { 0, 1 }, et soit X=
1id

Xi ui .

Les Xi sont mutuellement indpendantes, de loi de Bernoulli de paramtre pi . En particulier, elles sont non corrles. Alors, E X w 2) = E
1id

(Xi pi )2 ui + 2E

(Xi pi )(Xj pj ) ui , uj
1i,j d

=
1id

ui pi (1 pi )
2

d/4 . Observons alors que si X w 2 > d/4 pour presque toute valeur de X , alors E ( X w 2 ) > d/4 (proposition II.2.6). Donc il existe une valeur de (X1 , . . . , Xd ) pour laquelle X w 2 d/4 , ce qui est le rsultat. (ii) Voici enn un exemple dapplication en thorie des nombres. Soit (n) le nombre de diviseurs premiers de n. Nous allons montrer, quen un certain sens, pour la plupart des entiers i n, (i) est de lordre de ln ln i.

Proposition. Si a(n) est une suite qui tend vers linni, alors
1 card i n : | (i) ln ln n| > a(n) ln ln n n n lim En particulier, pour tout > 0, lim (i) 1 card i n : 1 n ln ln i = 0. = 0.

Pour montrer cette proposition, considrons la suite despaces probabiliss (N , P (N ), Pn ) o 1 i Pn = n


1in

82

IV.1. Indpendance

est la loi uniforme sur { 1, 2, . . . , n }. Pour p premier, soit Xp (i) = 1 0 si p divise i, sinon , i N .
p premier Xp .

Les Xp sont des variables alatoires sur (N , P (N ), Pn ). Soit X = Observons que X (i) = (i) pour tout i N et que 1 card i n : | (i) ln ln n| a(n) ln ln n n

= Pn |X ln ln n| a(n) ln ln n .

Sous la loi Pn , en notant la partie entire, pour tout entier k 1


k ) = Pn { Xp = 1 } = E (Xp

1 n

{p divise i} = n/p /n = p1 + O(n1 ) .


1in

En particulier, sous Pn , E (Xp ) = 1 + O(n1 ) p et Var(Xp ) = 1 1 1 + O(n1 ) . p p

Le thorme des nombres premiers indique que le nombre de nombres premiers ne dpassant pas n est (n) = (n/ ln n)(1 + o(1)), ce qui permet de montrer que 1/p = ln ln n + o(1) ,
p premier p n

n .

Donc, sous Pn , E (X ) =
p n

p1 + O(n1 ) = ln ln n + o(1) .

La covariance de Xp et Xq sous la loi Pn est Cov(Xp , Xq ) = E (Xp Xq ) E (Xp )E (Xq ) = n/pq n 1 p pq 1 1 1 + n p q n/p n/q n n 1 1 q n n . 83

Chapitre IV. Indpendance

Donc, sous Pn , Var(X ) =


p premier p n

Var(Xp ) + 2
p,q premiers p<q n

Cov(Xp , Xq ) 1 1 1 + n p q 1
p premier p n

p n

1 1 1 1 +O p p n 1 n

+
p =q n

ln ln n +

p,q premiers p,q n

1 1 1 + +O p q n

= ln ln n +

(n) 2 ln ln n + O(1) + O(1) n n = ln ln n + O(1) .

Appliquons maintenant lingalit de Tchebitchev. Pour t > 0, Pn |X E (X )| t ce qui donne Var(X ) 1/t2 , 1/t2

lim sup Pn |X ln ln n| t ln ln n
n

et termine la dmonstration du premier point de la proposition. Pour obtenir le second, il sut de remarquer que pour tout > 0, 1 card i n : | ln ln i ln ln n| n n 1 = lim card i n : i ne n n = 0. lim

IV.2. Sommes de variables alatoires indpendantes


Remarquons que pour des variables alatoires indpendantes, de mme loi et de carr intgrable, la proposition IV.1.15 montre que si t > 0, P
1in

Xi E (Xi )

t n

Var(X1 ) . t2

n. Ainsi, lordre de grandeur de la somme 1in (Xi E (Xi )) est au plus Autrement dit, 1in Xi ressemble un terme dterministe, 1in E (Xi ) = nE (X1 ) (de lordre de n si E (X1 ) = 0), plus un terme alatoire de lordre au 84

IV.2. Sommes de variables alatoires indpendantes

plus n. Les rsultats de cette section nous servirons, dune part pour valuer la loi de 1in Xi , dautre part pour prciser au chapitre V le comportement du terme alatoire de lordre de n (thorme limite central, V.5.4). Les sommes de variables alatoires indpendantes et de mme loi jouent un rle essentiel dans le calcul des probabilits et en statistique. Historiquement, de nombreux travaux leur ont t consacrs. Elles interviennent galement dans de nombreux problmes pratiques. Nous en verrons quelques exemples dans cette partie o nous tudierons comment calculer la loi dune somme de variables alatoires indpendantes.

Proposition IV.2.1. Soient X et Y deux variables alatoires relles, indpendantes, sur (, A, P ). La loi de la somme X + Y est donne par le produit de convolution P X P Y des lois P X et P Y , dni, pour toute fonction borlienne borne de R dans R, par
R

d(P X P Y ) = =

(x + y ) dP Y (y ) dP X (x)
R R R

(x + y ) dP X (x) dP Y (y ) .
R

Dmonstration. On crit un thorme de transport sur le diagramme suivant :

o U est la fonction U (x, y ) = x + y . Ainsi, dP X +Y = E (X + Y )


R

= E (U (X, Y )) =
R2

U dP (X,Y ) U d(P X P Y ) (x + y ) dP X (x)dP Y (y ) .

=
R2

=
R2

85

Chapitre IV. Indpendance

Remarque IV.2.2. Le produit de convolution vrie un certain nombre de proprits algbriques issues de la description en terme de variables alatoires (mais qui ne susent cependant pas le caractriser) : (i) P 0 = P (puisque X + 0 = X ) ; (ii) (commutativit) P Q = Q P (puisque X + Y = Y + X ) ; (iii) (associativit) (P Q) R = P (Q R) (puisque (X + Y )+ Z = X +(Y + Z )) ; (iv) (distributivit) P (Q + (1 )R) = (P Q) + (1 )(P R) pour tout [ 0, 1 ] ; en eet, si est borlienne et borne,
d P (Q + (1 )R) = = (x + y ) dP (x) d Q + (1 )R (y ) (x + y ) dP (x) dQ(y ) + (1 ) = = (x + y ) dP (x) dR(y ) d(P R)

d(P Q) + (1 )

d P Q + (1 )P R .

Les fonctions caractristiques fournissent un autre moyen de dterminer la loi de la somme de deux variables alatoires indpendantes.

Proposition IV.2.3. Si X et Y sont deux variables alatoires relles indpendantes sur (, A, P ), la fonction caractristique de leur somme est donne par le produit des fonctions caractristiques
X +Y (t) = X (t)Y (t) , t R.

t R,

Dmonstration. Cest une consquence du corollaire IV.1.11, puisque pour tout

X +Y (t) = E eit(X +Y ) = E eitX eitY = E eitX E eitY = X (t)Y (t) . On prendra soin de ne pas confondre la fonction caractristique dun couple (X, Y ) de variables indpendantes, donne par (X,Y ) (s, t) = X (s)Y (t), s, t R, avec la fonction caractristique de la somme X + Y dcrite ci-dessus.

Exemples IV.2.4. (i) Si X = a p.s. et Y = b p.s., alors X et Y sont indpendantes et X + Y = a + b p.s. Autrement dit, a b = a+b .
86

IV.2. Sommes de variables alatoires indpendantes

(ii) Soient X, Y indpendantes, o X suit la loi de Poisson de paramtre , note P (), et Y suit la loi P (). Alors X + Y est de loi P ( + ). En eet, n P () = nN e n! n , et en appliquant IV.2.2.iv, P () P () =
nN mN

e e

n m n m n ! m! n m n+m n ! m! n m k n ! m! k = P ( + ) .

= e(+)
nN mN

= e(+)
k N

= e(+)
k N

m+n=k ( + )k

k!

Une autre dmonstration, plus probabiliste, consiste crire que pour tout k N, { X + Y = k } est la runion disjointe des vnements { X + n = k ; Y = n }, 0 n k. Ainsi, par indpendance de X et Y , P{X + Y = k } =
0nk

P{X + n = k ; Y = n} P { X = k n }P { Y = n }
0nk

= =
0nk

kn n e (k n)! n!

= e(+)

( + )k . k!
it 1) it 1) it 1)

On peut utiliser enn les fonctions caractristiques. Si t R, X +Y (t) = X (t)Y (t) = e(e e(e = e(+)(e

est la fonction caractristique de P ( + ) par le thorme III.5.2 et lexemple III.5.3.v. Sous rserve quelles soient calculables, les transformes de Fourier sont donc un outil trs ecace pour ltude des sommes de variables alatoires indpendantes. (iii) Jetons une pice n fois. Quelle est la loi du nombre de piles ? Modlisons n jets dune pice par n variables alatoires indpendantes X1 , . . . , Xn chacune de loi de Bernoulli B (1, p), i.e. P { Xi = 1 } = 1 P { Xi = 0 } = p 87

Chapitre IV. Indpendance

(avec p = 1/2 si la pice nest pas truque), Xi = 1 reprsentant le tirage de pile au i-me coup, et Xi = 0 le tirage de face. Le nombre de piles est donc Sn = X1 + + Xn . Montrons que cette somme suit une loi binomiale B (n, p). cet eet, observons dabord que Sn prend les valeurs 0, 1, 2, . . . , n. Pour tout 0 k n, lvnement { Sn = k } est la runion disjointe des deux vnements { Sn1 = k ; Xn = 0 } et { Sn1 = k 1 ; Xn = 1 }. Ainsi, par indpendance de Sn1 et Xn (exemple IV.1.9.ii), P { Sn = k } = P { Sn = k ; Xn = 0 } + P { Sn = k ; Xn = 1 } = P { Sn1 = k ; Xn = 0 } + P { Sn1 = k 1 ; Xn = 1 } = P { Sn1 = k }P { Xn = 0 } + P { Sn1 = k 1 }P { Xn = 1 } = (1 p)P { Sn1 = k } + pP { Sn1 = k 1 } . On peut donc dmontrer le rsultat par rcurrence. Rappelons la formule de k 1 k Pascal, Ck n1 + Cn1 = Cn . Notons que S1 = X1 est de loi B (1, p). Si Sn1 est de loi B (n 1, p), alors
1 k 1 k n1k + pC k (1 p)n1(k1) P { Sn = k } = (1 p)Ck n1 p (1 p) n1 p k nk 1 k nk = Ck + Ck n1 p (1 p) n1 p (1 p) k nk = Ck . n p (1 p)

Une autre dmonstration, dans lesprit de la proposition IV.2.1, consiste crire, pour 1 k n, P { Sn = k } = E = =
x1 ,...,xn {0,1}

{k} (Sn ) {k} (x1 + + xn ) dP X1 (x1 ) . . . dP Xn (xn ) {k} (x1 + + xn )


1in

pxi (1 p)1xi

=
x1 ,...,xn {0,1}

{k} (x1 + + xn )p1in xi (1 p)n1in xi

= card (x1 , . . . , xn ) {0, 1}n : x1 + + xn = k pk (1 p)nk


k nk = Ck . n p (1 p)

On peut aussi utiliser le produit de convolution, ou encore les fonctions caractristiques (voir III.5.3.vi). La description de la loi binomiale comme loi de la somme de variables de Bernoulli indpendantes permet un calcul rapide de sa moyenne et de sa variance, 88

IV.2. Sommes de variables alatoires indpendantes

puisque par linarit de lintgrale et par lidentit de Bienaym, E (Sn ) = nE (X1 ) = np et Var(Sn ) = nVar(X1 ) = np(1 p) .

En particulier, Sn /n est le nombre moyen de piles sur les n jets. Observons que lingalit de Tchebitchev dans la version III.4.10.ii montre que pour tout > 0, 1 Sn p(1 p) Sn p 2 Var = . n n 2 n Donc la probabilit que Sn /n scarte de sa moyenne tend vers 0 lorsque n tend vers linni. Ainsi si nous tirons un grand nombre de fois pile ou face, la proportion de pile sera avec forte probabilit peu prs 1/2 (cest intuitivement clair, et montre encore que laxiomatique des probabilits que nous avons utilise est raisonnable). Une autre interprtation de la loi binomiale peut tre donne en terme durne. Supposons quune urne contienne une proportion p de boules lapis-lazuli et 1 p de boules vert uorescent. On tire une boule, note sa couleur, puis la remet dans lurne. On recommence ainsi n tirages avec remise. Le nombre Nn de boules lapislazuli ainsi tires suit une loi binomiale B (n, p). En eet, au i-me tirage, notons Xi = 1 si la boule est lapis-lazuli, et 0 sinon. Alors, Nn = X1 + + Xn est une somme de variables alatoires de Bernoulli de paramtre de succs p. (iv) Soient X, Y deux variables alatoires relles, indpendantes, dont les lois admettent des densits respectives f et g par rapport la mesure de Lebesgue. Il est ais de constater que la loi de la somme X + Y a une densit h par rapport la mesure de Lebesgue, donne par le produit de convolution des fonctions f et g, P h(x) = f g(x) =
R

f (x y )g(y ) dy =

g(x y )f (y ) dy ,

x R.

En eet, si est une fonction borlienne borne, d(P X P Y ) = = = (x + y )f (x)g(y ) dx dy (z )f (z y )g(y ) dy dz (z )h(z ) dz .

2 ) N (0, 2 ) = N (0, 2 + 2 ). Plus gnEn particulier, on vrie ainsi que N (0, 1 2 1 2 2 ) N (m , 2 ) = N (m + m , 2 + 2 ). Comme prcdemment, ralement, N (m1 , 1 2 2 1 2 1 2 ces relations peuvent se vrier rapidement sur les fonctions caractristiques. Si 2 ) et N (m , 2 ), pour X1 et X2 sont indpendantes de lois respectives N (m1 , 1 2 2 tout t R,

X1 +X2 (t) = X1 (t)X2 (t) = eim1 t1 t

2 2 /2

eim2 t2 t

2 2 /2

= ei(m1 +m2 )t(1 +2 )t


2 2

2 /2

. 89

Chapitre IV. Indpendance

IV.3. Applications de lindpendance


Nous tudions prsent quelques proprits thoriques et pratiques de lindpendance et leurs applications. La question suivante est motive par le dsir de modliser des suites innies de variables alatoires, des fonctions alatoires, ou, de faon plus gnrale, des processus stochastiques : tant donnes des lois Pi sur R (par exemple), existe-t-il des variables alatoires Xi sur un certain espace probabilis (, A, P ) qui sont indpendantes, et telles que P Xi = Pi pour tout i ? Lorsque lon a quun nombre ni P1 , . . . , Pn de lois, cela ne pose pas de problme : on prend = Rn muni de sa tribu borlienne, P = P1 Pn et on considre les Xi comme les applications coordonnes, Xi : Rn R, qui un point de Rn associe sa i-me coordonne. Quen est-il cependant avec une innit, par exemple dnombrable, de Pi ? Dans lexemple IV.1.7.ii, nous avons construit une suite innie de variables de Bernoulli B (1, 1/2) indpendantes, dnies sur lespace ([ 0, 1 ], B ([ 0, 1 ]), ). Cette construction est spcique cet exemple. Soit en gnral une famille (Ei , Bi , Pi )i1 despaces probabiliss. On cherche construire un espace probabilis (, A, P ) et une famille de variables alatoires mutuellement indpendantes, Xi , i 1, sur (, A, P ) valeurs dans (Ei , Bi ), telles que P Xi = Pi pour tout i 1. Dans la pratique, tous les Ei sont gaux R ou Rd ; mais cette notation nous permet de distinguer plus facilement chacun des facteurs de lespace produit. Comme dans le cas ni, soit = i1 Ei et Xi la projection sur la i-me coordonne. Dsignons par A la tribu produit des Bi , i 1, ou de faon quivalente engendre par les Xi . La tribu A est engendre par lalgbre C dite des cylindres qui sont les ensembles A de la forme A = Cn En+1 En+2 o Cn B1 Bn est appel la base du cylindre. On peut dnir sur C une fonction densemble Q ( valeurs dans [ 0, 1 ]) par Q(A) = P1 Pn (Cn ) , pour tout A C (de base Cn ).

Th eor` eme IV.3.1 (de Kolmogorov). La fonction densemble Q se prolonge en une unique probabilit P sur (, A). Sous P , les Xi sont indpendantes et de loi Pi .
Dmonstration. La deuxime partie de lnonc est vidente par construction. An dtablir la premire partie, on utilise le thorme de prolongement I.4.9. Observons que Q est une fonction densembles additive sur A. Puisque Q() est ni,

90

IV.3. Applications de lindpendance

pour montrer la -additivit de Q sur A, il sut de montrer que si (An )nN est une suite dcroissante dans C dintersection vide, alors
n

lim Q(An ) = inf Q(An ) = 0 .


nN

Supposons le contraire, cest--dire que pour une certaine suite (An )nN dcroissante dans C et un certain > 0, inf nN Q(An ) et montrons alors que nN An = . Pour tout k 1, on peut construire une fonction densembles additive Qk sur E k = ik Ei limage de la dnition de Q = Q1 sur = E 1 . Par le thorme de Fubini (II.5.1), pour tout n Q(An ) =
1 Q2 (A n ) dP1 (1 )

2 1 o A n = { E : (1 , ) An } est la section de An suivant 1 E1 . Soit

Bn =

1 1 E1 : Q2 (A n ) /2 ,

2 1 (A n appartient la tribu cylindrique sur E par lexercice I.3). Par dnition de 2 1 1 Bn , puisque Q2 (A n ) < /2 sur le complmentaire de Bn et Q (An ) 1 partout,

Q(An )

1 P1 (Bn ) + P1 (Bn )

+ P1 (Bn ) .

Ainsi, P1 (Bn ) /2. La suite (Bn )nN dcrot dans E1 , et donc, ncessairement, puisque P1 est une probabilit, n Bn nest pas vide. Soit 1 un lment de n Bn . Ce que lon a fait pour Q = Q1 et la suite (An )nN , nous le recommenons pour 1 1 2 la fonction densembles Q2 et la suite (A n )nN , car inf n Q (An ) /2. On construit de cette faon un point = (i )i1 dans tel que pour tout k 1, 1 ,...,k ) > 0 o inf n Qk+1 (A n
1 ,...,k = A n

E k+1 : (1 , . . . , k , ) An

(qui est un cylindre de E k+1 ). En particulier, n x, pour tout k 1, 1 ,...,k = . Mais An est un cylindre de la forme An = CN E N +1 . Or on peut A n 1 ,...,N est non vide si et vrier, en sappuyant sur un dessin par exemple, que A n seulement si (1 , . . . , N ) CN . Ainsi An . Comme ceci lieu pour nimporte quel n, lintersection nN An nest pas vide puisquelle contient . Le thorme est tabli. En consquence de ce thorme, nous pouvons parler plus librement dune suite (Xn )nN de variables alatoires relles indpendantes sur un espace probabilis 91

Chapitre IV. Indpendance

(, A, P ). Un raisonnement similaire permet de construire des suites de vecteurs alatoires indpendants. Dans de nombreux problmes de probabilit, on est intress par le comportement limite dune suite de variables alatoires. Un exemple lmentaire est la suite des proportions de piles dans un tirage successif pile ou face. Dans de telles situations, les vnements dans une tribu engendre par un nombre ni de variables ont peu dintrt, et on ne sinteresse en fait quaux vnements dnis ultimement. Dans les bons cas, ceux-ci appartiennent une tribu appele tribu terminale que nous introduisons maintenant.

D enition IV.3.2. Soit (Tn )nN une famille indpendante de tribus sur (, A, P ) (par exemple Tn = (Xn ) o les Xn sont indpendantes). On dsigne par An la tribu engendre par Tn , Tn+1 , . . . et pose A = nN An . La tribu A est appele tribu des vnements terminaux ou tribu terminale (de la suite (Tn )nN ).
La tribu terminale vrie la loi du tout ou rien suivante, aussi appele loi du 01.

Th eor` eme IV.3.3 (loi du 01). Si A est une tribu terminale, alors tout A A vrie P (A) = 0 ou 1.
Dmonstration. Soit A A x. On considre la classe monotone des vnements

indpendants de A, M= B A : P (A B ) = P (A)P (B ) .

On se propose de montrer que M A . Si tel est le cas, A M et P (A) = P (A)2 , et donc P (A) = 0 ou 1. Considrons les tribus Bn = (T0 , . . . , Tn ), n N, et posons B = n Bn . En tant que runion croissante, B est une algbre. Nous savons, daprs la proposition IV.1.10, que les tribus Bn et An+1 sont indpendantes. Il sensuit que tout lment de Bn est indpendant de A. Ainsi, puisque A An+1 , il sensuit B M. Donc, en utilisant le thorme des classes monotones I.3.3, (B ) = M(B ) M. Il reste voir que (B ) A , ce qui est intuitivement clair. En eet, pour tout k, Tk Bk B (B ) . Donc pour tout n, An = (Tk : k n) (B ), do le rsultat. 92

IV.3. Applications de lindpendance

Exemples IV.3.4. (i) Soit (An )nN une suite dvnements indpendants de (, A, P ) ; alors
A=
nN mn

Am = { An a lieu une innit de fois }

est un vnement terminal pour la suite de tribus Tn = (An ) = { , , An , Ac n }; donc P (A) = 0 ou 1. On abrge souvent lexpression An a lieu une innit de fois par An inniment souvent ou An i.s. . Remarquer que P (An i.s.) = 0 signie que presque srement seulement un nombre ni dvnements An surviennent. Cest--dire que pour presque tout , il existe un n( ) ni tel que si n n( ) alors An , i.e. An na pas lieu. On fera trs attention au fait que lentier n( ) dpend de . (ii) Soient Xn , n N, des variables alatoires relles indpendantes, Tn = (Xn ), et soit an des rels positifs, tels que limn an = . Considrons lvnement A= : 1 X1 ( ) + + Xn ( ) converge lorsque n an .

Alors A A car, pour tout k, A= : 1 Xk ( ) + + Xn ( ) converge lorsque n . an

Donc A est soit de probabilit pleine, soit de probabilit nulle. Le rsultat suivant est connu sous le nom de lemme de Borel-Cantelli, mais le statut de thorme est justi par son importance pratique.

Th eor` eme IV.3.5 (Lemme de Borel-Cantelli). Soit (An )nN une suite dvnements sur un espace probabilis (, A, P ). (i) Si nN P (An ) < alors P (An i.s.) = 0. (ii) Si la suite (An )nN est indpendante alors nN P (An ) = implique P (An i.s.) = 1.
Dmonstration. La partie (i) est vidente : pour tout n,

A=
nN mn

Am
mn mn

Am ,

et donc P (An i.s.) = P (A) converge.

P (Am ) qui tend vers 0 avec n si la srie

93

Chapitre IV. Indpendance

La partie (ii) sobtient en remarquant dabord que pour tout n et tout N n, P


nmN

Am

=1P
nmN

Ac m 1 P (Am ) .

=1
nmN

Comme 1 x ex pour tout x 0, P


nmN

Am

1 exp
nmN nmN

P (Am ) .

Lorsque N tend vers linni, hypothse, et donc

P (Am ) tend, pour tout n, vers linni par Am = 1.

P
mn

Il ne reste plus qu remarquer que P (A) = lim P


n mn

Am .

Il existe de nombreuses versions du lemme de Borel-Cantelli. Il sut par exemple de supposer que les An sont indpendants deux deux (voir aussi exercice IV.15).

Exemples IV.3.6. (i) Soit (Xn )nN une suite de variables alatoires relles telle que, pour un M R, nN P { Xn M } < . Alors, daprs la partie (i) du lemme de Borel-Cantelli, P { Xn M i.s. } = 0. Autrement dit,
P
nN mn

{ Xm < M }

= 1.
n P { Xn

Donc lim supn Xn M p.s. De la mme faon, si alors lim inf n Xn M p.s.

M } < ,

(ii) On jette une innit de fois une pice quilibre. Quelle est la probabilit dobtenir une innit de fois deux piles conscutifs ? On reprsente le jeu par une suite (Xn )nN de variables alatoires sur (, A, P ), indpendantes, avec P { Xn = 1 } = P { Xn = 0 } = 1/2. Posons An = { Xn = Xn+1 = 1 }. On sintresse P (An i.s.). Il est clair que les An ne forment pas une suite indpendante, 94

IV.3. Applications de lindpendance

puisque par exemple la (n + 1)-me variable dtermine la fois An et An+1 . En revanche, la sous-suite (A2n )nN forme une suite indpendante. En outre, P (A2n ) = 1/4 pour tout n, et donc n P (A2n ) = . Ainsi par le lemme de Borel-Cantelli, P (A2n i.s.) = 1. Comme { A2n i.s. } { An i.s. }, on conclut que P (An i.s. ) = 1. (iii) Donnons un nouvel exemple dapplication du calcul des probabilits ltude des nombres. Considrons lespace probabilis ([ 0, 1 ], B ([ 0, 1 ]), P = ), et soit U la fonction identit de [ 0, 1 ] dans lui-mme. Cest une variable alatoire de loi uniforme sur [ 0, 1 ]. Pour tout nombre rel x, notons x sa partie entire. Pour [ 0, 1 ], crivons le dveloppement dyadique du nombre rel U ( ), U ( ) =
i1

2i Ui ( )

avec Ui = 2i+1 U 2i U { 0, 1 }. Les Ui sont mesurables, puisque images de U par des applications mesurables. Ce sont donc des variables alatoires. Si (u1 , . . . , un ) { 0, 1 }n , P (U1 , . . . , Un ) = (u1 , . . . , un ) = x [ 0, 1 ] : (x1 , . . . , xn ) = (u1 , . . . , un )

= 2n . En particulier, P { Ui = 0 } = P { Ui = 1 } = 1/2 et les Ui , i 1, forment une suite de variables alatoires indpendantes de loi de Bernoulli B (1, 1/2) (ici nous utilisons le thorme de prolongement IV.3.1 puisque nous navons en fait montr lindpendance des Ui que pour 1 i n et tout n 1). Le dveloppement dyadique dun nombre dans [ 0, 1 ] est constitu de blocs de 0 et de 1. Par exemple le dveloppement 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, ... est form de blocs de longueur 2, 4, 2, 3, 1, 1, 3, . . . 95

Chapitre IV. Indpendance

Soit Nn le nombre de blocs dans les n premiers chires. Cest une variable alatoire puisque pour tout entier k positif, lvnement { N = k } est gal { U1 = = Un1 } { Un1 = Un1 +1 }
1n1 ,...,nk n

{ Un1 +1 = = Un1 +n2 } { Un1 +n2 = Un1 +n2 +1 } ... { Un1 ++nnk1 +1 = = Un1 +...+nk } { Un1 ++nk = Un1 ++nk +1 } { Un1 ++nk = = Un } , et chaque ensemble { Ui = = Ui+j } = { 0 = Ui } . . . { 0 = Ui+j } { 1 = Ui } . . . { 1 = Ui+j } est mesurable. On pourrait ainsi calculer la loi de Nn , mais cest un peu lourd. Pour obtenir des informations sur Nn , dnissons la fonction gnratrice Gn (s) =
k 1

sk P { Nn = k } .

Cette fonction est dnie au moins sur lintervalle ] 1, 1 [ puisque P { Nn = k } est dans [ 0, 1 ]. De plus, pour tout k 1, P { Nn = k } = 1 dk Gn (s) k! dsk .
s=0

Cette fonction peut tre calcule comme suit. Observons que pour u { 0, 1 }, P { Nn = k ; Un = u } = P { Nn1 = k ; Un1 = u ; Un = u } + P { Nn1 = k 1 ; Un1 = 1 u ; Un = u } 1 1 = P { Nn1 = k ; Un1 = u } + P { Nn1 = k 1 ; Un1 = 1 u } 2 2 96

IV.3. Applications de lindpendance

puisque Nn1 est (U1 , . . . , Un1 )-mesurable et que Un est indpendante de U1 , . . . , Un1 . On a donc Gn (s) =
k 1

sk P { Nn = k ; Un = 0 } + P { Nn = k ; Un = 1 } 1 2 sk P { Nn1 = k ; Un1 = 1 } + P { Nn1 = k 1 ; Un1 = 0 }


k 1

+ P { Nn1 = k ; Un1 = 0 } + P { Nn1 = k 1 ; Un1 = 1 } = 1 2 sk P { Nn1 = k } + P { Nn1 = k 1 }


k 1

1+s Gn1 (s) . = 2 Ainsi, par rcurrence, et puisque G1 (s) = s, Gn (s) = 1+s 2
n1

s.

Nous pouvons maintenant encadrer Nn de la faon suivante, similaire lexemple III.4.10.iii. Observons que pour tout s 1 et tout cn 0, P Nn n cn 2 n cn 2 P { sNn s 2 cn } scnn/2 Gn (s) .
n

Donc, en optimisant en s, et pour n assez grand, P Nn inf scn n/2 Gn (s) = e2cn /n(1+o(1))
2

0s1

pourvu que limn c2 n /n = . En prenant cn = P Nn


n1

n ln n, on voit que < .

n cn 2

Donc, par le lemme de Borel-Cantelli, pour presque tout , n Nn ( ) n ln n 2 pour n assez grand. De mme, pour cn tel que limn c2 n /n = , P Nn n + cn 2 inf scnn/2 Gn (s) = e2cn /n(1+o(1))
2

s 1

97

Chapitre IV. Indpendance

et presque srement pour n assez grand, n Nn ( ) + n ln n . 2 Ainsi, nous avons montr que pour presque tout nombre de [ 0, 1 ], le nombre de blocs premiers chires du dveloppement dyadique est compris entre dans les n n n n ln n et + n ln n pour n assez grand. On voit de plus que 2 2 Gn (1) =
k 1

kP { Nn = 1 } = E (Nn ) =

n n+1 , 2 2

n .

Donc, en moyenne , un nombre a de lordre de n/2 blocs dans les n premiers chires.

IV.4. Vecteurs alatoires gaussiens et lois gaussiennes


Rappelons quune variable alatoire relle X : (, A, P ) (R, B (R)) suit une loi normale ou gaussienne N (m, 2 ) de moyenne m et de variance 2 si sa densit par rapport la mesure de Lebesgue sur R est 1 2 2 exp 1 (x m)2 2 2
2 t2 /2

x R.

De faon quivalente, sa transforme de Fourier est X (t) = eimt , t R.

Rappelons aussi que si Y suit une loi N (0, 1), alors X = m + Y suit une loi N (m, 2 ). On notera pour toutes ces dnitions que, dans la famille des lois gaussiennes, les paramtres de moyenne m et de variance 2 caractrisent une loi donne. Une variable gaussienne a des moments de tous ordres (III.5.6). Nous allons nous intresser prsent des variables alatoires gaussiennes valeurs dans Rd , ou vecteurs alatoires gaussiens.

D enition IV.4.1. Une variable alatoire


X = (X1 , . . . , Xd ) : (, A, P ) (Rd , B (Rd )) , valeurs dans Rd , est dite gaussienne si pour tout = (1 , . . . , d ) de Rd , , X =
1id

i Xi

est une variable alatoire gaussienne. 98

IV.4. Vecteurs alatoires gaussiens et lois gaussiennes

Dans la dnition IV.4.1, la variable alatoire , X relle gaussienne est caractrise par sa moyenne E
1id

i Xi

=
1id

i E (Xi ) ,

et sa variance Var
1id

i Xi

=
1i,j d

i j E (Xi E (Xi ))(Xj E (Xj )) .

Ainsi, le vecteur gaussien X = (X1 , . . . , Xd ) est entirement caractris par son vecteur moyen m = E (X ) = E (X1 ), . . . , E (Xd ) et sa matrice de covariance = E (Xi E (Xi ))(Xj E (Xj ))
1i,j d

On voit trs simplement sur ces formules comment se ramener au cas dun vecteur gaussien centr (E (X ) = (0, . . . , 0)), en soustrayant simplement la moyenne ; dans ce cas, la matrice de covariance scrit (E (Xi Xj ))1i,j d ; nous le supposerons souvent par la suite. En terme de transforme de Fourier, si u = (u1 , . . . , ud ) Rd , et si le vecteur alatoire X = (X1 , . . . , Xd ) est gaussien, X (u) = E exp(i u, X ) = exp i u, m 1t uu 2 .

Notons que si X = (X1 , . . . , Xd ) est un vecteur gaussien, ses marges X1 , . . . , Xd sont gaussiennes (considrer pour le i-me vecteur de base dans la dnition IV.4.1), mais, sauf si elles sont indpendantes, la rciproque est fausse (par exemple si Z est gaussienne relle de loi N (0, 1) et est de loi de Bernoulli symtrique P { = +1 } = P { = 1 } = 1/2, indpendante de Z , alors (Z, Z ) nest pas gaussien, mais de marges gaussiennes). Un exemple lmentaire, mais fondamental, est constitu par un vecteur G = (G1 , . . . , Gd ) dont les composantes sont indpendantes, de loi N (0, 1). Le vecteur G est centr et sa matrice de covariance est la matrice identit. La loi de G a pour densit (2 )d/2 exp( x 2 /2) par rapport la mesure de Lebesgue dx 2 d sur Rd (o lon rappelle que x 2 = x2 1 + + xd pour tout x = (x1 , . . . , xd ) R ). On note N (0, Id) la loi de G. Montrons alors lexistence de vecteurs gaussiens de matrice de covariance . Toute matrice de covariance tant symtrique et semi-dnie positive peut tre crite = A tA, o A est une matrice carre. 99

Chapitre IV. Indpendance

Proposition IV.4.2. Soit X = (X1 , . . . , Xd ) un vecteur gaussien centr de matrice de covariance = A tA. Alors X a mme loi que AG o G est de loi N (0, Id). On note N (0, ) la loi de X .
Dmonstration. Le vecteur alatoire AG est bien gaussien, puisque toute combinaison linaire de ses coordonnes est une combinaison linaire des coordonnes de G. Notons A = (ai,j )1i,j d . Pour tous 1 i, j d,

E (AG)i (AG)j = E
1k d

ai,k Gk
1ld

aj,l Gl

=
1k d

ai,k aj,k = i,j = E (Xi Xj ) .

En vertu de cette proposition, on voit immdiatement par changement de variable que, si A est inversible, pour tout borlien B de Rd , P{X B } = 1 (2 )d/2 |dtA|
B

exp

1 1 A x, A1 x 2

dx .

En eet, daprs la proposition prcdente, P { X B } = P G A1 (B ) , ce qui se calcule en utilisant la densit de G. Remarquons aussi que la proposition IV.4.2 nous dit que pour simuler numriquement un vecteur X de loi N (0, ), il sut de savoir simuler des variables alatoires relles de loi N (0, 1). Ayant simul un vecteur alatoire X de loi N (0, ), on peut simuler un vecteur de loi N (m, ) en considrant X + m. On peut tre plus prcis sur la dcomposition prcdente de la matrice de covariance . Mme si celle-ci est dgnre, on peut toujours lcrire sous la forme = P tP o P est une matrice orthogonale (i.e. P 1 = tP ) et est une matrice diagonale positive, avec ventuellement des zros sur la diagonale rendant compte des dgnrescences de (ou de X ). (Un cas extrme est par exemple 1 0 0 0 0 0 0 0 0 qui est la matrice de covariance du vecteur gaussien X = (X1 , X2 , X3 ) o X1 suit 100

IV.4. Vecteurs alatoires gaussiens et lois gaussiennes

la loi N (0, 1) et X2 et X3 sont de loi N (0, 0) i.e. X2 = X3 = 0 p.s.) Ainsi, = P tP = P t(P ) , et A = P . t En terme de changement de base, on notera que le vecteur gaussien P X a pour matrice de covariance la matrice diagonale (puisque P G a mme loi que X , donc tP X a mme loi que G, qui a pour matrice de covariance ). La diagonalisation de la matrice de covariance dun vecteur gaussien centr X nous a donc permis de dterminer une nouvelle base dans laquelle les composantes de X sont orthogonales. Lintrt de cette observation provient du thorme suivant qui est une autre faon de formuler la proposition IV.4.2.

Th eor` eme IV.4.3. Soit X = (Xi , . . . , Xd ) un vecteur gaussien dans Rd de matrice de covariance . Si les composantes de X sont deux deux non corrles (i.e. est diagonale), alors la famille (X1 , . . . , Xd ) est mutuellement indpendante.
Dmonstration. Nous nous contentons du cas centr. Pour tous u1 , . . . , ud R,

E exp i
1k d

uk Xk

1 = exp E 2 = exp =
1k d

uk Xk
1k d 2 uk E (Xk )

1 2

1k d

E exp(iuk Xk ) .

Ainsi la fonction caractristique du vecteur X = (X1 , . . . , Xd ) est le produit des fonctions caractristiques des lois marginales. Le corollaire IV.1.12 montre alors que les variables alatoires Xi sont indpendantes. On notera que lorthogonalit E (Xi Xj ) = 0, i = j , est videmment ncessaire. Si donc tP X a pour covariance la matrice diagonale , cest que dans la nouvelle base de Rd , de matrice de passage tP , le nouveau vecteur gaussien est composantes indpendantes. On se ramne preque toujours cette rduction. Comme peut avoir des zros sur la diagonale, le nombre de termes diagonaux non nuls est en fait le rang de ou le rang du vecteur gaussien X : il est en eet valeurs dans un sous-espace de Rd de dimension gale ce rang. 101

Chapitre IV. Indpendance

Exercices
Exercice IV.1. Une urne contient r boules rouges et b boules blanches. On tire ces boules une une, sans remise, jusqu puisement. Pour 0 k b, quelle est la probabilit pour quexactement k boules blanches soient tires avant la premire boule rouge ? Exercice IV.2. Deux joueurs A et B jouent une suite de parties indpendantes. Lors de chacune delles, ils ont respectivement les probabilits p pour A et q = 1 p pour B de gagner. Le vainqueur nal est celui des deux joueurs qui le premier obtient 2 victoires de plus que son adversaire. Quelle est la probabilit pour que A soit vainqueur ? Exercice IV.3. Vrier lindpendance des An dans lexemple IV.1.4.i. Exercice IV.4. Soient X et Y deux variables dnies sur (, A, P ), ne pouvant prendre que deux valeurs distinctes. Montrer que X et Y sont indpendantes si et seulement si E (XY ) = E (X )E (Y ). Indication : Si X prend les valeurs x1 , x2 et Y les valeurs y1 , y2 , dduire de lhypothse que
E (X xi )(Y yj ) = E (X xi )E (Y yj ) , i, j = 1, 2 .

Exercice IV.5. Soit X une variable alatoire relle et soient f et g deux fonctions croissantes de R dans R. On suppose que E (f (X )2 ) < et E (g(X )2 ) < . Dmontrer que E f (X )g(X ) E f (X ) E g(X ) .
Indication : remarquer que (f (x) f (y ))(g(x) g(y )) 0 pour tous x, y R et utiliser le thorme de Fubini aprs avoir introduit une variable Y indpendante de X et de mme loi que X . En dduire que si |X | < 1 p.s., E 1 1 X2 E 1 1X 1 . 1+X

Exercice IV.6. Soient X et Y deux variables alatoires indpendantes, de mme loi exponentielle de densit f (x) = ex [0,[(x), > 0. Dterminer les densits des lois de X 3 , |X Y |, min(X, Y 3 ). Mme question lorsque X et Y suivent la loi uniforme sur [ 1, 1 ]. Exercice IV.7. Soient F et G deux fonctions de rpartition et U une variable alatoire de loi uniforme sur ] 0, 1 [. Montrer que V (x, y ) = min(F (x), G(y )) est la fonction de rpartition du vecteur alatoire (F (U ), G (U )). En particulier, V est de marges F et G.
102

Exercices

Montrer que si H est une fonction de rpartition sur R2 de marges F et G, alors H V .

Exercice IV.8. Soient Xi , 1 i n, des variables alatoires indpendantes, Xi tant de fonction de rpartition Fi . Soit mn = min1in Xi et Mn = max1in Xi . Montrer que la fonction de rpartition de Mn en x est 1in Fi (x), que celle de mn est 1 1in (1 Fi (x)) et que
P { x1 < mn Mn x2 } =
1in

(Fi (x2 ) Fi (x1 )) .

Indication : { Mn x } = 1in { Xi x }. Exercice IV.9. Soient X1 , . . . , Xn des variables indpendantes de mme loi exponentielle de paramtre 1. Montrer que P { i, j : Xi = Xj } = 0. On pose Z = min Xi
1in

et

N = min{ 1 i n : Xi = Z } .

Dterminer la loi de Z . tablir que P { N = k , Z > t } = ent /n , k = 1, . . . , n , t > 0.

En dduire que Z et N sont des variables alatoires indpendantes et prciser la loi de N .

Exercice IV.10. Soit P une loi sur R dont on suppose quelle admet une transforme de Laplace L(t) = etx dP (x) pour |t| petit. Soit P n la n-ime convolue de P avec elle-mme, dnie par P 1 = P et P n = P (n1) P (i.e. P n est la loi dune somme de n variables alatoires indpendantes de loi P ). Soit t tel tx que L(t) existe et soit Pt la loi dnie par sa densit dPt = e . Montrer que dP L(t) tx dPtn = e n. Ptn admet une densit par rapport P n donne par dP n L(t) Montrer que P n ([ x, [) etx L(t)n Ptn ([ x, [) pour t > 0 (comparer cette ingalit avec celle de Cherno, III.4.10.iii). Exercice IV.11. On appelle loi gamma de paramtre p > 0 et on note p la loi de densit p (x) = ((p))1 xp1 ex sur R+ , o (p) assure que p (x) dx = 1. Montrer que (p) = (p 1)(p 1) et que pour p entier, (p) = (p 1)!. Montrer que p q = p+q . En dduire la loi de 1 + + n o les i sont des variables alatoires indpendantes et de loi exponentielle de paramtre 1. Montrer que la fonction caractristique de la loi p est (1 it)p . Soit maintenant (Xi )i1 une suite de variables alatoires indpendantes et de mme loi exponentielle. Soit Sn = X1 + + Xn leur somme. Pour t 0, soit N (t) = card{ i : Si t }. En valuant P { N (t) k }, montrer que N (t) suit une loi de Poisson de paramtre t.
103

Chapitre IV. Indpendance

Exercice IV.12. Soient X1 , . . . , Xn , Xn+1 des variables alatoires indpendantes de loi exponentielle de paramtre 1. Calculer la loi de la somme Sk = X1 + + Xk , 1 k n +1. Dmontrer que la loi du vecteur (U1 , . . . , Un ) dni par Ui = Si /Sn+1 , i = 1, . . . , n, a une densit par rapport la mesure de Lebesgue sur Rn donne par n! D , o
D= x = (x1 , . . . , xn ) Rn ; 0 x1 xn 1 .

Exercice IV.13. Soient X1 , . . . , Xn des variables alatoires relles, indpendantes, de mme loi de fonction de rpartition F ayant une densit f . Ces variables, ordonnes par ordre croissant, sont notes X1,n X2,n Xn,n . Clairement les Xi,n , 1 i n, ne sont pas indpendantes puisque par construction Xi,n Xi+1,n . a) Montrer que la probabilit que k des variables X1 , . . . , Xn soient infrieures k nk . En dduire que x et n k soient suprieures x est Ck n F (x) (1 F (x)) k k n k , et que Xi,n admet pour densit P { Xi,n x } = ikn Cn F (x) (1 F (x))
i1 1 F (x) fi,n (x) = i Ci n f (x)F (x) ni

x R.

b) Montrer par un argument analogue que pour x, y R


i P { Xi,n x; Xi+1,n > y } = Ci n F (x) 1 F (y ) ni

c) En dduire la fonction de rpartition du couple (Xi,n , Xi+1,n ). d) Montrer que le couple (Xi,n , Xi+1,n ) admet pour densit
i1 1 F (y ) fi,i+1,n (x, y ) = i(n i)Ci n f (x)f (y )F (x) ni1

, < x < y < .

e) Soit Si+1,n = Xi+1,n Xi,n . Montrer que le couple (Xi,n , Si+1,n ) admet pour densit
i1 1 F (x + s) g(x, s) = i(n i)Ci n f (x)f (x + s)F (x) ni1

x R, s 0.

f) Supposons les Xi de loi exponentielle de paramtre 1. Montrer qualors Si+1,n est de loi exponentielle de paramtre n i.

Exercice IV.14. Soit (Xn )nN une suite de variables alatoires indpendantes, de mme loi de Bernoulli de paramtre p. Pour tout n 1, on dnit par rcurrence, Tn = inf { k > Tn1 ; Xk = 1 } si cet inmum est ni, Tn = sinon, et T0 = 0. Dmontrer que les variables alatoires T1 , T2 T1 , . . . , Tn Tn1 , . . . sont indpendantes et de mme loi. Calculer la loi de T1 et sa fonction caractristique. En dduire la loi de Tn .
104

Exercices

Exercice IV.15. Versions du lemme de Borel-Cantelli.


(i) Si
n1 P (An ) = et lim inf n 1in P (Ai ) 1in 1j n P (Ai 2

Aj )

= 1 alors

P (An i.s. ) = 1 (Rnyi). Indication : Appliquer lingalit de lexercice III.10 X = 1in Ai pour tout n 1 pour dmontrer que i1 Ai = p.s. (ii) Si n1 P (An ) = et P (Ai Aj ) cP (Ai )P (Aj ) pour un c > 0 et tous i = j , alors P (An i.s.) > 0 (Kotska). Exercice IV.16. Ingalit de Kolmogorov. Soient X1 , . . . , Xn des variables alatoires indpendantes desprance 0 et de variance nie. Soit Sn = X1 + + Xn . Montrer lingalit de Kolmogorov, P
1k n

max |Sk | t

t 2
1in

Var(Xi )

pour tout t > 0. Indication : considrer les vnements disjoints Ak =


j<k

{ |Sj | < t } { |Sk | t } ,

1 k n,

et commencer par montrer la minoration


2 ) E (Sn 1k n Ak 2 Sk dP .

Puis utiliser lingalit de Markov, P (Ak ) t2


Ak 2 Sk dP .

Exercice IV.17. Trouver une fonction h de R dans R et un rel c > 0 tel que la fonction c2 (x2 +y2 )/2 e + h(x)h(y ) , (x, y ) R2 , f (x, y ) = 2
soit la densit de la loi dun vecteur non gaussien de R2 , dont les lois marginales sont gaussiennes.

Exercice IV.18. Soit (X, Y ) un vecteur gaussien, centr, valeurs dans R2 , 3 6 de matrice de covariance = . Dmontrer que X et Y sont 6 12 proportionnelles.
105

Chapitre IV. Indpendance

Exercice IV.19. Soit X une variable alatoire suivant une loi N (0, 1), et soit une variable de Bernoulli telle que P { = +1 } = P { = 1 } = 1/2, indpendante de X . Dmontrer que X et |X | ont mme loi que X . Le couple (X, X ) est-il gaussien ? Exercice IV.20. Soit X un vecteur gaussien centr, valeurs dans Rd , et soit Y une copie indpendante de X . On pose X = X cos + Y sin et X = X sin + Y cos , [ 0, 2 ]. Dmontrer que pour tout , X et X sont indpendantes, de mme loi que X . Exercice IV.21. Soient X et Y deux vecteurs alatoires de Rd , indpendants et de mme loi, tels que X + Y et X Y sont indpendants. On dsigne par la fonction caractristique de la loi de X . a) Montrer que pour tous s, t Rd ,
(s + t)(s t) = (s)2 |(t)|2 . En dduire lexistence dune fonction continue sur Rd telle que = e . 1 d b) On pose p (t) = 1 2 ( (t) + (t)) et i (t) = 2 ( (t) (t)), t R . d d Dmontrer quil existe m R tel que i (t) = i m, t , t R . c) Soit Q(s, t) = p (s + t) p (s) p (t), s, t Rd . Dmontrer que Q est relle, symtrique ngative. tablir que Q est bilinaire. d) Dduire de ce qui prcde que la loi de X est gaussienne.

Exercice IV.22. (Lois inniment divisibles) Soit X une variable alatoire relle sur un espace probabilis (, A, P ), de loi ; on dit que est inniment divisible si, pour chaque entier n 1, il existe des variables alatoires relles X1,n , . . . , Xn,n indpendantes et de mme loi n telles que la loi de la somme X1,n + + Xn,n soit . a) Dmontrer quune loi est inniment divisible si et seulement si sa fonction caractristique est, pour tout entier n 1, la puissance n-ime dune fonction caractristique. b) est-elle inniment divisible dans les cas suivant : (i) = a , a R ; (ii) est la loi gaussienne de moyenne m et de variance 2 ; (iii) est la loi de Poisson de paramtre ; (iv) est la loi de Cauchy (on rappelle que la fonction caractristique de la loi de Cauchy est donne par e|t| ) ? c) Soit X de loi de Bernoulli sur { 0, 1 } de paramtre 0 < p < 1 ; soient galement Y et Z des variables alatoires indpendantes de loi commune telles que la somme Y + Z soit de loi . (i) Si B est un intervalle ne contenant pas 0 et 1/2, dmontrer que (B + B ) = 0 (o B + B = { x + y : x, y B }). En dduire que (B B ) = 0. (ii) Dduire de la question prcdente que Y ne peut prendre que les valeurs 0 et 1/2.
106

Exercices

(iii) Conclure que nest pas inniment divisible. d) Soit une fonction caractristique, et soit > 0. On dnit (t) = e((t)1) , t R.

Sur (, A, P ), on considre une suite (Xn )nN de variables alatoires indpendantes de mme loi de fonction caractristique , ainsi quun variable alatoire N suivant une loi de Poisson de paramtre , indpendante de la suite (Xn )nN . Pour chaque , on pose Y ( ) =
1k N ( )

Xk ( )

(avec la convention 1k0 = 0). Dmontrer que Y est une variable alatoire de fonction caractristique . Montrer que la loi de Y est inniment divisible.

107

V
CONVERGENCE DE SUITES DE VARIABLES ALATOIRES

Il existe de nombreuses notions de convergence de variables alatoires. Elle sont essentielles pour les applications. Elles servent surtout montrer que les phnomnes alatoires prsentent certaines rgularits, partir desquelles on peut identier certaines de leurs proprits. Par exemple, nous avons vu lexemple IV.2.4.iii que la frquence observe des piles dans un jeu de pile ou face, aprs n tirages, est proche de la probabilit (dterministe) p dobtenir pile, pourvu que n soit grand. Donc, si p est inconnue (par exemple nous ne savons pas si la pice est truque), nous avons l un moyen de lapproximer. Dans tout ce chapitre, les suites de variables alatoires (Xn )nN sont supposes construites sur un espace de probabilit (, A, P ). Pour plus de simplicit, nous ne considrons que des variables alatoires valeurs relles. Les noncs et les rsultats subsistent sans modications pour des vecteurs alatoires valeurs dans Rd (pour lessentiel, remplacer les valeurs absolues par une norme sur Rd ).

V.1. Convergence presque sre


D enition V.1.1. Une suite de variables alatoires relles (Xn )nN , dnie sur (, A, P ), converge presque srement (p.s.) vers la variable alatoire X , dnie sur (, A, P ), si
P : lim Xn ( ) = X ( )
n

= 1.

Dans ce cas, on note limn Xn = X p.s. ou Xn X p.s. lorsque n .

Chapitre V. Convergence de suites de variables alatoires

Observons que lvnement { limn Xn = X } est bien mesurable puisque gal |Xn X | < 1/p .
p1 mN nm

Or si (Ap )pN est une suite dvnements, la proposition I.4.3.i et le fait quune mesure de probabilit est borne par 1 montrent que P ( pN Ap ) = 1 si et seulement si P (Ap ) = 1 pour tout p. Il sensuit que Xn converge vers X p.s. si et seulement si =1 |Xn X | < > 0 , P
mN nm

(prendre 1/(p + 1) < p). Cette condition peut aussi scrire, par passage au complmentaire, > 0 , P
mN nm

|Xn X |

= 0.

Elle est alors quivalente > 0 , P |Xn X | i.s. Par convergence monotone, cest encore quivalent > 0 , lim P
m nm

= 0.

(1)

sup |Xn X |

= 0.

(2)

La convergence p.s. peut aussi tre dcrite laide du critre de Cauchy. Par exemple Xn X p.s. si et seulement si > 0 , P
nN mn

|Xn Xm | <

= 1.

On peut aussi dire, quitte enlever un ensemble de mesure nulle (celui pour lequel Xn ( ) ne converge pas vers X ( )), que Xn X p.s. si et seulement si Xn converge ponctuellement vers X , en tant que suite de fonctions de dans R. Il sensuit que si est une fonction continue sur R, alors (Xn ) converge vers (X ) presque srement. En particulier, si Xn et Yn , n N, sont deux suites de variables alatoires relles convergeant presque srement vers X et Y , alors pour tous a et b rels, aXn + bYn converge presque srement vers aX + bY et Xn Yn converge presque srement vers XY . Un des outils classiques pour montrer la convergence presque sre est le lemme de Borel-Cantelli. 110

V.1. Convergence presque sre

Proposition V.1.2 (Lemme de Borel-Cantelli). Soient Xn , n N, et X , des variables alatoires relles dnies sur (, A, P ). (i) Si pour tout > 0, nN P { |Xn X | } < , alors Xn X p.s. (ii) Si les (Xn )nN sont mutuellements indpendantes, alors Xn 0 p.s. si et seulement si nN P { |Xn | } < pour tout > 0.
Dmonstration. Pour montrer (i), soit > 0 et les vnements

An =

|Xn X | ,

n N.

Appliquons le lemme de Borel-Cantelli (IV.3.5) aux An . Il vient P (An i.s.) = 0, ce qui fournit le rsultat daprs (1). (Voir aussi IV.3.6.i.) (ii) se dmontre de faon analogue partir de la partie indpendante du lemme de Borel-Cantelli. (Noter quil convient de supposer X nulle, ou constante, sans quoi les vnements An ne sont pas ncessairement indpendants.)

Exemples V.1.3. (i) Soit (Xi )iN une suite de variables alatoires indpendantes et de mme loi de Bernoulli B (1, p), i.e. P { Xi = 1 } = 1 P { Xi = 0 } = p. Soit Un = 1in 2i Xi . Pour montrer la convergence p.s de Un , on peut appliquer le critre de Cauchy, en remarquant que n < m implique
|Um Un |
n+1im

2i 2n .

Ainsi : |Un ( ) Um ( )| <


nN mn

nN mn

{ : 2n < } { : 2n < }
nN

= = . Notons U la limite puisque 0 U


i i1 2 Xi . i = 1. i1 2

Cest une variable alatoire valeurs dans [ 0, 1 ]

(ii) Souvent on ne peut appliquer le lemme de Borel-Cantelli que sur des soussuites, et un argument supplmentaire est ncessaire pour conclure. Un exemple de cette situation est le suivant. Soient Xi , i 1, des variables alatoires indpendantes, de loi exponentielle P { Xi > t } = et , t 0. Soit Mn = max1in Xi . Alors { Xi t } = (1 et )n . P { Mn t } = P
1in

111

Chapitre V. Convergence de suites de variables alatoires

Montrons que Mn / ln n 1 p.s., cest--dire que le maximum de n variables alatoires exponentielles, indpendantes, se comporte p.s. comme ln n lorsque n est grand. La dmonstration consiste prouver que pour tout > 0, on a une minoration Mn (1 ) ln n p.s. pour tout n assez grand, puis que lon a une majoration Mn (1 + ) ln n p.s. pour tout n assez grand. Commenons par la minoration. Soit 0 < 1. On a P Mn (1 ) ln n = 1 n1+
n

= exp n ln(1 n1 ) = exp n (1 + o(1)) lorsque n tend vers linni. Donc n P { Mn / ln n 1 } < pour tout > 0, et par le lemme de Borel-Cantelli IV.3.5, Mn / ln n 1 p.s. pour n assez grand. En particulier, lim inf Mn / ln n 1 p.s.
n

tablissons maintenant la majoration. On a P Mn (1 + ) ln n = 1 P Mn < (1 + ) ln n = 1 1 n1


n

= 1 exp n ln(1 n1 ) = 1 exp n (1 + o(1)) = n (1 + o(1)) lorsque n tend vers linni. Soit la sous-suite nk = (k + 1) , k N, avec > 1 o est la fonction partie entire. Alors P Mnk (1 + ) ln nk
k N

< .

Donc lim supk Mnk / ln nk 1 + p.s. Pour conclure la majoration, pour tout n N , il existe k N tel que nk n < nk+1 . Et donc, en remarquant que la suite Mn est croissante, Mnk+1 ln nk+1 Mn . ln n ln nk+1 ln nk Puisque limk (ln nk )/(ln nk+1 ) = 1, on conclut que lim sup Mn / ln n 1 + p.s.
n

112

V.2. Convergence en probabilit

Ainsi, pour tout 0 < 1, presque srement, 1 lim inf


n

Mn Mn lim sup 1 + . ln n n ln n

En choisissant 0 le long dune sous-suite dnombrable, il sensuit que Mn / ln n 1 p.s. Largument que nous avons utilis dans la majoration, consistant dcouper lensemble N en des blocs [ nk , nk+1 [ , sappelle un argument de bloc.

V.2. Convergence en probabilit


La convergence en probabilit, appele aussi convergence en mesure, ou dans L0 (, A, P ), est dnie comme suit.

D enition V.2.1. Soient Xn , n N, X , des variables alatoires relles sur P (, A, P ). On dit que Xn converge en probabilit vers X , et on note Xn X , ou limn Xn = X en probabilit, ou P limn Xn = X , si pour tout > 0, lim P |Xn X | = 0 .
n

Autrement dit, pour tout > 0, il existe n0 tel que pour tout entier n n0 , P { |Xn X | } . On mesure tout de suite la dirence avec la convergence presque sre qui exige un supremum (voir (2), p. 110). En particulier, la convergence p.s. implique la convergence en probabilit.

Exemples V.2.2. (i) Soit Xi , i 1, des variables alatoires relles non corrles, telles que E (Xi ) = 0 et Var(Xi ) = 2 pour tout i 1. Alors leurs moyennes partielles n1 1in Xi convergent en probabilit vers 0. En eet, pour tout > 0,
P 1 n Xi
1in

1 Var 2 n 2

Xi =
1in

2 n2

daprs lingalit de Tchebitchev (III.4.10.ii). Ceci complte lexemple IV.2.4.iii et la discussion introduisant ce chapitre. Il convient de comprendre que cette convergence a un sens tout fait concret. Il sut de tirer une pice non truque une cinquantaine de fois pour voir que la proportion de piles se stabilise vers 1/2 si lon nest pas trop malchanceux. Cest exactement ce que dit le rsultat de convergence. 113

Chapitre V. Convergence de suites de variables alatoires

(ii) Soit = [ 0, 1 ] muni de sa tribu borlienne et de la probabilit uniforme P (mesure de Lebesgue). Dnissons pour , et n N, 1 k 2n , i = 2n +k 1, Xi ( ) = ](k1)/2n ,k/2n ] ( ) . Alors pour tout ] 0, 1 ], lim inf i Xi ( ) = 0 et lim supn Xn ( ) = 1, de sorte que la suite (Xi )i1 ne converge pas presque srement. Cependant, pour tout ] 0, 1 [, i = 2n + k 1, 1 k 2n , n N, on a P { |Xi | } = 2n , de sorte que Xi converge en probabilit vers 0. (iii) Soit (Xn )nN une suite de variables alatoires indpendantes, de loi de Bernoulli, avec P { Xn = 1 } = 1 P { Xn = 0 } = pn . Alors Xn 0
P

lim pn = 0

puisque P { |Xn | } = pn si 0 < < 1. Mais le lemme de Borel-Cantelli V.1.2 montre que
n

lim Xn = 0 p.s.

n nN pn

P |Xn | < .

< pour tout > 0

ce qui est quivalent

Il est possible de dnir une distance qui mtrise la convergence en probabilit des variables alatoires dnies sur un espace probabilis (, A, P ). Si X et Y sont deux variables alatoires, dnies sur (, A, P ), on pose, d(X, Y ) = E |X Y | 1 . Puisque |X Y | 1 0, la proposition II.1.4.viii montre que d(X, Y ) = 0 si et seulement si X = Y p.s. On vrie facilement que d(, ) est une distance. Dans ce qui suit, on pourrait aussi utiliser la distance d (X, Y ) = E |X Y | . 1 + |X Y |

Lemme V.2.3. La suite (Xn )nN converge en probabilit vers X si et seulement si


n

lim d(Xn , X ) = 0 .

Dmonstration. En utilisant lingalit de Markov (III.4.9), pour tout ] 0, 1 ],

P |Xn X | 114

= P |Xn X | 1

d(Xn , X )/ .

V.2. Convergence en probabilit

Dautre part, pour tout > 0, d(Xn , X ) = |Xn X | 1 dP |Xn X | 1 dP

{|Xn X |}

+
{|Xn X |<}

P |Xn X | + . Si Xn X , il existe n0 tel que si n n0 , P { |Xn X | } . Donc d(Xn , X ) 2 pour n n0 , et limn d(Xn , X ) = 0. Rptons encore que la convergence en probabilit nimplique pas la convergence presque sre. Mais on a le rsultat important suivant.
P

Th eor` eme V.2.4. Soient Xn , n N, X , des variables alatoires relles dnies sur (, A, P ). Alors Xn converge en probabilit vers X si et seulement si de toute suite dterministe croissante dentiers (n ), on peut extraire une sous-suite (nk ) telle que Xnk X p.s.
Dmonstration. Susance : Soit (n ) une suite croissante dentiers. Extrayons (nk )

telle que Xnk X p.s. En particulier, Xnk X . Or, si de toute sous-suite on peut extraire une sous-suite convergente vers une mme limite, la suite converge. On en dduit que Xn converge en probabilit vers X . Ncessit : Il sut de considrer (n ) = (n). Pour tout k 1, soit nk le plus petit entier tel P { |Xnk X | 1/k } 2k . Alors, P |Xnk X | 1/k
k 1

< .

En particulier, par le lemme de Borel-Cantelli IV.3.5, |Xnk X | < 1/k p.s. partir dun certain rang, et donc, limk Xnk = X p.s. Il rsulte de cette dmonstration que la convergence presque sre nest pas mtrisable, car si elle ltait, elle conciderait avec la convergence en probabilit. La convergence en probabilit est stable par les oprations algbriques usuelles.

Proposition V.2.5. Soient (Xn )nN , (Yn )nN , deux suites de variables alatoires relles dnies sur un espace (, A, P ). Supposons que Xn (resp. Yn ) converge en probabilit vers une variable alatoire X (resp. Y ) dnie sur (, A, P ).
115

Chapitre V. Convergence de suites de variables alatoires

(i) Si est une application continue de R valeurs dans R, alors (Xn ) (X ). (ii) Pour tous , R, Xn + Yn X + Y . (iii) De plus, Xn , Yn X, Y .
Dmonstration. Vrions par exemple (ii). Soit (n ) une suite partielle. On peut
P P

extraire une sous-suite (n ) telle que Xn X p.s. De (n ), on peut extraire une sous-suite (n ) tel que Yn Y p.s. Alors Xn + Yn X + Y p.s. On conclut laide du thorme V.2.4. (Il peut tre instructif de dmontrer cette proposition sans laide du thorme V.2.4.) Enn, lespace L0 (, A, P ) est complet pour la distance d mtrisant la convergence en probabilit.

Th eor` eme V.2.6. Soit (Xn )nN une suite de variables alatoires relles dnies sur (, A, P ). Supposons quelle vrie le critre de Cauchy en probabilit, cest--dire que > 0 , n0 , n n0 P |Xn Xn0 | ,
ou de faon quivalente, que > 0 , n0 , n n0 , d(Xn , Xn0 ) . Alors Xn converge en probabilit .
Dmonstration. En considrant = 1/2k dans la condition de Cauchy en probabi-

lit, on peut construire une suite dindices nk telle que P |Xnk Xnk+1 | 2k 2k .

Alors le lemme de Borel-Cantelli (IV.3.5) montre quil existe pour presque tout un entier k0 ( ) < tel que si k k0 ( ), |Xnk ( ) Xnk+1 ( )| 2k . Alors, la suite Xnk ( ) est de Cauchy. En eet, soit > 0 et p > l > k0 ( ) ; on a Xnl ( ) Xnp ( )
l k p 1

Xnk ( ) Xnk+1 ( ) 2k
l k p 1


k l

2k 2l+1 .

116

V.3. Convergence dans Lp

Ainsi, si l0 k0 ( ) et 2l0 +1 < , pour tous p > l > l0 , |Xnl ( ) Xnp ( )| . Donc Xnk converge p.s. vers une limite X . En particulier, cette sous-suite converge en probabilit vers X . Observons que dans un espace mtrisable, une suite de Cauchy dont une sous-suite converge est une suite convergente. Puisque la convergence en probabilit dans lespace L0 (, A, P ) est mtrisable, la suite (Xn )nN converge en probabilit vers X . Comme pour les suites usuelles (non alatoires), lintrt du critre de Cauchy et du thorme V.2.6 est quil assure lexistence dune limite sans que nous ayons besoin de la calculer explicitement.

V.3. Convergence dans Lp


Nous avons introduit les espaces Lp au chapitre II. Rappelons quune variable alatoire relle X , dnie sur (, A, P ), est dans Lp (, A, P ), p > 0, si E (|X |p ) est ni. Lespace Lp (, A, P ) est muni de la norme, X
p

= E |X |p

1/p

qui en fait un espace complet (thorme II.6.4). En particulier, on peut dnir une notion de convergence.

D enition V.3.1. Soient (Xn )nN , X , des variables alatoires relles dans Lp (, A, P ), 0 < p < . On dit que Xn converge vers X dans Lp si limn Xn X p = 0, ou de faon quivalente, limn E |Xn X |p = 0.
Lingalit de Markov III.4.10.i montre que pour tout p > 0, la convergence dans Lp implique la convergence en probabilit. Le lemme V.2.3 justie la terminologie de convergence dans L0 pour cette dernire. Les exemples suivants montrent quen gnral la convergence en probabilit, ou mme presque sre, nimplique pas la convergence dans Lp .

Exemples V.3.2. (i) Soit =] 0, 1 ] muni de sa tribu borlienne et de la probabilit uniforme P . Soit > 0 et
Xn ( ) = ]0,1/n] ( ) , n 1. Pour tout ] 0, 1 [, nous avons P { |Xn | } = 1/n. Par consquent, Xn converge en probabilit vers 0. Mais Xn Lp ds que p 1 puisque
p = E Xn 0 1/n

p d = + . 117

Chapitre V. Convergence de suites de variables alatoires

(ii) Soit = R muni de sa tribu borlienne. Pour tout n 1, soit Xn une variable alatoire de loi (1 np )0 + np n , cest--dire telle que P { Xn = n } = np = 1 P { Xn = 0 } , p > 1.

Si > 0, pour tout n 1/, P { |Xn | } = np , et comme p > 1, Xn 0 p.s. (lemme de Borel-Cantelli). En revanche, E (|Xn |p ) = 1 pour tout n. Pour lier la convergence dans les espaces Lp celle en probabilit, il faut utiliser la notion dquiintgrabilit, aussi appele intgrabilit uniforme.

D enition V.3.3. Une famille quelconque (Xi )iI de variables alatoires relles, dnies et intgrables sur un espace probabilis (, A, P ) est dite quiintgrable ou uniformment intgrable si
|Xi | dP = 0 .

c iI

lim sup
{|Xi |>c}

Les thormes de convergence monotone (II.2.1) ou de convergence domine (II.2.8) montrent quune famille nie de variables alatoires intgrables est uniformment intgrable. De mme, si |Xi | Y p.s. pour tout i I et Y est intgrable, alors (Xi )iI est quiintgrable. Rappelons que par convergence domine, si X est intgrable, pour tout > 0 il existe > 0 tel que si P (A) alors A |X | dP . En eet, le thorme de convergence domine (II.2.8) implique que pour c assez grand, |X | dP /2 .

{|X |>c}

De plus, |X | dP
A A{|X |>c}

|X | dP +

A{|X |c}

|X | dP

/2 + cP (A) /2 + c . Il sut donc de prendre = /2c. Lanalogue uniforme est donn par la proposition suivante.

Proposition V.3.4. La famille de variables alatoires relles intgrables (Xi )iI dnies sur (, A, P ) est uniformment intgrable si et seulement si
118

V.3. Convergence dans Lp

(i) pour tout > 0 , il existe > 0 tel que pour tout A A, P (A) implique i I ,
A

|Xi | dP ,

et (ii) supiI |Xi | dP < (ou supiI E |Xi | < ).

Dmonstration. Supposons lintgrabilit uniforme. Pour tout > 0, il existe c > 0

tel que sup


iI {|Xi |>c}

|Xi | dP /2 .

Si A A, pour tout i I , |Xi | dP


A A{|Xi |>c}

|Xi | dP +

A{|Xi |c}

|Xi | dP

/2 + cP (A) , ce qui dmontre (i) en prenant = /2c et (ii) en prenant A = . Rciproquement, soit M = supiI |Xi | dP < . Soit de plus > 0 et > 0 fournis par (i). Posons c0 = M/ . Pour tout c c0 et tout i, P { |Xi | > c } (ingalit de Markov, III.4.9). Appliquons alors (i) A = { |Xi | > c } pour chaque i pour obtenir supiI {|Xi |>c} |Xi | dP . La conclusion sensuit. Lintrt de la notion dquiintgrabilit apparat dans le thorme suivant, lequel peut tre vu comme une amlioration du thorme de convergence domine.

Th eor` eme V.3.5. Soient Xn , n N, X , des variables alatoires relles dnies sur (, A, P ). Supposons chaque Xn intgrable. Alors, il y a quivalence entre les deux points suivants :
(i) Xn X et la famille (Xn )nN est uniformment intgrable ; (ii) X est intgrable et limn Xn X
P 1 P

= 0.

Dmonstration. (i)(ii). Si Xn X , le thorme V.2.4 montre quon peut ex-

traire une sous-suite (nk ) telle que Xnk converge vers X p.s. Par le lemme de Fatou (II.2.3) et la proposition V.3.4, E |X | lim inf E |Xnk | sup E |Xn | < .
k nN

119

Chapitre V. Convergence de suites de variables alatoires

Donc X L1 . Maintenant, pour tout > 0, E |Xn X |


{|Xn X |<}

|Xn X | dP + |X | dP. |Xn | dP +

{|Xn X |}

|Xn | dP

+
{|Xn X |}

{|Xn X |}

{|Xn X |}

|X | dP .

Puisque X L1 , (Xn , n N, X ) est encore uniformment intgrable. Appliquons la proposition V.3.4 cette famille et dsignons par = () > 0 le rel intervenant dans le point (i) de cette proposition. Par hypothse, P { |Xn X | } pour n assez grand. La proposition V.3.4, avec A = { |Xn X | }, montre donc que pour tout n assez grand,
{|Xn X |}

|Xn | dP et

{|Xn X |}

|X | dP .

Alors E (|Xn X |) 3. Puisque est arbitraire, Xn converge vers X dans L1 . (ii)(i). Soit > 0 et n0 tel que Xn X 1 pour n > n0 . Puisque X L1 , la famille X, Xn , n n0 , est uniformment intgrable. Daprs la proposition V.3.4, il existe > 0 tel que si P (A) , |X | dP /2
A

et
A

|Xn | dP /2

pour tout n n0 . Lorsque n > n0 , par lingalit triangulaire, |Xn | dP


A A

|X | dP + Xn X

2 .

Il sensuit que la suite (Xn )nN vrie le point (i) de la proposition V.3.4. Le point (ii) est immdiat puisque par lingalit triangulaire E (|Xn |) est major par E (|Xn X |) + E (|X |). Donc la suite (Xn )nN est uniformment intgrable.

Corollaire V.3.6. Soit (Xn )nN une suite de variables alatoires relles, dnies sur
un espace (, A, P ), telle que pour un p > 1, supnN E (|Xn |p ) < . Si Xn X , alors pour tout q < p, limn Xn X q = 0.
Dmonstration. Pour tout c > 0, et tout entier n,
{|Xn |q >c} P

|Xn |q dP c(qp)/q c
(q p)/q

{|Xn k N

|q >c}

|Xn |p dP

sup E |Xk |p .

120

V.4. Convergence en loi

Comme q < p, le terme de droite tend vers 0 lorsque c , uniformment en n. P Donc la suite (|Xn |q )nN est uniformment intgrable. Comme |Xn |p |X |p , par le lemme de Fatou, E (|X |p ) < , et donc aussi E (|X |q ) < . Par consquent, en utilisant lingalit triangulaire pour la norme p , la suite (|Xn X |q )nN est aussi uniformment intgrable. Si Xn converge en probabilit vers X , alors |Xn X |q converge en probabilit vers 0. Le thorme V.3.5 montre alors que la suite (|Xn X |q )nN converge vers 0 dans L1 , et donc que la suite (Xn )nN converge vers X dans Lq .
Dmonstration du thorme II.6.4. Nous montrons le rsultat lorsque () < . Le cas gnral sen dduit en considrant une suite dexhaustion (An )nN de (, A, ) et en utilisant un argument diagonal. Quitte remplacer par /(), nous pouvons supposer que est une probabilit. On remarque dabord quune suite de Cauchy (Xn )nN dans Lp est quiintgrable. Nous pouvons en extraire une sous-suite qui est p.s. de Cauchy, et donc converge p.s. vers une limite X . La limite est dans Lp puisque les Xn sont quiintgrables. La limite ne dpend pas de la sous-suite considre puisque la suite est de Cauchy. Donc Xn converge dans Lp .

V.4. Convergence en loi


Cest le quatrime type de convergence que nous tudierons. Cest le plus faible, mais peut-tre aussi le plus important. Il est souvent utilis dans les applications. Nous avons vu que deux variables alatoires, X , Y , sur (, A, P ) ont mme loi, ou que les lois P X et P Y sont gales, si et seulement si leurs fonctions de rpartition sont gales (III.2.3), i.e. FX = FY , ou (cf. III.5) si pour toute fonction : R R continue borne (X ) dP = (Y ) dP ,

ou encore si leurs fonctions caractristiques sont gales (III.5.2), i.e. X = Y . Ces diverses galits donnent lieu des dnitions de convergence. 121

Chapitre V. Convergence de suites de variables alatoires

D enition et th eor` eme V.4.1. Soient Xn , n N et X , des variables alatoires relles, dnies sur (, A, P ). On dit que Xn converge en loi vers X , ou que les lois P Xn convergent troitement vers la loi P X , si lune des quatre conditions quivalentes suivantes est vrie :
(i) limn F Xn (t) = F X (t) en tout point de continuit t de F X ; (ii) limn : R R; (Xn ) dP = (X ) dP pour toute fonction continue borne

(iii) limn Xn (t) = X (t) pour tout t R ; (iv) Il existe un espace probabilis ( , A , P ) sur lequel sont dnies des variables alatoires Xn , n N et X , telles que Xn et Xn ont mme loi pour tout n, X et X ont mme loi, et limn Xn = X p.s. On note alors Xn X ou Xn X (pour Xn converge en distribution vers X ). On prendra garde au fait que, dans la dnition-thorme V.4.1.iv, la convergence presque sre a lieu pour les nouvelles variables Xn , X . En particulier, nous verrons lexemple V.4.2.iv que la convergence en loi nimplique pas la convergence presque sre. Dans le mme esprit, si Xn et Xn ont mme loi pour tout n, il nen est rien en gnral de (Xn , Xn+1 ) et (Xn , Xn+1 ) ou de tout autre vecteur form laide dlments des suites (Xn )nN et (Xn )nN . Avant de dmontrer lquivalence entre les points (i)(iv) de cette dnition, montrons que la convergence faible est bien le mode le plus faible de convergence que nous avons introduit jusqu prsent.
L d

Exemples V.4.2. (i) Si Xn converge p.s. vers X , alors Xn converge en loi vers X . Cela se dduit par exemple du thorme de convergence domine (II.2.8) et du point (ii) de la dnition.
(ii) Si Xn converge en probabilit vers X , alors Xn converge en loi vers X . En eet, pour tout > 0, et tout t, F Xn (t) = P { Xn t } P { X t + } + P |Xn X | F X (t + ) + o(1) et (n )

F Xn (t) P { X t } P |Xn X | F X (t ) + o(1) (n )

122

V.4. Convergence en loi

et lon conclut laide de V.4.1.i puisque > 0 est arbitraire. Rappelons que la convergence dans Lp , p > 0, entrane la convergence en probabilit, et donc la convergence en loi. (iii) Soit X de loi N (0, 1) et Xn = (1)n X . Alors Xn converge en loi vers X (puisque, par symtrie de la loi normale centre, Xn a mme loi que X pour tout n), mais ne converge pas p.s. vers X et ne converge pas en probabilit vers X . Le couple (X, Xn ) ne converge pas non plus en loi. (iv) Nous notons cependant le rsultat suivant, utile en statistique. Si Xn converge en loi vers une variable constante c, alors Xn converge en probabilit vers c. En eet, pour tout > 0,
n

lim P < Xn c

= lim F Xn (c + ) F Xn (c ) = 1 ,
n

et donc limn P { |Xn c| > } = 0. Le mme argument donne un petit rsultat aussi utile en statistique. Si Xn et Yn convergent en loi vers X et Y , on ne peut rien dire en gnral sur la convergence du couple (Xn , Yn ) (voir par exemple (iii) ci-dessus). Par contre, si Yn converge en loi vers une constante c, alors le couple (Xn , Yn ) converge en loi vers le couple (X, c). En particulier, Xn Yn converge en loi vers cX et Xn + Yn vers X + c. (v) Soient Xn , n N, et X , des variables alatoires valeurs entires ; alors Xn X si et seulement si limn P { Xn = k } = P { Xn = k } pour tout k N. Il sut pour sen convaincre de choisir, pour chaque k N, des points s et t de continuit pour F X tels que k 1 < s < k < t < k + 1. Alors P { Xn = k } = F Xn (t) F Xn (s) F X (t) F X (s) = P { X = k } . De la mme faon, F Xn (t) = F Xn (k) =
0lk L

P { Xn = l }
0lk

P { X = l } = F X (k) = F X (t) .

du thorme V.4.1.. (iv)(iii) et (iv)(ii) sont immdiats par convergence domine (II.2.8) et en remarquant que Xn = Xn et X = X , respectivement E ((Xn )) = E ((Xn )) et E ((X )) = E ((X )). (ii)(iii) est clair. Il sut de poser (x) = cos(tx), puis (x) = sin(tx). (iv)(i). Notons F Xn = Fn et F X = F dans ce qui suit. Soit t un point de continuit de F . Ainsi, P { X = t } = 1. Donc, presque srement, limn ],t] (Xn ) = ],t] (X ). En utilisant le thorme de convergence domine II.2.8, on en dduit que limn Fn (t) = F (t). Dmonstration

123

Chapitre V. Convergence de suites de variables alatoires

(i)(iv). Soit lespace probabilis ( , A , P ) = ] 0, 1 [, B ( ] 0, 1 [ ), o est la mesure de Lebesgue. Soit U une variable alatoire uniforme sur ] 0, 1 [, dnie sur ( , A , P ) (par exemple la fonction identit !). Alors (proposition III.2.7), (U ) et X = F (U ) ont respectivement mmes lois que X et X . Xn = Fn n (u) = F (u), sauf peut-tre sur un Il sut donc de montrer que limn Fn ensemble de mesure de Lebesgue nulle. Pour cela, soit u ] 0, 1 [ et t = F (u). Soient de plus > 0 arbitraire et t+ , t + + des points de continuit de F tels que t < t < t et |t t | (de tels points existent daprs la proprit III.2.4). Daprs les proprits de F utilises lors + de la dmonstration de la proposition III.2.7, F (t ) u et F (t ) u. Ainsi, par lhypothse (i), pour tout > 0 tel que 0 < u < u + < 1, Fn (t ) < u + et + Fn (t ) > u pour tout n assez grand. Daprs les mmes proprits appliques , Fn
(u + ) > t Fn t

et

Fn (u ) t+ t + .

Ainsi, puisque > 0 est arbitraire,


(u + ) t = F (u) lim inf Fn n

et

lim sup Fn (u ) t = F (u) . n

En remplaant u par u dans la premire limite et en faisant tendre vers 0, (u) F (u). De la mme faon, en remplaant u par il vient lim inf n Fn (u) F (u+) = F (u) u + dans la seconde limite, il vient lim supn Fn puisque F est continue droite. Ainsi, pour tout u ] 0, 1 [,
(u) lim sup Fn (u) F (u) . F (u) lim inf Fn n n

en nombre dnombrable daprs la remarque Or les points de discontinuit de suivant la proposition III.2.7, sont de mesure de Lebesgue nulle. Cest la dmonstration. (ii)(i) : Observons que pour tous > 0, t R, x R, (t x)+ (t + x)+ 1 ],t] (x) 1 ],t+](x) . Donc, si (ii) a lieu, nous en dduisons que

F ,

],t](x)

F (t ) = E

],t] (X ) E

(t X )+ 1 (t Xn )+ 1 = lim inf E n lim inf E ],t](Xn )


n n

= lim inf Fn (t) . 124

V.4. Convergence en loi

De la mme faon, F (t + ) = E

],t+](X ) E

(t + X )+ 1 (t + Xn )+ 1 lim sup E n lim sup E ],t](Xn )


n n

= lim sup Fn (t) , ce qui implique (i) puisque est arbitraire. Il ne nous reste plus qu montrer (iii)(i) par exemple. Lide de la dmonstration est dutiliser la formule dinversion de Fourier III.5.4, et dintgrer dans la convergence. Pour cela il est ncessaire que Xn admette une densit et que lon puisse passer la limite en n dans les inversions des fonctions caractristiques (ce qui impose a priori que les Xn soient quiintgrables). Lastuce pour obtenir (iii)(i) sans autre hypothse consiste multiplier Xn par une fonction caractristique intgrable, rendant ainsi la suite quiintgrable, ce qui revient ajouter Xn un petit bruit . Il est commode de prendre ce bruit gaussien. On notera donc N une variable alatoire de loi N (0, 1). Si Z est une variable alatoire, observons que pour tout t R et tout > 0, F Z (t) = P { Z t } P Z t ; 2 |N | + P |N | 1 P { Z + 2 N t + } + P |N | 1 F
Z + 2 N

(1)

(t + ) + E |N |

o nous avons utilis lingalit de Markov (III.4.9). De mme, F Z (t) P Z t ; 2 |N | P Z + 2 N t ; 2 |N | F


Z + 2 N

(2)

(t ) E |N | .

Soient donc, pour chaque n, Xn de fonction de rpartition F Xn et X de fonction de rpartition F X , et prenons N indpendante de Xn et X . Alors 2 4 2 Xn + N (t) = Xn (t)e t /2 (proposition IV.2.3), et de mme pour X . Daprs le thorme dinversion de Fourier III.5.4, Xn + 2 N et X + 2 N admettent des 2 2 densits, f Xn + N et f X + N , telles que, pour tout x R, f Xn +
2N

(x) f X +

2N

(x) =

1 2

eitx Xn (t) X (t) e

4 t2 /2

dt . 125

Chapitre V. Convergence de suites de variables alatoires

Puisque n converge vers simplement et que eitx Xn (t) X (t) thorme de convergence domine (II.2.8) implique que
n xR

2, le

lim sup f Xn+

2N

(x) f X +

2N

(x) = 0 .

(3)

Soit a assez grand tel que P { |X + 2 N | > a } . En intgrant sur le compact [ a, a ], nous dduisons de (3) que lim sup P |Xn + 2 N | a
n

= 1 lim inf P Xn + 2 N [ a, a ]
n

= 1 lim inf =1 f

n a a X + 2 N a

f Xn +

2N

(x) dx (4)

(x) dx .

= 1 P X + 2 N [ a, a ] En faisant usage de (1), il vient pour tout t R, lim sup F Xn (t) lim sup F Xn +
n n n
2N

(t + ) + E |N |

lim sup P Xn + 2 N [ a, t + ] + lim sup P |Xn + 2 N | > a + E |N | .


n

Daprs la convergence uniforme des densits (3), lim sup P Xn + 2 N [ a, t + ]


n

= P X + 2 N [ a, t + ] F X +
2N

(t + ) .

Ainsi, par (2) et (4), on conclut que lim sup F Xn (t) F X (t + 2) + + 2E |N | .


n

De faon analogue, lim inf F Xn (t) lim inf F Xn +


n n n
2N

(t ) E |N |

lim inf P Xn + 2 N [ a, t ] E |N | FX (t 2) 2E |N | . 126

V.4. Convergence en loi

Puisque > 0 est arbitraire et F est continue droite et admet en tout point une limite gauche, nous obtenons, F X (t) lim inf F Xn (t) lim sup F Xn (t) F (t) ,
n n

ce qui est (i). La dmonstration du thorme est termine. La dmonstration du thorme V.4.1 se gnralise Rd , et seule notre dmonstration de (i)(iv) doit tre substantiellement modie. On pourra se rfrer par exemple au livre de Pollard (1984) pour une dmonstration de lquivalence entre convergence en loi et convergence presque sre dune version bien choisie des vecteurs alatoires. Notre dmonstration de (iii)(i) aurait pu tre remplace par une preuve de limplication (iii)(ii) laquelle peut tre obtenue en introduisant un point de vue plus proche de lanalyse fonctionnelle, important dans certains aspects thoriques des probabilits et statistiques. De faon gnrale, lorsque lon dispose dune suite (zn )nN dans un espace topologique, sa convergence peut tre dmontre en deux tapes. On commence par montrer quelle est relativement compacte, cest--dire que lensemble { zn : n N } est dadhrence compacte ; puis on montre que lensemble des valeurs dadhrence contient un unique point, que lon identie ventuellement. Par exemple, si (zn )nN est une suite dans (C[ 0, 1 ], ), le thorme dArzelaAscoli donne un critre de compacit relative de la suite (zn )nN (il faut et il sut quelle soit borne et quicontinue) et on peut identier la limite ventuelle en dmontrant une convergence ponctuelle de zn . Dans lespace L1 , le thorme V.3.5 est lexact analogue du thorme dArzela-Ascoli. Une suite (zn )nN dans L1 est relativement compacte si elle est borne et quiintgrable, et on peut identier sa limite en dmontrant alors seulement une convergence en probabilit. La notion dquiintgrabilit est donc aussi une notion de compacit relative. Dans un espace de mesures, la notion correspondante est celle dquitension, laquelle assure que la masse des mesures ne schappe pas linni. Elle est dnie comme suit.

D enition V.4.3. Soit un espace topologique muni de sa tribu borlienne et dune probabilit P . On dit que P est tendue si pour tout > 0, il existe un compact K tel que P (K ) 1 . Si (Pn )nN est une suite de probabilits, on dit que la suite est quitendue (ou parfois tendue, ou uniformment tendue) si, pour tout > 0, il existe un compact K , tel que Pn (K ) 1 pour tout n. Si (Xn )nN sont des variables de lois (Pn )nN quitendues, on dit aussi que (Xn )nN est une suite de variables alatoires quitendues (ou tendues, ou uniformment tendues).
127

Chapitre V. Convergence de suites de variables alatoires

Sur Rd , toute loi de probabilit est tendue puisque Rd est la runion des compacts KM = { x Rd : |x| M } pour M = 1, 2, . . . et quune mesure vrie la proposition I.4.3.iii.

Th eor` eme V.4.4. Toute suite de lois quitendue sur Rd admet une sous-suite convergeant troitement.
Dmonstration. (Esquisse ; pour plus de dtails, voir Rudin (1975), Dudley

(1989)). La preuve sappuie sur un argument de dualit. Le dual de lespace des fonctions continues bornes sur Rd contenant des objets qui ne sont pas des mesures, il nous faut travailler avec lespace C0 (Rd ) des fonctions continues sur Rd tendant vers 0 linni. Muni de la norme supremum , cest un espace espace de Banach sparable. Son dual sidentie avec lespace M(Rd ) des mesures signes bornes = + , o + et sont des mesures positives et bornes, laide de la dualit , = d = d + d .

On peut munir M(Rd ) de la topologie faible* dont une base de voisinages est donne par les ensembles M(Rd ) : i d i d , 1 i k

pour M(Rd ), i C0 (Rd ), 1 i k, > 0. En particulier, une suite (n )nN dlments de M(Rd ) converge faiblement* vers si pour toute C0 (Rd ),
n

lim

d n =

d .

On munit lespace M(Rd ) de la norme duale = sup d :

Le thorme de Banach-Alaoglu, consquence du thorme de Tyckhonov, indique que la boule unit de M(Rd ), cest--dire { M(Rd ) : 1 }, est compacte et mtrisable pour la topologie faible*. (Cette structure mtrique est importante car elle permet lextraction de sous-suites convergentes.) Soit donc (Pn )nN une suite de lois quitendue sur Rd . Elle est dans la boule unit de M(Rd ). Cest donc une suite relativement compacte dans M(Rd ) et 128

V.4. Convergence en loi

elle admet une sous-suite (Pn )n N convergeant vers une mesure Q, a priori signe mais de norme infrieure ou gale 1. Cette valeur dadhrence Q de la suite (Pn )nN est ncessairement une mesure positive. En eet, sinon on montre lexistence dune fonction positive de C0 (Rd ) telle que dQ < 0, et alors dPn < 0 pour n assez grand, ce qui contredit la positivit des lois Pn . Il ne nous reste plus qu montrer que Q est une probabilit et que Pn converge troitement vers Q. Il sut de dmontrer cet eet que pour toute : Rd R continue telle que 0 1,
n

lim

dPn =

dQ .

Ceci est une consquence de lquitension de la suite (Pn )nN . Pour tout M > 0, soit KM le compact de Rd donn par KM = { x Rd : x M }. Pour tout > 0, il existe M tel que Pn (KM ) 1 pour tout n. Soit M (x) = (M + 1 x )+ 1, x Rd . Pour tout n, dPn
KM

dPn +

M dPn +

et donc, puisque M C0 (Rd ), lim sup


n

dPn

M dQ +

dQ + .

En particulier, si est constante gale 1, Q(Rd ) 1 , et donc Q(Rd ) = 1 puisque Q est dans la boule unit de M(Rd ). En particulier, lon peut galement choisir M tel que Q(KM ) 1 . Ainsi dQ
KM

dQ +

M dQ +

et donc, comme prcdemment, dQ lim inf


n

M dPn lim inf


n

dPn .

La conclusion sensuit, et le thorme V.4.4 est tabli de cette faon. Nous pouvons maintenant donner une dmonstration directe de limplication (iii)(ii) dans le thorme V.4.1. Montrons que la suite (Xn )nN (de variables alatoires relles) est uniformment tendue. Il va sure de montrer que pour toute variable alatoire relle Z et tout u > 0, P |Z | 1/u 7 u
u 0

1 e Z (t) dt . 129

Chapitre V. Convergence de suites de variables alatoires

Pour cela, notons dabord que lingalit (sin x)/x sin 1 est vraie pour tout |x| 1. Puis, par le thorme de Fubini-Tonelli (II.5.1), 1 u
u 0

1 e Z (t) dt = =

1 u
R

u 0 R

1 cos(tx) dP Z (x) dt sin(ux) ux dP Z (x)

1 sin(1) P |Z | 1/u . Enn, sin(1) 6/7. En consquence de cette ingalit applique Xn pour tout n, lim sup P |Xn | M
n

lim sup 7M
n 0 1/M

1/M

1 e Xn (t) dt

= 7M
0

1 e X (t) dt

et le majorant peut tre rendu arbitrairement petit en prenant M arbitrairement grand puisque limt0 e X (t) = 1 et X est continue. Ainsi, daprs le thorme V.4.4, il existe une sous-suite (Pn )n N de la suite (Pn )nN des lois des variables alatoires (Xn )nN qui converge troitement vers une mesure de probabilit Q. Cette mesure Q est la loi de X puisque Xn converge vers X et que X dtermine la loi de X (thorme III.5.2). La conclusion sensuit.

Exemples V.4.5. (i) Une suite (xn )nN de rels converge vers x si et seulement si xn converge vers x troitement (daprs V.4.1.ii).
(ii) Si X est une variable alatoire, alors X/n converge en loi vers 0 lorsque n . Par contre, sauf si X = 0 p.s., la suite des lois de (nX )nN nest pas tendue. Donc nX ne peut pas converger en loi. (iii) Soit (Xi )i1 une suite de variables alatoires indpendantes, de loi exponentielle E xp(1). Nous avons vu lexemple V.1.3.ii que Mn = max Xi = ln n + o(ln n) p.s.
1in

Nous pouvons maintenant prciser un peu le contenu du terme o(ln n). En effet, montrons que Zn = Mn ln n converge en loi vers une variable Z de loi F Z (t) = exp(et ), t R. En eet (voir plus prcisment la dmonstration du 130

V.5. Les lois faible et forte des grands nombres, le thorme limite central

thorme V.5.4), F Zn (t) = P


1in

max Xi t + ln n
n

= 1 exp(t ln n) = exp n ln 1 et n

= exp(et ) + o(1)

lorsque n . (iv) Si Xn est de loi binomiale B (n, p) et Zn = (Xn np)/ np(1 p), alors Zn converge en loi vers une variable alatoire gaussienne N (0, 1). En eet, Zn (t) = e =e
it
np 1p

1 p + peit/ np(1p) 1+

it

np 1p

t2 itp + o(n1 ) np(1 p) 2n(1 p) (n )

= et

2 /2

+ o(1)

et donc Zn (t) converge vers la fonction caractristique dune loi N (0, 1). Dun point de vue pratique, cela signie que pour n assez grand, on peut 2 t approximer P { Zn t } par (2 )1/2 ex /2 dx (on applique ici lquivalence entre V.4.1.iii et V.4.1.i.) Cest trs utile en pratique puisque le calcul de P { Zn t } ncessite dvaluer une somme pondre de coecients binomiaux (numriquement dicile pour n grand), tandis que lapproximation gaussienne ne ncessite que lvaluation dune intgrale. Cet exemple est un cas particulier du thorme limite central que nous allons voir dans le paragraphe suivant.

V.5. Les lois faible et forte des grands nombres, le thorme limite central
Dans toute cette section, nous dsignons par (Xi )i1 une suite de variables alatoires relles, indpendantes et de mme loi quune variable X (X est une simple notation pour dcrire commodment la loi commune des Xi ). Pour tout n 1, on pose Sn = 1in Xi et lon sintresse aux proprits asymptotiques de Sn . Observons que Sn /n est simplement la moyenne (dite empirique) des Xi . On conoit alors que ltude des sommes de variables alatoires soit importante pour les applications. Par exemple si Xi modlise le fait quun individu vote (Xi = 1) ou ne vote pas (Xi = 0) pour un candidat dans une lection, Sn /n est la proportion de personnes votant pour le candidat dans un sondage de n personnes tires 131

Chapitre V. Convergence de suites de variables alatoires

au hasard dans la population. Nous avons vu dans ce cas particulier que Sn /n converge en probabilit vers lesprance E (X ) = P { X = 1 } (exemple V.2.2.i) et avons de plus montr que la loi de (Sn E (Sn ))/ n ressemble une loi normale lorsque n est assez grand (exemple V.4.5.iv). De faon gnrale, une population est souvent dcrite statistiquement, ou rsume par la donne dune statistique moyenne (ge moyen, poids moyen, taille moyenne, prix moyen etc). Un sondage est donc un exemple typique o lon est naturellement conduit des sommes de variables alatoires. Notre premier rsultat est la loi des grands nombres. Elle montre dune part que lintuition est correcte, cest--dire, par exemple, que si lon jette une pice quilibre un grand nombre de fois, la proportion de piles tend se stabiliser vers 1/2, dautre part que la thorie des probabilits que nous avons construite ne conduit pas une modlisation absurde du rel, et enn quune certaine rgularit apparat dans les phnomnes alatoires.

Th eor` eme V.5.1 (loi faible des grands nombres). Si E (|X |) < , alors Sn /n converge en probabilit vers E (X ) lorsque n .
Puisque X L1 , la fonction caractristique X est drivable (proposition III.5.6.i) et de plus (X ) (0) = iE (X ) = 0. La formule de Taylor donne X (t) = 1 + o(t). Donc Sn /n (t) = (X (t/n))n = (1 + o(n1 ))n = 1 + o(1). Or 1 est la fonction caractristique de 0 . Donc Sn /n converge en loi vers la constante 0, donc en probabilit vers 0 (voir exemple V.4.2.iv). En fait, cette loi des grands nombres peut tre considrablement renforce par le rsultat suivant qui ncessite exactement les mmes hypothses.
Dmonstration. Quitte centrer les variables Xi , on peut supposer que E (Xi ) = 0.

Th eor` eme V.5.2 (loi forte des grands nombres). Les deux conditions suivantes sont quivalentes : (i) E (|X |) < ; (ii) limn Sn /n = E (X ) p.s.
Dmonstration. (ii)(i). Si la suite Sn /n converge p.s., alors Xn /n converge p.s. vers 0. Daprs le lemme de Borel-Cantelli (proposition V.1.2.ii) et puisque les Xi sont indpendantes et toutes de mme loi (que X ), pour tout (ou seulement un) > 0,

P |X | n
n1

=
n1

P |Xn | n

< .

On conclut laide de la proposition III.4.8. 132

V.5. Les lois faible et forte des grands nombres, le thorme limite central

(i)(ii). La dmonstration consiste prouver dans un premier temps le rsultat sous lhypothse plus forte que E (|X |4 ) < et E (X ) = 0. Dans ce cas, dont on peut se contenter en premire lecture, P { |Sn /n| } peut tre major en utilisant lingalit de Markov. La borne ainsi obtenue est le terme gnral dune srie convergente, ce qui permet de conclure grce au lemme de Borel-Cantelli. Sous lhypothse plus faible du thorme, on approxime toute variable de L1 par des variables de L4 (ou mme des variables bornes), puis on se ramne au cas trait. Comme dans le thorme V.5.1, on peut remplacer Xi par Xi E (Xi ) et supposer les variables alatoires centres. Commenons donc par montrer le rsultat lorsque E (|X |4 ) < et E (X ) = 0. Dans ce cas, lingalit de Markov (III.4.10.i) montre que pour tout n 1 et tout > 0, P |Sn | n Observons que
4 = Sn 1in

1 4 E Sn . 4 n4

Xi4 + 4
1i=j n

Xi3 Xj + 3
1i=j n 2 Xi Xj Xk +

2 Xi2 Xj

+6

Xi Xj Xk Xl .
1i,j,k,l distinctsn

1i,j,k distinctsn

Donc, par linarit de lesprance, indpendance et centrage des Xi ,


4 )= E (Sn 1in

E (Xi4 ) + 4
1i=j n

E (Xi3 )E (Xj ) + 3
1i=j n

2 E (Xi2 )E (Xj )

+6

2 E (Xi )E (Xj )E (Xk )+ 1i,j,k distinctsn

E (Xi )E (Xj )E (Xk )E (Xl )


1i,j,k,l distinctsn

= nE X 4 + 3n(n 1) E (X 2 )

Donc n1 P { |Sn | > n } < , ce qui dmontre la loi forte des grands nombres dans ce cas daprs le lemme de Borel-Cantelli V.1.2. Supposons maintenant X intgrable et centre, sans autre hypothse. Soit > 0 x. Il existe, pour tout i 1, des variables Yi tages, centres, indpendantes et de mme loi, telles que E (|Xi Yi |) . Si Tn = 1in Yi , nous avons 1 1 1 |Sn | |Xi Yi | + |Tn | . (1) n n n
1in

133

Chapitre V. Convergence de suites de variables alatoires

Puisque Tn /n converge p.s. vers 0 daprs le point prcdent, il sut de montrer que 1 |Xi Yi | lim sup n n
1in

peut tre rendu arbitrairement petit en prenant arbitrairement petit. Notons Zi , i 1, des variables alatoires positives, indpendantes et de mme loi quune variable Z intgrable. On considrera Zi = |Xi Yi | pour conclure la dmonstration. Nous voulons borner lim sup
n

1 n

Zi .
1in

Pour cela, nous utilisons un argument de bloc. Pour tout k et tout > 0, la probabilit 1 Zi 2E (Z ) + P max k k +1 n 2 <n2
1in

est majore par P i { 1, 2, . . . , 2k+1 } : Zi > 2k +P et donc aussi par 2k+1 P { Z > 2k } + P
1i2k+1 2k <n2k+1

max

1 n

Zi [0,2k ] (Zi ) 2E (Z ) +
1in

Zi [0,2k ] (Zi ) 2k+1 E (Z ) + 2k Zi [0,2k ] (Zi ) E Zi [0,2k ] (Zi ) 2k


1i2k+1

2k+1 P { Z > 2k } + P

En appliquant maintenant lingalit de Tchebitchev (III.4.10.ii) au deuxime terme du majorant prcdent, il vient P max 1 n Zi 2E (Z ) +
1in

2k <n2k+1

1 2k+1 E Z 2 [0,2k ] (Z ) 2 22k 2 2k+1 P { Z > 2k } + 2 k E Z 2 [0,2k ] (Z ) . 2 2k+1 P { Z > 2k } + 134

V.5. Les lois faible et forte des grands nombres, le thorme limite central

Puisque pour tout k N,


2k+1 2k

P { Z > t } dt 2k P Z > 2k+1 ,

la dmonstration de la proposition III.4.8 implique 2k+1 P Z > 2k


k 0

4E (Z ) .

De plus 2k E Z 2 [0,2k ] (Z ) = E Z 2
k 0 k 0

2k [0,2k ] (Z ) 4E (Z )

puisque si 2l < Z 2l+1 pour un l 0, alors Z2


k 0

2k [0,2k ] (Z ) 22l+2
k l+1

2k 4Z

(et de mme si 0 Z 1). Donc, nalement, P


k 0 2k <n2k+1

max

1 n

Zi 2E (Z ) +
1in

4(1 + 22 )E (Z ) .

Daprs le lemme de Borel-Cantelli (proposition IV.3.5.i), presque srement pour tout k assez grand
2k <n2k+1

max

1 n

Zi < 2E (Z ) + .
1in

(2)

Puisque > 0 est arbitraire, lim sup


n

1 n

Zi 2E (Z ) p.s.
1in

Nous pouvons maintenant nir la dmonstration en choisissant Zi = |Xi Yi |. De (1) et (2) nous dduisons en eet lim sup
n

1 1 |Sn | lim sup n n n

Zi + lim sup
1in n

1 Tn n

2E |X1 Y1 | 2 p.s. Puisque est arbitraire, ceci conclut la dmonstration. 135

Chapitre V. Convergence de suites de variables alatoires

noter quen travaillant avec une sous-suite ( k )kN pour un > 1 bien choisi en fonction de > 0 en lieu et place de la sous-suite (2k )kN , on dmontre directement que lim supn n1 1in Zi E (Z ) p.s., et du mme coup le thorme.

Exemple V.5.3. Reprenons les notations de lexemple IV.3.6.iii. Puisque les variables Ui sont indpendantes et de loi de Bernoulli B (1, 1/2), la loi forte sapplique et 1 Ui ( ) = 1/2 = 1 . P : lim n n
1in

Autrement dit, presque tout nombre de [ 0, 1 ] admet en moyenne autant de 0 et de 1 dans son dveloppement dyadique. Nous avons de plus montr en IV.3.6.iii que P : lim Nn ( )/n = 1/2 = 1 ,
n

i.e. presque tout nombre a de lordre de n/2 blocs de 0 et de 1 dans ses n premiers chires. Une autre faon dnoncer la loi forte des grands nombres est de dire que si E (|X |) < , alors Sn /n = E (X )+ o(1) p.s. lorsque n . En un certain sens, le thorme limite central donne un terme de plus dans le dveloppement asymptotique de Sn /n, prcisant le comportement limite en loi du terme o(1) (modulo une hypothse supplmentaire sur la loi des Xi ). Il permet dapproximer la loi de Sn /n lorsque n est grand. Le fait remarquable est que sous la condition E (X 2 ) < , la loi limite de n(Sn /n E (X )) ne dpend que de la variance des Xi .

Th eor` eme V.5.4 (limite central). (i) Si E (X 2 ) < , alors

Sn nE (X ) converge n

en loi vers une variable de loi N 0, Var(X ) . (ii) Si Sn / n converge en loi, alors E (X ) = 0 et E (X 2 ) < et la loi limite est normale centre, de variance Var(X ).
Dmonstration. (i) Si X est constante p.s., le rsultat est vident puisque N (0, 0)

est la masse de Dirac en 0. Supposons donc que X nest pas constante p.s. Quitte E (Xi ) = 0 et changer Xi en (Xi E (Xi ))/ Var(Xi ), on peut supposer que 2 S n/ n (t) = et /2 Var(Xi ) = 1 pour tout i. Il sut alors de montrer que limn 2 pour tout t R, puisque et /2 est la fonction caractristique de la loi normale N (0, 1). Pour cela, par indpendance et quidistribution, nous avons pour tout n 1, n Sn / n (t) = X (t/ n) 136

V.5. Les lois faible et forte des grands nombres, le thorme limite central

o X est une variable ayant la loi des Xi . Or X est de carr intgrable. On peut donc driver deux fois sa fonction caractristique X (proposition III.5.6.i) et X (0) = E (X ) = 0, Donc X (u) = 1 Lorsque n , Sn /
n

(0) = E X 2 = 1 . lorsque u 0 .

u2 + o(u2 ) 2 1 t2 +o 2n n

(t) =

= et

2 /2

+ o(1) .

La fonction caractristique tant valeurs complexes, pour pleinement justier la limite prcdente, nous faisons usage de la proprit suivante. Soit (zn )nN une suite de nombres complexes tendant vers 0 ; alors
n

lim 1 +
n

zn n

= 1. zn n
k k

En eet, 1+ Donc 1+ zn n 1=
1k n

Ck n |zn | n

zn n

1
1k n

Ck n

=
0k n1

+1 Ck n

|zn | n |zn | n
n1

k +1

=
0k n1

Ck n1 |zn | n

|zn | k+1

|zn | 1 +

tend vers 0 quand n . (ii) est admis ici. On peut se reporter par exemple Feller (1971, IX.8).

Exemples V.5.5. (i) Si Xi est de loi binomiale B (1, p) (modle de la proportion de piles dans n jets de pile ou face, modle des votes pour un candidat dans un sondage lectoral etc.), en notant toujours Sn = X1 + + Xn , nous avons pour tout a < b, b t2 /2 Sn np e b = dt . lim P a n 2 np(1 p) a
137

Chapitre V. Convergence de suites de variables alatoires

Ce thorme limite central pour des sommes de variables alatoires de Bernoulli a t dmontr initialement par de Moivre (16671754). La dmonstration de de Moivre consiste remarquer que Sn suit une loi binomiale B (n, p), puis crire explicitement la probabilit P a Sn np b np(1 p) =
k nk Ck . n p (1 p)

k [np+a

np(1p),np+b

np(1p)]

Lorsque k [ np + a np(1 p), np + b np(1 p) ], on peut utiliser la formule de Stirling pour approximer le coecient binomial Ck n , ce qui conduit au rsultat en approximant la somme sur k par une intgrale. Daprs lexemple V.4.2.iv, puisque Sn /n converge vers p en probabilit daprs la loi des grands nombres, on a aussi lim P a Sn np Sn n nS n 1 n b
b

=
a

et /2 dt . 2
2

Autrement dit, lintervalle alatoire b Sn n n Sn n 1 Sn n , Sn a n n


b

Sn n
2

Sn n

contient p avec une probabilit voisine de (2 )1/2 a et /2 dt lorsque n est grand. Si maintenant p est inconnu, on voit quen observant des ralisations des Xi , on peut construire un intervalle (puisqualors Sn /n est observe) qui contient p avec une probabilit assez grande. Ce type de rsultat est essentiel en statistique. (ii) Montrons maintenant lintrt du point (iv) du thorme V.4.1 et de la proposition III.2.7. Prenons Sn une somme de variables alatoires indpendantes, de mme loi et de carr intgrable. Alors Sn vrie le thorme limite central V.5.4. Soit maintenant N une variable alatoire de loi de Poisson de paramtre > 0, cest--dire telle que P { N = k } = e k /k!, k N, indpendante de (Sn ). Que peut-on-dire alors de SN , somme dun nombre alatoire de termes, lorsque ? Soient Sn nE (X1 ) N et T = . Zn = n On vrie facilement laide des fonctions caractristiques que N / converge en loi vers la constante 1 et que T converge en loi vers une variable de loi N (0, 1). De plus, le thorme limite central V.5.4 montre que Zn converge en loi vers 138

V.5. Les lois faible et forte des grands nombres, le thorme limite central

N (0, Var(X1 )). Soient maintenant U , V , deux variables alatoires indpendantes, de loi uniforme sur ] 0, 1 [. Alors Zn a mme loi que Zn = F Zn (U ) et T a mme loi que T = F T (V ) daprs la proposition III.2.7. Il sensuit que Sn a mme loi que Sn = nZn + nE (X1 ) et que N a mme loi que N = T + . De plus, par construction, SN a mme loi que SN puisque (Sn )n1 et N sont indpendantes. Ceci peut aussi tre vri en crivant que, pour tout t R, P { S N t } =
k N

P { SN t ; N = k } P { Sk t ; N = k }
k N

= =
k N

P { Sk t}P {N = k } P { Sk t }P { N = k } = P { SN t } .
k N

La dmonstration du thorme V.4.1 ((iv)(i)) montre que Zn converge p.s. vers Z de loi N (0, Var(X1 )) tandis que T converge p.s. vers T de loi N (0, 1). Puique Z est (U )-mesurable et T est (V )-mesurable, Z et T sont indpendantes. Puisque T converge p.s. vers T , observons aussi que N converge p.s. vers + lorsque . Il vient alors SN N E (X1 ) SN E (X1 ) = N = ZN

N N + EX1

N + T E (X1 ) .

Puisque N p.s. et lim N / = 1 p.s., (SN E (X1 ))/ converge p.s. vers Z +T E (X1 ) qui est de loi N (0, Var(X1 )+E (X1 )2 ). Ainsi, (SN E (X1 ))/ 2 )). Un examen attentif de cet exemple montre que converge en loi vers N (0, E (X1 tout lintrt du point (iv) de la dnition-thorme V.4.1 est quil permet de transformer un problme de probabilit en un problme danalyse ; ayant une convergence presque sre, on peut travailler en xant lala , donc, en un certain sens, sur des suites dterministes. Lorsque le paramtre p = pn de la loi binomiale B (n, p) tudie lexemple (i) dpend de n et est de lordre de /n, > 0, la loi de Sn converge vers la loi de Poisson de paramtre .

139

Chapitre V. Convergence de suites de variables alatoires

Th eor` eme V.5.6 (limite central poissonien). Soit Sn une variable alatoire de loi B (n, pn ). Si limn npn = > 0, Sn converge en loi vers une variable alatoire de Poisson de paramtre .
Dmonstration. En vertu de lexemple V.4.2.v, il sut de prouver que pour tout

k N,

lim P { Sn = k } = e

k . k!
nk

Or, pour chaque k N x,


k nk = P { Sn = k } = Ck n pn (1 pn )

1 n! npn (npn )k 1 k k! (n k)!n n

Lorsque n , n! 1 (n k)!nk et, en prenant le logarithme, 1 La conclusion sensuit. npn n


nk

et

(npn )k k ,

e .

Commentaire V.5.7. Considrons encore que E (X ) = 0 et E (X 2 ) = 1. La loi des grands nombres nous dit que Sn /n converge p.s. vers 0, mais le thorme limite central nous dit que Sn / n converge en loi vers N (0, 1). Que se passe-t-il pour des normalisations de Sn entre 1/n (loi des grands nombres) et 1/ n (thorme limite central) ? P On peut montrer que si limn an / n = , alors Sn /an 0 (ingalit 2 )/2 a2 = nE (X 2 )/2 a ). Cest encore vrai de Markov : P { |Sn | an } E (Sn n n 1 /p avec 1 < p < 2. Mais ce nest presque srement si an = n plus le cas si an est trop proche de n. Le cas limite est obtenu pour an = 2n ln ln n o lon obtient la loi, dite du logarithme itr : presque srement, la suite Sn / 2n ln ln n est relativement compacte et lensemble de ses valeurs dadhrence est lintervalle [ 1, 1 ]. En particulier,
lim inf
n

Sn = 1 p.s. 2n ln ln n

et

lim sup
n

Sn = 1 p.s. 2n ln ln n

140

V.5. Les lois faible et forte des grands nombres, le thorme limite central

La loi du logarithme itr implique le fait suivant. Le thorme limite central nous dit que si E (X 2 ) < , alors Zn = (Sn nE (X ))/ n converge en loi vers une variable alatoire gaussienne. Existe-t-il une variable Z gaussienne telle que Zn converge en probabilit ou p.s. vers Z ? La loi du logarithme itr montre que non. Supposons que Zn converge en probabilit vers Z . Quitte extraire une soussuite, en vertu du thorme V.2.4, nous pouvons supposer que Zn converge presque srement vers Z . La loi du logarithme itr implique lim supn Zn / 2 ln ln n = 1/2 p.s. ce qui contredit le fait que limn Zn / 2 ln ln n = 0 p.s., puisque E (X 2 ) Zn converge vers Z p.s. Ainsi, la convergence en loi, comme son nom lindique et la dnition le montre, ne concerne que les lois et non les variables. Elle nen demeure pas moins extrmement utile en pratique o lon est souvent intress par les lois.

Commentaire V.5.8. Le thorme limite central peut tre dmontr de nombreuses autres faons. Esquissons une dmonstration due Essen, qui ne fait pas appel aux fonctions caractristiques, mais suppose que E (|X |3 ) < . Supposons, toujours pour simplier que E (X ) = 0 et E (X 2 ) = 1. Il faut et il sut de montrer que E ((Sn / n)) converge vers E ((Z )) o Z est de loi N (0, 1) et est une fonction continue borne arbitraire (cf. dnition-thorme V.4.1). En fait, on peut montrer quil sut de ne considrer que les fonctions continues, bornes, tendant vers 0 linni et drives bornes (puisque ces fonctions sont denses dans lensemble des fonctions continues, bornes, tendant vers 0 linni). Soient donc une telle fonction et Zi des copies indpendantes de Z , et indpendantes des Xi . Soient Sj,n = X1 + + Xj 1 + Zj +1 + + Zn , j = 1, . . . , n. Alors (S1,n + Z1 )/ n a mme loi que Z et Sn = Xn + Sn,n . Donc
E (Sn / n) E (Z )
1j n

Sj,n + Xj n

Sj,n + Zj n

=
1j n

Xj Sj,n Sj,n Zj Sj,n Sj,n + + E + n n n n n n E


2 Xj Sj,n Xj + n n 2n 3 Xj Sj,n + 3/2 (j,n ) n 6n 3 Zj Sj,n 3/2 (j,n ) n 6n

1j n

2 Zj Sj,n Zj n n 2n

141

Chapitre V. Convergence de suites de variables alatoires

o j,n et j,n sont donns par la formule de Taylor. Puisque Xj et Zj sont indpendantes de Sj,n , de moyenne nulle et de variance 1, il vient E (Sn / n) E (Z ) n3/2 E |Xj |3 + |Zj |3 = o(1)
1j n

lorsque n . Un ranement de la mthode permet dobtenir le thorme limite central sous la seule condition E (X 2 ) < (voir par exemple Pollard (1984)). Il convient aussi de remarquer que la mme dmonstration fournit un thorme limite central pour des sommes de vecteurs alatoires indpendants et de mme loi.

Exercices
Exercice V.1. Soit (Xn )nN une suite de variables alatoires relles sur un espace probabilis (, A, P ) ; on suppose quil existe une suite de rels (an )nN telle que les sries an et P { Xn = an }
n n n

soient convergentes. Dmontrer que la srie

Xn est p.s. convergente.

Exercice V.2. Soit (Xn )nN une famille de variables alatoires gaussiennes, cen2) tres, de variance (n nN convergeant en loi vers une variable alatoire X . 2) a) Montrer que la suite (n nN est convergente et en dduire que X suit une loi gaussienne. tudier le cas o les Xn ne sont pas centres. b) On suppose que Xn X en probabilit. Dmontrer que Xn converge vers X dans tous les espaces Lp . Exercice V.3. Montrer que pour x > 0,
ex
2 /2

1 1 x x3

et

2 /2

dt ex

2 /2

1 . x

Indication : intgrer par parties t1 tet /2 . Soit maintenant (Xn )nN une suite de variables alatoires indpendantes, toutes de mme loi N (0, 1). Montrer que
2

lim sup
n

Xn 2 ln n

=1

p.s.

Montrer galement que max1in Xi P 1. 2 ln n 142

Exercices

Exercice V.4. Soit (Xi )iI une famille de variables alatoires relles sur (, A, P ) ; on suppose quil existe une fonction G : [ 0, [ [ 0, [ vriant limt G(t)/t = telle que supiI E (G(|Xi |)) est ni. Dmontrer que la famille (Xi )iI est uniformment intgrable. Exercice V.5. Soient (Xn )nN et (Yn )nN deux suites de variables alatoires relles sur (, A, P ) convergeant en loi respectivement vers X et Y . a) On suppose que pour tout n, Xn et Yn sont indpendantes et que X et Y sont indpendantes. Dmontrer que Xn + Yn converge en loi vers X + Y . Donner un exemple montrant que lhypothse dindpendance est indispensable. b) On suppose que Y = 0. Prouver que Xn + Yn converge en loi vers X et Xn Yn converge en loi vers 0. Exercice V.6. Soit (n )nN une suite de nombres appartenant [ 0, 1 ] ; on lui associe une suite (Xn )nN de variables alatoires indpendantes sur un espace probabilis (, A, P ) dont les lois vrient
0 P { Xn t } = n + (1 n )tn 1 si t < 0, si t [ 0, 1 ], si t > 1.

quelles conditions sur (n )nN , la suite (Xn )nN converge-t-elle en loi ? en probabilit ? presque srement ?

Exercice V.7. Montrer que 4.1.iiv sont quivalents limn dPn = dP pour toute fonction inniment direntiable, support compact. Exercice V.8. Une formule dinversion de la transforme de Laplace. n a) Soit P () = nN e n! n la loi de Poisson de paramtre . Montrer que si X est de loi P ( ) alors (X )/ converge en probabilit vers 0 lorsque . En dduire que
lim e
k x

k = k!

0 si > x, 1 si < x.

b) Soit L(t) = 0 etx dP (x) la transforme de Laplace dune loi P sur R+ . Montrer que L(t) est inniment drivable. Montrer que si P est de fonction de rpartition F , alors (1)k k (k) L () = F (x) lim k!
k x

en tout point de continuit de F . 143

Chapitre V. Convergence de suites de variables alatoires

Exercice V.9. Une formule dinversion de la transforme de Fourier. Soient X , Y deux variables alatoires relles indpendantes. Notons f X la densit de X . a) Montrer que E (eitY X (Y )) = E (Y (X t)), t R. b) Prendre Y de loi N (0, 2 ) et supposer X intgrable par rapport la mesure de Lebesgue. En considrant , montrer la formule donne au thorme III.5.4. c) Montrer que pour tous x, y et m > 0,
1 2 eitx eity X (t) dt it m 1 1 m sin t(z x) dt = t 0
m

m 0

sin t(z y ) dt f X (z ) dz . t

On rappelle que

sin(tx) dt = signe(x)/2. t 0 En dduire que si x et y sont des points de continuit de F X , alors F X (y ) F X (x) = lim 1 m 2
m m

eitx eity X (t) dt , it

ce qui donne une formule dinversion de Fourier, et montre que X caractrise F X et donc P X . Exercice V.10. Soit (Xi )i1 une suite de variables alatoires, de loi uniforme sur [ 0, 1 ]. Soit Nn une variable alatoire de loi binomiale B (n, p). Montrer que n min1iNn Xi converge en loi, lorsque n , vers une variable alatoire exponentielle de moyenne 1/p.

Exercice V.11. Appliquer le thorme limite central une suite (Xn )nN de variables alatoires indpendantes de mme loi de Poisson de paramtre 1 pour trouver la limite de la suite
un = en
0k n

nk , k!

n N.

Rponse : 1/2.

Exercice V.12. Soit (Xi )i1 une suite de variables alatoires relles, indpendantes et de mme loi P . On appelle mesure empirique de X1 , . . . , Xn la loi de probabilit Pn = n1 1in Xi (cette mesure est alatoire puisque les Xi le sont). Montrer que presque srement Pn converge troitement vers P .
144

Exercices

Indication : utiliser la dnition V.4.1.i et la loi forte des grands nombres. Si Fn (resp. F ) est la fonction de rpartition de Pn (resp. P ), on prendra garde au fait que lensemble de mesure nulle sur lequel limn Fn (t) = F (t) doit pouvoir tre pris indpendant de t ; cette n, on peut utiliser la monotonie et la bornitude de F .

Exercice V.13. Notons U (p) la variable alatoire relle i1 2i Xi o les Xi sont indpendantes, de loi B (1, p) et soit L(p) la loi de U (p) . Soit x [ 0, 1 ]. Notons x = i1 2i xi son dveloppement en base 2. a) En utilisant la loi forte des grands nombres, montrer que sous L(p) , pour presque tout x, la proportion de 1 dans le dveloppement en base 2 (i.e. n1 1in xi ) tend vers p. En dduire que les lois L(p) sont trangres les unes par rapport aux autres. b) Montrer que L(1/2) est la mesure de Lebesgue sur [ 0, 1 ] (loi uniforme sur [ 0, 1 ]). Indication : dterminer les mesures sous L(1/2) des intervalles dyadiques. Montrer que les lois L(p) nont pas de parties discrtes. Donc si p { 0, 1/2, 1 } la fonction de rpartition de L(p) est continue, mais pas absolument continue. Exercice V.14. Au thorme IV.3.1 nous avons vu comment construire une suite innie de variables alatoires indpendantes. Donnons ici une construction plus explicite sur R. Soient Xn , n 1, les variables alatoires de loi B (1, 1/2) construites lexemple IV.1.7.ii. En utilisant lexercice V.13 et lexemple V.1.3.i, montrer quon peut construire une suite (Un )n1 de variables alatoires uniformes sur [ 0, 1 ], indpendantes. Indication : considrer la construction en triangle
U1 = 21 X1 + 22 X2 + 23 X4 + 24 X7 + U2 = 21 X3 + 22 X5 + 23 X8 + U3 = 21 X6 + 22 X9 + U4 = 21 X10 + . . . Montrer alors que si lon se donne une famille de loi Pi , i N, sur R, on peut construire une suite de variables alatoires relles (Zi )iN , indpendantes, telles que Zi est de loi Pi . Nous avons donc dans ce cas une preuve constructive du thorme de Kolmogorov IV.3.1. 145

Chapitre V. Convergence de suites de variables alatoires

Exercice V.15. On considre une marche alatoire sur Z, partant de lorigine, reprsente par une suite (Xn )n1 de variables alatoires sur un espace probabilis (, A, P ), mutuellement indpendantes, et de mme loi de Bernoulli sur { 1, 1 } de paramtre 0 < p < 1 (autrement dit P { Xn = 1 } = 1 P { Xn = 1 } = p pour tout n). On pose Sn = X1 + + Xn , n 1, et par convention S0 = 0. La variable alatoire Sn reprsente donc la position au temps n du marcheur parti de 0. On sintresse la probabilit de revenir une innit de fois son point de dpart, cest--dire la probabilit de lvnement
A = { Sn = 0 pour une innit de n } . a) Dmontrer que Sn /n converge presque srement vers une limite que lon prcisera. b) Dduire de la question prcdente que P (A) = 0 si p = 1/2. c) On suppose prsent que p = 1/2. = ( S 2k . Prouver que Zk a mme loi i) Pour tout k 0 , soit Z k+1 S2k )/ k 2 k que S2k / 2 . En dduire, en faisant usage du thorme limite central, que pour tout rel M , P { Zk M } = .
k 0

ii) Conclure de la question prcdente que P { supk Zk M } = 1 pour tout M , puis que P { supk |Zk | = } = 1. En dduire que Sn P sup = n n1 = 1.

iii) Dmontrer avec la loi du 01 que lvnement B + = { supn1 Sn / n = + } est de probabilit 0 ou 1. Soit B = { inf n1 Sn / n = }. Dmontrer que P (B + ) = P (B ). Conclure, laide de la question ii), que P (B + ) = P (B ) = 1. iv) Dduire de ce qui prcde que P (A) = 1.

Exercice V.16. Soient et deux mesures de probabilit sur un espace mesurable (E, B ). On appelle distance en variation totale la quantit
= sup |(B ) (B )| .
B B

Soient X et Y deux variables alatoires sur (, A, P ) de lois respectives P X et P Y . a) Montrer lingalit P X P Y P { X = Y }. 146

Exercices

b) Soient Y et deux variables alatoires indpendantes sur (, A, P ), Y de loi de Poisson de paramtre 0 < p < 1 et de loi de Bernoulli de paramtre 1 (1 p)ep . Soit X = 1 {=Y =0} . Calculer la loi de X et dmontrer que lon a P { X = Y } p2 . c) Soit S une variable alatoire de mme loi quune somme de n variables alatoires indpendantes de lois de Bernoulli de paramtre pi , 0 < pi < 1, i = 1, . . . , n. Dmontrer quil existe une variable alatoire Z suivant une loi de Poisson de paramtre = 1in pi telle que PS PZ
1in

p2 i .

d) Retrouver le thorme V.5.6 pour pi = /n, > 0, 1 i n (n ).

147

VI
PROBABILITS ET ESPRANCES CONDITIONNELLES

Commenons par un exemple. Dans un jeu de d, chaque jet, chacune des six faces sont quiprobables. On peut modliser le jet en se donnant lespace = { 1, 2, 3, 4, 5, 6 }, la tribu de ses parties P () et la loi de probabilit P dnie par P ({ }) = 1/6 pour tout . La variable alatoire X , reprsentant le rsultat du jet, peut tre prise comme tant lidentit de sur lui-mme. Imaginons maintenant que nous lancions le d sans le regarder, et quun spectateur nous dise que nous avons obtenu un chire pair. tant donne cette information, nous pouvons rvaluer nos chances dobtenir un certain . Clairement, si est impair, cette chance est nulle, et si est pair, elle est 1/3. Notons pair = { 2, 4, 6 }. La faon dont nous valuons la probabilit de sachant que pair consiste valuer P ({ } pair )/P (pair ), ou, ce qui revient au mme ici, le nombre de faon dobtenir dans pair , divis par le cardinal de pair . De faon plus gnrale, sur un espace (, A, P ), si lon sait eectivement quun vnement B est ralisable (i.e. P (B ) > 0), on peut construire une nouvelle mesure de probabilit P (A | B ) = P (A B ) , P (B ) A A,

appele probabilit conditionnelle de A sachant B . Observons que P (B | B ) = 1 et si A B = ou P (A B ) = 0, alors P (A | B ) = 0. On peut imaginer des situations plus compliques o lon souhaite naturellement conditionner par un vnement de mesure nulle. Par exemple, si on admet que le poids dun individu est une variable alatoire continue, on pourrait chercher la loi de la taille tant donn le poids. Nous verrons dans ce chapitre comment

Chapitre VI. Probabilits et esprances conditionnelles

formaliser cela. Mais commenons par le cas simple o lon conditionne par un vnement de probabilit positive.

VI.1. Conditionnement discret


D enition VI.1.1. Soit (, A, P ) un espace probabilis, et soit B A tel que P (B ) > 0.
(i) On appelle probabilit conditionnelle de lvnement A sachant B le nombre P (A B )/P (B ), not P (A | B ). (ii) On appelle loi conditionnelle sachant B , la mesure de probabilit dnie par A A P (A B )/P (B ), note P ( | B ). Observons que si et seulement si A et B sont indpendants, P (A | B ) = P (A), cest--dire que la connaissance de lvnement B napporte aucune information sur la ralisation ou non de A. Si P (A) > 0, remarquons que P (A | B )P (B ) = P (B | A)P (A) = P (A B ) . Notons galement que si X est une variable alatoire relle intgrable sur (, A, P ), son intgrale par rapport la probabilit conditionnelle P ( | B ) est gale 1 X dP ( | B ) = X dP . P (B ) B Comme pour la construction usuelle de lintgrale, ceci se vrie dabord sur les variables indicatrices et tages, puis se prolonge. Enn, dans le cas o = Rd , puisque la probabilit conditionnelle P ( | B ) est une probabilit, on peut dnir une fonction de rpartition conditionnelle sachant B , x Rd P (] , x ] | B ) [ 0, 1 ], une fonction caractristique conditionnelle t Rd ei t,x dP (x | B ), lesquelles caractrisent la loi conditionnelle P ( | B ).

Exemples VI.1.2. (i) Soit X une variable alatoire de loi exponentielle de paramtre 1. Observons que pour tous s, t > 0, la probabilit que X dpasse s + t sachant que X dpasse s est donne par
P{X s + t | X s} = = 150 P{X s + t} P{X s + t; X s} = P{X s} P{X s} e(s+t) = et . es

VI.1. Conditionnement discret

On constate que cette probabilit conditionnelle est gale P { X t }. Cette proprit caractristique de la loi exponentielle est traditionnellement appele labsence de mmoire (penser X comme mesurant un temps alatoire). (ii) Soit (U1 , . . . , Un ) un vecteur de variables alatoires indpendantes, toutes de loi uniforme sur [ 0, 1 ]. Soit Mn = max1in Ui et mn = min1in Ui . Alors pour tous u1 , . . . , un [ 0, 1 ], et tous 0 a < b 1, P { U1 u1 , . . . , Un un | a mn Mn b } P { U1 u1 , . . . , Un un ; a mn ; Mn b } P { a mn ; Mn b } P { a U1 u1 b ; . . . ; a Un un b } = P { a U1 b ; . . . ; a Un b } 1in P { a Ui ui b } = 1in P { a U b } = = =
1in (ui

1in

b a) 1in (b a) ui b a . ba

On constate que cette probabilit est gale P { V1 u1 , . . . , Vn vn } o V1 , . . . , Vn sont des variables alatoires indpendantes de mme loi U[a,b] . Autrement dit, n n U[0 ,1] a mn Mn b = U[a,b] ( ) . Lobjectif que nous poursuivons maintenant est dessayer de gnraliser cette dnition dans deux directions. On essayera ainsi de remplacer A par une variable alatoire, suivant le schma E (A ) = P (A), et B par une sous-tribu de . Comme annonc, nous dbutons par une situation discrte.

D enition VI.1.3. Soit (, A, P ) un espace probabilis. Une famille dvnements (Bi )iI , I N, forme un systme complet dvnements si les Bi sont disjoints et P ( iI Bi ) = iI P (Bi ) = 1.
Observons que, quitte ajouter lvnement de mesure nulle N = \ la famille (Bi )iI forme une partition de .
iI

Bi ,

Proposition VI.1.4. Soit (Bi )iI un systme complet dvnements sur (, A, P ), et soit I = { i I : P (Bi ) > 0 }. Pour tout A A,
151

Chapitre VI. Probabilits et esprances conditionnelles

(i) P (A) = iI P (A | Bi )P (Bi ) (formule des probabilits totales). (ii) De plus, si P (A) > 0, pour tout k tel que P (Bk ) > 0, on a la rgle, dite de Bayes, P (A | Bk )P (Bk ) . P (Bk | A) = iI P (A | Bi )P (Bi )
Dmonstration. Cest immdiat puisque P (A) =
iI

P (A Bi ) et, pour tout k,

P (Bk | A)P (A) = P (Bk A) = P (A | Bk )P (Bk ) . Lintrt de la rgle de Bayes est quelle exprime P (Bk | A) en fonction des P (A | Bk ), et donc renverse les conditionnements.

Exemple VI.1.5. Voici une application de la rgle de Bayes qui justie pleinement lutilisation des questionnaires choix multiple aux examens. Considrons des questions o m rponses possibles sont proposes et supposons quun candidat a une probabilit p de connatre la rponse une question prise au hasard parmi un ensemble ni de questions. Sachant que le candidat a rpondu correctement la question, quelle est la probabilit quil sache eectivement la rponse ? On suppose quun candidat ne sachant pas la rponse rpond au hasard , et donc que chacune des m rponses possibles sont quiprobables. Soit A lvnement le candidat rpond correctement et B lvnement le candidat connat la rponse . Appliquons la rgle de Bayes,
P (B | A) = P (A | B )P (B ) P (A | B )P (B ) = P (A) P (A B ) + P (A B c ) 1p P (A | B )P (B ) = = 1 c c P (A | B )P (B ) + P (A | B )P (B ) 1p+ m (1 p) mp . = mp + 1 p

Donc, plus m est grand, plus P (B | A) est grand ; cest assez intuitif ; il est probable que le candidat connaisse la rponse sil a donn une bonne rponse parmi de nombreuses proposes. Remarquons que pour m = 3 et p = 1/2, P (B | A) = 3/4, ce qui est somme toute assez grand. On conoit donc quun questionnaire dune trentaine de questions, chacune trois ou quatre rponses possibles, soit mme de rendre compte du savoir dun tudiant ! Observons maintenant que la tribu B engendre par une partition (Bi )iI , I N, dvnements de A est dcrite comme la collection de toutes les unions possibles dvnements Bi et de leurs complmentaires. De ce point de vue, tout ensemble A B peut tre fractionn sur les ensembles lmentaires Bi . Ceci conduit la dnition suivante. 152

VI.1. Conditionnement discret

D enition VI.1.6. Soit B une tribu. Un vnement B B est appel un atome de B si pour tout vnement C B qui est inclus dans B , soit C = , soit C = B. Exemples VI.1.7. (i) Si (Bi )iI est une partition mesurable de (, A), les Bi sont les atomes de la tribu (Bi : i I ) engendre par les Bi .
(ii) Soit E = { bi : i I N } un ensemble ni ou dnombrable et soit Y : (, A, P ) (E, P (E )) une variable alatoire discrte. Les vnements Y 1 ({ bi }) = { Y = bi } = { : Y ( ) = bi } forment un systme complet. Ce sont les atomes de la tribu engendre par Y . Rciproquement, si B est une sous-tribu de A engendre par un systme complet dvnements (Bi )iI , I N, une variable alatoire relle Y , dnie sur (, A, P ) et B -mesurable, est ncessairement constante sur chaque atome de B , et donc de la forme Y = iI i Bi p.s. En eet, supposons au contraire quil existe , Bi tels que Y ( ) = Y ( ). Il existe alors des borliens C, C disjoints tels que Y ( ) C et Y ( ) C . Or Y 1 (C ) = j J Bj et Y 1 (C ) = j J Bj pour certains J et J . Ncessairement, les ensembles dindices J et J contiennent tous les deux lindice i puisque Y 1 (C ) et Y 1 (C ), et , Bi . Ainsi, lensemble Y 1 (C ) Y 1 (C ) nest pas vide, ce qui est impossible puisque Y 1 (C ) Y 1 (C ) = Y 1 (C C ) = Y 1 () = .

D enition VI.1.8. Soit B une sous-tribu dans (, A, P ), engendre par un systme complet dvnements (Bi )iI , I N. Soit I = { i I : P (Bi ) > 0 }. On appelle probabilit conditionnelle de A A sachant B la variable alatoire iI P (A | Bi )Bi , note aussi P (A | B ).
La probabilit conditionnelle de A sachant une sous-tribu B est donc une variable alatoire, constante sur les atomes de cette sous-tribu, et donc mesurable par rapport B . Pour tout iI Bi , lapplication A A P (A | B )( ) est une mesure de probabilit telle que P (Bi | B )( ) = 1 si Bi , et P (A | B )( ) = 0 si Bi et P (A Bi ) = 0. Il convient enn de remarquer que P (A | B ) est proche de la fonction A sur B , au sens o, pour tout B B tel que P (B ) > 0, P (A | B ) dP = P (A B ) =
B B

A dP .
153

Chapitre VI. Probabilits et esprances conditionnelles

En eet, puisque B = iJ Bi pour un certain ensemble dindices J , il sut de montrer lidentit pour un atome ; cest alors une consquence de la dnition VI.1.1, puisque P (A | B )( ) dP ( ) =
Bj Bj iI

P (A | Bi )Bi ( ) dP ( )

= P (A | Bj )
Bj

Bj ( ) dP ( )

= P (A | Bj )P (Bj ) = P (A Bj ) . Il est important de comprendre cette notion de proximit. titre de comparaison, deux variables alatoires relles intgrables X et Y sur (, A, P ) sont gales p.s. si et seulement si A X dP = A Y dP pour tout A A. En eet, prenant A = {X Y }, il vient 0=
{X Y }

(X Y ) dP =

(X Y )+ dP ,

do (X Y )+ = 0 p.s. ; et de la mme faon, (Y X )+ = 0, do X = Y p.s. Dans le cas de la probabilit conditionnelle P (A | B ), nous avons pour tout B B A, B Y dP = B X dP avec X = A , Y = P (A | B ). Observons que lon peut rcrire P (A | B ) =
iI

P (A Bi ) Bi = P (Bi )

iI

1 P (Bi )

Bi

A dP Bi .

Donc P (A | B ) est la variable alatoire tage obtenue en moyennant A sur les atomes de B . On peut alors remplacer A par une variable alatoire, ce qui conduit la dnition suivante.

D enition VI.1.9. Soit X une variable alatoire relle intgrable sur (, A, P ) et soit B une sous-tribu engendre par un systme complet dvnements (Bi )iI , I N. Soit I = { i I : P (Bi ) > 0 }. On appelle esprance conditionnelle de X sachant B , note E (X | B ), la variable alatoire B -mesurable
1 P (Bi ) X dP
Bi

Bi .

iI

Il est tout fait important de remarquer que dans la dnition de lesprance conditionnelle, la somme est sur lensemble dindices I . En consquence, 154

VI.1. Conditionnement discret

sa valeur en tout point I \I Bi nest pas dnie. On pourrait aussi altrer les vnements Bi et leur adjoindre ou retrancher des vnements de mesure nulle. Ceci changerait ventuellement lesprance conditionnelle, mais seulement sur un ensemble de mesure nulle. Il convient donc de bien comprendre que lesprance conditionnelle nest dnie que P -presque srement. De mme que E (A ) = P (A), par construction, E (A | B ) = P (A | B ). Remarquons aussi que si B B , E (X | B ) dP =
B B

X dP ,

et que si X est B -mesurable, E (X | B ) = X p.s.

Notation VI.1.10. Si B est engendre par une variable alatoire discrte Y , on note E (X | Y ) = E (X | B ). Exemple VI.1.11. Soit X une variable alatoire sur (, A, P ) suivant une loi de Poisson de paramtre > 0. Soit Y = 2 X/2 , o est la fonction partie entire. Calculons les esprances conditionnelles E (X | Y ) et E (Y | X ). Puisque Y est X -mesurable, E (Y | X ) = Y p.s. Pour valuer E (X | Y ), nous tudions les atomes de (Y ) ; ce sont les ensembles Bn = { Y = 2n }, n 0. On value
X dP =
Bn { X =2n }

X dP +
{X =2n+1}

X dP

= 2nP { X = 2n } + (2n + 1)P { X = 2n + 1 } = 2ne De mme, P (Bn ) = P { Y = 2n } = P { X = 2n } + P { X = 2n + 1 } = e Do 1 P (Bn ) 2n 2n+1 + e . (2n)! (2n + 1)! (2n + )(2n + 1) . 2n + 1 + 2n 2n+1 + (2n + 1)e . (2n)! (2n + 1)!

X dP =
Bn

Ainsi E (X | Y ) =
n0

(Y + )(Y + 1) (2n + )(2n + 1) . {Y =2n} = 2n + 1 + Y +1+

155

Chapitre VI. Probabilits et esprances conditionnelles

On voit sur cet exemple, comme dans la situation gnrale, que lesprance conditionnelle est dnie seulement p.s., puisquelle peut prendre nimporte quelle valeur sur les atomes de mesure nulle.

VI.2. Conditionnement (gnral)


Nous pouvons gnraliser les exemples prcdents, en remplaant une tribu engendre par un systme complet dvnements par une tribu arbitraire. Lintrt de cette gnralisation est que nous pourrons alors conditionner par la tribu engendre par une variable alatoire. Ainsi, lesprance conditionnelle par rapport une variable alatoire continue pourra tre dnie, gnralisant la dnition VI.1.9 et la notation VI.1.10. Dans les dnitions prcdentes de lesprance conditionnelle, nous avons vu que celle-ci nest dnie que presque partout. Donc si A est un vnement de mesure nulle, on souhaite que si deux versions de lesprance conditionnelle concident sur une partie de A, elles soient encore considres comme tant gales dun point de vue probabiliste.

D enition et th eor` eme VI.2.1. Soit (, A, P ) un espace probabilis, et soit B une sous-tribu de A. Soit de plus X une variable alatoire relle sur (, A, P ), intgrable. Alors il existe une unique (p.s.) variable alatoire, appele esprance conditionnelle de X sachant B , note E (X | B ), telle que (i) E (X | B )( ) est B -mesurable ; (ii) pour tout B B , B E (X | B ) dP = B X dP .
Dmonstration. i) Unicit. Nous reprenons le raisonnement utilis la suite de la dnition VI.1.8. Soient Z1 , Z2 , B -mesurables, telles que pour tout B B , B Zi dP = B X dP , i = 1, 2. Alors, puisque { Z1 Z2 } est B -mesurable,

0=
{ Z 1 Z2 }

(Z1 Z2 ) dP = (Z2 Z1 ) dP =

(Z1 Z2 )+ dP, (Z2 Z1 )+ dP ,

0=
{ Z 2 Z1 }

et donc Z1 = Z2 p.s. ii) Existence. Montrons-la dabord en supposant X de carr intgrable. Alors X est un lment de lespace de Hilbert L2 (, A, P ). Lespace L2 (, B , P ) est ferm dans L2 (, A, P ). On peut donc parler de la projection QX de X sur L2 (, B , P ). Cette projection vrie U L2 (, B , P ) , X QX, U =

(X QX )U dP = 0 .

156

VI.2. Conditionnement (gnral)

Puisque QX est une classe dquivalence de fonctions de L2 (, B , P ), on dnit E (X | B ) comme un reprsentant B -mesurable de la classe de QX . En prenant U = B , B B , on voit que 0=

(X QX )B dP =

X dP
B B

E (X | B ) dP ,

ce qui fournit (ii) et prouve lexistence dans ce cas. Pour tendre lexistence au cas des variables uniquement intgrables, notons que si X L2 (, A, P ) et X 0 p.s., alors E (X | B ) 0 p.s. (prendre B = { E (X | B ) < 0 } B dans (ii)). Supposons maintenant X intgrable, positive p.s. Pour tout n, Xn = X n est de carr intgrable. On peut ainsi dnir E (Xn | B ) vriant (i)(ii). De plus E (Xn+1 | B ) E (Xn | B ) = QXn+1 QXn = Q(Xn+1 Xn ) = E (Xn+1 Xn | B ) 0 daprs ce qui prcde. Enn, E (E (Xn | B )) = E (Xn ) E (X ) < . Daprs le thorme de convergence monotone II.2.1, la suite E (Xn | B ) converge p.s. vers une variable alatoire note E (X | B ), B -mesurable et intgrable. Il ne reste plus qu vrier que E (X | B ) vrie (ii), ce qui est encore une consquence du thorme de convergence monotone. En eet, si B B , E (X | B ) dP = lim
B n B n B

E (Xn | B ) dP Xn dP =
B

= lim

X dP .

Enn, si X est intgrable, crivons X = X + X et posons E (X | B ) = E (X + | B ) E (X | B ) . Ceci termine la construction de lesprance conditionnelle. Une autre preuve de lexistence de lesprance conditionnelle E (X | B ) peut tre fournie laide du thorme de Radon-Nikodym II.3.3. En eet, la mesure (B ) = B X dP , B B , est absolument continue par rapport P restreinte B . Il existe donc un lment Z L1 (, B , P ) tel que (B ) = B Z dP . Il est immdiat de vrier que Z est alors une version de lesprance conditionnelle E (X | B ). Un certain nombre de proprits dcoulent immdiatement de la dmonstration de la dnition VI.2.1. 157

Chapitre VI. Probabilits et esprances conditionnelles

Proposition VI.2.2. Soit (, A, P ) un espace probabilis, et soit B une sous-tribu de A. Soient de plus X , Y des variables alatoires relles intgrables sur (, A, P ) ; alors : (i) E (aX + bY + c | B ) = aE (X | B ) + bE (Y | B ) + c p.s. (ii) Si X Y , alors E (X | B ) E (Y | B ) p.s. (iii) Si Xn converge p.s. vers X en croissant, alors E (Xn | B ) converge p.s. et en croissant vers E (X | B ). (iv) Si : R R est convexe et (X ) est intgrable, on a lingalit de Jensen : (E (X | B )) E ((X ) | B ) p.s. En particulier, |E (X | B )| E (|X | | B ) et (E (X | B ))2 E (X 2 | B ) p.s. (v) Si B = { , }, E (X | B ) = E (X ) p.s. (vi) Si C B A, E (E (X | B ) | C ) = E (X | C ). (Le conditionnement successif E (E (X | B ) | C ) sera not par la suite E (X | B | C ).) (vii) E (E (X | B )) = E (X ). (viii) Si B est indpendante de (X ), E (X | B ) = E (X ) p.s. (ix) Si Y est B -mesurable et XY est intgrable, E (XY | B ) = Y E (X | B ). (x) Si X est de carr intgrable, E (X | B ) est la projection orthogonale de X sur le sous espace L2 (, B , P ) dans lespace de Hilbert L2 (, A, P ).
Dmonstration. (i) vient essentiellement de la linarit de la projection Q dans la

dmonstration de VI.2.1. (ii) a t dmontr dans la dmonstration de VI.2.1 : si X 0, E (X | B ) 0 p.s. en prenant B = { E (X | B ) < 0 } dans VI.2.1.ii. (iii) vient de la construction dans la dmonstration de VI.2.1. (iv) se dmontre comme lingalit de Jensen II.2.10 en utilisant (ii). (v) vient de VI.2.1.ii. (vi) vient de ce que L2 (, C , P ) L2 (, B , P ) L2 (, A, P ), et que pour projeter sur L2 (, C , P ), on peut commencer par projeter sur L2 (, B , P ). (vii) Prendre B = dans VI.2.1.ii. (viii) Si B B , B et X sont indpendantes et donc pour tout B B , E (X | B ) dP =
B

B X dP = E (X ) P (B ) .

Puisque E (X | B ) est B -mesurable, E (X | B ) = E (X ) p.s. (ix) Le rsultat est clair si Y = B , B B , et donc pour les variables alatoires tages. Suivant le schma gnral de lintgration, on approxime ensuite les variables positives par des variables tages, puis on dcompose parties positive et ngative. 158

VI.3. Lois conditionnelles

(x) Soit Z une variable B -mesurable. Introduisons les variables alatoires U = X E (X | B ) et V = E (X | B ) Z . Alors V est B -mesurable et E (U | B ) = 0 daprs (i) et (vi) (avec B = C pour montrer que E (E (X | B ) | B ) = E (X | B )). Donc, en utilisant (vii) E (X Z )2 = E E (U + V )2 | B = E E (U 2 | B ) + 2E (U | B )V + V 2 = E E (U 2 | B ) + E (V 2 ) . Ainsi, E ((X Z )2 ) est minimal lorsque E (V 2 ) = 0, cest--dire V = 0 p.s. et donc E (X | B ) = Z p.s. Autrement dit, X Z 2 est minimal pour Z = E (X | B ), ce qui est la dnition de la projection orthogonale.

Notation VI.2.3. Si B = (Y ) est la tribu engendre par Y , on note E (X | Y ) pour E (X | B ).


Si X = (X1 , . . . , Xd ) est un vecteur alatoire intgrable, E (X | B ) est le vecteur (E (X1 | B ), . . . , E (Xd | B )). Si X = A , on note P (A | B ) = E (A | B ). Par construction, la notation P (A | B ) = E (A | B ) est compatible avec la dnition P (A | B ) que nous avons donne dans le cas dun conditionnement discret.

VI.3. Lois conditionnelles


Le principe de conditionnement stend des esprances aux lois. Cette extension sappuie sur le rsultat suivant connu sous le nom de lemme de Doob.

Lemme VI.3.1 (de Doob). Soit Y une variable alatoire relle sur (, A) et soit X : R. Pour que X soit mesurable par rapport (Y ) (et la tribu borlienne), il faut et il sut quil existe une application borlienne h : R R, telle que X = h(Y ).
Dmonstration. Si X = h(Y ) avec h borlienne, alors X est (Y )-mesurable.

Rciproquement, il sut de dmontrer le rsultat pour une variable alatoire X positive ou nulle (crire X = X + X ). Daprs la proposition I.2.7, X est limite croissante dune suite de variables alatoires tages 159

Chapitre VI. Probabilits et esprances conditionnelles

(Y )-mesurables. Daprs la dnition de la tribu (Y ), une variable alatoire tage (Y )-mesurable est de la forme ai Y 1 (Bi ) =
i i

ai Bi Y ,

o la somme est nie, les Bi sont des borliens et les ai 0. Elle scrit donc h(Y ) o h : R R est la fonction borlienne i ai Bi . Il existe donc une suite (hn )nN de fonctions borliennes (tages, positives) telle que X = limn hn (Y ). En particulier, la suite (hn )nN converge en tout point de Y (), limage de Y . Poser alors (par exemple) h = lim supn hn . La fonction h : R R est borlienne et X = h(Y ). Soit prsent un couple (X, Y ) de variables alatoires relles sur (, A, P ) tel que X soit intgrable. Lesprance conditionnelle E (X | Y ) est (Y )-mesurable. Ainsi, par le lemme VI.3.1, il existe une fonction borlienne h telle que E (X | Y ) = h(Y ). On conviendra dappeler h(y ), y R, lesprance conditionnelle de X sachant Y = y , note h(y ) = E (X | Y = y ). On notera le caractre abusif de cette notation puisque P { Y = y } peut tre nul.

Exemples VI.3.2. (i) Si Y prend un nombre ni ou dnombrable de valeurs yi , i I , daprs VI.1.9,


E (X | Y ) =
iI

1 P { Y = yi }

X dP
{Y =yi }

o I =

i I : P {Y = yi } > 0 . Ainsi, si i I , 1 P { Y = yi } X dP =
{Y =yi }

E (X | Y = yi ) =

X dP ( | Y = yi )

o P ( | Y = yi ) est la probabilit conditionnelle sachant { Y = yi }. (ii) Supposons que la loi du couple (X, Y ) R2 ait une densit f (x, y ) par rapport la mesure de Lebesgue. Vrions que lon peut choisir h(y ) = E (X | Y = y ) = 160
R

xf (x, y ) dx , R f (x, y ) dx

VI.3. Lois conditionnelles

lorsque f (x, y ) dy > 0. Soit, cet eet, C un borlien et B = Y 1 (C ). Alors, puisque la loi de Y a pour densit R f (x, y ) dx, h(Y ) dP =
{y C }

Y 1 (C )

h(y )
R

f (x, y ) dx

dy

=
R {y C }

xf (x, y ) dy dx

C (Y )X dP
X dP .

Y 1 (C )

Donc h(Y ) vrie VI.2.1.iii, et par unicit, h(Y ) = E (X | Y ) p.s. (iii) Les deux exemples prcdents peuvent tre en fait approfondis quant lexpression des lois. En pratique, ceci permet de ramener le calcul des lois conditionnelles un calcul dintgrales. En remplaant, dans (i), X par (X ), o est borlienne borne, lon voit que si P { Y = yi } > 0, E (X ) Y = yi =

(X ) dP ( | Y = yi ) .

Ainsi, daprs la formule du transport, la mesure image P ( | Y = yi ) peut sinterprter comme la loi de X conditionnellement Y = yi . Pour tout borlien B , on a P ( | Y = yi )X (B ) = P { X B | Y = yi } . De la mme faon, pour lexemple VI.3.2.ii, si est borlienne borne, E ((X ) | Y ) = (x)f (x, Y ) dx = f (x, Y ) dx (x)K Y ( dx)

o K y (dx) =

f (x, y ) dx sinterprte comme la loi conditionnelle de X saf (x, y ) dx chant Y = y . Il sensuit que la densit conditionnelle de X sachant Y = y est f (x, y )/f Y (y ) o f Y est la densit de Y . Cette formule permet le calcul pratique des lois conditionnelles. Ces exemples conduisent la dnition suivante. 161

Chapitre VI. Probabilits et esprances conditionnelles

D enition VI.3.3. On appelle transition, ou noyau de transition, toute fonction K : R B (R) [ 0, 1 ] telle que
(i) pour tout B B (R), y K (y, B ) = K y (B ) est mesurable ; (ii) pour tout y R, B K (y, B ) = K y (B ) est une mesure de probabilit. Le thorme suivant fournit lexistence dun noyau de transition dun couple de variables alatoires relles. Il gnralise les exemples prcdents.

Th eor` eme VI.3.4. Soit (X, Y ) un vecteur alatoire dans (R2 , B (R2 )P ), de loi P , o B (R2 )P est la tribu borlienne de R2 , P -complte (cf. exercice I.8). Il existe un noyau de transition K tel que pour toute fonction borlienne borne ,
E (X ) Y = dK Y p.s.

La mesure K y (dx) est appele la loi conditionnelle de X sachant Y , ou sachant Y = y . On note aussi L(X | Y ) ou L(X | Y = y ) cette loi conditionnelle.
Dmonstration. (Esquisse) La dmonstration est dans le mme esprit que celle du thorme V.4.4. Observons que pour toute fonction continue borne, la variable alatoire E ((X ) | Y ) est dnie p.s. par VI.2.1 et VI.3.1, cest--dire sauf sur un ensemble de mesure nulle dpendant a priori de , not N (). Soit(i )iN une famille dense dans (C0 (R), . ). Alors N = iN N (i ) est de mesure nulle, et K Y () (i )( ) = E (i (X ) | Y )( ) est dni sur \ N pour tout i N. Soit maintenant C0 (R). Pour dnir K Y () (), on considre une soussuite (dpendant de ) (ik )kN telle que limk ik = 0. On pose alors K Y () () = limk K Y () (ik ). On vrie que la limite des K Y () (ik ) ne dpend pas de la sous-suite ik choisie, mais seulement de , puisque

E (i j )(X ) Y

( ) E |i j |(X ) Y ( ) i j

p.s.

On dnit ainsi pour tout \ N une forme linaire continue sur C0 (R), laquelle peut tre identie une mesure de probabilit. On pourra se rfrer Dudley (1989) pour une dmonstration complte. Le noyau K dpend videmment de la loi du couple (X, Y ). Rciproquement, la loi du couple peut tre obtenue partir de K et de la loi de Y : si et sont deux 162

VI.3. Lois conditionnelles

fonctions borliennes bornes, par les points (vii) et (ix) de la proposition VI.2.2, E (Y )(X ) = E E ( (Y )(X ) Y ) = E (Y )E ((X ) | Y ) = E (Y ) (x)K (Y, dx) .

Testons prsent notre comprhension des lois conditionnelles sur quelques situations simples.

Exemples VI.3.5. (i) Soit X une variable alatoire et h : R R mesurable ; quelle est la loi conditionnelle de h(X ) sachant X = x ? Pour toute fonction borlienne borne, E ((h(X )) | X ) = (h(X )), et (h(X )) est aussi lintgrale de contre la masse de Dirac en h(X ). Il sensuit que L(h(X ) | X = x) = h(x) . (ii) Soit un couple (X, Y ) de variables alatoires relles sur (, A, P ), indpendantes ; soit galement h une fonction mesurable de R2 dans R. Daprs le thorme de Fubini et lindpendance de X et Y , pour toute fonction borlienne borne,
E h(X, Y ) Y = Si K y () dsigne la loi de h(X, y ),
R R

h(x, Y ) dP X (x) .

(u)K y ( du) = E h(X, y ) =

h(x, y ) dP X (x) .

Ainsi, si X et Y sont indpendantes, la loi conditionnelle de h(X, Y ) sachant Y = y est la loi de h(X, y ). Il est ais de constater sur un exemple que tel nest plus le cas sans lhypothse dindpendance. (iii) Soit un couple (X, Y ) de variables alatoires relles dni sur (, A, P ), de loi admettant une densit f (x, y ) sur R2 . Lexemple VI.3.2.iii et le thorme VI.3.4 montre que la loi de X sachant Y admet une densit donne par f X |Y (x) = f (x, Y ) = f Y (Y ) f (x, Y ) . f R (u, Y ) du

limage de la thorie usuelle de lintgration et des lois, la classe des fonctions borliennes bornes qui dterminent une loi conditionnelle dans le thorme VI.3.4 peut tre considrablement restreinte. Il sut par exemple de ne considrer que les exponentielles complexes (cf. thorme III.5.2) (fonctions caractristiques). Le paragraphe suivant dcrit dautres exemples de calculs desprances et de lois conditionnelles de variables gaussiennes. Il y est fait implicitement usage des conditions, des noncs et des proprits prcdentes relatives des vecteurs alatoires de Rd . 163

Chapitre VI. Probabilits et esprances conditionnelles

VI.4. Esprances conditionnelles dans les espaces gaussiens


Nous terminons ce chapitre par un exemple dapplication de calcul desprance conditionnelle pour les vecteurs alatoires gaussiens. Dans le cas gaussien, ces calculs sont relativement explicites. Il est commode de prsenter cette application avec la notion despace gaussien.

D enition VI.4.1. Un sous-espace vectoriel H de L2 (, A, P ) est dit gaussien si pour tous X1 , . . . , Xn H , le vecteur (X1 , . . . , Xn ) est gaussien (autrement dit, si pour tous X1 , . . . , Xn H et tous 1 , . . . , n R, la variable alatoire relle 1kn k Xk est gaussienne).
De plus, on dit que H est centr si toutes les variables de H sont centres.

Proposition VI.4.2. Soit H un espace gaussien, et soit H sa fermeture dans L2 (, A, P ). Alors H est encore gaussien.
Dmonstration. (Dmonstration dans le cas centr.) Il sut de remarquer que si

2 ) et converge dans L2 vers X , alors 2 converge vers E (X 2 ), Xn est de loi N (0, n n et on voit sur les transformes de Fourier que X suit une loi N (0, E (X 2 )).

Par convention, on ne sintresse plus dsormais quaux espaces gaussiens ferms. Pour plus de simplicit, nous les supposerons aussi toujours centrs ; le cas gnral sen dduit trivialement, puisque si H est gaussien, alors H0 = { X EX : X H } est un espace gaussien centr. Si X = (X1 , . . . , Xn ) est un vecteur alatoire gaussien valeurs dans Rn sur (, A, P ), X engendre lespace gaussien (ferm) { 1kn k Xk : k R }. Cest lexemple canonique quil convient de garder lesprit. Le thorme suivant dcrit les proprits dindpendance dans les espaces gaussiens.

Th eor` eme VI.4.3. Soient H un espace gaussien (ferm, centr) et H1 un sousespace (ferm) de H . Soit X H x. Les proprits suivantes sont quivalentes :
(i) pour tout Y de H1 , E (XY ) = 0 ; (ii) pour tout Y de H1 , X est indpendante de Y ; (iii) X est indpendante de la tribu (H1 ) engendre par les variables de H1 .

164

VI.4. Esprances conditionnelles dans les espaces gaussiens Dmonstration. Clairement (iii)(ii)(i). Pour montrer (i)(ii), on note que (i) implique que le couple (X, Y ) est gaussien, de matrice de covariance diagonale ; donc X et Y sont indpendantes par le thorme IV.4.3. De la mme faon, pour (i)(iii), il sut de montrer que si Y1 , . . . , Yn H1 , le vecteur (Y1 , . . . , Yn ) est indpendant de X , ce qui se fait de faon identique. En eet, si tel est alors le cas, posons pour tout borlien B ,

M=

E A : P { X B } E = P { X B }P (E )

Lensemble M est une classe monotone qui contient la classe E des intersections nies de Y 1 (C ), Y H , C borlien. Donc M M(E ) = (E ) = (H1 ). Donc X est indpendante de (H1 ). Le rsultat prcdent autorise des calculs desprances conditionnelles.

Proposition VI.4.4. Soit H1 comme prcdemment, et soit X un lment de H . On dsigne par (H1 ) la tribu engendre par H1 (cest--dire la plus petite tribu qui rend tous les lments de H1 mesurables). Alors, lesprance conditionnelle E (X | (H1 )) est simplement la projection orthogonale (dans L2 ) de X sur H1 . En particulier, cest une variable gaussienne.
Dmonstration. Soit Y la projection de X sur H1 . Cette projection est (H1 )-mesurable et X = Y + Z o Z est orthogonale H1 , donc indpendante de (H1 ) (thorme VI.4.3). On crit alors, par la proprit des esprances conditionnelles VI.2.2.i et VI.2.2.viii,

E (X | (H1 )) = E (Y | (H1 )) + E (Z | (H1 )) = Y + E (Z ) = Y , do le rsultat. Comment utiliser ce rsultat dans un calcul pratique ? Supposons par exemple que (X1 , . . . , Xn ) soit un vecteur gaussien centr, et soient i1 , . . . , ip < n. On voudrait calculer E (Xn | Xi1 , . . . , Xip ), cest--dire E (Xn | (Xi1 , . . . , Xip )) = E (Xn | (H1 )) o H1 est engendr par (Xi1 , . . . , Xip ), H tant engendr par (X1 , . . . , Xn ). Daprs la proposition VI.4.4, cette esprance conditionnelle est un lment de H1 et donc j Xij E (Xn | Xi1 , . . . , Xip ) =
1j p

165

Chapitre VI. Probabilits et esprances conditionnelles

pour des coecients rels 1 , . . . , p quil convient de calculer. cet eet, on peut par exemple commencer par multiplier cette identit par Xi1 , et intgrer, pour obtenir E (Xn Xi1 ) = j E (Xij Xi1 )
1j p

et ainsi de suite avec Xi2 , . . . , Xip . La donne de la covariance du vecteur (X1 , . . . , Xn ) permet ensuite de rsoudre le systme linaire de p quations p inconnues 1 , . . . , p .

Exemples VI.4.5. (i) Soit (X, Y, Z ) un vecteur gaussien centr de matrice de covariance 1 0 1 0 5 3 . 1 3 4
Calculons E (Y | X, Z ). Daprs ce qui prcde, cette esprance conditionnelle est de la forme X + Z . Les galits E (XY ) = E (X 2 ) + E (XZ ) E (Y Z ) = E (XZ ) + E (Z 2 ) , conduisent au systme 0= 3 = + 4 . Il vient = 1, = 1 et donc E (Y | X, Z ) = X + Z . (ii) Soit (X, Y ) un couple gaussien centr de matrice de covariance Calculons E (X | Y X ). On a E (X | Y X ) = (Y X ) et E X (Y X ) = E E X (Y X ) Y X 4/3 1 . 1 1

= E (Y X )2 ,

7 (Y X ), qui est une variable do 7/3 = 11/3 et E (X | Y X ) = 11 gaussienne centre de variance 49/33.

Le calcul des esprances conditionnelles gaussiennes est en un certain sens sufsant pour la connaissance plus prcise des lois conditionnelles. Soit (Z1 , . . . , Zn ) un vecteur alatoire gaussien, centr, et soient pour 1 k n, X = (Z1 , . . . , Zk ) et Y = (Zk+1 , . . . , Zn ). On sintresse la loi conditionnelle de X sachant que Y = y ( Rnk ). Pour la dterminer, il nous sut de connatre sa transforme de 166

VI.4. Esprances conditionnelles dans les espaces gaussiens

Fourier conditionnelle E (ei t,X | Y ), t Rk . Or, puisque t, X E ( t, X | Y ) et Y sont orthogonales et donc indpendantes, E (ei t,X | Y ) = eiE ( t,X = eiE ( t,X
|Y ) |Y )

E ei( t,X E ei( t,X

E ( t,X |Y )) E ( t,X |Y ))

= exp iE t, X

1 Y E ( t, X E ( t, X | Y ))2 2

Ainsi la loi conditionnelle de X sachant Y = y est une loi gaussienne de moyenne E (X | Y = y ) (vecteur dans Rk ) et de matrice de covariance (k k) E (Xi E (Xi | Y ))(Xj E (Xj | Y )) , 1 i, j k .

Ceci explique quil sut de calculer des esprances conditionnelles pour connatre les lois conditionnelles gaussiennes. On peut galement travailler directement sur les densits. Soit par exemple (X, Y ) un couple gaussien centr sur R2 , de matrice de covariance = a c c b .

La loi conditionnelle de X sachant Y = y est donne par la densit (cf. exemple VI.3.2.iii) f (x, y )/ f (x, y ) dx, o f (x, y ) = = 1 x x 1 1 , exp 1 2 2 y y 1 1 1 exp (bx2 2cxy + ay 2 ) 2 2

avec = dt = ab c2 > 0. On a f (x, y ) dx = = Ainsi 1 f (x, y ) = f (x, y ) dx 2 b c b exp x y 2 b


2

1 c2 2 1 1 a y exp 2 2 b 1 c2 2 1 1 a y . exp 2 2 b

exp

c b x 2 b

dx

de sorte que la loi de X conditionnelle Y = y est N (m, 2 ) avec m = (c/b)y et 2 = /b. On notera que, comme prcdemment, ne dpend pas de y . En fait, 167

Chapitre VI. Probabilits et esprances conditionnelles

on retrouve le rsultat obtenu prcdemment sous une autre mthode. En eet, E (X | Y ) = Y o est tel que E (XY ) = E (Y 2 ), et donc = c/b ; ainsi, 2 = E ((X E (X | Y ))2 ) = E ((X (c/b)Y )2 ) = /b. noter que si c = 0, X et Y sont indpendantes et E (X | Y ) = E (X ) = 0 (puisque X est centre). Le cas b = 0 (et donc c = 0) est trivial.

Exercices
Exercice VI.1. Soient X et Y des variables alatoires indpendantes, de mme loi, intgrables. Comparer les lois des couples (X, X + Y ) et (Y, X + Y ). En dduire que E (X | X + Y ) = E (Y | X + Y ) = (X + Y )/2. Exercice VI.2. X1 et X2 tant les rsultats indpendants de deux jets de ds, et S tant leur somme, quelle est la loi de X1 sachant que S est paire ? Exercice VI.3. Soit X une variable alatoire relle quelconque, et soit a une constante relle. Dterminer la loi de X conditionne par X a. Exercice VI.4. Soit X une variable alatoire valeurs dans N, telle que pour tous m, n N, P{X m + n | X m} = P{X n}
(on dit que X est sans mmoire). a) On pose P { X = 0 } = a. Dterminer la loi de X . b) Soit Y une copie indpendante de X . Quelle est la loi de S = X + Y ? Dterminer la loi conditionnelle de X sachant S = p, p N. Interprter le rsultat. Exercice VI.5. Soit X = (Xn )nN une suite de variables alatoires. Soit N une variable alatoire valeurs dans N, indpendante de la suite X . Montrer que XN est une variable alatoire. Montrer que pour tout k N, la loi de XN sachant N = k est la loi de Xk .

Exercice VI.6. Soient X1 , . . . , Xp des variables alatoires indpendantes suivant des lois de Poisson de paramtres respectifs 1 , . . . , p . Dterminer la loi conditionnelle du vecteur alatoire (X1 , . . . , Xp ) sachant que 1ip Xi = n. Exercice VI.7. Soient X1 , . . . , Xn des variables alatoires indpendantes suivant chacune la loi N (0, 1). Dmontrer que la loi de X1 sachant Sn = 1in Xi est la loi N (Sn /n, 1 1/n). Exercice VI.8. Soit X une variable alatoire suivant une loi exponentielle de paramtre > 0. tablir que
P{X t + s | X > t} = P{X > s}, 168 s, t 0 .

Exercices

Montrer que cette proprit caractrise la loi exponentielle parmi les lois densit. Prouver que limh0 h1 P { t < X < t + h | X > t } = pour tout t.

Exercice VI.9. Soient X et Y deux variables alatoires relles indpendantes de loi N (0, 1). On pose X = R cos et Y = R sin . a) Montrer que X + Y et X Y sont indpendantes et en dduire la loi de R2 sachant que Y = X . 2 2 Indication : on pourra crire R2 = 1 2 ((X + Y ) + (X Y ) ). b) Montrer que R et sont indpendantes et en dduire la loi de R2 sachant que = /4 ou 5/4 (cest--dire sachant que Y = X ). c) Pour montrer que les rsultats ne sont pas contradictoires, prciser les soustribus de conditionnement dans les deux questions. Exercice VI.10. On se donne une matrice carre P = (Pi,j )1i,j n . Dterminer quelle condition sur P il existe des variables alatoires X et Y valeurs dans { 1, . . . , n } telles que
Pi,j = P { Y = j | X = i } , i, j = 1, . . . , n .

On appellera une telle matrice, matrice de transition (voir chapitre VIII). P tant une matrice de transition (loi conditionnelle de Y sachant X ), on dsigne par M le vecteur de Rn reprsentant la loi de X : Mi = P { X = i }, i = 1, . . . , n. Dmontrer que la loi de Y se reprsente par le vecteur tPM .

Exercice VI.11. Nous avons vu lexercice V.14 comment construire une suite innie de variables alatoires indpendantes sur lespace probabilis ([ 0, 1 ], B ([ 0, 1 ]), ). laide de lexercice V.14, construire sur cet espace une suite de vecteurs alatoires indpendants de loi Pi , i N, donnes sur R2 . Exercice VI.12. Soit P une loi sur R2 , de marges P X et P Y , et (X, Y ) de loi P . Soit F X |y (x) la fonction de rpartition de la loi conditionnelle L(X | Y = y ). Soient U, V deux variables alatoires indpendantes et de loi uniforme sur [ 0, 1 ]. Y Montrer que le couple (F Y (U ), F X |F (U ) (V )) est de loi P . Ceci donne un procd de simulation dun vecteur alatoire. Exercice VI.13. On reprend les notations de lexercice IV.13. Montrer que
P { Si+1,n s | Xi,n = x } = et que P { Si+1,n s | Xi+1,n = x } = F (x s) F (x)
i

1 F (x + s) 1 F (x)

ni

x R, s 0,

x R, s 0. 169

Chapitre VI. Probabilits et esprances conditionnelles

Exercice VI.14. Soient X1 , . . . , Xn des variables alatoires relles, indpendantes et de mme loi admettant une densit f . Soit X1,n Xn,n ces variables alatoires ordonnes, et dnissons les espacements Si,n = Xi,n Xi1,n , 2 i n, qui mesurent les distances entre les variables adjacentes (faire un dessin). Soit 1 [0,x] (nSi,n) Ln (x) = n1
2in

la fonction de rpartition empirique des espacements, laquelle compte la proportion despacements plus petits que x/n. Notons L(x) = 1 f (z )exf (z ) dz .
R

Soit enn Ii,n = 1, si aucune des variables X1 , . . . , Xn ne tombe dans lintervalle ] Xi , Xi + x/n ] et Ii,n = 0 sinon. a) Montrer que le vecteur (I1,n , . . . , In,n ) est changeable, cest--dire que sa loi est invariante par permutation des coordonnes (voir aussi exercice III.8). b) Montrer que 1 Ln (x) = (n 1)1 1in Ii,n . c) Montrer que Ii,n suit une loi de Bernoulli de paramtre E 1 F (X1 + x/n) + F (X1 )
n1

d) valuer P { Ii,n = 1 ; Ij,n = 1 }. e) Montrer que limn E (Ln (x)) = L(x) et que limn E (Ln (x)2 ) = L(x)2 . Indication : Penser au thorme de convergence domine ! En dduire que Ln (x) converge vers L(x) en probabilit f) En utilisant la continuit, la bornitude et la monotonie de L, montrer que
n xR

lim sup |Ln (x) L(x)| = 0

en probabilit.

Pour n assez grand, ce rsultat donne une ide sur la taille des carts entre les points alatoires adjacents X1,n , . . . , Xn,n . g) Soit maintenant h une fonction continue borne sur R. Observons que L est la fonction de rpartition dune loi Q. Montrer que e) implique
n

lim

1 n1

h(nSi,n ) =
2in

h dQ

en probabilit.

Indication : Soit Qn la loi de probabilit de fonction de rpartition Ln . Remarquer que (n 1)1 2in h(nSi,n ) = h dQn , puis utiliser la dnitionthorme V.4.1. 170

Exercices

Exercice VI.15. La proposition III.2.7 nous donne une faon dengendrer des variables alatoires relles, pourvu que la fonction de quantile soit facile calculer. Ce nest pas toujours le cas en pratique. Une mthode assez ecace est la mthode dite du rejet qui fonctionne comme suit. Soient f , g, deux densits sur R. On souhaite simuler une variable de densit g, en supposant quon sache facilement simuler une variable de densit f , et quil existe une constante c telle que g cf . Soit (X, U ) un couple de variables alatoires indpendantes, respectivement de lois de densit f et uniforme sur [ 0, 1 ]. a) Montrer que le couple (X, cU f (X )) est uniformment distribu sous le graphe de f f = { (x, y ) R2 : 0 y f (x) } ;
cest--dire quen notant la mesure de Lebesgue sur R2 , A B (R2 ) , Indication : Remarquer que P { (X, cU f (X )) A } = (A f ).

A(x, cuf (x))f (x) du dx =

Ax cuf (x) duf (x) dx

o Ax est la section de A selon x. En dduire que L(X | cU f (X ) g(X )) a pour densit g. b) Soient (Ui , Xi ) des couples indpendants, de mme loi que (X, U ). Soit N0 = 0 et, i 1. Ni = min{ i Ni1 : cUi f (Xi ) g(Xi ) } , Montrer que P { N1 = k } = (1 c1 )k1 c1 et que E (N1 ) = c. Montrer que XNi , i 1, est une suite de variables alatoires indpendantes, de lois de densit g. Expliquer pourquoi en pratique il faut prendre c le plus petit possible. c) Soit maintenant p (x) = (p)1 xp1 ex , x 0, p 1,

la densit de la loi p . Soit f (x) = ex , x 0. Expliquer comment simuler des variables alatoires indpendantes de loi p partir dune suite de variables alatoires indpendantes et uniformes sur [ 0, 1 ].

Exercice VI.16. (Processus de Poisson) a) On considre une famille de variables alatoires (X1 , . . . , Xn ), indpendantes et uniformment distribues sur [ 0, t ]. On note X1,n Xn,n la famille rarrange dans lordre croissant. On dit alors que (X1,n Xn,n ) est une n-statistique dordre sur [ 0, t ]. Donner la loi de (X1,n Xn,n ).
171

Chapitre VI. Probabilits et esprances conditionnelles

Indication : on pourra introduire les ensembles A = (X1,n Xn,n ) = (X(1) X(n) )

pour toute permutation n lments. b) Montrer que si (X1,n Xn,n ) est une n-statistique dordre sur [ 0, t ], alors la loi conditionnelle de (X1,n Xn,n ) sachant { Xn,n = x } a la loi dune (n 1)-statistique dordre sur [ 0, x ]. c) Supposons que (X1,n Xn,n ) est une n-statistique dordre sur [ 0, t ]. Considrons des rels 0 = t0 t1 tp t et des entiers 0 = k0 k1 kp = n. Montrer que P j = 0, . . . , p 1, i = kj + 1, . . . , kj +1 , xi,n ] tj , tj +1 ] = n! tn (tj +1 tj )kj+1 kj . (kj +1 kj )!

0j p1

Indication : On pourra utiliser a) et comparer le rsultat cherch une loi multinomiale. d) On considre une suite de variables exponentielles de paramtre , indpendantes, (Tk )k1 , et on note Sn = T1 + + Tn , n 1. Calculer la loi de (S1 , . . . , Sn ), puis la loi de Sn . Montrer que la loi conditionnelle de (S1 , . . . , Sn ) sachant Sn+1 = s est la loi dune n-statistique dordre sur [ 0, s ]. e) On pose Nt = n [0,t] (Sn ). Montrer que la variable Nt est nie presque srement. En utilisant c) et d), montrer que, pour tous 0 t1 tn , pour tous entiers k1 , . . . , kn , on a P Nt1 = k1 , Nt2 Nt1 = k2 . . . , Ntn Ntn1 = kn =
1in

(ti ti1 ) ki !

ki

exp (ti+1 ti ) .

En dduire que les variables Nti+1 Nti sont indpendantes et suivent des lois de Poisson de paramtre (ti+1 ti ).

172

VII
MARTINGALES ( TEMPS DISCRET)

La notion de martingale est une notion fondamentale du calcul des probabilits. Elle a son origine en thorie des jeux et introduit le temps dans lanalyse probabiliste. Sa donne fondamentale est celle dune famille croissante (Ft )t0 de tribus reprsentant lvolution de linformation avec le temps. Dans cette tude, nous nous contenterons de lexamen de modles temps discret.

VII.1. Gnralits
D enition VII.1.1. Sur un espace probabilis (, F , P ), on appelle ltration toute suite croissante (Fn )nN de sous-tribus de F (on pourra prendre pour F la tribu, note F , engendre par les tribus Fn , n N).
Intuitivement, la tribu Fn contient tous les vnements qui peuvent survenir avant linstant n.

D enition VII.1.2. Une suite de variables alatoires relles (Xn )nN dnies sur (, A, P ) est appele un processus. De plus, on dit que le processus est adapt la ltration (Fn )nN si pour tout n N la variable alatoire Xn est Fn -mesurable.

Chapitre VII. Martingales ( temps discret)

D enition VII.1.3. Soit un processus adapt (Xn , Fn )nN tel que Xn est intgrable pour tout n. On dit que le processus est
(i) une martingale, si pour tous 0 m n, E (Xn | Fm ) = Xm p.s.;

(ii) une sur-martingale, si pour tous 0 m n, E (Xn | Fm ) Xm p.s.;

(iii) une sous-martingale, si pour tous 0 m n, E (Xn | Fm ) Xm p.s.

En particulier, un processus adapt (Xn , Fn )nN est une martingale si et seulement si cest la fois une sur- et une sous-martingale. Cest une sous-martingale si et seulement si le processus adapt (Xn , Fn )nN est une sur-martingale. Par consquent, nous nous contenterons parfois dnoncer des rsultats pour des surou des sous-martingales. On voit que (Xn , Fn )nN est une martingale (resp. une sur-martingale, sousmartingale) si et seulement si E (Xn Xm | Fn ) = 0 (resp. 0, 0) pour tous m n, ce qui quivaut ce que pour tout A Fn , A (Xn Xm ) dP = 0 (resp. 0, 0.) Il sut de vrier la dnition VII.1.3 pour tous n et m = n 1. En eet, daprs les proprits de conditionnements successifs des esprances conditionnelles, si m < n, E (Xn Xm | Fm ) =
m+1k n

E (Xk Xk1 | Fm ) E (Xk Xk1 | Fk1 | Fm ) = 0


m+1k n

(resp. 0, 0). Observons aussi que si (Xn , Fn )nN est une martingale (resp. sur-martingale, resp. sous-martingale), la suite (E (Xn ))nN est constante (resp. dcroissante, resp. croissante) car E (Xn ) = E (E (Xn | Fn1 )) = E (Xn1 ) (resp. E (Xn1 ), resp. E (Xn1 )). Parfois, nous ne considrerons que des martingales, des sur-martingales ou des sous-martingales (Xn , Fn )0nk indexes sur un nombre ni dinstants. On peut aussi dmarrer ces processus n = 1 au lieu de n = 0. 174

VII.1. Gnralits

Si Xn reprsente la fortune dun joueur linstant n, dire que (Xn ) est une martingale signie que le jeu est quilibr, au sens o la connaissance des parties passes ne donne pas, en moyenne, davantage pour la partie venir.

Exemples VII.1.4. (i) Soit Z une variable alatoire intgrable sur (, F , P ) et (Fn )nN une ltration de F . Posons Xn = E (Z | Fn ), n N. Alors (Xn , Fn )nN est une martingale.
(ii) Soient Zn , n 1, des variables alatoires indpendantes sur (, F , P ), intgrables et de moyenne M (i.e. E (Zn ) = M ). On dsigne par Fn la tribu engendre par Z1 , . . . , Zn . La suite (Fn )n1 est une ltration. Considrons les sommes Xn = Z1 + + Zn , n 1. Alors (Xn , Fn )n1 est une martingale (resp. surmartingale, resp. sous-martingale) si M = 0 (resp. M < 0, resp. M > 0). En eet, si n 2, par les proprits des esprances conditionnelles (IV.2.2), E (Xn | Fn1 ) = E (Z1 + + Zn1 + Zn ) | Fn1 ) = E (Xn1 | Fn1 ) + E (Zn | Fn1 ) = Xn1 + M . (iii) Soit (Xn , Fn )nN une martingale ; soit une fonction convexe sur R telle que (Xn ) soit intgrable pour tout n N. Alors ((Xn ), Fn )nN est une sousmartingale ; en eet, lingalit de Jensen VI.2.2.iv fournit, pour n m, E (Xn ) Fm E (Xn | Fm ) = (Xm ). Noter en particulier le choix de (x) = |x| ou (x) = x2 . Le rsultat est bien sr encore vrai si (Xn , Fn )nN est une sous-martingale et si est en outre croissante. Par dnition, une sous-martingale (resp. sur-martingale) est un processus croissant (resp. dcroissant) en moyenne conditionnelle, et donc en moyenne. Le rsultat suivant, la dcomposition de Doob, nous dit quune sous-martingale (resp. sur-martingale) peut toujours tre vue comme une martingale laquelle est ajoute un processus croissant (resp. dcroissant). De plus, ce processus monotone (Zn )nN peut tre pris non seulement adapt (Fn )nN mais (Fn1 )nN , o lon convient que F1 est la tribu triviale { , }. Autrement dit, idalement, la valeur de Zn peut tre parfaitement prdite linstant n 1.

Th eor` eme VII.1.5 (d ecomposition de Doob). Soit (Xn , Fn )nN une sousmartingale. Il existe des processus (Yn )nN et (Zn )nN uniques presque srement, tels que
(i) (Yn , Fn )nN est une martingale ; 175

Chapitre VII. Martingales ( temps discret)

(ii) Z0 = 0 et Zn est Fn1 -mesurable pour tout n N (avec la convention F1 = { , }) et presque srement croissant, i.e. Zn Zn+1 p.s. pour tout n N; (iii) Xn = Yn + Zn pour tout n N.
Dmonstration. Une martingale est en moyenne constante. Donc le processus Zn

doit cumuler les sauts de la sous-martingale Xn . Ceci conduit considrer les dirences n = Xn Xn1 , n 1. Soit Z0 = 0, Y0 = X0 et pour tout n 1, Zn =
1in

E (i | Fi1 )

et

Yn = Xn Zn .

Le processus Zn est croissant (car E (n | Fn1 ) 0) et Yn est une Fn -martingale puisque E (Yn | Fn1 ) = E (Yn Yn1 | Fn1 ) + Yn1 = E n (Zn Zn1 ) | Fn1 + Yn1 = E (n | Fn1 ) (Zn Zn1 ) + Yn1 = Y n1 (nous avons utilis la Fn1 -mesurabilit de Zn , et le fait que Zn1 est Fn2 -mesurable, donc aussi Fn1 -mesurable). Pour dmontrer lunicit de la dcomposition, soit (Yn , Zn ) une autre dcomposition vriant (i)(iii). Alors Z0 = Z0 = 0 et donc Y0 = Y0 . Par rcurrence, supposons Zj = Zj et Yj = Yj pour tout 0 j n. Alors Zn+1 = E (Zn+1 | Fn ) = E (Xn+1 Yn+1 | Fn ) = E (Xn+1 | Fn ) Yn = E (Yn+1 + Zn+1 | Fn ) Yn = Yn Yn + Zn+1 . En utilisant lhypothse de rcurence, il vient Zn+1 = Zn+1 p.s., et donc Yn+1 = Yn+1 p.s., ce qui prouve lunicit de la dcomposition. Intimement lie la notion de martingale se trouve tre celle de temps darrt.

D enition VII.1.6. Sur (, F , P ) muni dune ltration (Fn )nN , une variable alatoire T : N { } est appele un temps darrt si lon a { T n } Fn pour tout n N.
Il est immdiat que lon pourrait dnir un temps darrt T comme tant une variable alatoire valeurs dans N telle que { T = n } Fn (puisque { T = n } = { T n } { T n 1 }c et { T n 1 } = 1in1 { T = i }). 176

VII.1. Gnralits

Nanmoins cette seconde dnition ne se gnralise pas convenablement au cas des martingales temps continu (i.e. on ne dispose plus dune suite (Xn ) indexe par les entiers mais dune fonction Xt indexe par R). Si T est un temps darrt, on dnit la tribu des vnements antrieurs T en posant FT = A F : A { T n } Fn pour tout n N .

On obtient bien sr une dnition quivalente en remplaant lvnement { T n } par lvnement { T = n }. On vrie immdiatement que FT est effectivement une tribu et que T est FT -mesurable.

Exemple VII.1.7. Soit (Xn , Fn )nN un processus adapt. Soit t un nombre rel et T = min{ n N : Xn t } avec T = sil nexiste pas de tel n. Alors T est un temps darrt puisque
{ T n } = { m n : Xm t } Fn et { T } = F . Dans la suite, lorsque nous parlerons de temps darrt, il sera toujours sousentendu par rapport une ltration (Fn )nN . Notons prsent quelques proprits des temps darrt : si S et T sont deux temps darrt, alors S T et S T sont aussi des temps darrt. En particulier, une variable S constante tant un temps darrt, pour tout m N, T m est un temps darrt. On a aussi la proposition suivante.

Proposition VII.1.8. Soient S et T deux temps darrt, tels que S T (partout) ; alors FS FT .
Dmonstration. Soit A FS . Puisque S T , pour tout n N,

A {T n} = A {S n} {T n} est bien lment de Fn car intersection de deux lments de Fn . Montrons maintenant que dun point de vue probabiliste il est raisonnable de sintresser lobjet XT , cest--dire au processus (Xn )nN vu linstant alatoire T .

Lemme VII.1.9. Si (Xn , Fn )nN est un processus adapt et si T est un temps darrt de la ltration (Fn )nN , on dnit, une variable alatoire XT en posant XT ( ) = XT () ( ) si T ( ) < (la valeur F -mesurable de XT ( ) quand T ( ) = + est indirente). Alors XT est FT -mesurable.
177

Chapitre VII. Martingales ( temps discret) Dmonstration. Si B est un borlien de R et n un entier,

{ XT B } { T n } =

{ Xk B ; T = k }
0k n

qui est clairement mesurable par rapport Fn puisque Xk est Fk -mesurable pour tout k. Nous avons commenc par dnir les martingales, puis la notion de temps darrt, et venons de montrer que si T est un temps darrt de la martingale, alors XT est une variable alatoire. Remarquons que la dnition dune martingale (Xn ) suppose que chaque Xn est intgrable. Il est naturel dtudier lintgrabilit de XT . En gneral, cette variable alatoire na aucune raison dtre intgrable. Une classe naturelle de martingales considrer pour conserver la proprit dintgrabilit par arrt est la classe des martingales dites L1 .

D enition VII.1.10. Une martingale (Xn , Fn )nN est dite L1 si


sup Xn
nN 1

= sup E |Xn | < .


nN

Proposition VII.1.11. Soit (Xn , Fn )nN une martingale L1 et T un temps darrt ni p.s. (i.e. P { T < } = 1). Alors XT est intgrable et de plus E (|XT |) supnN E (|Xn |).
Dmonstration. Soit la fonction

(a, b) = |a| |b| (a b) signe(b) = |a| a signe(b) 0 , Soit m N. Pour le temps darrt T m, observons que |XT m | =
0im1

a, b R .

|Xi |{i} (T ) + |Xm |[m,)(T ) ,

et donc |XT m | |X0 | =


0im1

|Xi+1 | |Xi |

]i,[(T ) . ]i,[(T ) sont

Puisque (Xn , Fn )nN est une martingale et signe(Xi ) et Fi -mesurables, E (Xi+1 Xi )signe(Xi )]i,[ (T ) =E 178

E (Xi+1 | Fi ) Xi signe(Xi )]i,[(T ) = 0 .

VII.1. Gnralits

Ainsi, en utilisant la positivit de , E |XT m | |X0 | =


0im1

E (Xi+1 , Xi )]i,[ (T ) E (Xi+1 , Xi )


0im1

=
0im1

E |Xi+1 | |Xi |

= E |Xm | E |X0 | . Donc pour tout m N, E |XT m | E |Xm | sup E |Xn | .


nN

Puisque T < p.s., limm |XT m | = |XT | p.s. et en utilisant le lemme de Fatou II.2.3, E |XT | lim inf E |XT m | sup E |Xn | < ,
m nN

ce qui dmontre lintgrabilit de XT . Pour une martingale (Xn , Fn )nN et une suite de temps darrt (Tn )nN , la proposition VII.1.11 donne une condition susante pour vrier la condition dintgrabilit E (|XTm |) < ; il sut que la martingale soit L1 . Pour les surou les sous-martingales, une condition susante (et plus restrictive) est davoir Tm < tm < p.s. o tm est une suite dterministe. En eet, dans ce cas, E |XTm |
1ntm

{T =tn }

|Xn | dP
1ntm

E |Xn | < .

Le thorme suivant, le thorme darrt de Doob, est fondamental. Il exprime quun jeu reste quilibr tout temps (darrt) alatoire.

Th eor` eme VII.1.12 (darr et de Doob). Soit (Xn , Fn )nN une sous-martingale (resp. une sur-martingale, resp. une martingale), et soit (Tm )mN une suite de temps darrt borns de la ltration (Fn )nN , et tels que Tn Tm pour tous n m. Alors, le processus (XTm , FTm )mN est une sous-martingale (resp. une sur-martingale, resp. une martingale).
179

Chapitre VII. Martingales ( temps discret) Dmonstration. Daprs le lemme VII.1.9, les XTm sont FTm -mesurables. Il ne reste plus qu vrier lingalit des sous-martingales (resp. des sur-martingales, resp. des martingales). Nous nous contentons du cas des sous-martingales, les autres cas se traitant de faon tout fait identique. Comme les temps darrt Tm sont borns, il sut de considrer une sous-martingale (Xn , Fn )1nk et deux temps darrt S et T de la ltration (Fn )1nk tels que S T et de montrer que

E (XT | FS ) XS . Nous montrons cet eet que pour tout A FS , (XT XS ) dP 0


A

(prendre A = { E (XT | FS ) < XS } pour conclure). Nous examinons dabord le cas o la dirence T S { 0, 1 }. Dans ce cas, on crit pour tout A FS , (XT XS ) dP =
A 1nk A{S =n}

(XT Xn ) dP (Xn+1 Xn ) dP

=
1nk A{S =n}{T =n}

0 puisque (Xn , Fn )1nk est une sous-martingale, A { S = n } Fn et { T = n } = { T = n }c Fn . Pour en dduire le cas gnral, on pose Rl = min(T, S + l), 1 l k. Les Rl sont des temps darrt de (Fn )1nk . Observons en outre que R0 = S et Rk = T . De plus Rl+1 Rl et Rl+1 Rl { 0, 1 }. Maintenant, si A FS , alors A FRl (proposition VII.1.8) et, daprs le premier cas, (XT XS ) dP =
A 1lk A

(XRl+1 XRl ) dP 0 .

Le thorme est tabli. Si (Xn , Fn )1nk est une sous-martingale, et si T est un temps darrt de la ltration (Fn )1nk , le thorme darrt VII.1.12 implique E (X1 ) E (XT ) E (Xk ). Le thorme suivant est une consquence du thorme darrt par lintermdiaire de ce corollaire. Cest un nonc faisant partie des ingalits dites maximales. 180

VII.1. Gnralits

Th eor` eme VII.1.13. Soit (Xn , Fn )1nk une sous-martingale ; pour tout t > 0,
P
1nk

max Xn t

+ E (Xk ) . t

Dmonstration. On considre le temps darrt

T = min{ 1 n k : Xn t } ou T = k si cet ensemble est vide. On notera que si max1nk Xn t, alors XT t, et si max1nk Xn < t, alors XT = Xk . Ainsi, par le thorme darrt VII.1.12, plus prcisment sa consquence ci-dessus, E (Xk ) E (XT ) = Par consquent, tP
1nk { max1nk Xn <t }

XT dP +

{max1nk Xn t} 1nk

XT dP

{max1nk Xn <t}

Xk dP + tP

max Xn t .

max Xn t

{max1nk Xn t}

+ Xk dP E (Xk )

puisque Z A Z + pour toute variable Z et tout vnement A. Si (Xn , Fn )nN est une martingale, alors (|Xn |, Fn )nN est une sousmartingale, et donc, pour tout k N et tout t > 0, P { max |Xn | t }
0nk

E |Xk | . t

Observons que la suite ([t,[ (max0nk |Xn |))kN est croissante et majore par 1, et converge presque srement vers [t,[ (supnN (|Xn |)). On dduit donc de lingalit prcdente et du thorme de convergence domine (II.2.8) que pour une martingale L1 , 1 P { sup |Xn | t } sup E |Xn | . t nN nN En particulier, supnN |Xn | < p.s. Lorsque de plus Xn est de carr intgrable, 2, F ) (Xn n nN est une sous-martingale (exemple VII.1.4.iii). Le thorme VII.1.12 fournit dans ce cas, 1 2 2 t2 2 E (Xk ). P max |Xn | t P max Xn 1nk 1nk t Par exemple, si Xn = Z1 + + Zn o les Zi sont indpendantes centres et de carr intgrable, on retrouve par ces mthodes lingalit de Kolmogorov (exercice IV.16). 181

Chapitre VII. Martingales ( temps discret)

VII.2. Thormes de convergence


Il convient de remarquer que la dnition dune sur-martingale est peu prs celle dune suite qui en tendance, conditionnellement au pass, dcrot. Il est bien connu en analyse quune suite dcroissante minore converge. Lun des buts de cette partie est de dmontrer le rsultat analogue pour les sur-martingales. La condition de minoration des suites relles (inf n xn > ) implique la bornitude et deviendra ici une condition de bornitude desprance, supn E (|Xn |) < . On peut imaginer alors limportance dun tel thorme de convergence. Avant de montrer la convergence des sur-martingales, nous montrerons celle des martingales L1 , et conclurons grce la dcomposition de Doob. Ltude de la convergence des martingales fournira dans certaines situations une alternative lutilisation du lemme de Borel-Cantelli V.1.2. Toujours par analogie avec ltude des suites relles, observons que pour quune suite relle (xn )nN converge, il sut (mais ce nest pas ncessaire) que pour toute suite strictement croissante dentiers nj , j N, avec n0 = 0, on ait 2 j N (xnj +1 xnj ) < . En eet, si (xn )nN ne converge pas, elle ne vrie pas le critre de Cauchy ; alors il existe > 0 et une suite croissante nj avec par exemple n0 = 0 telle que |xnj+1 xnj | , et donc j N (xnj+1 xnj )2 = . Si nous voulons quune martingale converge p.s., nous pouvons tenter dutiliser ce critre de convergence pour presque tout ala . Lanalogue de la suite croissante nj est naturellement une suite croissante de temps darrt. Nous pouvons maintenant noncer puis dmontrer la convergence des martingales L1 .

Th eor` eme VII.2.1 (de convergence des martingales). Soit (Xn , Fn )nN une martingale L1 . Alors limn Xn existe p.s.
Dmonstration. En suivant le commentaire prcdent, montrons dabord que pour toute suite presque srement croissante de temps darrt borns, (Tn )nN , avec T0 = 0 p.s., la srie nN (XTn+1 XTn )2 converge p.s. 2 2 2X + XT Puisque le dveloppement (XTn+1 XTn )2 = XT Tn+1 XTn fait n n+1 apparatre des carrs et que nous supposons seulement que les Xn sont intgrables, nous utilisons une troncature. La dmonstration est alors dans le mme esprit que celle de la proposition VII.1.11. Pour tout p > 0, soit p la fonction positive, convexe, drivable, dnie par

p (x) =

x2 2p|x| p2

si |x| p, si |x| p.

182

VII.2. Thormes de convergence

Soit de plus la fonction positive p (x, y ) = p (y ) p (x) (y x) (x) , x, y R .

Observons que p (x, y ) = (y x)2 si |x| |y | p et que de plus p (x) 2p|x| pour tout x R. Considrons la variable alatoire X = supnN |Xn | qui est bien dnie daprs la discussion suivant lingalit maximale VII.1.13. Pour tout k, E
0nk

(XTn+1 XTn )2 [0,p] (X ) =E


0nk

p (XTn , XTn+1 )[0,p] (X ) p (XTn , XTn+1 )


0nk

E =E
0nk

(puisque p 0)

p (XTn+1 ) p (XTn ) (XTn+1 XTn )p (XTn ) E (XTn+1 XTn )p (XTn ) .


0nk

= E p (XTk+1 ) E p (XT0 )

Daprs le thorme darrt VII.1.12, (XTn , FTn )nN est une martingale. Ainsi, E (XTn+1 XTn )p (XTn ) = E E XTn+1 XTn FTn p (XTn ) = 0 . Il sensuit que E
0nk

(XTn+1 XTn )2 [0,p] (X ) E p (XTk+1 ) E p (X0 ) 2pE |XTk+1 | 2p sup E |Xn | < .
nN

(1)

Supposons alors que la martingale (Xn , Fn )nN ne converge pas presque srement. Considrons lvnement A=
nN mn

|Xm Xn | > .

La discussion suivant la dnition V.1.1 montre quil existe > 0 tel que P (A) > 2. Par convergence monotone, P (A { X p }) > pour tout p assez grand. 183

Chapitre VII. Martingales ( temps discret)

Dnissons alors la suite croissante de temps darrt (Tn )nN par T0 = 0 et pour tout n 0, Tn+1 = min m > Tn : |Xm XTn | > si Tn < (et Tn+1 = si Tn = ). Soit N un entier positif. Lgalit (1) applique aux temps darrt Tn N montre que 2p sup E |Xn | E
nN 2

A[0,p] (X )
0nk

(XTn+1 N XTn N )2

A [0,p] (X )card{ 0 n k : Tn+1 N } .

Par convergence monotone (en k et N ), 2 E

A [0,p](X )card{ n N : Tn < } 2p sup E |Xn | .


nN

(2)

Nous avons montr que lvnement A {X p} a une probabilit positive ; or si lvnement A a lieu, alors lensemble { n N : Tn < } est inni, ce qui contredit (2). Comme annonc, nous dduisons de la convergence des martingales L1 celle des sous-martingales.

Corollaire VII.2.2. Soit (Xn , Fn )nN une sous-martingale (resp. sur-martingale), telle que supnN E (|Xn |) < . Alors limn Xn existe p.s.
Dmonstration. Soit Xn = Yn + Zn la dcomposition de Doob 1.5 de la sous-

martingale (Xn , Fn )nN . Comme Zn 0 p.s., supn E (|Yn |) < et, par convergence monotone, E (sup Zn ) = sup E (Zn ) < .
n n

Ainsi, le processus (Zn ) est croissant et born p.s., donc converge p.s. La martingale (Yn ) est quant elle dans L1 , donc converge p.s. daprs le thorme VII.2.1. La convergence presque sre de la sous-martingale (Xn , Fn )nN sen dduit. Lnonc suivant dcrit les martingales uniformment intgrables.

Th eor` eme VII.2.3. Soit (Xn )nN une suite de variables alatoires adaptes la ltration (Fn )nN ; pour que (Xn ) soit une martingale uniformment intgrable (relativement (Fn )nN ), il faut et il sut quil existe une variable alatoire intgrable Y telle que Xn = E (Y | Fn ) p.s. pour tout n.
184

VII.2. Thormes de convergence Dmonstration. Si (Xn ) est uniformment intgrable, par le corollaire VII.2.2 et le thorme V.VII.3.5, Xn converge p.s. vers X et aussi dans L1 . On choisit Y = X , pour lequel il faut vrier que E (Y | Fn ) = Xn p.s. pour tout n. Or pour tout m n, E (Xm | Fn ) = Xn et

E E (Y |Fn ) E (Xm |Fn )

E |Y Xm |

qui tend vers 0 lorsque m . Rciproquement, il faut montrer luniforme intgrabilit de toute suite du type (E (Y | Fn ))nN . Cela se fait en revenant la dnition. Soit Xn = E (Y | Fn ). Pour tout n N et tout c > 0,
{|Xn |>c}

|Xn | dP

{|Xn |>c}

E |Y | Fn dP E |Y |]c,[(|Xn |)

puisque Xn est Fn -mesurable. Comme Y est intgrable, pour tout > 0, il existe > 0 tel que P (A) assure A |Y | dP . Or, pour chaque n, P |Xn | > c 1 1 E |Xn | = E E (Y |Fn ) c c sup E |Y |]c,[ (|Xn |) ,
n

1 E |Y | . c

Donc, si c0 = E (|Y |)/ , pour tout c > c0 ,

et la conclusion sensuit. On peut aussi dmontrer des thormes de convergence presque sre pour des ensembles dindices ltrant gauche, et ceux-ci sont parfois bien utiles. Une telle situation est par exemple le cas des entiers ngatifs, ou de faon quivalente, de lensemble des entiers naturels avec un ordre renvers.

D enition VII.2.4. Sur (, F , P ), soient une suite dcroissante (Fn )nN de sous-tribus de F , et (Xn )nN une suite de variables alatoires intgrables adaptes (Fn )nN . La suite (Xn , Fn )nN est une martingale (resp. sur-martingale, resp. sous-martingale) renverse, si, lorsque m n,
E (Xm | Fn ) = Xn p.s. (resp. E (Xm | Fn ) Xn , resp. E (Xm | Fn ) Xn ). Le thorme suivant se dmontre en utilisant le mme schma que pour lordre habituel. Les hypothses sont quelques peu modies. Cest lanalogue du thorme danalyse armant que toute suite de rels croissante et majore converge. 185

Chapitre VII. Martingales ( temps discret)

Th eor` eme VII.2.5. Soit (Xn , Fn )nN une sur-martingale renverse telle que supnN E (Xn ) < . Alors les variables alatoires Xn convergent p.s. vers une variable alatoire intgrable X .
Notons en particulier quune martingale renverse est toujours p.s. convergente (puisque la suite (E (Xn ))nN est constante). Nous omettons la dmonstration du thorme VII.2.5. Elle est tout fait est une semblable celle du thorme VII.2.1 ; il sut de noter que, puisque Xn sous-martingale renverse, pour tout n,
) sup E (Xk ) + 2E (X0 ), E |Xn | = E (Xn ) + 2E (Xn k N

et donc supnN E (|Xn |) < . Cette hypothse sut alors pour appliquer le schma usuel.

Remarque. Il est possible de dmontrer que sous les hypothses du thorme, la suite (Xn )nN est uniformment intgrable. La convergence a donc aussi lieu dans L1 .

VII.3. Application la loi des grands nombres


Soient Zn , n 1, des variables alatoires relles, indpendantes, de mme loi, dnies sur (, F , P ), et telles que E (|Z1 |) < . Pour tout n 1, posons Sn = Z1 + + Zn . Nous allons vrier que Xn = Sn /n, n 1, est une martingale renverse pour la ltration Fn = (Sn , Sn+1 , . . .), n 1. cet eet, il nous sut de montrer que pour tout n 1, E (X1 | Fn ) = Xn p.s., car si cest le cas, pour tout m n, E (Xm | Fn ) = E (X1 | Fm | Fn ) = E (X1 | Fn ) = Xn . Notons en outre que X1 = Z1 . Or, par linarit, on peut crire, pour tout n 1, Sn = E (Sn | Fn ) =
1in

E (Zi | Fn ) .

La tribu Fn est aussi engendre par Sn , Zn+1 , Zn+2 , . . . Comme les Zi sont indpendantes, la proposition VI.2.2.viii montre que Sn =
1in

E (Zi | Sn , Zn+1 , Zn+2 , . . .) =


1in

E (Zi | Sn ) .

186

VII.3. Application la loi des grands nombres

Les Zi ayant mme loi, il vient ensuite E (Zi | Sn ) = nE (Z1 | Sn ) = nE (Z1 | Fn ) = nE (X1 | Fn ) ,
1in

do le rsultat. En vertu du thorme VII.2.5, Xn converge p.s. Par la loi du 01 (IV.3.3), la limite est non alatoire. Notons la a. Il ne reste plus qu montrer que a = E (X1 ). Ceci sera en particulier le cas si la suite (Xn )n1 est uniformment intgrable puisqualors Xn convergera dans L1 vers a, et donc E (Xn ) a. Cela fournira le rsultat puisque E (Xn ) = E (X1 ) pour tout n. Daprs la remarque suivant le thorme VII.2.5, une martingale renverse est toujours uniformment intgrable. La dmonstration est identique la deuxime partie du thorme VII.2.3. Pour tout c > 0 et tout n 1, |Xn | dP 1 n |Zi | dP = |Z1 | dP . . Pour tout

{|Xn |>c}

1in {|Sn /n|>c}

{|Sn /n|>c} A |Z1 | dP

Soit > 0 x, et soit > 0 tel que si P (A) alors c > 0 et tout n, P |Sn /n| > c

1 1 E |Sn | E |Z1 | , nc c

de sorte que si c0 = E (|Z1 |)/ , pour tout c c0 et tout n 1, |Xn | dP |Z1 | dP .

{|Xn |>c}

{|Sn /n|>c}

La suite (Xn )n1 est donc bien uniformment intgrable. En rsum, nous venons de dmontrer la loi forte des grands nombres :

Th eor` eme VII.3.1. Soit (Zi )i1 une suite de variables alatoires indpendantes et de mme loi et soit Sn = Z1 + + Zn , n 1. Alors
Sn = E (Z1 ) p.s. si et seulement si E |Z1 | < . n n lim En fait, nous navons fait que dmontrer une partie de la loi des grands nombres, i.e. que E (|Z1 |) < implique la loi forte. La rciproque a t tablie dans le thorme V.5.2. 187

Chapitre VII. Martingales ( temps discret)

Exercices
Exercice VII.1. Soit (Xn )n1 une suite de variables alatoires indpendantes, de mme loi de Bernoulli P { Xn = 0 } = P { Xn = 2 } = 1/2. Pour tout n 1, on dsigne par Fn la tribu engendre par X1 , . . . , Xn , et lon pose Zn = 1kn Xk . Dmontrer que (Zn )n1 est une martingale par rapport la ltration (Fn )n1 qui nest pas uniformment intgrable. Exercice VII.2. Soient c1 , . . . , ck des rels tels que 1ik ci = 0. Soit une permutation alatoire de { 1, 2, . . . , k } uniformment rpartie sur le groupe des permutations de k lments, cest--dire telle que pour toute permutation de k lments, P { = } = 1/k!. Soit
Xn = k kn c(i)
1in

et soit la suite de tribus Fn = ( (1), . . . , (n)), 1 n k. Montrer que (Xn , Fn )1nk est une martingale. Indication : Montrer que Xn Xn1 = k 1 c(n) kn kn+1 c(i) ,
nik

puis montrer que pour tout n i k, L( (i) | (1), . . . , (n 1)) est la loi uniforme sur { 1, 2, . . . , n } \ { (1), . . . , (n 1) }.

Exercice VII.3. (Urne de Polya) Une urne contient n boules noires et b boules blanches. Une boule est tire au hasard, selon une probabilit uniforme sur les boules dans lurne. Elle est remise dans lurne, et on ajoute aussi a boules de la couleur tire. On itre cette procdure de tirage-ajout. Soit X0 = n/(n + b) la proportion de boules noires initialement dans lurne, et soit Xk la proportion de boules noires la k-ime tape du tirage-ajout. Montrer que Xk est une martingale, pour la suite de tribus Fk = (X1 , . . . , Xk ). Montrer que cette martingale converge, et donc que la proportion de boules noires converge vers une proportion a priori alatoire Y . Note : On peut montrer, mais cela demande un peu de calcul, que Y a pour loi une loi de densit

n a n+b a b a

(1 x) a 1 x a 1 ,
n b

0<x<1

(voir par exemple Feller (1971)). 188

Exercices

Exercice VII.4. (Lemme de Wald.) Soit (Xn )n1 une suite de variables alatoires indpendantes, de mme loi, et soit, pour tout n 1, Sn = X1 + + Xn . Soit en outre T un temps darrt intgrable relatif la ltration engendre par cette suite. Dmontrer que E (ST ) = E (X1 )E (T ). Exercice VII.5. Sur (, F , P ), soit (Xn )n1 une suite de variables alatoires relles indpendantes, de mme loi. Pour tout n 1, soit Fn la tribu engendre par X1 , . . . , Xn . On note les sommes partielles Sn = X1 + + Xn , n 1. On convient que S0 = 0 et, pour tout x R, on dsigne par E x lesprance dnie par E x () = E ( + x). On parle alors de la marche alatoire Sn partant de x au temps 0. a) Soit N 1 un entier x et soit T un temps darrt valeurs dans { 1, . . . , N } de la ltration (Fn )1nN . Dmontrer que, pour tout n 1, Sn+T ST est indpendant de FT et de mme loi que Sn . b) Dduire de la question prcdente que pour toute fonction borlienne borne sur R, et tout n 1,
E (Sn+T ) FT = E ST (Sn ) p.s.

Exercice VII.6. Soit (Xn , Fn )1nk une martingale de carr intgrable. On dnit X = max1nk |Xn |. En utilisant lingalit maximale de Doob, dmontrer que
2 ). E (X )2 4E (Xk

Exercice VII.7. Sur un espace probabilis (, F , P ), soit (Mn )1nk une martingale par rapport une ltration (Fn )1nk et soit (Hn )1nk une famille de variables alatoires sur (, F , P ) telles que Hn soit mesurable par rapport Fn1 , pour tout n = 1, . . . , k (avec la convention F0 = { , }). Soit a > 0 ; on dnit T = min{ 1 n k 1 : |Hn+1 | > a } et T = k si lensemble dont on prend le minimum est vide. Dmontrer que T est un temps darrt de la ltration (Fn )1nk . On pose, pour tout n = 1, . . . , k,
Xn =
1iT n

Hi (Mi Mi1 )

(M1 = 0). Dmontrer que (Xn )1nk est une martingale de (Fn )1nk .

Exercice VII.8. On considre une variable alatoire T valeurs dans N, de loi gomtrique
P { T = n } = a(1 + a)n1 , n N,

189

Chapitre VII. Martingales ( temps discret)

o a est un rel positif donn. On appelle Fn la plus petite tribu rendant mesurable la variable T n, n N. Vrier que la famille de tribus (Fn )nN est une ltration. Dmontrer que Fn est engendre par une partition de n + 1 atomes que lon prcisera. a) Dmontrer que, pour tout n, E

{T n+1} | Fn = (1 + a)1 {T n} .

b) Dduire de la question prcdente que E T (n + 1) | Fn = T n + (1 + a)1 {T n} . c) Pour quelle valeur du paramtre rel le processus Xn = (T n) + {T n} , n N,

est-il une martingale par rapport la ltration (Fn )nN ? d) En prenant pour la valeur trouve la question c), calculer lesprance conditionnelle E ((Xn+1 Xn )2 | Fn ). En dduire que le processus
2 a(T (n 1)) , Xn

n 1,

est une martingale par rapport la ltration (Fn )nN . Exercice VII.9. Soient X1 , . . . , Xn des variables alatoires indpendantes sur (, A, P ), valeurs dans Rd ; on considre une norme quelconque sur Rd , et on suppose que E ( Xi 2 ) < pour tout i = 1, . . . , n. Posons Sn = X1 + + Xn . Dsignons par Ai , 1 i n, la sous-tribu de A engendre par les variables X1 , . . . , Xi et par A0 la tribu triviale compose de et . Pour tout i = 1, . . . , n, posons di = E Sn Ai E Sn Ai1 . a) tablir que Sn E Sn =
1in

di .

Dmontrer que pour tous i < j , E (dj | Ai ) = 0, et que, de plus, les variables di , i = 1, . . . , n, sont orthogonales. b) Dmontrer que pour tout i = 1, . . . , n, E Sn Xi Ai = E Sn Xi Ai1 .

190

Exercices

Indication : On pourra utiliser le fait que si X est une variable alatoire intgrable sur (, A, P ), et T1 , T2 sont deux sous-tribus de A telles que T2 est indpendante de la tribu engendre par T1 et X , alors E (X | T1 ) = E (X | T ) o T est la tribu engendre par T1 et T2 . En dduire que di = E Sn Sn Xi Ai E Sn Sn Xi Ai1 .

c) Par lingalit du triangle et la question prcdente, tablir que E (d2 i | Ai1 ) E Xi 2 ) , i = 1, . . . , n .

En conclure, laide de la premire question, que Var Sn


1in n1 , n 1, la famille des intervalles dyaExercice VII.10. Soit An k , k = 1, . . . , 2 diques de lintervalle [ 0, 1 ] muni de la mesure de Lebesgue . Si P est une mesure de probabilit sur [ 0, 1 ] absolument continue par rapport , poser

Xi

Xn =
1k 2n1

P (An k) An , n k (Ak )

n 1.

Dmontrer que, sur ([ 0, 1 ], ), (Xn )n1 est une martingale par rapport la n1 ), n 1. Dmontrer par labsurde suite de tribus Fn = (An k, 1 k 2 quelle est uniformment intgrable et en conclure lexistence de la densit de Radon-Nikodym de P par rapport .

191

VIII
CHANES DE MARKOV ( ESPACE DTATS DNOMBRABLE)

Le but de ce chapitre est de dnir et de construire dans un cadre simple (ensemble dindices et espace dtats discrets) des volutions markoviennes et dtudier leur comportement asymptotique. La proprit de Markov, la base de ce chapitre, dcrit un processus stochastique qui volue avec le temps. La dpendance simple vis--vis du pass autorise de nombreux dveloppements qui font la richesse de ces modles.

VIII.1. La proprit de Markov


Dans tout ce chapitre, E est un ensemble dnombrable ; P (E) est lensemble de ses parties. La dnition suivante prsente lobjet fondamental de cette tude.

D enition VIII.1.1. On dit quune suite de variables alatoires (Xn )nN , valeurs dans (E, P (E)) et dnies sur un espace probabilis (, A, P ), est une chane de Markov si, pour tout (n + 1)-uplet (i0 , . . . , in ) de points de E tel que P 0j n1 { Xj = ij } > 0,
P Xn = in {Xj = ij }
0j n1

= P Xn = in Xn1 = in1 .

(1)

Autrement dit, la loi de Xn conditionnellement (X0 , . . . , Xn1 ) et la loi de Xn conditionnellement Xn1 sont identiques. On appelle E lespace des tats. La loi de X0 est appele la loi ou la mesure initale.

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Lgalit (1) sappelle proprit de Markov. Nous verrons (proposition VIII.1.3) quelle traduit le fait que le futur du processus ne dpend du pass qu travers le prsent. Les exemples suivants montrent quil existe des chanes de Markov.

Exemples VIII.1.2. (i) Marche alatoire sur Zd . Soit (Yn )nN une suite de variables alatoires indpendantes sur (Zd , P (Zd )). Soit Xn = Y0 + + Yn , n N. Pour tous i0 , . . . , in Zd tels que lon ait P 0j n1 { Xj = ij } > 0,
P Xn = in { Xj = ij }
0j n1

P P

0j n { Xj

= ij } = ij }
0j n1 { Xj

0j n1 { Xj

P { Yn = in in1 } P

= ij }

0j n1 { Xj

= ij }

= P { Yn = in in1 } puisque Yn est indpendante de (X0 , . . . , Xn1 ) (Y0 , . . . , Yn1 ). De faon analogue, P Xn = in Xn1 = in1 = P { Yn = in in1 } ,

et donc (Xn )nN est bien une chane de Markov valeurs dans (Zd , P (Zd )). Lorsque d = 1 et Yn suit une loi de Bernoulli sur { 1, 1 } de paramtre p, on appelle (Xn )nN la marche alatoire sur Z. Lorsque de plus p = 1/2, on parle de la marche alatoire symtrique. (ii) Marche alatoire sur Z avec barrires absorbantes. Soit N 1 et considrons E = [ N, N ] Z. Soit (Yn )n1 une suite de variables alatoires de Bernoulli symtriques sur { 1, 1 }, et Y0 une variable alatoire indpendante de cette suite, valeurs dans E. On dnit = min n 0 :
0k n

Yk = N

194

VIII.1. La proprit de Markov

La variable alatoire est un temps darrt relativement la ltration naturelle Fn = (Y0 , . . . , Yn ), n N. Ce temps darrt est ni presque srement puisque P{ = } = P P n N :
0k n

Yk < N Yk < 2N
1k n

n N : 1 n

inf P
nN

1k n

2N Yk < n

Cette dernire quantit est nulle daprs le thorme limite central (V.5.4). Pour tout n 0, dnissons Xn = Sn , o Sn = 0kn Yk et montrons que (Xn )nN est une chane de Markov valeurs dans E. Soient i0 , . . . , in2 , i et j des lments de E. On veut calculer P { Xn = j | Xn1 = i, Xn2 = in2 , . . . , X0 = i0 } . Distinguons deux cas. Si |i| = N , P Xn = j { Xn1 = i } { Xj = ij }
0j n2

= P Yn = j i {Xn1 = i } = P { Yn = j i } = P { Xn = j | Xn1 = i } , et si |i| = N , P Xn = j { Xn1 = i } { Xj = ij }


0j n2

{ Xj = ij }
0j n2

= ij = P { Xn = j | Xn1 = i } . (iii) Marche alatoire sur Z/mZ. Dans cet exemple, Z/mZ est identi lensemble e2ik/m : k { 0, 1, . . . , m 1 } . Soit (Yn )nN une suite de variables alatoires indpendantes et de mme loi valeurs dans { 0, 1, . . . , p 1 }. On dnit X0 = Y0 , et pour tout n 1, Xn = Y0 exp 2i p Yk .
1k n

195

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Puisque Xn est une fonction de X0 , Y1 , . . . , Yn , cest une variable alatoire (Y0 , . . . , Yn )-mesurable, et donc indpendante de Yn+1 . De plus, Xn+1 = Xn exp(2iYn+1 /m) , n N.

Do pour tout i0 , . . . , in e2ik/m : k { 0, 1, . . . , m 1 } , P Xn = in Xn1 = in1 , . . . , X0 = i0 = P in1 exp 2iYn+1 /m = in Xn1 = in1 , . . . , X0 = i0 in = P exp 2iYn+1 /m = in1 = P { Xn = in | Xn1 = in1 } . La proposition suivante rexprime la proprit de Markov en montrant quelle quivaut dune part lindpendance du prsent au pass non immdiatement antrieur, dautre part lindpendance du prsent et futur au pass non immdiatement antrieur, et enn lindpendance du futur et du pass du processus, conditionnellement son prsent.

Proposition VIII.1.3. Une suite de variables alatoires (Xn )nN dnies sur (, A, P ), valeurs dans (E, P (E)), est une chane de Markov si et seulement si lune des trois proprits quivalentes suivantes est vrie :
(i) Pour tout 1 k n et tous ik , . . . , in E tels que P { Xn1 = in1 , . . . , Xk = ik } > 0 , lgalit suivante lieu : P Xn = in {Xj = ij }
k j n1

= P { Xn = in | Xn1 = in1 } .

(ii) Pour tout 1 k n, tout m 0 et tous points ik , . . . , in+m E tels que P { Xn1 = in1 , . . . , Xk = ik } > 0, P
0j m

Xn+j = in+j =P

{Xj = ij }
k j n1

{Xn+j = in+j } Xn1 = in1 .


0j m

196

VIII.1. La proprit de Markov

(iii) Pour tous points i0 , . . . , in+m E tels que P { Xn = i0 } > 0, P {Xn+j = in+j }
1j m

{Xj = ij } Xn = in
0j n1

=P

{Xj = ij } {Xn = in } P
1j m

{Xj = ij } Xn = in .
0j n1

Dmonstration. (i) En prenant k = 0, on voit que la condition est clairement susante. Pour montrer sa ncessit, par dnition dune chane de Markov,

P { Xn = in | Xn1 = in1 } = P Xn = in | = P P
0j n { Xj

{ Xj = ij }
0j n1

= ij } = ij }

0j n1 { Xj

(2)

Par rcurrence, on montre que si A0 , . . . , An sont des vnements tels que P 0j n1 Aj > 0, alors P
0j n

Aj =
1ln

P Aj
0j l1

Aj P (A0 ).

(3)

En utilisant cette formule avec Aj = { Xj = ij }, en vertu de (2), P { Xn = in | Xn1 = in1 } =


1ln P 1ln1 P k +1ln P k +1ln1 P

Xl = il Xl = il Xk = ik

0j l1 { Xj

= ij } = ij } = ij } P { Xk = ik } = ij } P { Xk = ik } .

0j l1 { Xj

0j l1 { Xj

Xk = ik

0j l1 { Xj

En utilisant encore (3), le membre de droite de lgalit prcdente est P { Xn = in , . . . , Xk = ik } = P Xn = in P { Xn1 = in1 , . . . , Xk = ik } Xj = ij
k j n1

(ii) L encore, la condition est clairement susante en prenant m = 0 et k = 0. Pour montrer quelle est ncessaire, observons dabord que, par -additivit de la mesure de probabilit, la positivit de P { Xn1 = in1 , . . . , Xk = ik } entrane 197

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

quil existe i0 , . . . , ik1 tels que P { Xn1 = in1 , . . . , X0 = i0 } > 0. Pour un tel (i0 , . . . , in1 ), P {Xj = ij } Xn1 = in1
nj n+m

P = =

n1j n+m {Xj

= ij } {Xj = ij } .
n1j l1

P { Xn1 = in1 } P Xl = il
nl n+m

Daprs le premier point, ce produit est gal (pour tout k n) P Xl = il


nl n+m

{Xj = ij } ,
k j l 1

cest--dire P {Xl = il }
nl n+m

{Xj = ij } .
k j n1

(iii) La condition est ncessaire puisque P P = P = {Xj = ij }


n+1j n+m 0j n+m {Xj

{Xj = ij } Xn = in
0j n1

= ij } = ij }
0j n {Xj

P { Xn = in }
n+1j n+m {Xj

= ij } P

0j n {Xj

= ij } .

P {Xn = in }

Or, daprs le point (ii), ce rapport est gal P


n+1j n+m { Xj

= ij } Xn = in P P { Xn = in }

0j n { Xj

= ij } { Xj = ij } Xn = in .

=P

{Xj = ij } Xn = in P
n+1j n+m

0j n1

198

VIII.1. La proprit de Markov

Si maintenant la condition est vrie, P Xn+1 = in+1 P = P =


0j n+1 { Xj 0j n { Xj

{ Xj = ij }
0j n

= ij }

= ij }
0j n1 { Xj

P { Xn+1 = in+1 } P

= ij } Xn = in P { Xn = in }

0j n1 { Xj

= ij } Xn = in P { Xn = in }

= P { Xn+1 = in+1 | Xn = in } .

D enition VIII.1.4. On dit quune chane de Markov (Xn )nN est homogne si, pour tout couple (i, j ) de points de E, P { Xn+1 = j | Xn = i } est indpendant de n, n dcrivant lensemble des entiers pour lesquels P { Xn = i } > 0.
Observons que pour un tat i donn, si lensemble des entiers n pour lesquels P { Xn = i } = 0 est vide, la chane est valeurs dans E \ { i } avec probabilit 1. On peut donc, en remplaant au besoin E par E \ { i }, supposer que ce cas ne se produit pas. On note alors Pij la valeur commune des P { Xn+1 = j | Xn = i } et P = (Pij )i,j E. La matrice P est appele matrice de transition de la chane (nous utilisons encore le terme de matrice lorsque E est inni).

D enition VIII.1.5. Une matrice M = (Mi,j )i,j E (ventuellement de taille innie) est une matrice stochastique si elle vrie
(i) Mij 0 pour tous i, j E, (ii)
j E Mij

= 1 pour tout i E.

Ainsi, la matrice de transition dune chane de Markov est une matrice stochastique.

Exemples VIII.1.6. (i) La marche alatoire sur Z/mZ est homogne, et sa matrice de transition est q 0 q 1 . . . q p 1 . . q p 1 q 0 . . P= . .. . . . q0 q1 . . .
199

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

(ii) Chane dEhrenfest. Soit d un entier suprieur ou gal 1. On rpartit d boules numrotes dans deux urnes A et B. On tire un nombre i au hasard (cest--dire suivant la probabilit uniforme) entre 1 et d et on change la boule numrote i d le nombre de boules dans lurne A aprs n tirages indpendants. durne. Soit Xn d La suite (Xn )nN est une chane de Markov homogne valeurs dans lensemble E = { 0, . . . , d } et sa matrice de transition, P, est donne par la formule Pd,i,i+1 = di d ; Pd,i+1,i = i+1 , d i { 1, . . . , d 1 } .

Proposition VIII.1.7. Le produit de deux matrices stochastiques est encore une matrice stochastique.
Dmonstration. Soient P et Q deux matrices stochastiques. Leur produit est bien

dni. En eet, la srie (PQ)ij = lE Pil Qlj converge puisque la srie lE Pil converge et que les (Qlj )l,j E sont borns par 1. Clairement, PQ est une matrice coecients positifs, et de plus, (P Q)ij =
j E j E lE

Pil Qlj =
lE j E

Pil Qlj =
lE

Pil
j E

Qlj =
lE

Pil = 1 .

Remarquons alors que la suite (Xn )nN est une chane de Markov homogne de matrice de transition P si et seulement si, pour tous i0 , . . . , in E, P { Xk = ik }
0k n

= Pin1 in P

{ Xk = ik } .
0k n1

VIII.2. Calcul des lois marginales


La proposition suivante prolonge la dernire remarque de la section prcdente, en montrant que la donne de la matrice de transition et de la loi initiale sut caractriser la loi de la chane jusqu tout instant x.

Proposition VIII.2.1. Soit (Xn )nN une chane de Markov homogne, dnie sur (, A, P ), valeurs dans (E, P (E)), de matrice de transition P et de loi initiale 0 . Alors, pour tout n 1 et tous i0 , . . . , in E,
P { X0 = i0 , . . . , Xn = in } = 0 { i0 } Pi0 i1 Pin1 in .
Dmonstration. Elle se fait par rcurrence sur n. La proprit est vraie pour n = 0

par dnition de 0 . Supposons la vraie au rang n 1. Distinguons deux cas :

200

VIII.3. Gnralisation de la proprit de Markov

(i) Si P { X0 = i0 , . . . , Xn1 = in1 } = 0, il rsulte de lhypothse de rcurrence que 0 ({ i0 })Pi0 i1 Pin2 in1 = 0, et donc 0 { i0 } Pi0 ,i1 Pin1 in = 0 . Or P { X0 = i0 , . . . , Xn = in } = 0 et la proprit est vraie dans ce cas. (ii) Si maintenant P { X0 = i0 , . . . , Xn1 = in1 } > 0, il vient P { X0 = i0 , . . . , Xn1 = in } = P Xn = in | Xn1 = in1 , . . . , X0 = i0 P { Xn1 = in1 , . . . , X0 = i0 } = P Xn = in { Xj = ij } P
0j n1

{ Xj = ij }
0j n1

= P Xn = in | Xn1 = in1 0 { i0 } Pi0 i1 Pin2 in1 = 0 { i0 } Pi0 i1 Pin1 in , ce qui dmontre la proposition. Daprs la proposition VIII.1.7, la matrice Pn = P P (n fois) est une n ses lments. matrice stochastique. On notera Pi,j

Corollaire VIII.2.2. Soit (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs dans (E, P (E)). Pour tous entiers n, m et tous tats i, j E,
(i) P { Xn = j } =
k E n; (ii) P { Xm+n = j | Xm = i } = Pij n 0 { k } Pkj ;

(iii) P { Xm+n = j | X0 = i } =
k E

P { Xm = j | X0 = k }P { Xn = k | X0 = i }.

Lgalit (iii) est appele quation de Chapman-Kolmogorov.

VIII.3. Gnralisation de la proprit de Markov


Soit X = (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs dans (E, P (E)). On peut voir X comme un lment de lespace des suites sur E, EN = { x = (xn )nN : xn E }. Sur EN , considrons la tribu cylindrique B , cest--dire la tribu engendre par les parties (cylindres) de la forme B0 Bn E E , B1 , . . . , Bn P (E) , n N . 201

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

La fonction X est mesurable de (, A, P ) dans (EN , B ) daprs la proposition I.1.14, puisque si C = B0 Bn E E est un cylindre, X 1 (C ) =
0in

X 1 (Bi ) A .

On peut donc parler de la loi de X , cest--dire de la mesure image P X de P par X (cf. III.1.7). Sur EN , on dnit loprateur de translation (ou dcalage), : x = (xn )nN EN (x) = (xn+1 )nN EN . Autrement dit, ( (x))n = xn+1 , n N. On peut dnir les itrs, k , par k = k1 , k 1, ce qui donne k (x) = (xn+k )nN . Le thorme suivant montre quune chane de Markov homogne considre partir de linstant n et conditionellement Xn , a mme loi que la chane initialise X0 = 0.

Th eor` eme VIII.3.1. Soit X = (Xn )nN une chane de Markov homogne, dnie sur (, A, P ), valeurs dans (E, P (E)). Alors, pour tous les tats i0 , . . . , ik E,
L k (X )
0j k

{ Xj = ij } = L X X0 = ik .

Dmonstration. Si C = B0 Bn E E est un cylindre,

P { k (X ) C }
0j k

{ Xj = ij }

= P Xk B0 , . . . , Xk+n Bn X0 = i0 , . . . , Xk = ik =
(j0 ,...,jn )B0 Bn

P Xk = j0 , . . . , Xk+n = jn Xk = ik

= P { k (X ) C | Xk = ik } =
(j0 ,...,jn )B0 Bn

{ik } (j0 )Pj0 ,j1 Pj1 ,j2 . . . Pjn1 ,jn {ik } (j0 )P X1 = j1 , . . . , Xn = jn X0 = j0 .
(j0 ,...,jn )B0 Bn

Donc les lois considres concident sur les cylindres. En observant quune union de cylindres se dcompose en une union disjointe de cylindres (puisque lintersection de deux cylindres est un cylindre), on voit que les lois considres concident sur 202

VIII.3. Gnralisation de la proprit de Markov

lalgbre de Boole engendre par les cylindres. Donc elles sont gales daprs la proposition I.4.7. Le contenu du thorme prcdent est essentiellement que la loi de la trajectoire dun processus de Markov homogne aprs le temps n est donne par la loi de la chane au temps n, pour peu bien sr que la matrice de transition soit xe. Il est remarquable, et cela sera utile pour la suite, que ce rsultat reste vrai si lon considre un temps non plus xe mais alatoire, pour peu que celui-ci soit un temps darrt. Cest ce quexprime le thorme suivant.

Th eor` eme VIII.3.2 (Propri et e de Markov forte). Soit X = (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs dans (E, P (E)). Soit T un temps darrt pour la ltration Fn = (X0 , . . . , Xn ) nN . Sur lvnement { XT = i } { T < },
L T (X ) | FT = L X | X0 = i .

Dmonstration. Comme pour dmontrer le thorme VIII.3.1, soit un cylindre

C = B0 Bn E E Sur { XT = i } { T < }, il vient P T (X ) C XT =


nN

P T (X ) C Xn = i P n (X ) C Xn = i
nN

{n} (T ) {n} (T ).

En utilisant le thorme VIII.3.1, on en dduit P T (X ) C XT =


nN

P X C X0 = i

{n} (T )

= P { X C | X0 = i } . On remarquera que largument nal dans la dmonstration du thorme VIII.3.1 permet dtendre la proposition VIII.2.1. On voit en eet que la loi dune chane de Markov homogne (en tant qulment de EN ) est entirement dtermine par la donne de la mesure initiale et de la matrice de transition. 203

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

VIII.4. Comportement asymptotique. Mesures invariantes


Lobjet des paragraphes suivants est ltude de la convergence en loi dune chane de Markov : le systme qui volue selon cette chane converge-t-il vers un tat dquilibre ? Il y a plusieurs mthodes pour rsoudre ce problme, en particulier une mthode de type totalement algbrique lorsque E est ni et une mthode totalement probabiliste dans le cas gnral ; nous avons choisi dexposer en partie ces deux mthodes. Dans toute la suite du chapitre, P est une matrice stochastique. On note X = (Xn )nN une chane de Markov homogne, dnie sur un espace probabilis (, A, P ), valeurs dans (E, P (E)), de matrice de transition P et de mesure initiale . Lensemble EN est muni de sa tribu cylindrique et de la probabilit image P,P de P par la chane X . Dans ce qui suit, la matrice P est xe et on se contentera de noter P , ntant pas xe.

Notation VIII.4.1. Si est une probabilit sur E, pour tout i E, on note i = ({ i }). On dsignera encore par le vecteur de composantes (i )iE .
En particulier, puisque est vue comme un vecteur, t P est un vecteur ; il est associ une mesure aussi note t P.

D enition VIII.4.2. On dit que , probabilit sur E, est une mesure asymptotique de la chane (Xn )nN sil existe une probabilit 0 sur E telle que si 0 est la loi de X0 , alors (Xn )nN converge en loi vers .
Une mesure asymptotique est donc une probabilit. Le but de ce chapitre est de dterminer les mesures asymptotiques dune chane de Markov et leur dpendance par rapport la loi initiale. La notion dterminante dans cette recherche est celle de mesure invariante.

D enition VIII.4.3. On dit que , mesure positive sur E, est une mesure invariante de la chane si t P = .
On prendra garde au fait que nest pas ncessairement une probabilit, puisque lon permet (E) = 1. Observons que si est une mesure invariante de la chane et que si X0 est de loi , alors P { X1 = j } = iE Pi,j i = j pour tout j E. Donc X1 est aussi de loi , et par rcurrence, Xn est de loi pour tout n N. Ceci justie la terminologie. 204

VIII.4. Comportement asymptotique. Mesures invariantes

Proposition VIII.4.4. Soit une probabilit sur E. Les assertions suivantes sont quivalentes.
(i) est une mesure asymptotique de la chane ; (ii) est une mesure invariante de la chane ; (iii) L(X0 ) = L(Xn ) = pour tout n N.
Dmonstration. Il est clair que (iii) et (ii) sont quivalentes et que (ii) implique (i).

Montrons que (i) implique (ii). Supposons asymptotique ; il existe donc une probabilit 0 telle que
n

lim P0 { Xn = j } = j

pour tout j E ,

ce qui scrit encore


n

lim

n 0,i Pij = j iE

pour tout j E .

Soit i E. Il rsulte du lemme de Fatou (II.2.3) que Pji j =


j E j E

Pji lim

n 0,k Pkj k E n Pji 0,k Pkj

lim inf
n j E k E

= lim inf
n k E

n+1 Pki 0,k

= i . Puisque iE ( j E Pji j ) = pour tout lment i de E.


iE i

= 1, on en dduit que

j E Pji j

= i

Exemples VIII.4.5. Nous reprenons les exemples donns en VIII.1.2. (i) Marches alatoires sur Z. Une mesure est une mesure invariante de la marche alatoire de paramtre p sur Z si et seulement si pour tout i Z,
pi+1 + (1 p)i1 = i , ce qui est quivalent p(i+1 i ) = (1 p)(i i1 ) . 205

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

On en dduit que i+1 i =

1p p

(1 0 )

pour tout i Z, et par suite, pour i 1,


i1

i 0 =
k =0

1p p

(1 0 )

et
i

i 0 =
k =1

p 1p

(1 0 ) .

Donc, si p = 1/2, on a i = 0 + i(1 0 ) pour tout i Z. Une telle mesure nest positive que si 1 = 0 . Les mesures invariantes, dans ce cas, sont donc les multiples de la mesure de comptage sur Z. Si p = 1/2, p 1p i 1 (1 0 ) i = 0 + 1 2p p et i = 0 + p p 1 2p 1 1p
i1

(1 0 )

pour tout i 1. Donc, la mesure est positive si et seulement si p 0 1 1 p 0 si p < 1/2 1 p 0 1 0 p si p > 1/2.

La chane nadmet donc aucune probabilit invariante. (ii) Marche alatoire sur Z avec barrires absorbantes. Une mesure est invariante pour cette marche si et seulement si
1 2 i+1

+1 2 i1 = i

si et et

i [ N + 2, N 2 ] Z , N +1 = 1 2 N +2 , N = 1 2 N +1 + N ,

N 1 = 1 2 N 2 N = 1 2 N 1 + N

cest--dire si et seulement si i = 0 pour tout i [ N + 1, N 1 ] Z. Les mesures invariantes sont donc les mesures positives portes par { N, N }. 206

VIII.4. Comportement asymptotique. Mesures invariantes

(iii) Marches alatoires sur Z/mZ. Une mesure est invariante si et seulement si pour tout i { 0, . . . , p 1 }, i = 0kp1 qpk k , cest--dire si est la mesure uniforme. (iv) Chane dEhrenfest. Une mesure est invariante pour la chane dEhrenfest si et seulement si i = d i + 1 i1 + i + 1 k+1 si 0 < k < d, d d = 1 et = 1 . 0 d d d d1 On en dduit aisment par rcurrence que i = Ci d 0 , pour tout i d. Donc, une constante de proportionnalit prs, est la loi binomiale B (d, 1 2 ). Dans la suite, nous allons montrer comme le suggrent ces exemples que, lorsque E est ni, il y a toujours au moins une mesure (et par suite une probabilit) invariante. Le cas o E est inni est plus complexe ; tous les cas sont possibles : aucune mesure invariante, une ou des mesures invariantes mais pas de probabilit invariante, une ou des probabilits invariantes.

Th eor` eme VIII.4.6. Toute chane de Markov homogne valeurs dans un ensemble ni admet au moins une mesure invariante.
Dmonstration. Nous donnons deux mthodes de dmonstration, lune topologique, lautre algbrique. Mthode topologique. On note M1 (E) lensemble des probabilits sur E, i.e.

M1 (E) =

= (i )iE : i E , i 0 , et
iE

i = 1

Puisque E est ni, M1 (E) est un compact de RcardE . Soit 0 M1 (E ) ; pour tout n 1, on dnit 0 + t P 0 + . . . + t P n 0 . n = n+1 La suite (n )nN dlments du compact M1 (E) admet une sous-suite convergente (nk )kN . Soit la limite de cette sous-suite ; cest une mesure invariante puisque
t

P = lim (t Pnk nk ) = lim


k

t Pnk +1

0 0 = 0. nk + 1

Mthode algbrique. La somme des colonnes de la matrice t P I est nulle. La matrice t P admet donc 1 comme valeur propre. Le rsultat cherch rsulte du lemme suivant. 207

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Lemme VIII.4.7 (de Perron-Froebenius). Soit P une matrice stochastique de dimension n et v un vecteur propre complexe de la matrice t P associ la valeur propre de module 1 ; on note w le vecteur de composantes (|v1 |, . . . , |vN |). Alors, w est un vecteur propre de la matrice t P associ la valeur propre 1.
Dmonstration. Pour tout i E, soit i = (t Pw w)i . On a

i =
j E

Pji wj wi =
j E

Pji |vj | |vi |


j E

Pij vj |vi | = 0

car t Pv = v . Dautre part, i =


iE i j E

Pji wj wi = 0 .

On en dduit que i = 0 pour tout i E.

Remarque VIII.4.8. Nous pouvons reformuler ce lemme en disant quune matrice stochastique indexe par un ensemble ni admet toujours un vecteur propre associ la valeur propre 1 dont les composantes sont positives.
Le problme de lunicit de la mesure invariante demande une tude plus ne des communications entre tats.

Exemple VIII.4.9. Soit (Xn )nN une chane de Markov homogne valeurs dans lensemble E = { 1, . . . , 5 } de matrice de transition 1/2 0 1/2 0 0 1/4 1/2 1/4 0 0 1/2 0 1/2 0 0 . 0 0 0 1/2 1/2 0 0 0 1/2 1/2
La matrice de transition tant une matrice diagonale par blocs, lquation t P = est donc quivalente un couple de systmes autonomes, le premier ne faisant intervenir que les variables 1 , 2 , 3 , le second 4 , 5 . Il ny a donc pas unicit de la mesure invariante. Plus prcisment, est une mesure invariante si et seulement si 2 = 0 , 4 = 5 . 1 = 3 , Les mesures invariantes de la chane sont donc les combinaisons linaires coecients positifs des mesures uniformes sur les ensembles { 1, 3 } et { 4, 5 }. Le point 2 nest pas charg par les mesures invariantes, ce qui provient du fait quil nest pas accessible par la chane si X0 { 1, 3, 4, 5 }. Intuitivement, mme si la chane dmarre dans ltat 2, elle nira par en partir et ny reviendra plus. 208

VIII.4. Comportement asymptotique. Mesures invariantes

D enition VIII.4.10. Soient i et j deux lments de E. On dit que i conduit n > 0 ; on dit que i et j communiquent, j , not i j , sil existe n > 0 tel que Pij not i j , si i conduit j et j conduit i.
La relation est symtrique et transitive ; elle est rexive sur le sousensemble de E, not E , des lments qui communiquent avec un autre tat (qui peut tre lui-mme). On appelle classe de la chane, soit un singleton de E \ E , soit une classe dquivalence de la relation restreinte E . On peut reprsenter cette relation de communication entre tats par un graphe, dit graphe de Markov, dont les sommets sont les points de E, deux points de E tant joints par une arte si lun deux conduit lautre. Larte joignant i j est oriente de i j si i conduit j .

Exemple VIII.4.11. Dessinons le graphe de Markov associ la chane dcrite dans lexemple VIII.4.10.

D enition VIII.4.12. On dit quune chane de Markov est irrductible si elle nadmet quune classe. Dans ce cas, on dit aussi que la matrice de transition de la chane est irrductible. Exemples VIII.4.13. (i) Dans lexemple prcdent, on vrie que E \ E = { 2 } et que les classes dquivalence de la relation restreinte { 1, 3, 4, 5 } sont les ensembles { 1, 3 } et { 4, 5 }. (ii) Marches alatoires sur Z/mZ. Nous utilisons les notations de lexemple VIII.1.2.iii. a) Considrons le cas o les variables (Yn )nN prennent leurs valeurs dans lensemble { 1, 1 }. Si P { Y0 = 1 } et P { Y0 = 1 } sont non nuls, la chane est irrductible puisque chaque lment de E communique avec ses deux voisins.
209

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

b) Considrons le cas o les variables (Yn )nN prennent leurs valeurs dans lensemble { 2, 2 }. Si P { Y0 = 2 } et P { Y0 = 2 } sont non nuls, la chane est irrductible si et seulement si m est impair ; elle admet deux classes si m est pair. (iii) Les marches alatoires sur Z de paramtres dirents de 0 et 1 sont irrductibles puisque chaque lment de E communique avec ses deux voisins. (iv) La marche alatoire symtrique avec barrires absorbantes admet 3 classes : { N }, { N } et lensemble des entiers relatifs compris entre N + 1 et N 1. (v) La chane dEhrenfest est irrductible puisque chaque lment de E communique avec ses deux voisins.

VIII.5. Rcurrence et transience


Notation VIII.5.1. Soit X = (Xn )nN une chane de Markov valeurs dans un espace dnombrable discret E. Soit i un lment de E. On note
Ni = Ni (X ) = card{ n 0 : Xn = i } le nombre de passages de la chane en i. On dnit les instants successifs de passage en i, i = i1 = i1 (X ) = inf { n > 0 : Xn = i } et, pour n > 1, in = in (X ) = inf { k > in1 : Xk = i } .

De plus, on note Pi la loi de la chane conditionne dbuter ltat i. On note aussi Ei lesprance sous Pi , cest--dire lesprance condionnelle X0 = i. Les in , i E, n 1, sont des temps darrt relativement toute ltration par rapport laquelle la chane est adapte. En eet, { in m } =
nk m 1j1 jk m 1lk

{ Xjl = i }

{ Xj = i }
j {j1 ,...,jk }

est (X1 , . . . , Xm )-mesurable. Nous allons classier les points de E suivant que ces temps sont nis ou non.

D enition VIII.5.2. Un point i de E est dit rcurrent pour la chane de Markov (Xn )nN si Pi { i < } = 1. Il est dit transient dans le cas contraire.
Autrement dit, le point i est rcurrent si lorsque lon en part, on est assur dy revenir en un temps ni. Pour une chane homogne, on est alors assur dy revenir inniment souvent, comme le montre le lemme suivant. 210

VIII.5. Rcurrence et transience

Lemme VIII.5.3. Soit (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs dans (E, P (E)). Si i est un point rcurrent, les (in )n1 sont des temps darrt Pi -p.s. nis.
Dmonstration. La dmonstration se fait par rcurrence en utilisant la proprit de Markov forte VIII.3.2. Par hypothse, i est presque srement ni. Supposons que in soit presque srement ni. Alors,

Pi { in+1 = } = Ei Pi { i i = | Fin } = Ei Pi { i = } = 0 . Avant dtudier la chane issue dun de ses points rcurrents, nous donnons quelques caractrisations de cette notion de rcurrence fondes sur le nombre de visites de ltat i.

Th eor` eme VIII.5.4. Soit (Xn )nN une chane de Markov dnie sur (, A, P ), valeurs dans (E, P (E)). Un point i de E est rcurrent si et seulement si
Pi { Ni = } = 1 .
Dmonstration. Cest une consquence du lemme suivant.

Lemme VIII.5.5. Pour tout i E et tout entier n 1,


Pi { Ni n } = Pi { i < }
n1

Autrement dit, sous Pi , la variable alatoire Ni suit une loi gomtrique de paramtre Pi { i < }.
Dmonstration. Nous procdons par rcurrence sur n. La proprit est de toute vidence vrife pour n = 1 puisque Pi { Ni 1 } = 1. Supposons la vrie au rang n. On peut crire

Pi { Ni n + 1 } = Pi { Ni n } { in < } = Ei
n1

{Ni n} P { in < | Fin1 } .

Or in (X ) = i i (X ) sur { in1 < }. Il rsulte donc de la proprit de Markov forte (VIII.3.2) que P { in < | F n1 } = Pi { i < }
i

puisque X n1 = i sur
i

{ in1

< }. On en dduit que


n

Pi { Ni n + 1 } = Pi { Ni n }Pi { i < } = Pi { i < } daprs lhypothse de rcurrence.

211

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Corollaire VIII.5.6. Soit i un point de E. Alors


Pi { Ni = } = 1 Pi { Ni = } > 0 .

Corollaire VIII.5.7. La variable alatoire Ni est Pi -intgrable si et seulement si i est un point transient de E. Corollaire VIII.5.8. Ltat i est rcurrent si et seulement si la srie diverge.
Dmonstration. Il sut de remarquer que Ni = prance et dutiliser le corollaire VIII.2.2.i.
n0 n n0 Pii

{i} (Xn ), de prendre les-

Exemple VIII.5.9. Marches alatoires sur Z. tudions la rcurrence du point 0 pour la marche alatoire de paramtre p. Soit n un entier non nul ; la marche issue de 0 est de nouveau en 0 linstant n si elle a eectu autant de pas vers la gauche que vers la droite. Ainsi,
n = P00 m m Cm 2m p (1 p) 0

si n = 2m, si n est impair.

n 2n, daprs la formule de Stirling. On en dduit que Or n! ( n e)


2m P00

2m 2m m 4m e e 22m m p (1 p)m = m m 4p(1 p) . = m

2m

1 m p (1 p)m 2m

Il sensuit que 0 est un tat rcurrent si p = 1 2 , transient sinon. Nous allons en dduire quil en est de mme de tous les tats de la chane en montrant que la rcurrence est une proprit de classe. Pour cela, nous utilisons la proprit dite de renouvellement dune chane de Markov nonce ci-dessous. Elle exprime que sur un point rcurrent, une chane de Markov homogne se renouvelle, gale elle-mme en loi, indpendante de son pass.

Proposition VIII.5.10. Soit (Xn )nN une chane de Markov homogne et i un point rcurrent de cette chane ; alors, pour tout entier n non nul, la loi de la chane n n X i est la mme que la loi de la chane X sous Pi . De plus, la chane X i est indpendante de la tribu Fin .
212

VIII.5. Rcurrence et transience Dmonstration. Cest une consquence directe de la proprit de Markov forte VIII.3.2 applique aux temps darrt presque srement nis (in )nN .

Th eor` eme VIII.5.11. La proprit de rcurrence (ou de transience) dun tat est une proprit de classe.
Dmonstration. Soient i et j des tats qui communiquent. Supposons que i est

rcurrent et dmontrons que j lest aussi. On a Pj { Nj = } Ej Pj { Nj i = | Fi }{i <} = Ej Pi { Nj = }[0,[ (i ) = Pi { Nj = }Pj { i < } . Nous sommes donc ramens montrer que Pi { Nj = } > 0.

Lemme VIII.5.12. Soit i un point rcurrent et j un point de E distinct de i tel que i conduit j . Alors,
Pi { Nj = } = Pi { j < } = 1 .
Dmonstration. On dnit le nombre de visites du point j avant la premire visite
i

i = card{ n > 0 : X = j, n }. Sous P , N = i n en i, Nj n i i j n0 Nj . Or, il i i n sont rsulte de la proprit de Markov forte que les variables alatoires Nj indpendantes et de mme loi sous Pi . De plus,

Ei (Nj ) Pi { Nj 1 } = Pi { j < } > 0


i ) > 0 ; il rsulte alors de la loi des puisque i conduit j . On en dduit que E (Nj grands nombres V.5.2 que Nj = presque-srement.

D enition VIII.5.13. Une chane de Markov est irrductible sil nexiste quune seule classe de points rcurrents.
Nous pouvons maintenant tudier les mesures invariantes pour la chane.

Th eor` eme VIII.5.14. Une mesure asymptotique ne charge pas les points transients, cest--dire si est une mesure asymptotique et i un point transient, alors ({ i }) = 0.
213

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable) Dmonstration. Nous allons montrer que, pour toute mesure initiale et tout point

transient i de E, limn P { Xn = i } = 0. Pour cela, il sut de montrer que, pour tout point j de E, limn Pj { Xn = i } = 0. Or Pj { Xn = i } =
1mn

Pj { Xn = i, i = m } Pj { i = m }Pi { Xnm = i } .
1mn

Il sut donc de montrer que limn Pi { Xn = i } = 0. Soit An = { p n , Xp = i } . Lvnement { Xn = i } est inclus dans \ An . Ltat i tant transient, il rsulte du thorme VIII.5.4 que Ni est une variable alatoire Pi -p.s. nie, do Pi n1 An = 1. On en dduit que
n

lim Pi { Xn = i } lim Pi ( \ An ) = 0 .
n

Contrairement aux mesures asymptotiques, les mesures invariantes peuvent charger les classes transientes, comme nous lavons vu pour les marches alatoires sur Z. Comme nous ne sommes intresss que par les mesures asymptotiques, nous rduirons donc notre tude des mesures invariantes celles qui ne chargent pas les classes transientes, cest--dire celles qui sont portes par les classes rcurrentes. Rappelons que, lorsque la chane est irrductible, les mesures invariantes chargent tous les points de E. La construction dune mesure invariante est fonde sur lide suivante : un point de E est dautant plus charg par une mesure invariante quil est plus visit par la chane ; pour normaliser ce nombre de passages en un point, on se restreint une excursion de la chane entre deux passages en un point i x de E. On travaille dsormais sous lhypothse que la chane de Markov est irrductible et rcurrente. (Xn)n Soient i et j des lments de E. Rappelons que
i = card{ n > 0 : Xn = j, n i } Nj i = E (N i ). et dnissons j i j i) est un vecteur Nous allons montrer que le vecteur i de composantes (j j E

propre de la matrice t P associ la valeur propre 1. Pour cela, tudions la loi de i sous P et P . Nj i j 214

VIII.5. Rcurrence et transience

Lemme VIII.5.15. Soient i et j deux points distincts de E. Pour tout entier n,


i = n } = Pj { i < j }Pj { j i }n , Pj { Nj

et
i = n} = Pi { Nj

Pi { i < j } Pi { j i }Pj { i < j }Pj { j i }n1

si n=0, si n>0.

Dmonstration. Remarquons tout dabord que


i = 0 } = { i < j } . { Nj

Soit prsent m un entier non nul. Observons lappartenance de lvnement { j i } = \ { i < j } Fj . En conditionnant par la tribu Fj et en appliquant la proprit de Markov forte VIII.3.2, il vient
i i i = m } = Pi { Nj j = m 1, j i } = Pi { j i }Pj { Nj = m 1}. Pi { Nj i = k } par rcurrence sur k en utilisant le mme conditionnement. Calculons Pj { Nj Pour tout k 1 i i i = k } = Pj { Nj = k, j i } = Pj { j i }Pj { Nj = k 1}. Pj { Nj

On en dduit que pour tout entier k,


i = k } = Pj { i < j }Pj { j i }k . Pj { Nj

Montrons maintenant que si lon part dun tat j , on ne peut pas tre sr datteindre ltat i = j avant de revenir ltat j .

Lemme VIII.5.16. Soient i et j deux points de E. Alors Pj { j i } < 1.


Dmonstration. Supposons que Pj { j i } = 1. Alors, pour tout entier n 2,
n } = 1. En eet, Pj { j i n n1 i } = Pj { j i , j n1 i n1 } Pj { j
j j

= =

n1 Pj { j n1 Pj { j

i }Pj { j i } i } .

n } forment une suite dcroissante dvnements de Les vnements { j i n1 Pj -probabilit 1 ; leur intersection est donc de probabilit 1, cest--dire Pj -presque n pour tout entier n 1. Or, la suite des temps darrt ( n ) srement, i j j n1 est strictement croissante, donc elle tend vers . On en dduit que Pj { i = } = 1, ce qui contredit le lemme VIII.5.12.

215

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)


i est P -intgrable. Corollaire VIII.5.17. Nj i

Th eor` eme VIII.5.18. Pour tout lment i de E, t P i = i .


Dmonstration. Remarquons dabord que pour tout l E,

(t P i )l =
j E

Pjl
n1

i Ei (Nj ).

De plus,
i Ei (Nj )= n1

Pi { i n, Xn = j }

puisque
i = Nj 1ni

{ j } (Xn ) =
n1

[0,i ] (n)j (Xn ) =


n1

[n,]{ j } (i , Xn ) .

Donc Pjl Pi { i n, Xn = j } = P Xn+1 = l Xn = j Pi { i n, Xn = j } = Pi { i n, Xn = j, Xn+1 = l } . Do (t P i )l =


n1

Pi { i n, Xn+1 = l } = Ei
1ni

{l} (Xn+1 )

= Ei
0ni 1

{l} (Xn+1 ) .

En eet Pi { Xi +1 = l } = Pi { X1 = l }. On en dduit, en posant m = n + 1, (t P i )l = Ei


1mi

{l} (Xm ) = li .

Cest le rsultat. On dduit du thorme prcdent que si lE li est convergente, la chane admet une probabilit invariante. Nous allons montrer que cette condition est ncessaire et susante lexistence et lunicit dune probabilit invariante. Remarquons auparavant que lE li = Ei ( lE Nli ) = Ei (i ) pour tout i.

Th eor` eme VIII.5.19. Soit une probabilit invariante de la chane. Alors, pour i . tout lment i et j de E, j = j i
216

VIII.5. Rcurrence et transience Dmonstration. Nous allons utiliser, pour dmontrer ce thorme, une technique de retournement du temps. Remarquons dabord que pour tout n,

Pi { i n, Xn = j } =

P { i n, Xn = j, X0 = i } P { X0 = i } P { i n, Xn = j, X0 = i } . = i

n =X Pour tout entier k n, introduisons Xk nk . Alors,

Pi { i n, Xn = j } =

n = j, X n = i } P { i n, X0 n . i

n) Nous allons tudier la loi jointe des variables alatoires (Xk 0k n . Plus prcisment, nous allons montrer quelles possdent la proprit de Markov relativement n) n la famille de tribus (Gk 0k n , o Gk est la tribu engendre par les variables alatoires Xn , Xn1 , . . . , Xnk .

Lemme VIII.5.20. Soient k et n des entiers tels que k n, et soient i et j des lments de E. Alors,
n n P Xk +1 = j Gk n = i }. sur { Xk n n = P Xk +1 = j Xk

= Pji

j i

Dmonstration. En utilisant la formule de Bayes (VI.1.4), il vient


n n P Xk +1 = j Xk = i n n = P Xk = i Xk +1 = j n P { Xk +1 = j } n = i} P { Xk

= P Xnk = i Xnk1 = j = Pji j . i

P { Xnk1 = j } P { Xnk = i }

Il sut prsent de montrer que si i0 , . . . , ik sont des lments de E, P { Xnk1 = j, Xn = i0 , . . . , Xnk = ik } j P { Xn = i0 , . . . , Xnk = ik } . = Pjik ik 217

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Or, il rsulte de la proposition VIII.2.1 et de linvariance de que P { Xnk1 = j, Xn = i0 , . . . , Xnk = ik } = Pjik Pik ik1 Pi1 i0 j j = Pjik Pi i Pi1 i0 ik ik k k1 j = Pjik P { Xn = i0 , . . . , Xnk = ik } , ik ce qui dmontre le lemme.

Proposition VIII.5.21. Soit P une matrice stochastique indexe par un ensemble E, irrductible, rcurrente et admettant une probabilit invariante . On dnit une matrice Q indexe par E en posant
Qij = Pji j , i i, j E .

La matrice Q est stochastique, irrductible, rcurrente et admet comme probabilit invariante. De plus, si (Xn )nN est une chane de Markov homogne, de matrice de transition P sur EN et n un entier non nul, la loi du vecteur alatoire (Xnk )0kn sous P,P est identique celle du vecteur alatoire (Xk )0kn sous P,Q .
Dmonstration. On vrie aisment que Q est une matrice stochastique qui admet

comme mesure invariante. Pour montrer que Q est irrductible et rcurrente, calculons les puissances successives de Q ; plus prcisment, dmontrons par rcurrence sur n que n j . Qn ij = Pji i Cest vrai pour n = 1. Supposons le vrai pour n. Pour i, j E,
+1 = Qn ij lE

Qn il Qlj =
lE

n Pli

j l j Pjl = i l i

n Pli Pjl = lE

j n+1 P . i ji

Soient i et j deux lments de E ; puisque P est irrductible il existe un entier N N tel que PN ij > 0 ; on en dduit que Qij > 0 et, par suite que Q est irrductible. Dautre part, si i est un lment de E, la srie nN Qn ii est de mme nature que n la srie nN Pii , cest--dire divergente. On en dduit que i est rcurrent pour toute chane de matrice de transition Q. La n de la proposition rsulte du lemme VIII.5.20. 218

VIII.5. Rcurrence et transience

Nous pouvons conclure prsent la dmonstration du thorme VIII.5.19. Il rsulte en eet de ce qui prcde que si i, j E, pour tout n, Pi { i n, Xn = j } = P { i n, Xn = j, X0 = i } i P,Q { i n, X0 = j, Xn = i } = i j = Pj,Q { i n, Xn = i } . i

En sommant par rapport n, on obtient


i )= Ei (Nj

j i j i

Pj,Q { i n, Xn = i }
n1

= =

Pj,Q (i = n)
n1

j Pj,Q { i < } . i

Ltat i est rcurrent pour la chane de matrice de transition Q. Le lemme VIII.5.12 montre que Pj,Q { i < } = 1, et ceci conclut la dmonstration du thorme VIII.5.19.

Corollaire VIII.5.22. Les assertions suivantes sont quivalentes : (i) la chane (Xn )nN admet une probabilit invariante ; (ii) il existe un lment i de E tel que Ei (i ) < ; (iii) Ei (i ) < pour tout lment i de E. Lorsquelles sont vries, la chane admet une unique probabilit invariante donne pour tout i lment de E par :
j =
i) Ei (Nj Pi (j i ) 1 = = Ei (i ) Ei (i ) Ej (j )

pour tout j E .

Terminons ce paragraphe par une dnition immdiatement issue de ce qui prcde.

D enition VIII.5.23. Un point i de E est dit rcurrent positif pour la chane (Xn )nN si et seulement si Ei (i ) < . Le fait dtre rcurrent positif est une proprit de classe. La classe dun lment rcurrent positif est dite rcurrente positive.
219

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Un point rcurrent de E qui nest pas rcurrent positif est dit rcurrent nul. La classe dun lment rcurrent nul est dite rcurrente nulle.

Exemple VIII.5.24. Puisque la marche alatoire symtrique sur Z nadmet pas de probabilit invariante, les lments de Z sont rcurrents nuls pour cette chane en vertu du corollaire VIII.5.22.

VIII.6. Comportement asymptotique dune chane de Markov


Pour les raisons exposes dans les paragraphes prcdents, nous nous intresserons, dans ce paragraphe, au comportement asymptotique dune chane de Markov (Xn )nN admettant une et une seule classe rcurrente positive. Le rsultat attendu est le suivant : pour toute loi initiale, la chane de Markov converge vers la mesure invariante. Nous allons voir sur un cas trs simple que ceci nest pas toujours vri.

Exemple VIII.6.1. Reprenons lexemple de la marche alatoire sur Z/mZ avec m = 4 et les (Yn )n1 suivant la loi uniforme sur { 1, 1 }. Prenons Y0 = 0. Alors la loi de Xn est porte par { 0, 2 } pour n pair et par { 1, 3 } pour n impair. Il ne peut donc y avoir convergence en loi de la chane. Cet exemple nous conduit la dnition de la priode dun point. D enition VIII.6.2. On dit quun point i E est de priode d pour la chane n > 0 }. (Xn )nN si d = pgcd{ n 1, Pii
Dans lexemple VIII.6.1, la priode de chaque point est 2.

Proposition VIII.6.3. Le fait dtre de priode d est une proprit de classe. Une classe de priode 1 est dite apriodique.
Dmonstration. Soit i E un point de priode d et j E tel que i j . Montrons

que la priode d de j est gale d. On a lquivalence


k l > 0 et Pji > 0. i j k, l 1 , Pij k +l > 0 et, par suite, que d divise k + l. Soit n 1 tel que On en dduit que Pii n+k +l n k P n P l > 0. Do d divise n + k + l et par suite, d Pij Pjj > 0. Alors Pii jj ji divise n. On en dduit que d divise d et par symtrie d = d .

220

VIII.6. Comportement asymptotique dune chane de Markov

Comme il apparat dans lexemple ci-dessus, il est naturel, lorsquune chane est de priode d = 1, dtudier la chane de matrice de transition Pd . Avant de dcrire les proprits de cette chane auxiliaire, nous nonons un rsultat technique trs utile dans la suite.
n > 0 } et d la priode de i. Lemme VIII.6.4. Pour i E, notons Di = { n 1, Pii i Alors, il existe un entier ni non nul tel que Di contienne tous les entiers multiples de di suprieurs ni .

cest--dire que Di est un semi-groupe pour laddition dans N. En eet m+n m P n > 0. Par hypothse, le pgcd des lments de D est d . No Pii Pii i i ii tons nk les lments de Di rangs par ordre croissant. Si Di est inni, la suite pgcd(n1 , . . . , nk ), k 1, est une suite dcroissante dentiers. Son plus petit lment est donc atteint partir dun certain rang. Par hypothse, ce plus petit lment est di . Il existe donc une famille nie dlments de Di dont le pgcd est di ; notons les n1 , . . . , np . Il existe alors des entiers relatifs 1 , . . . , p tels que p i|i >0 i ni et q = i|i <0 i ni . Alors q et q sont i=1 i ni = di . Notons q = lments de Di et q q = di . Soit n un entier non nul multiple de di : alors n = aq + rdi avec rdi < q . Do n = (a r )q + rq Di si a q . On pose ni = q (q + di ) ; alors Di contient tous les entiers multiples de di et suprieurs ni .

Dmonstration. Remarquons tout dabord que si m, n Di , alors m + n Di ,

Proposition VIII.6.5. Supposons la matrice P irrductible et de priode d = 1. Alors, la matrice Pd nest pas irrductible ; elle possde exactement d classes que lon peut dsigner par C0 , . . . , Cd1 de telle faon que, si la loi de X0 est porte par Ci , alors celle de X1 est porte par Ci+1 (avec Cd = C0 ).
Dmonstration. Soit i un lment x de E. Si j est un autre lment de E, on note

n > 0 }. Soit n le plus petit lment de D et r le reste de sa Dij = { n 1 , Pij ij ij ij division euclidienne par d. Dmontrons que pour tout n Dij , n = rij mod d. m > 0. Donc, La chane tant irrductible, il existe un entier m > 0 tel que Pji

si Pii

m+nij

m+n > 0 et Pii > 0, on a

m + nij 0 mod d

et

m + n 0 mod d,

do n nij mod d. Pour 0 r < d, notons Cr = { j E, rij = r }. Dmontrons que C0 , . . . , Cd1 sont les classes de la chane de matrice de transition Pd . Pour cela, xons r et dmontrons que deux lments j et k de Cr communiquent pour cette chane. Or j Cr si et seulement si il existe n 1, n = r mod d tel que 221

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)


n > 0 et de la mme faon k C si et seulement si il existe m 1, m = r Pij r m > 0. Dautre part, k conduit i ; donc il existe l > 0 tel que mod d tel que Pik l > 0. On en dduit que m + l D et donc que d divise m + l. On a, de plus, Pki i l +n l P n > 0 avec l + n = l + m m + n 0 mod d, do k conduit j Pki Pkj ij pour la chane de matrice de transition P d . Soient r et r deux lments distincts de { 0, . . . , d 1 }, j Cr et k Cr . Supposons que j conduit k pour la chane de matrice de transition Pd . Il existe dn > 0. Soit m D ; n > 0 tel que Pjk ij m+dn m dn Pij Pjk > 0 m + dn Dik Pik

m + dn r mod d m = r mod d , ce qui est absurde puisque j Cr . Enn, soient j Cr et k E tels que Pjk > 0. Soit n Dij ; alors, n+1 nP Pij Pik jk > 0. Do n + 1 Dik et n + 1 = r + 1 mod d, do lon dduit que k est un lment de Cr+1 . Ces deux lemmes vont nous permettre de donner une caractrisation algbrique des chanes de Markov apriodiques valeurs dans un espace ni.

Th eor` eme VIII.6.6. Soit (Xn )nN une chane de Markov sur (, A, P ), valeurs dans un ensemble ni E et irrductible. Les proprits suivantes sont quivalentes :
(i) la chane est apriodique ;
n > 0; (ii) pour tout n assez grand, pour tous i, j E, Pij

(iii) 1 est la seule valeur propre de module 1 de la matrice t P.


Dmonstration. Montrons tout dabord que (i) implique (ii). Soit, pour tout lment i de E, ni lentier construit dans le lemme VIII.6.4 et N = maxiE ni . ReN marquons dautre part que, pour tous i, j E, il existe Nij > 0 tel que Pij ij > 0.
ij n P ij P >0 Soit n = maxi,j E(Nij ) et n = N + N . Alors, si i, j E, Pij ij j,j puisque n Nij n N = N . Supposons prsent (ii) vri et dmontrons (iii). Soit R et v RcardE tels que t Pv = ei v . Alors t Pn v = ein v pour tout n N. Il rsulte alors du lemme de Perron-Froebenius (VIII.4.8) que t Pn |v | = |v |. On en dduit que

nN

n Pji vj = j E j E

n Pji |vj |

222

VIII.6. Comportement asymptotique dune chane de Markov


n) pour tout i E. Si n N , les (Pij j E sont non nuls ; il existe donc R tel i que, pour tout j E, vj = e |vj |. On a donc, dune part t Pn v = ein v , dautre part ein v = ein(+) |v | = ein(+) (t Pn )|v | = ein (t Pn )v .

On en dduit que ein = 1. Ceci tant vrai pour une innit dentiers n, il sensuit que = 0. Il reste prouver que (iii) implique (i). Nous allons le faire par labsurde. Supposons que la priode d est strictement suprieure 1. Nous allons utiliser la proposition VIII.6.5 pour construire un vecteur propre de la matrice t P associ la valeur propre e2i/d . En eet, soit lunique mesure invariante de la chane de matrice de transition Pd restreinte C0 (on identie une probabilit sur E). Alors pour tout 0 r d 1, t Pr est porte par Cr . Donc =
0r d1

e2i d (t Pr )

est non nul et vrie de plus t P = e2i/d . Nous concluons ce chapitre par le thorme ergodique, lequel dcrit la convergence des chanes de Markov vers une mesure limite. Il nonce que les moyennes en temps (i.e. sur lindice n) convergent vers les moyennes en espace (i.e. par rapport la mesure invariante ).

D enition VIII.6.7. On dit quune chane de Markov (Xn )nN est ergodique sil existe une probabilit telle que, pour toute condition initiale X0 , la suite (Xn )nN converge en loi vers . Th eor` eme VIII.6.8. Une chane de Markov est ergodique si elle est irrductible, rcurrente positive et apriodique.
Dmonstration. On pourra se reporter Revuz (1975).

Nous tudions prsent le comportement asymptotique de moyennes temporelles, cest--dire du type 1 f (X1 ) + + f (Xn ) . n Pour cela, nous allons nous ramener la loi des grands nombres classique en utilisant les excursions de la chane entre deux passages en un mme point. 223

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Th eor` eme VIII.6.9 (loi forte des grands nombres). Soit (Xn )nN une chane de Markov irrductible et rcurrente positive. Soit lunique mesure invariante de la chane. Alors, pour toute fonction f L1 () et toute loi initiale 0 ,
1 lim n n
n

f (Xk ) =
k =0 E

f d p.s.

Dmonstration. On peut supposer la fonction f positive. On xe i E et, pour

n > 0, on dnit Ni (n) =

1k n

{i} (Xk ), le nombre de fois o la chane est


Ni (n)

passe en i avant linstant n. On a alors i f (Xk )


N (n) 0k i i

n < i

Ni (n)+1

. Do

f (Xk )
0k n
N (n)+1 0k i 1

f (Xk ).

Introduisons les variables alatoires Zn , n N, dnies par Z0 = et Zn = n +1k n+1 f (Xk ) pour tout entier n 1. Alors
i i

1k i

f (Xk )

Zk
0k Ni (n)1 0k n

f (Xk )
0k Ni (n)

Zk .

Les temps darrt (in )n1 tant p.s. nis, on a


n

lim Ni (n) = p.s.

Nous utiliserons pour nir le lemme suivant.

Lemme VIII.6.10. Les variables alatoires Zn , n 1, sont indpendantes, de mme loi et de moyenne E f d/Ei (i ).
Dmonstration. Remarquons tout dabord que pour tout n 1, Zn = Z0 i .
n

Ainsi, pour toute fonction : E R borne,

E (Zn ) = E E ((Zn ) | Fin ) = Ei (Z0 ) . Les Zn , n 1, sont donc de mme loi. Montrons prsent leur indpendance. Remarquons que Zn est Gn -mesurable, o Gn = F n+1 ; lindpendance est donc i une consquence de la relation E (Zn ) Gn1 = E (Zn ) . 224

Exercices

Enn, on a Ei (Z0 ) =
j E

f (j )Ei
0k i

{j } (Xk ) =
j E

i f (j )Ei (Nj )= j E

f (j )

j . Ei (i )

Il rsulte de ce lemme et de la loi forte des grands nombres (V.5.2) que 1 n Ni (n) lim Zk = lim
0k Ni (n)1

1 n Ni (n)

Zk = Ei (Z0 ) =
0k Ni (n)

f d Ei (i )
E

presque srement. Do
n

lim

1 Ni (n)

f (Xk ) =
0k n E

f d (Ei (i ))1 p.s.

Prenant f 1, on obtient Ni (n) = Ei (i ) n n ce qui conduit au rsultat annonc. lim

Exercices
Exercice VIII.1. quelles conditions deux matrices
P = (Pij )1in,1j m et Q = (Qij )1im,1j n

sont-elles les lois conditionnelles L(X | Y ) et L(Y | X ) de deux variables alatoires X et Y prenant respectivement n et m valeurs ? Montrer que si lon connat L(X | Y ) = P et L(Y | X ) = Q, alors on connat la loi du couple (X, Y ).

Exercice VIII.2. Montrer que (X0 , . . . , Xn ) est une chane de Markov valeurs dans un ensemble ni E si et seulement si il existe des fonctions gi : E E [ 0, [, 0 i n 1, telles que, pour tous x0 , . . . , xn E,
P { X0 = x0 , . . . , Xn = xn } = g0 (x0 , x1 )g1 (x1 , x2 ) gn1 (xn1 , xn ) .

Exercice VIII.3. Sur lensemble ni E = Z/mZ, on considre la chane (Xn )n0 de gnrateurs Pi,i+k = Pi,ik = 1/2, Pi,j = 0 sinon, o 1 k < m. Pour quelles valeurs de m et k la chane est-elle rcurrente irrductible ? Donner, dans tous les cas, ses classes de rcurrence et la mesure invariante de ses classes. Lorsque la chane est rcurrente irrductible, dterminer quand elle est apriodique. Montrer que lon peut raliser la chane (Xn )n0 sous la forme Xn+1 = f (Xn , n ) avec une fonction f et une suite (n )n0 de variables alatoires dans { 1, +1 } que lon dterminera.
225

Chapitre VIII. Chanes de Markov ( espace dtats dnombrable)

Exercice VIII.4. Soit (Xn )n0 une chaine de Markov de matrice de transition Pij avec Pij > 0 pour tout couple (i, j ). On suppose que X0 = i p.s. et lon choisit j = i. Soit T = inf { n 1 : Xn = j } .
Dmontrer quil existe ] 0, 1[ tel que P { T > n } n pour tout n 1.

Exercice VIII.5. Soit (Xi )iN une suite de variables alatoires relles et de mme loi de fonction de rpartition continue F . Considrons les temps de record Tn , n 1, et les records XTn , dnis par T0 = 0 et
Tn+1 = min{ i > Tn : Xi XTn } . Dmontrer que (Tn )nN et (XTn )nN sont deux chanes de Markov non homognes. Exercice VIII.6. Soit (V, E ) un graphe connexe non orient densemble de sommets ni V et densemble dartes E V V . On associe chaque arte (i, j ) un poids wi,j = wj,i > 0 et lon pose wi = j wi,j . Dterminer la mesure invariante de la chane de Markov sur V de matrice de transition Pi,j = wi,j /wi .

226

BIBLIOGRAPHIE

Dacunha-Castelle, D., Duo, M. (1982). Probabilits et statistiques, Masson. Dudley, R.M. (1989). Real Analysis and Probability, Wadsworth. Feller, W. (1971). An Introduction to Probability Theory and its Applications, Wiley. Fine, T.L. (1973). Theories of Probabilities : An Examination of Foundations, Academic press. Foata, D., Fuchs, A. (1998). Cours de probabilits pour la licence (2e dition), Dunod. Grimmett, G. (1993). Probability Theory, Cambridge University Press. Malliavin, P. (1982). Intgration et probabilits, analyse de Fourier et analyse spectrale, Masson. Neveu, J. (1964). Bases mathmatiques du calcul des probabilits, Masson. Norris, J.R. (1997). Markov Chains, Cambridge University Press. Pollard, D. (1984). Convergence of Stochastic Processes, Springer. Revuz, D. (1975). Markov Chains, North Holland. Revuz, D. (1997). Probabilits, Hermann. Rudin, W. (1975). Functional Analysis, McGraw-Hill. Williams, D. (1991). Probability with Martingales, Cambridge University Press.

APPENDICE LOIS DE PROBABILITS USUELLES

1. Loi de Bernoulli
D enition. Une variable alatoire X , valeurs dans { 0, 1 }, suit une loi de Bernoulli de paramtre p [ 0, 1 ], note B (1, p), si
P{X = 1} = p = 1 P{X = 0}. Esprance : p Variance : p(1 p) Fonction caractristique : 1 p + peit

2. Loi binomiale
Soit Ck n le coecient binomial n! . k!(n k)!

D enition. Une variable alatoire X , valeurs entires, suit une loi binomiale de taille n 1 et de paramtre p [ 0, 1 ], note B (n, p), si
k nk , P { X = k } = Ck n p (1 p)

k = 0, 1, . . . , n .

Esprance : np Variance : np(1 p) Fonction caractristique : (1 p + peit )n

Probabilit

Stabilit par convolution : B (n, p) B (m, p) = B (n + m, p), ou de faon quivalente, si X, Y sont indpendantes et de lois respectives B (n, p) et B (m, p), alors X + Y est de loi B (n + m, p). En particulier, si (Xi )1in est une suite de variables de Bernoulli indpendantes, alors X1 + + Xn est de loi B (n, p). Il en rsulte que si une urne contient n boules, une proportion p dentre elles tant noires, 1 p tant blanches, et si lon tire au hasard sans remise n boules, le nombre de boules noires tires suit une loi B (n, p).

Proposition. (i) Si Xn suit une loi B (n, pn ) avec limn npn = , > 0, alors Xn converge en loi quand n vers une variable de loi de Poisson de paramtre . (ii) Si Xn suit une loi B (n, p), alors (Xn np)/ np(1 p) converge en loi quand n vers une variable de loi normale centre rduite N (0, 1).

3. Loi de Poisson
D enition. Une variable alatoire X , valeurs entires, suit une loi de Poisson P () de paramtre > 0, si
P { X = k } = e k , k! k N.

Esprance : Variance : Fonction caractristique : exp (eit 1) Stabilit par convolution : P () P () = P ( + ). Autrement dit, si X et Y sont indpendantes et suivent respectivement des lois P () et P (), alors X + Y est de loi P ( + ). Proposition. Si X suit une loi P (), alors (X )/ converge en loi quand vers une variable de loi normale N (0, 1).

4. Loi multinomiale
D enition. Un vecteur alatoire X = (X1 , . . . , Xd ), valeurs dans Nd , suit une loi multinomiale de paramtres n N, p1 , . . . , pd [ 0, 1 ], p1 + + pd = 1, note M(n, p1 , . . . , pd ), si
P X = (n1 , . . . , nd ) = n! d p n1 . . . p n d , n1 ! . . . nd ! 1 n1 + + nd = n , n1 , . . . , nd N .

230

Appendice : Lois de probabilits usuelles

Esprance : (np1 , . . . , npd ) Covariance : cov(Xi , Xj ) = npi pj , i = j Variance : Var(Xi ) = npi (1 pi ) Fonction caractristique :
itj n 1j d pj e

Si lon dispose de n boules que lon jette une par une alatoirement dans d botes direntes, chaque boule ayant la probabilit pi dtre jete dans la i-me bote, les nombres (N1 , . . . , Nd ) de boules dans les botes 1, . . . , d, suivent une loi multinomiale M(n, p1 , . . . , pd ).

5. Loi hypergomtrique
D enition. Une variable alatoire X , valeurs entires, suit une loi hypergomtrique de paramtres (N, n, p) avec N p N et p [ 0, 1 ] si
P{X = k } =
nk Ck N p CN (1p)

Cn N

max 0, n N (1 p) k min(n, N p) .

Esprance : np n Variance : N N 1 np(1 p) Si on tire n boules sans remise dans une urne en contenant N , une proportion p tant noires, 1 p tant blanches, le nombre de boules noires tires suit une loi hypergomtrique de paramtres (N, n, p).

Proposition. Si XN suit une loi hypergomtrique de paramtres (N, n, p), alors XN converge en loi quand N vers une variable de loi binomiale B (n, p).

6. Loi binomiale ngative


D enition. Une variable alatoire X , valeurs entires, suit une loi binomiale ngative de paramtres (n, p) N [ 0, 1 ] si
1 n k P { X = k } = Cn n+k 1 p (1 p) ,

k N.

Esprance : n(1 p)/p Variance : n(1 p)/p2 Fonction caractristique :

p 1 (1 p)eit

231

Probabilit

Si (Xi )i1 est une suite de variables alatoires indpendantes et de mme loi de Bernoulli B (1, p), reprsentant un succs si Xi = 1, un chec si Xi = 0, le nombre total dchecs avant le n-ime succs suit une loi binomiale ngative de paramtres (n, p). Lorsque n = 1, on parle aussi de loi gomtrique.

7. Loi uniforme continue


D enition. Une variable alatoire X , valeurs relles, suit une loi uniforme sur [ a, b ], a < b, note U[a,b] , si sa densit par rapport la mesure de Lebesgue sur R est 1 (x) . f (x) = b a [a,b]
Esprance : (a + b)/2 Variance : (b a)2 /12
itb ita Fonction caractristique : eita e e it(b a)

8. Loi de Parto
D enition. Une variable alatoire X , valeurs positives, suit une loi de Parto de paramtre p > 1 si sa densit par rapport la mesure de Lebesgue sur R est
f (x) = (p 1) [1,[ (x) . xp

p1 Esprance : p 2 si p > 2 p1 si p > 3 Variance : (p 3)(p 2)2

9. Loi gamma

Pour p > 0, on dnit lintgrale gamma , (p) =


0

xp1 ex dx.

232

Appendice : Lois de probabilits usuelles

D enition. Une variable alatoire X , valeurs positives, suit une loi gamma de paramtres p > 0 et > 0, note (p, ), si sa densit par rapport la mesure de Lebesgue sur R est
f (x) = p x p1 e x [0,[ (x) . (p)

La loi (1, ) est appele loi exponentielle de paramtre , note E xp( ). Esprance : p/ Variance : p/ 2 1 (1 it)p Stabilit par convolution : (p, ) (q, ) = (p + q, ). Autrement dit, si X et Y sont deux variables alatoires indpendantes, de lois respectives (p, ) et (q, ), alors X + Y est de loi (p + q, ). Proposition. Si Xp suit une loi (p, 1), alors (Xp p)/ p converge en loi quand p vers une variable alatoire de loi N (0, 1). Fonction caractristique :

10. Loi bta


Pour p, q > 0, on dnit lintgrale bta par
1

B (p, q ) =
0

xp1 (1 x)q1 dx =

(p)(q ) . (p + q )

D enition. Une variable alatoire X , valeurs sur ] 0, 1 [, suit une loi bta de premire espce de paramtres p, q > 0, note (p, q ), si sa densit par rapport la mesure de Lebesgue est
xp1 (1 x)q1 B (p, q )

f (x) = Esprance : B (p + 1, q )/B (p, q ) pq Variance : (p + q )2 (p + q + 1)

]0,1[ (x) .

Proposition. Si X et Y sont indpendantes et suivent respectivement une loi (p) et (q ), alors X/(X + Y ) suit une loi (p, q ). En outre X/(X + Y ) et X + Y sont indpendantes.
233

Probabilit

11. Loi de Laplace


D enition. Une variable alatoire X , valeurs relles, suit une loi de Laplace (ou double exponentielle) si sa densit par rapport la mesure de Lebesgue est
f (x) = Esprance : 0 Variance : 2 Fonction caractristique : 1/(1 + t2 ) 1 |x| e , 2 x R.

12. Loi normale unidimensionnelle


D enition. Une variable alatoire X , valeurs relles, suit une loi normale N (m, 2 ) de moyenne m et variance 2 > 0 si sa densit par rapport la mesure de Lebesgue est
(x m)2 1 exp , f (x) = 2 2 2 2 Esprance : m Variance : 2
2 2 Fonction caractristique : exp itm 2t 2 ) N (m , 2 ) = N (m + m , 2 + 2 ). AuStabilit par convolution : N (m1 , 1 2 2 1 2 1 2 2 ) et trement dit, si X1 et X2 sont indpendantes, de lois respectives N (m1 , 1 2 ), alors X + X est de loi N (m + m , 2 + 2 ). N (m2 , 2 1 2 1 2 1 2

x R.

13. Loi du chi-deux


D enition. Une variable alatoire X , valeurs positives, suit une loi du chideux 2 (d) d N degrs de libert si sa densit par rapport la mesure de Lebesgue est 1 x(d/2)1 ex/2 [0,[ (x) . f (x) = d/2 2 (d/2)
En particulier, X/2 suit une loi (d/2, 1/2).

234

Appendice : Lois de probabilits usuelles

Esprance : d Variance : 2d Fonction caractristique : (1 2it)d/2 Stabilit par convolution : 2 (d1 ) 2 (d2 ) = 2 (d1 + d2 ). Autrement dit, si X1 et X2 sont des variables alatoires indpendantes, de lois respectives 2 (d1 ) et 2 (d2 ), alors X1 + X2 est de loi 2 (d1 + d2 ).

Proposition. (i) Si X1 , . . . , Xd sont des variables gaussiennes centres rduites 2 + + X 2 suit une loi du chi-deux d degrs de libert. indpendantes, alors X1 d (ii) Si Xd suit une loi du chi-deux d degrs de libert, alors (Xd d)/ d converge en loi quand d vers une variable alatoire de loi N (0, 1).

14. Loi de Student


D enition. Une variable alatoire X , valeurs relles, suit une loi de Student d N degrs de libert si sa densit par rapport la mesure de Lebesgue est
f (x) = x2 1 1+ d dB (1/2, d/2)
d+1 2

x R.

Lorsque d = 1, la loi de Student d degrs de libert sappelle loi de Cauchy, et sa densit est 1 , x R. f (x) = (1 + x2 )

Esprance : 0 pour d > 1 Variance : d/(d 2) pour d > 2 Fonction caractristique : e|t| pour la loi de Cauchy

Proposition. Si Y est une variable normale centre rduite, si Z suit une loi du chi-deux d degrs de libert, et si Y et Z sont indpendantes, alors Y / Z/d suit une loi de Student d degrs de libert. En particulier, lorsque d = 1, si Y et Y sont indpendantes de loi N (0, 1), la variable alatoire Y /|Y | suit une loi de Cauchy. Par symtrie, il en va de mme de Y /Y .
235

Probabilit

15. Loi normale multidimensionnelle


D enition. Un vecteur alatoire X = (X1 , . . . , Xd ), valeurs dans Rd , suit une loi normale N (m, ) de moyenne m Rd et de matrice de covariance inversible si sa densit par rapport la mesure de Lebesgue est
1 1 exp t(x m)1 (x m) 2 dt x Rd .

f (x) =

(2 )d/2

Esprance : m Covariance : Fonction caractristique : exp i t, m Stabilit par convolution : N (m1 , 1 ) N (m2 , 2 ) = N (m1 + m2 , 1 + 2 ). Autrement dit, si X et Y sont deux vecteurs alatoires indpendants, de lois respectives N (m1 , 1 ) et N (m2 , 2 ), alors X + Y est de loi N (m1 + m2 , 1 + 2 ).
1t 2 t t

236

INDEX TERMINOLOGIQUE

A absolument continue, 31, 45, 145 adapt, 173 algbre, 2, 16, 44 algbre engendre, 3 argument de bloc, 95, 113, 134 atome, 153, 154 B barrire absorbante, 194, 206 base (dun cylindre), 90 Bayes (formule de), 152 Borel-Cantelli, 111, 116 borlien, 4 C Cauchy (critre de), 110, 116 centr, 164 chane dEhrenfest, 200, 207 Chapman-Kolmogorov (quation de), 201 chne de Markov, 193 classe (dune chane de Markov), 209 classe (Markov), 213 classe monotone, 9, 11 communiquer, 209 compacit relative, 127 conduire, 209 conjugu, 37 convergence dans Lp , 117, 119, 120, 122 convergence domine, 119 convergence domine (thorme), 28 convergence en distribution, 122 convergence en loi, 121 convergence en probabilit, 113, 119, 120, 123 convergence troite, 122, 128 convergence monotone, 26, 158

convergence p.s., 109, 115, 122 convolution, 85, 86, 89, 103 corlation, 80, 101, 113 covariance, 60, 99, 101, 165, 166 cylindre, 90 D dcomposition de Doob, 175 densit, 31, 43, 45, 78, 160, 167, 171 discrte (loi), 153 discrte (v.a.), 155 distance en variation, 40 distance en variation totale, 146 E cart type, 56 changeable, 69, 170 ensemble lmentaire, 4 ensemble monotone, 10 ensemble ngligeable, 19, 21, 31 ensemble non mesurable, 20 entropie, 69 quiintgrabilit, 118, 119 quiintgrable, 127 quitension, 127 ergodique, 223 espace gaussien, 164 espace Lp , 36, 117 espace mesurable, 2 espace probabilis, 41 espace produit, 16, 35 espacements, 170 esprance, 53, 64, 79, 80 esprance conditionnelle, 154, 156, 159, 160, 165, 166 tat, 193 trangre (loi), 48

Probabilit

trangre (mesure), 31 vnement, 43 F ltration, 173 fonction borlienne, 6 fonction caractristique, 61, 64, 80, 86, 121, 122, 132, 136, 144, 167 fonction de quantile, 50, 171 fonction de rpartition, 46, 51, 57, 102, 121, 122, 169 fonction lmentaire, 8 fonction gnratrice, 96 fonction gnratrice des moments, 66 fonction indicatrice, 5 fonction intgrable, 30 fonction mesurable, 5, 162 H homogne, 199 I indpendance, 73, 74, 75, 76, 80, 8991, 101, 164, 169, 131, 145, 158 ingalit de Jensen, 29, 56, 158 ingalit de Tchebitchev, 81 ingalit de Bernstein, Cramr, Cherno, 59 ingalit de Bienaym, 81 ingalit de Bonferoni, 44 ingalit de Cherno, 103 ingalit de Hlder, 37 ingalit de Hlder, 56 ingalit de Kolmogorov, 105, 181 ingalit de Markov, 58 ingalit de Minkowski, 37 ingalit de Tchebitchev, 59, 89, 113 ingalit maximale, 180 in galit de Bienaym-Tchebitchev, 81 initiale (loi, mesure), 193 initiale (mesure, loi), 203 intgrabilit uniforme, 118 intgrable (fonction), 27, 60 intgrale, 23, 24 intgrale de Riemann, 29 irrductible, 209, 213 L L2 , 156 Lp , 53

lemme de Borel-Cantelli, 93, 105, 111, 182 lemme de Doob, 159 lemme de Fatou, 26, 28 lemme de Riemann-Lebesgue, 70 loi, 41, 4446, 203 loi (dune variable), 44 loi binomiale, 43, 48, 55, 63, 88, 131, 137, 140, 144, 145 loi conditionnelle, 150, 162, 166, 167, 169 loi de Bernoulli, 42, 43, 45, 57, 77, 87, 94, 95, 104, 106, 111, 114, 137 loi de Cauchy, 55, 64, 68 loi de Laplace, 64 loi de Parto, 68 loi de Poisson, 42, 55, 63, 87, 103, 140, 155 loi des grands nombres, 186 loi dicrte, 45 loi du 01, 92 loi du logarithme itr, 140 loi exponentielle, 48, 55, 63, 68, 103, 111, 130, 144, 150 loi faible, loi forte des grands nombres, TCL, 131 loi forte des grands nombres, 132, 186, 187 loi gomtrique, 42, 70 loi gamma, 103, 171 loi gaussienne, 48 loi log-normale, 68 loi marginale, 51 loi normale, 48, 51, 55, 57, 63, 70, 80, 89, 98, 105, 123, 131, 164, 165 loi produit, 63, 77, 80 loi uniforme, 43, 45, 50, 95, 117, 144, 145, 151, 171 lois inniment divisibles, 106 M marche alatoire, 194, 195, 205, 209 marche alatoire symtrique, 194 marge, 51, 77, 99, 102 martingale, 173, 174 martingale L1 , 178 masse de Dirac, 13, 40, 42, 43, 45, 47, 48, 62, 86 matrice de transition, 199, 203 matrice stochastique, 199, 208 mdiane, 69 mesurable, 5 mesure, 13, 30 mesure asymptotique, 204, 205, 213 mesure de comptage, 13, 24, 42 mesure de Lebesgue, 23, 30, 145

238

Index terminologique

mesure de Lebesgue (sur R ), 16 mesure de Lebesgue (sur R d ), 17 mesure image, 15, 32, 44 mesure invariante, 204, 205 mesure produit, 17, 35 mesure signe, 13 mesures quivalentes, 31 mesures trangres, 31, 145 mthode de rejet, 171 moment, 53, 57, 64, 66, 68 moment absolu, 53 moment centr, 56 moyenne, 53 -essentiellement born, 36 O orthogonale, 164 orthogonales (variables), 80 P partition, 151, 152 priode, 220 Peron-Froebenius (lemme), 208 presque partout, 19, 43 presque srement, 43 probabilit, 13, 41, 162 probabilit conditionnelle, 15, 149, 150, 153 probabilits totales (formule des), 152 probabilit invariante, 206 processus, 173 Processus de Poisson, 171 produit scalaire (dans L2 ), 39 prolongement, 16, 44 proprit de Markov, 196, 201 proprit de Markov forte, 203 R rcurrence, 213 rcurrence nulle, 220 rcurrent, 210212, 213 rcurrent positif, 219 rduite (variable), 56 renverse (martingale, sur-martingale, sous-martingale), 185 S section, 19 -additif, 13

-algbre, 2 somme de v.a., 81, 84, 93, 105, 131 sous-additivit, 14 sous-martingale, 174 statistique dordre, 171 suite dexhaustion, 13 sur-martingale, 174 systme complet, 151, 153, 154 T temps darrt, 176 tension, 127 tension uniforme, 127 terminal (vnement), 92 terminale (tribu), 92 thorme darrt, 179 thorme dEgorov, 20 thorme de Fubini, 36 thorme de Kolmogorov, 145 thorme de prolongement (de Kolmogorov), 90 thorme de Radon-Nikodym, 31 thorme de transport, 32, 53 thorme des moments, 66 thorme limite central, 136, 141 thorme limite central poissonien, 139 transforme de Fourier, 6163 transforme de Laplace, 66, 103, 143 transience, 213 transient, 210, 212, 213 transition, 162 tribu, 2, 9, 44, 152 tribu borlienne, 4, 6 tribu complte, 21 tribu complte, 21 tribu engendre, 5, 153, 164 tribu produit, 4, 35 tribu terminale, 92 tribu trace, 15 tribu triviale, 2 V variable alatoire, 43, 45 variance, 56, 57, 81, 136 vecteur alatoire, 50, 77, 98, 159, 164, 169 W Wald (lemme de), 189

239

INDEX DES NOTATIONS

La rfrence est celle du premier emploi de la notation. resp. signie respectivement N = ensemble des entiers naturels Z = ensemble des entiers relatifs Q = ensemble des rationnels R = ensemble des rels = maximum = minimum \ A, 2 \ A, 2 P (), 2 , 2 resp., 3 Ac , 3 f 1 (B ), 5 (f ), 5 A , 5 x y, 7 f +, 8 f , 8 M(E ), 9 , 10 x , 13 f , f 1 , 15 1 2 , 17 x, y , 18 p.p., 19 A , 19 A , 21 f d, 23 d, 30 dx, 30 , 31 d , 31 d , 31 Lp (, A, ), 36 Lp , 36 f p , 36 f , 36 Lp (, A, ), 38 Lp , 38 f, g , 39 P , 41 P (), 42 Ck n , 43 B(n, p), 43 p.s., 43 U[0,1] , 43 P X , 44 L(X ), 44 P { X B }, 44 F X , 46 E xp( ), 48 N (0, 1), 48 F , 50 F X , 51 E (X ), 53 p , 56 , 56 Var(X ), 56 Cov(X ), 60 X (t), 62 LX (s), 66 A , 92 i.s., 93 , 113 , 122 , 122 P ( | B ), 149 E ( | B), 154 S, 155 E ( | Z ), 155 E ( | B), 156 E (X | B | C ), 158 E ( | Y ), 159 P ( | B), 159 L( | ), 162 FT , 177 XT , 177 E, 193 i j , 209 i j , 209 E , 209 Ni , Ni (X ), 210 n , n (X ), 210 i , i (X ), i i Pi , 210 Ei , 210 i , 213 Nj i j , 214
d L P

Dans la mme collection :


Gomtrie
L3M1
Michle Audin
Ce livre est destin aux tudiants de Licence ou Master de Mathmatiques (L3M1) et ceux qui prparent le CAPES ou l'agrgation. L'ouvrage traite de gomtrie affine, euclidienne, projective, de coniques et quadratiques, de gomtrie diffrentielle des courbes et des surfaces. Il contient un expos rigoureux, bas sur l'algbre linaire et, en mme temps, de la "vraie" gomtrie : des triangles, des sphres, des polydres, des angles inscrits, des inversions, des paraboles, des enveloppes... Ce livre est illustr de 195 figures et de 411 exercices avec indications de solution. L'ouvrage se dcoupe en 8 chapitres : la gomtrie affine ; la gomtrie euclidienne (gnralits) ; la gomtrie euclidienne plane ; la gomtrie euclidienne dans l'espace ; la gomtrie projective ; coniques et quadriques ; courbes, enveloppes et developpes ; surfaces dans l'espace de dimension 3. Michle Audin est professeur de mathmatiques l'Universit Louis Pasteur de Strasbourg o elle a enseign la gomtrie tous les niveaux, mais aussi l'analyse complexe ou la topologie algbrique. Elle est spcialiste de gomtrie symplectique et de systmes intgrables, des sujets sur lesquels elle a publi des articles de recherche et plusieurs livres.
Avril 2006 2-86883-883-9 428 pages 35

Calcul intgral
L3M1
Jacques Faraut
Cet ouvrage traite du calcul intgral, outil essentiel de l'analyse mathmatique et du calcul des probabilits. L'ouvrage est dcoup en 11 chapitres : Mesure et intgrale ; Mesure de Lebesgue ; Espaces Lp ; Intgration sur un espace produit ; Intgration sur Rn ; Mesures de LebesgueStieltjes ; Fonctions dfinies par des intgrales ; Convolution ; Transformation de Fourier ; Sries de Fourier ; Applications et complments. Jacques Faraut est professeur de mathmatiques l'universit Pierre et Marie Curie de Paris, o il a enseign l'analyse tous les niveaux. Il est spcialiste de l'analyse des groupes de Lie et a publi plusieurs ouvrages sur le sujet.
Octobre 2006 2-86883-912-6 208 pages 21

Retrouvez tous nos ouvrages sur www.edpsciences.org

Vous aimerez peut-être aussi