Vous êtes sur la page 1sur 105

PROBABILITES POUR L'INGENIEUR

Cours de Master 1

Lionel Truquet

2011-2012

1 IRMAR,

Universit Rennes I, Campus de Beaulieu, 35042 Rennes cdex, France.

Table des matires

1 Espaces probabiliss, variables alatoires et esprance mathmatique


1.1 1.2 Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures de probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Les mesures de probabilit discrtes. . . . . . . . . . . . . . . . . . . 1.2.2 Les mesures de probabilit densit sur un intervalle de R . . . . . . 1.2.3 Cas mixte. Mlange . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4 Proprits des mesures de probabilit . . . . . . . . . . . . . . . . . . 1.2.5 Indpendance d'venements . . . . . . . . . . . . . . . . . . . . . . . Les variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . L'esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Esprance d'une variable alatoire positive . . . . . . . . . . . . . . . 1.4.2 Esprance d'une variable alatoire de signe quelconque et proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5
5 7 8 10 11 12 13 14 17 17 20

1.3 1.4

2 Indpendance. Variables alatoires discrtes


2.1 2.2 2.3 2.4 2.5 Indpendance entre variables alatoires . . . . . . Les variables alatoires discrtes . . . . . . . . . . 2.2.1 Les lois discrtes usuelles en modlisation Loi d'un couple. Loi marginale . . . . . . . . . . Le thorme de transfert . . . . . . . . . . . . . . Les lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25
25 28 28 30 31 32

3 Mesures et intgration
3.1 Mesure sur une tribu . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Les mesures de Lebesgue-Stieltjes . . . . . . . . . . . . 3.1.2 Un exemple qui heurte l'intuition : l'escalier de Cantor Intgrale d'une fonction mesurable par rapport une mesure 3.2.1 Intgration par rapport une mesure discrte. . . . . . 3.2.2 L'intgrale de Lebesgue et l'intgrale de Riemann . . . 3.2.3 Le presque partout . . . . . . . . . . . . . . . . . . . . Mesure produit et thorme de Fubini . . . . . . . . . . . . . Mesure densit et thorme de transfert . . . . . . . . . . . La formule du changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35
35 36 38 39 42 43 45 46 48 52

3.2

3.3 3.4 3.5

4 Les variables alatoires densit


4.1 4.2 4.3 4.4 Exemples de lois densit . . . . . Densits marginales. Indpendance Les calculs de lois en pratique. . . Densits conditionnelles. . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55
55 56 59 62

5 Les outils analytiques classiques en probabilit


5.1

5.2

5.3

La fonction de rpartition . . . . . . . . . . . . . . . . 5.1.1 Proprits gnrales des fonctions de rpartition 5.1.2 Fonction de rpartition inverse et simulation . . Covariance et moments . . . . . . . . . . . . . . . . . . 5.2.1 Moments d'une variable alatoires relle . . . . 5.2.2 Covariance et corrlation . . . . . . . . . . . . . Fonction caractristique d'une variable alatoire . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

65
65 65 66 68 68 69 70

6 Loi et esprance conditionnelle


6.1 6.2

Gnralisation des lois conditionnelles . . . . . . . . . . . . . . . Esprance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Variable alatoire mesurable par rapport une sous-tribu 6.2.2 Esprance conditionnelle par rapport une sous-tribu . . 6.2.3 Proprits gnrales de l'esprance conditionnelle . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

73
73 75 75 76 80

7 Les lois gaussiennes


7.1 7.2

7.3 7.4

Lois gaussiennes sur R . . . . . . . . . . . . . . . Les matrices de variance-covariance . . . . . . . . 7.2.1 Quelques rappels sur les matrices . . . . . 7.2.2 Vecteurs alatoires, variance et covariance Les vecteurs gaussiens . . . . . . . . . . . . . . . Quelques lois fondamentales pour la statistique .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

85

85 86 86 86 88 92

8 Convergence des suites de variables alatoires


8.1

8.2

8.3

Comportement asymptotique d'une suite d'venements 8.1.1 Limite infrieure et suprieure . . . . . . . . . . 8.1.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . Les modes de convergence . . . . . . . . . . . . . . . . 8.2.1 Convergence presque sre et en probabilit . . 8.2.2 La convergence en loi . . . . . . . . . . . . . . . Deux thormes fondamentaux . . . . . . . . . . . . . 8.3.1 La loi des grands nombres . . . . . . . . . . . . 8.3.2 Le thorme central limite . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. 93 . 93 . 94 . 95 . 95 . 98 . 101 . 101 . 102

93

Chapitre 1
Espaces probabiliss, variables alatoires et esprance mathmatique

1.1

Espace probabilisable

Dnition 1

On appelle espace probabilisable un couple (, A) o  est un ensemble appel univers. Ses lments sont appels des preuves.  A est une tribu sur , c'est dire que A est un sous-ensemble de l'ensemble des parties de vriant les trois proprits suivantes : 1. A, 2. Si A A alors Ac (l'vnement complmentaire de A) appartient aussi A. 3. Pour toute suite (Ai )iN d'lments de A, on a iN Ai A. Si A A, alors A est appel un venement.

Exemple.

On peut munir n'importe quel ensemble d'une tribu en considrant l'ensemble P () de toutes ses parties. En eet l'ensemble P () vrie trivialement les trois points de la dnition prcdente. Lorsque l'univers est ni (par exemple = {1, 2, 3, 4, 5, 6} pour dcrire l'ensemble des rsultats possibles lors d'un lancer de d) ou alors inni mais dnombrable (par exemple = N pour dcrire le nombre de connexions un serveur entre deux instants donns) la tribu P () est assez naturelle, puisque on pourra trs facilement construire des mesure de probabilit dessus. En revanche, si on souhaite choisir un univers non dnombrable (par exemple = [0, +[ pour dcrire les dures de vie possibles d'un appareil lectrique), il est en fait impossible de construire mathmatiquement certaines mesures de probabilits naturelles sur la tribu des vnements P (). Dans ce cas, il faut se restreindre une tribu plus petite (la tribu des Borliens que nous verrons un peu plus loin).

Remarques

 Si A est une tribu, on a toujours = c A ( dsigne l'ensemble vide).  Ainsi, une consquence de la dnition prcdente est qu'une tribu d'venements est stable par runion nie. En eet, si A1 , . . . , AN A, on a quitte complter par Ai = si i = 0 ou i N + 1,

A = N i=1 Ai = iN Ai A.
 On en dduit aussi la stabilit de A par intersection nie ou innie dnombrable. En eet, lorsque I = {1, . . . , N } ou I = N, considrons une suite (Ai )iI d'lments de A. Posons A = iI Ai . En crivant
c A = (iI Ac i)

et en utilisant la dnition et la remarque prcdente, on peut voir que A A. En eet, c on a Ac i A pour i I et la Dnition 1 guarantit que iI Ai A puis que A A (stabilit par passage au complmentaire). Ainsi si A et B sont deux elments de A alors les quantits A \ B = A B c (se lit A priv de B ) et B \ A = B Ac sont encore des lments de A. Les exemples intressants de tribus peuvent se dcrire l'aide de la notion de tribu engendre.

Dnition 2

Soit F P () un sous-ensemble de l'ensemble des parties de . La tribu engendre par F est dnie comme l'intersection de toutes les tribus contenant F . Cette tribu est note (F ).

Remarque.

La dnition prcdente a bien un sens car on peut montrer qu'une intersection quelconque de tribus sur est encore une tribu sur . La tribu (F ) est donc la plus petite tribu contenant F au sens de l'inclusion : toute tribu contenant F contient galement (F ).

Exemples

 Si A , ({A}) = {, , A, Ac }. On parle de tribu engendre par A.  Si A et B sont deux sous-ensembles disjoints de et F = {A, B }, on trouve

(F ) = {, , A, B, A B, Ac , B c , Ac B c = (A B )c } .
 Si A et B sont deux sous-ensembles non disjoints de et F = {A, B }, alors la tribu (F ) est plus dicile dcrire. On peut arriver dcrire cette tribu l'aide des vnements B \ A, A \ B , A B et (A B )c qui sont disjoints deux deux et dont la runion est . En eet la tribu sera alors compose de toutes les runions possibles entre ces lments et le nombre d'lments composant la tribu est
4 k=0

4 k

= 16. Ces 16 lments sont

, A B c , B Ac , Ac B c , A B, A, B, AB, (AB )c , Ac , B c , Ac B, B c A, Ac B c , A B, ,
avec AB = (A \ B ) (B \ A) qui est appel la dirence symtrique de A et de B .

Exemple fondamental : la tribu borlienne sur R.

Posons F = {[a, b]/a, b R}. Autrement dit, F est l'ensemble de tous les intervalles ferms et borns de R. Alors la tribu (F ) est aussi note B (R) et est appele tribu Borlienne sur R. Les lments de B (R) (qui sont des parties de R) sont appels des borliens. La tribu B (R) est trs riche : la dnition d'une tribu entrane que tous les intervalles de R sont contenus dans B (R), mais aussi tous les ensembles dnombrables {x1 , x2 , . . .} (en particulier N, Z ou encore Q) et donc ensuite n'importe quelle intersection ou runion nie ou innie dnombrable constitue l'aide de ces ensembles. On peut quand mme montrer (bien que cela soit dlicat) qu'il existe des parties de R qui n'appartiennent pas B (R). Sur la tribu d'vnements B (R), il est possible de construire les probabilits dtes densit. Ces probabilits densit ne peuvent tre dnies sur P (R), d'o l'importance de la tribu Borlienne. On dnit aussi une tribu Borlienne sur un intervalle I de R : B (I ) = {A I/A B (R)}. On peut montrer que pour un intervalle I de R, la tribu B (I ) concide avec la tribu engendre par l'ensemble des intervalles ferms borns inclus dans I . 6

Produit d'espaces probabilisables.

Considrons pour i = 1, . . . , d, un espace probabilisable (i , Ai ). Sur l'univers = 1 2 d , on dnit la tribu produit par

A = ({A1 A2 Ad /A1 A1 , . . . , Ad Ad }) .
La tribu produit est donc la tribu engendre par tous les produits cartsiens de la forme A1 Ad avec Ai Ai , 1 i d. Un exemple fondamental est la tribu borlienne sur Rd : en considrant i = R et Ai = B (R) pour 1 i d, la tribu tribu produit est appele la tribu borlienne sur Rd et est note B Rd . On peut montrer que B Rd est aussi la tribu engendre par les pavs ferms borns (c'est dire les ensembles de la forme [a1 , b1 ] [a2 , b2 ] [ad , bd ]). La tribu B (Rd ) est aussi trs riche car elle contient tout un tas de parties de Rd cause des proprits de stabilit de la Dnition 1. On peut y trouver tous les pavs de Rd (dont les intervalles sont ferms ou pas en leurs extrmits), tous les ensembles nis ou inni dnombrables, tous les ensembles dnis par des quations du type g (x) = 0 ou g (x) > 0 avec g : Rd R continue (en particulier un cercle ou un disque de R2 appartiennent B (R2 )) et des ensembles beaucoup plus irrguliers. C'est sur cette tribu d'venements que sont dnies les mesures de probabilits densit (sur Rd ) que nous verrons en dtail au Chapitre 3.

Produit inni d'espaces.

Lorsqu'on souhaite par exemple tudier la suite (nie) des prix d'un actif nancier, il arrive souvent que l'on ne puisse obtenir des rsultats sur le comportement statistique de cette suite que lorsque son nombre d'lments tend vers l'inni. Du point de vue de la modlisation probabiliste, il est alors ncessaire de dnir un univers comme un sousensemble de l'ensemble des suites de nombres rels. Ceci conduit la notion de produit inni d'espaces mesurables (i , Ai ), i N. L'univers = 0 1 est alors muni de la tribu engendre par l'ensemble C des cylindres : un cylindre C est un sous-ensemble de de la forme

C = { /0 A0 , 1 A1 , . . . , n An } ,
o n N et Ai Ai si 1 i n. Lorsque pour i N, i = R et Ai = B (R), la tribu (C ) contient par exemple les venements :  ensemble des suites qui franchissent le niveau a :
+ n=0 {x/xn a}.

 ensemble des suites qui ont pour limite le rel a :


+ + + k=1 N =1 n=N

x / |xn a|

1 k

Cette tribu, appele tribu cylindrique, est en particulier utilise pour la construction des suites de variables alatoires indpendantes.
1.2 Mesures de probabilits

Dnition 3

probabilit si 1. P() = 1. 2. Si (Ai )iN est une suite d'venements de A deux deux disjoints (c'est dire Ai Aj = si i = j ) alors

Soit (, A) un espace probabilisable. On dit que P : A [0, 1] est une mesure de

P (iN Ai ) =
i=0

P(Ai ).

Cette deuxime proprit est appele la proprit de additivit.


7

Si A A, le nombre P(A) est appel probabilit de l'venement A.

Remarques

 Soit (Ai )iN une famille d'lments de A disjoints deux deux. Posons A = iN Ai . Si : N N est une permutation de N, alors on a aussi l'galit

A = iN A(i) .
Pour que la dnition prcdente ait un sens, il faut que

P(Ai ) =
i=0 i=0

P A ( i) .

(1.1)

Mais cette galit est automatiquement vrie car si P est une mesure de probabilit, la srie i=0 P(Ai ) est absolument convergente et de somme P(A). Une srie absolument convergente tant commutativement convergente (on rappelle qu'une srie iN xi est dite commutativement convergente si elle est convergente et si sa somme concide avec celle de + la srie i=0 x (i) pour toute permutation de N), l'galit (1.1) est bien vrie. Mentionnons galement que pour toute srie de terme gnral xi positif, la limite limN N i=1 xi existe et est soit nie soit gale +. Cette limite est encore appele la somme de la srie. Une srie termes positifs est aussi commutativement convergente.  Remarquons que cette dnition entraine automatiquement l'galit P () = 0. En eet, il sut d'appliquer le point 2. de la dnition en posant Ai = pour tout i N : l'galit

P () =

P () entraine ncessairement l'galit P () = 0.

 Soient des lments de A disjoints deux deux. En posant Ai = si i > n ou si i = 0 et en utilisant la remarque prcdente, la proprit de additivit entraine l'galit
n

i=0 A1 , . . . , An

P (n i=1 Ai ) =
i=1

P(Ai ).

On dit alors que P vrie la proprit d'addivit.

Dnition 4 On appelle espace probabilis tout triplet (, A, P) o (, A) est un espace probabilisable et P est une mesure de probabilit sur A.
Sur tout espace probabilisable (, A), on peut construire des mesures de probabilit lmentaires : les masses de Dirac. Plus prcisment, si 0 , considrons 0 l'application dnie sur A par 1 si 0 A, 0 (A) = , A A. 0 sinon Alors 0 est une mesure de probabilit appele masse de Dirac au point 0 (vrier la dnition titre d'exercice). Remarquons que si {0 } A alors 0 ({0 }) = 1. Cette mesure de probabilit a peu d'intrt en modlisation (l'venement {0 } est certain) et permettra surtout d'crire d'autres mesures de probabilit plus intressantes.
1.2.1 Les mesures de probabilit discrtes.

Soient (xi )iN une suite de points de Rd et (pi )iN une suite de nombres rels positifs de somme 1. Posons = {xi : i N} et A = P (). Alors sur l'espace probabilisable (, A), il existe une unique mesure de probabilit P telle que
P ({xi }) = pi ,
8

Proposition 1

i N.

Pour tout A A, on a alors


P(A) =

1A (xi ) pi ,
i=0

o 1A : Rd {0, 1} est la fonction dite indicatrice de A et qui est dne par 1A (x) = 1 si x A et 1A (x) = 0 si x Ac .
Avec les notations de la proposition prcdente, on peut noter que

1A (xi ) pi =
i=0 i=0

xi (A)pi ,

ce qui justie la notation P =

i=0 pi i .

Preuve.

Si P est une mesure de probabilit telle que P ({xi }) = pi pour tout i N, alors en posant Ai = {xi } si xi A et Ai = si i / A, on a ncessairement

P(A) = P (iN Ai ) =
i=0

P (Ai ) =
i=0

1A (xi )pi .

(1.2)

L'unicit d'une telle mesure de probabilit est donc claire. Montrons alors si P : A [0, 1] est dnie pour tout A A par (1.2) alors P est bien une mesure de probabilit. P prend des valeurs dans [0, 1] puisque 0 P(A) i=0 pi = 1 pour tout A A. On a ensuite d'abord 1 p = 1 . Vrions la proprit de additivit. Soit (An )nN est une suite P() = i i=0 d'lments de A deux deux disjoints. Posons A = nN An . On peut remarquer l'galit

1A =
n=0

1An .

Ainsi on obtient

P(A) =
i=0 n=0

1An (xi ) pi =
n=0 i=0

1An (xi ) pi =
n=0

P(An ).

(1.3)

L'inversion des sommes dans (1.3) est justie grce au Thorme de Fubini (cf Thorme 2 nonc au Chapitre 2).

Exemples

1 , 1 i n.  Lorsque = {1, . . . , n}, la loi uniforme sur est dnie par P ({i}) = n  Lorsque = {0, . . . , n}, la loi binomiale de paramtre (n, p) (0 < p < 1) est dnie par

P ({i}) =

n i p (1 p)ni , p

0 i n.

 Lorsque = N, la loi de Poisson de paramtre > 0 est dnie par

P ({i}) = exp()

i , i!

i N.

Remarquons que toute mesure de probabilit discrte P sur un sous-ensemble ni ou inni dnombrable 0 de Rd (e.g 0 = N) peut tre vue comme une mesure de probabilit sur = Rd muni de la tribu des borliens. En eet, notons que P (0 ) B (Rd ), et en posant P(A) = P (A 0 ) pour A B Rd , on dnit une mesure de probabilit P sur Rd , B (Rd ) qui prolonge P . Cette observation justie alors la dnition suivante. 9

Dnition 5

On dira qu'une mesure de probabilit P sur Rd , B(Rd ) est discrte s'il existe un sous-ensemble E de Rd ni ou inni dnombrable tel que P(E ) = 1.
Le chapitre 2 sera consacr plus en dtail aux mesures de probabilit discrtes.
1.2.2 Les mesures de probabilit densit sur un intervalle de

Pour construire les mesures de probabilit densit sur R, la tche est plus dlicate. Certaines dicults mathmatiques rendent impossible la dnition de ce type de probabilit sur la tribu d'venement P (R) (ensemble de toutes les partie de R). On est oblig de se restreindre la tribu des borliens. Mais mme avec cette restriction, il faut un bagage mathmatique supplmentaire (l'intgrale de Lebesgue que nous discuterons un peu au Chapitre 3) pour pouvoir dnir correctement ce type de mesure de probabilit. Cependant l'nonc du thorme suivant met en lumire un principe assez gnral concernant la dnition des mesures de probabilit : on dnit une application P sur l'ensemble des intervalles ferms borns et on montre ensuite ( l'aide de thormes appropris) que P se prolonge de manire unique la tribu engendre par les intervalles, c'est dire la tribu des borliens.

Thorme 1 Si I est un intervalle de R et f : I R+ une fonction intgrable. Alors sur = I muni de la tribu des Borliens A = B (I ), il existe une unique mesure de probabilit P dnie sur A et telle que
b

P ([a, b]) =
a

f (x)dx,

a, b I.

(1.4)

On dit que P est une mesure de probabilit de densit f sur (, A).


Contrairement aux mesures de probabilit discrtes, toute mesure P densit vrie P ({x}) = 0 pour tout x. L'utilisation de ce type de mesures de probabilit se justie en pratique par la nature du phnomne observ : par exemple, si on observe des dures de vie d'appareils lectriques du mme type, les frquences d'apparition d'une dure de vie donne seront quasi nulles. On prfre plutt prciser les probabilits qu'une dure de vie se situe dans un intervalle l'aide d'une densit f : la valeur P ([a, b]) s'interprte alors comme l'aire de la partie situe sous la courbe reprsentative de f et entre les droites d'quations x = a et x = b (voir Figure 1.1). Lorsque c et d sont deux rels tels que c < d, et si f : [c, d] R+ est dnie par f (x) = pour x [c, d] alors on parle de mesure de probabilit uniforme sur l'intervalle [c, d]. On a alors
1 dc

Cas particulier.

P ([a, b]) =

ba , dc

c a b d.
2

D'autres exemples bien connues : lorsque I = R et f est dnie par f (x) = 1 exp x 2 2 on parle de distribution gaussienne centre rduite, lorsque I = R+ et f est dnie par f (x) = exp(x) on parle de distribution exponentielle de paramtre ( dsigne un rel strictement positif).

Remarque.

Une mesure de probabilit densit sur un intervalle I de R peut tre vue comme une mesure de probabilit sur (R, B (R)) : il sut de prolonger la densit f en dehors de I en posant f (x) = 0 si x / I . On utilisera alors la notation (abusive) f 1I pour dsigner la densit. 10

Fig.

1.1: L'aire en rouge reprsente la probabilit P ([a, b])

1.2.3

Cas mixte. Mlange

On peut considrer d'autres exemples de mesures de probabilits sur R en considrant des combinaisons convexes de mesures de probabilit discrtes et/ou densit. La preuve de la proposition suivante est immdiate.

Proposition 2 Toute combinaison convexe de mesures de probabilits sur (, A) est encore une mesure de probabilit. Autrement dit si p [0, 1] et Q1 , Q2 sont deux mesures de probabilits sur (, A) alors l'application P = pQ1 + (1 p)Q2 dnie par P(A) = pQ1 (A) + (1 p)Q2 (A) pour A A est une mesure de probabilit sur A. Exemples
 Si Q1 et Q2 sont deux mesures de probabilit de densits respectives f1 : R R et f2 : R R et p [0, 1], alors la probabilit P = pQ1 + (1 p)Q2 est une mesure de probabilit densit. La densit f est alors donne par la combinaison convexe correspondante des densits : f = pf1 + (1 p)f2 . On parle de densit mlange. Un mlange de loi permet de construire de nouvelles distributions empruntant les traits de plusieurs distributions lmentaires.  On peut construire des mesures de probabilit dites mixtes qui ont une partie discrte et une partie densit. Par exemple, considrons le temps d'attente d'un client qui arrive un guichet. Il se peut que ce temps soit nul ou strictement positif. Une solution pour tudier cette exprience est de considrer l'espace probabilis (, A, P) avec = [0, +[, A = B ([0, +[) et P = p0 + (1 p)Q o p ]0, 1[ et Q est la distribution exponentielle de paramtre > 0. Ainsi P({0}) = p ({0}) + (1 p)Q({0}) = p et si [a, b] est un intervalle de R+ avec a > 0, on a
b

P ([a, b]) = (1 p)
a

exp(x)dx.

Cet exemple est un cas particulier de mesure de probabilit de la forme P = pQ1 +(1 p)Q2 o Q1 est une mesure de probabilit discrte et Q2 une mesure de probabilit densit. 11

Remarque.

La Dnition 3 permet en fait la construction de mesure de probabilits qui ne possde ni une partie discrte ni une partie densit. Pour ce type d'exemple, on aura P ({x}) = 0 pout tout x Rd sans qu'il existe une densit. Dans le Chapitre 3, nous prsenterons un exemple de ce type pour illustrer cette remarque.
1.2.4 Proprits des mesures de probabilit

Voici maintenant des proprits fondamentales des mesures de probabilit.

Proposition 3

Soit (, A, P) un espace probabilis. On a 1. Si A A, on a P(A) + P (Ac ) = 1. 2. Si A et B sont deux venements tels que A B , alors P(A) P(B ) et P (B \ A) = P(B ) P(A). 3. Si A et B sont deux venements, alors
P (A B ) + P (A B ) = P(A) + P(B ).

4. Pour toute suite (An )nI d'venements (I = N ou [[1, N ]]) on a l'ingalit


P (nI An )
nI

P(An ).

5. Si I = N ou [[1, N ]] et (An )nI est un systme complet d'venements (i.e disjoints deux deux et de runion ) alors P(A) = P (A Ai ) .
i I

Cette dernire formule est connue sous le nom de formule des probabilits totales.

Preuve
1. Les deux venements A et B \ A sont disjoints et de runion B . On a donc

P(B ) = P (A (B \ A)) = P(A) + P (B \ A) .


On en dduit que P (B \ A) = P(B ) P(A). Comme une probabilit est toujours positive, on en dduit galement que P(B ) P(A). 2. Les trois vnements A \ B , B \ A et A B sont disjoints deux deux et leur runion est A B . On en dduit que

P (A B ) = P(A \ B ) + P(B \ A) + P(A B ).


Vu que les venements A \ B et A B d'une part et les venements B \ A et A B d'autre part sont didsjoints et de runion A et B respectivement, on en dduit

P(A B ) + P(A B ) = P(A \ B ) + P(A B ) + P(B \ A) + P(A B ) = P(A) + P(B ).


n1 3. Posons B0 = A0 et pour n N , Bn = An \i =0 Ai . Alors les venements Bn sont disjoints deux deux et on peut vrier l'galit

nN Bn = nN An .
De plus comme Bn An , on a P(Bn ) P(An ). Si A = nN An , on conclut que

P(A) =
nN

P(Bn )
nN

P(An ),

ce qui prouve l'ingalit annonce. 12

4. Il sut d'appliquer la proprit d'additivit ou de additivit aux venements Bn = A An , n I qui sont disjoints deux deux et de runion A.

Proposition 4

Soit (An )nN une suite d'venements.

1. Si la suite est croissante au sens de l'inclusion, c'est dire An An+1 pour tout n, alors en posant A = nN An , on a P(A) = lim P(An ).
n+

2. Si la suite est dcroissante au sens de l'inclusion, c'est dire An+1 An pour tout n, alors en posant A = nN An , on a galement
P(A) = lim P(An ).
n+

Remarque.

On peut voir ces rsultats comme des rsultats de continuit : la proprit 1. est d'ailleurs appele proprit de continuit suprieure et la proprit 2. proprit de continuit infrieure. Par exemple, pour toute mesure de probabilit P sur R muni de la tribu B (R), la Proposition 4 permet d'crire :

n+

lim P [1 + lim P [1

1 1 ,1 ] n n 1 1 ,1 + ] n n

= P (] 1, 1[) , = P ([1, 1]) .

n+

La Proposition 4 sera dmontre en TD.

1.2.5

Indpendance d'venements

La dnition de l'indpendance entre venements est fondamentale dans la thorie des probabilits.

Dnition 6

 On dit que A et B sont deux venements indpendants si


P(A B ) = P(A)P(B ).

 On dit qu'une famille d'venements {Ai /i I } (I est un ensemble quelconque) est indpendante si pour tout k N et pour tout k uplet (j1 , . . . , jk ) d'lements distincts de I :
k

P (Aj1 Aj2 . . . Ajk ) =


i=1

P (Aji ) .

Considrons l'exemple du lancer de deux ds en posant = [[1, 6]]2 , A = P () et 1 P la mesure de probabilit discrte dnie par P({1 , 2 )} = 36 . Alors pour toute partie A de Si A dsigne l'venement "le premier d donne 6" et B dsigne l'venement "le deuxime d donne 6", alors A = {6} [[1, 6]], B [[1, 6]] {6} et A B = {6} {6}. On a

Exemple.

, on a P(A) =

|A | 36 .

1 1 1 = P(A B ) = = P(A)P(B ). 36 6 6
Les venements A et B sont indpendants. 13

1.3

Les variables alatoires

On se donne un espace probabilis (, A, P).

Dnition 7

1. On dit qu'une application X : R est une variable alatoire si pour tout couple (a, b) de nombres rels tels que a b :
{ /a X ( ) b} A, a b.

2. On dit qu'une application X : Rd dnie par X ( ) = (X1 ( ), . . . , Xd ( )) est une variable alatoire si pour 1 i n, Xi est une variable alatoire relle.
Cette dnition semble naturelle car pour calculer la probabilit de l'ensemble { /a X ( ) b} (si X dsigne une variable alatoire relle), il faut que ce dernier soit bien un venement. En pratique, cette dnition est assez gnrale : les fonctions rencontres seront toujours des variables alatoires lorsque la tribu A est correctement choisie. On pourra en fait calculer la probabilit qu'une variable alatoire appartienne n'importe quel Borlien, comme le montre la proposition suivante.

Proposition 5

Si X : Rd est une variable alatoire, alors pour tout B B(Rd ),


{ /X ( ) B } A.

Notation.

Dans la suite, un venement du type { /X ( ) B } sera not en abrg {X B }. Une autre notation que nous n'utiliserons pas souvent est X 1 (B ) (image rciproque de B par X ).

Remarque.

Il est alors facile de montrer qu'une fonction X : Rd est une variable alatoire si et seulement si {X B } A pour tout B B Rd (vrier la condition susante en prenant pour B des produits cartsiens bien choisis).

Preuve de la proposition.

Posons

M = B B Rd / {X B } A .
On peut vrier que M est une tribu (exercice). Cette tribu contient les pavs ferms de Rd : en eet comme X est une variable alatoire, on a si P = [a1 , b1 ] [ad , bd ] :

{X P } = d i=1 {Xi [ai , bi ]} A,


en utilisant la stabilit de la tribu par intersection nie. Comme B (Rd ) est la plus petite tribu contenant les pavs, on conclut que B (Rd ) M (on a en fait l'galit car M B (Rd )). D'o le rsultat par dnition de M.

Exemples de variables alatoires :

 Si A A, on note 1A la fonction indicatrice de l'venement A. Cette fonction est dnie par 1A ( ) = 1 si A et 1A ( ) = 0 sinon. Cette fonction est une variable alatoire valeurs dans {0, 1}. Pour le justier, il sut d'observer que {a 1A b} est gal , , A ou Ac suivant le choix du couple (a, b). 14

 Soit X : Rd une fonction telle que X () soit un ensemble ni ou inni dnombrable de Rd : X () = {x1 , x2 , . . .} pour une suite x1 , x2 , . . . de points de Rd . Alors X est une variable alatoire si et seulement si pour tout i,

{X = xi } A.
En eet, si a et b sont deux rels tels que a b et J = {i N/xi [a, b]}, alors J est un ensemble ni ou inni dnombrable et on a

{a X ( ) b} = iJ {X ( ) = xi } .
Dans ce cas, on dit que X est une variable alatoire discrte. Remarquons qu'en posant Ai = {X = xi } pour i N , on a la dcomposition

X ( ) =
i=1

xi 1Ai ( ),

 Soit un espace probabilis produit (, A, P) avec = 1 n et o i = Rdi pour 1 i n. est muni de la tribu produit

A = B Rd1 B Rdn ,
tribu qui s'identie en fait la tribu borlienne sur Rd1 +...+dn . Alors les applications coordonnes X1 , . . . , Xn dnies par

Xi ( ) = i ,

= (1 , . . . , n ) ,

1 i d,

sont des variables alatoires. En eet si Bi B Rdi , on a, en posant Ei = Bi et Ej = j pour j = i :


n

{Xi Bi } =
j =1

Ej A.

 Il est parfois intressant de considrer des variables alatoires relles pouvant prendre la valeur + (la dnition reste inchange). Donnons un exemple en considrant = RN que l'on munit de la tribu cylindrique et dnissons pour i N l'application coordonne Xi par Xi ( ) = i , . Xi est une variable alatoire. Soit alors

T ( ) = inf {i 0 : Xi a} ,
avec la convention T ( ) = + si {i 0 : Xi a} = . Alors T est une variable alatoire discrte. En eet, on peut crire si n N :
1 {T = n} = n i=0 {Xi < a} {Xn a} .

Ainsi {T = n} A car il s'agit d'une intersection nie d'venements. Si on s'intresse la suite des prix d'un actif nancier, T reprsente le premier instant o le prix de cet actif dpasse le seuil a.

Dnition 8
dnie par

Soit X : Rd une variable alatoire. Alors l'application PX : B(Rd ) [0, 1]


PX (B ) = P (X B ) , B B (Rd ),

est une mesure de probabilit appele la loi de X sous P.


15

On pourra titre d'exercice vrier que l'application PX de la dnition prcdente est bien une mesure de probabilit. Ainsi dnir la loi d'une variable alatoire X reviendra dnir la mesure de probabilit PX . En particulier, nous utiliserons la terminologie suivante.

Dnition 9
PX

1. On dira qu'une variable alatoire X est une variable alatoire discrte lorsque est une mesure de probabilit discrte.

2. On dira qu'une variable alatoire X suit une loi densit et de densit f sur R si PX est une mesure de probabilit de densit f (ainsi si a b, on aura PX ([a, b]) = P (a X b) = b a f (x)dx.)

Exemples
 Supposons que X soit une variable alatoire constante (c'est dire qu'il existe c Rd tel que X ( ) = c pour tout ). Alors on a PX = c (masse de Dirac au point c).  Pour le lancer de deux ds quilibrs, on pose = [[1, 6]]2 , A = P () et P la mesure de 1 probabilit discrte dnie par P ({ }) = 36 , . Alors si X1 ( ) = 1 et X2 ( ) = 2 , alors PX1 ou PX2 est la probabilit uniforme sur [[1, 6]] et P(X1 ,X2 ) = P.  Pour une variable alatoire discrte, il n'est utile de prciser que les probabilits non nulles du type P (X = x). Par exemple soit X = i=1 xi 1Ai o (xi )i1 est une suite de points de d R et (Ai )i1 une suite d'lments de A disjoints deux deux. Alors en posant pi = P (Ai ), on a l'galit

PX =
i=1

pi xi .

 Pour une variable alatoire densit, il sut de prciser la densit. Supposons par exemple que = R et P est la distribution exponentielle de paramtre 1. Posons X ( ) = 2 , pour tout . Soient alors (a, b) R2 tel que 0 a b. Alors, on a

P (a X b) = P [ a, b] =

exp(t)dt =
a a

2u exp(u2 )du,

la dernire galit se dduisant du changement de variable u = t2 dans l'intgrale. Ainsi, X suit une loi densit fX donne par

fX (u) = 2u exp u2 1R+ (u).


En pratique, il arrive souvent que l'on dnisse des lois de variables alatoires sans mme dnir explicitement le triplet (, A, P). En fait, on dnira souvent PX sans dnir P car seule la probabilit PX nous intressera. Ceci est li au fait qu'on supposera le rsultat (x1 , . . . , xd ) Rd d'une exprience alatoire comme tant la ralisation X ( ) d'une variable alatoire. On dnit alors la loi Q de X , qui est celle permettant d'tudier cette exprience. Il existe toujours un espace probabilis (, A, P) naturel associ : on peut poser = Rd , X ( ) = et P = Q (ce qui entraine PX = P = Q). Toute loi de probabilit sur Rd est donc la loi d'une variable alatoire dnit sur un espace probabilis. Adopter ce point de vue est souvent plus commode car plus conome en terme de description. Nous y reviendrons. 16

Remarque fondamentale concernant la description d'une exprience alatoire.

1.4

L'esprance mathmatique

La dnition de l'esprance mathmatique d'une variable alatoire, on parle aussi de moyenne d'une variable alatoire, peut se faire uniquement partir la dnition donne pour une variable alatoire discrte support ni.

Dnition 10

Si X est une variable alatoire valeurs relles avec X () = {x1 , . . . , xn } et P(X = xi ) = pi pour i = 1, . . . , n, on dnit
n

E(X ) =
i=1

xi p i .

E(X ) est appele esprance de X .


Cette dnition correspond bien l'intuition de l'approche frquentiste : s'il est possible d'observer une quantit plusieurs reprises, il est naturel de dnir empiriquement la moyenne en pondrant les valeurs possibles par leur frquence d'apparition. Dans la modlisation probabiliste, ces frquences sont remplaces par des probabilits. Considrons maintenant une variable alatoire positive quelconque. Si on reproduisait plusieurs fois la mme exprience qui aboutirait l'observation d'une valeur de cette variable, il est naturel de regrouper les valeurs possibles en direntes classes (par exemple [0, h[, [h, 2h[, . . .) pour ritrer l'approche faite en discret : on regarde le nombre de fois o la valeur de la variable tombe dans une classe donne. A la quantit k0 khfk o fk est la frquence d'apparition de la classe [kh, (k + 1)h[, correspondrait le nombre k0 khP(kh X < (k + 1)h) qui devrait donner une ide de plus en plus prcise de la valeur moyenne lorsque h 0. Il y a l l'ide d'approcher une variable alatoire quelconque par une variable alatoire discrte. L'approche mathmatique pour dnir l'esprance d'une variable alatoire est aussi base sur l'approximation d'une variable alatoire par une variable alatoire discrte (suivant une approche qui permet galement de rpondre d'autres exigences thoriques que nous n'voquerons pas).
1.4.1 Esprance d'une variable alatoire positive

Dans la suite, nous noterons D+ l'ensemble des variables alatoires positives et qui ne prennent qu'un nombre ni de valeurs. Commenons par noncer la proposition suivante.

Proposition 6

Soit X une variable alatoire valeurs relles positives. Pour n N, soit


22n 1

Xn =
k=0

k 1 k k+1 . 2n { 2n X< 2n }

Alors (Xn )nN est une suite croissante d'lments de D+ qui converge point par point vers la variable alatoire X .

Preuve.
Ainsi

Commenons par montrer que pour tout , on a limn Xn ( ) = X ( ). Soit et > 0. Soit galement n0 tel que n n0 entraine X ( ) < 2n . Alors si n n0 , il existe k+1 k k [[0, 22n 1]] tel que 2k n X ( ) < 2n et donc Xn ( ) = 2n (remarquer que k dpend de n).

|Xn ( ) X ( )|

k < , 2n

n n0 ,

ce qui montre la convergence. L'autre point non trivial est la croissance de la suite que nous allons dmontrer. Soit et n N. Si X ( ) 2n , alors Xn ( ) = 0 et donc Xn ( ) Xn+1 ( ). Si 17

k+1 2k 2k+1 maintenant il existe k [[0, 22n 1]] tel que 2k n X ( ) < 2n , alors on a 2n+1 X ( ) < 2n 2k k+1 2k+2 k et ou bien X ( ) = ou 2 X ( ) < . Dans ce cas on a X ( ) = ou bien n n +1 n n +1 n +1 n +1 2 2 2 2 k+1 Xn+1 ( ) = 2 . Ceci prouve bien que l'on a toujours X ( ) X ( ) . n n +1 n +1 2

Remarque.

La variable alatoire Xn dnie dans la Proposition 6 prend la valeur 2k n lorsque k k+1 2n X ( ) < 2n . Lorsque = R+ , la gure 1.2 reprsente le graphe d'une fonction X ainsi que les graphes de X1 , X2 et X3 (ces fonctions sont constantes par morceaux pour la fonction X considre).

Fig.

1.2:

Lemme 1 Preuve.

Soient Y et Z deux lments de D+ . On suppose X Y (i.e pour tout , Y ( ) Z ( )). Alors E(Y ) E(Z ).
Quitte rajouter des valeurs, on peut supposer que Y et Z prennent toutes les deux les valeurs x1 < x2 < . . . < xk (dont peut-tre certaines avec probabilit 0). Comme Y Z , alors pour 1 i n, on a

{Y = xi } = n j =i {Y = xi , Z = xj }
18

et la runion est forme d'venements disjoints deux deux. En utilisant la proprit d'additivit de la mesure P, on obtient
n n n

E(Y ) =
i=1

xi P (Y = xi ) =
i=1

xi
j =i

P (Y = xi , Z = xj ) .

Mais
n n n n

xi
i=1 j =i

P (Y = xi , Z = xj ) =
i=1 n

xi
j =1 j

1ij P (Y = xi , Z = xj )

=
j =1 i=1 n

P (Y = xi , Z = xj )
j

j =1 n

xj
i=1

P (Y = xi , Z = xj )

=
j =1

xj P(Z = xj )

= E(Z ).
On a donc bien E(Y ) E(Z ). Le lemme suivant sera capital pour justier la dnition de l'esprance.

Lemme 2
n

Soient X D+ et (Yn )n une suite croissante d'lements de D+ telle que X lim Yn . Alors
E(X ) lim E(Yn ).
n+

Preuve.

Soit 0 t < 1. Posons si n N, Bn = {Yn tX }. On peut facilement vrier que sous les hypothses du lemme, la suite d'venements (Bn )n est croissante pour l'inclusion et de runion . En utilisant le lemme prcdent, on a les ingalits

E (tX 1Bn ) E (Yn 1Bn ) E(Yn ).


Remarquons ensuite que si X =
p i=1 xi 1X =xi , p

(1.5) alors

E (tX 1Bn ) = t
i=1

xi P ({X = xi } Bn ) .

En utilisant la proprit de continuit suprieure de P, on obtient en faisant tendre n vers + :


p n

lim E (tX 1Bn ) = t


i=1

xi P (X = xi ) = tE(X ).

En passant la limite dans (1.5), nous obtenons

tE(X ) lim E(Yn ),


n

ce qui donne l'ingalit que nous devions prouver en faisant tendre t vers 1.

Nous sommes alors en mesure de dnir l'esprance d'une variable alatoire positive. 19

Proposition-Dnition 1

Soit X une variable alatoire positive et (Xn )nN une suite croissante de variables alatoires de D+ et convergeante point par point vers X , alors la quantit limn+ E(Xn ) (qui est bien dnie en tant que limite d'une suite croissante et qui peut valoir +) ne dpend pas de la suite (Xn )nN . Ce nombre est appel esprance mathmatique de X et est not E(X ).

Preuve.

Si (Xn )n et (Xn )n sont deux suites de variables alatoires qui satisfont les hypothses de la proposition, alors le Lemme 2 assure que

E(Xp ) lim E(Xn ),


n

ce qui entraine
n

lim E(Xn ) lim E(Xn ).


n

En inversant le rle de la suite (Xn ) et (Xn ), on voit que l'ingalit inverse est galement valable et donc que lim E(Xn ) = lim E(Xn ), ce qui justie la dnition donne de l'intgrale.
n n

Exemples

 Si X est une variable alatoire discrte telle que X () N. Plutt que d'utiliser la suite n croissante donne dans la Proposition 6, on peut utiliser ici Xn = i=0 i1{X =i} , ce qui donne :
n

E(X ) = lim E(Xn ) = lim


n+

n+

iP(X = i) =
i=0 i N

P(X = i).

 Si X est une variable alatoire densit, de densit f : R+ R+ , on a en utilisant la Proposition 6


22n 1

E(X ) = lim

n+

k=0

k P 2n

k k+1 X< 2n 2n

2 2n 1

= lim

k+1 2n k 2n

n+

k=0 +

k f (x)dx. 2n

On pourra vrier titre d'exercice que la limite obtenue est 0


1.4.2

f (x)dx.

Esprance d'une variable alatoire de signe quelconque et proprits

Soit X une variable alatoire prenant des valeurs relles. La partie positive de X est la variable alatoire note X + dnie par

X + ( ) =

X ( ) si X ( ) 0, 0 sinon.

Remarquons que X + = X 1X 0 . De mme la partie ngative X de X est dnie par X = X 1X 0 . On peut voir que les variables alatoires X + et X sont valeurs positives et satisfont les galits :

X = X + X ,

|X | = X + + X .

On dit qu'une variable alatoire X : R est intgrable lorsque E (X + ) < + et E (X ) < + (ce qui peut se rsumer par E (|X |) < +, voir la proposition suivante). Dans ce cas, l'esprance de la variable alatoire X est dnie par
E(X ) = E X + E X .
20

Dnition 11

En utilisant la Proposition 6, on retrouve alors les formules dj connues de la moyenne pour des variables alatoires discrtes ou densit (pouvant prendre des valeurs positives ou ngatives).  Soit X une variable alatoire discrte valeurs relles et posons val(X ) = {x R : P(X = x) = 0} = {x1 , x2 , . . .}, qui est un sous-ensemble ni ou inni dnombrable de R. Alors, on peut montrer que

E X

=
i=1

xi 1xi >0 P (X = xi ) ,

E X
De plus, on a les galits :

=
i=1

xi 1xi <0 P (X = xi ) .

E X+ + E X =
i 1

|xi |P (X = xi ) ,

et la somme de cette srie correspond aussi E (|X |). Lorsque cette somme est nie, l'esprance de X est donne par la formule

E(X ) =
i=1

xi P (X = xi ) .

Il est important de rappeler que pour une srie termes positifs ou absolument convergente, il est possible de sommer sans ambigut en utilisant une numration quelconque.  Si X est une variable alatoire dont la loi a une densit f dnie sur R. Alors on trouve,
+

E X+ =
0

xf (x)dx,
0

E X =

xf (x)dx.
+

Lorsque ces deux quantits sont nies, leur somme vaut |x|f (x)dx et concide avec E (|X |). Si cette dernire intgrale est nie, alors l'esprance de X est donne par la formule
+

E(X ) =

xf (x)dx.

On dnit galement l'esprance mathmatique des variables alatoires valeurs dans Rd . Si X = (X1 , . . . , Xd ) et si les variables alatoires X1 , . . . , Xd sont intgrables, on dit que X est intgrable et on dnit

E(X ) = (E(X1 ), . . . , E(Xd )) .


On a alors les proprits suivantes :

Proposition 7

Soient X et Y deux variables alatoires valeurs relles ou bien toutes deux positives ou bien toutes deux intgrables. Soit galement R. 1. La variable alatoire X est intgrable si et seulement si E (|X |) < +. De plus, on a
|E(X )| E (|X |) .
21

2. On a E (X + Y ) = E(X ) + E(Y ) et E (X ) = E(X ) (proprits de linarit). En particulier X + Y est intgrable si X et Y sont intgrables. 3. Si pour tout , X ( ) Y ( ), alors E(X ) E(Y ). 4. Si P (X = Y ) = 1 alors E(X ) = E(Y ). 5. Si X prend des valeurs positives, alors
E(X ) = 0 P(X = 0) = 1.

Preuve.

 Montrons d'abord que E(X + Y ) = E(X ) + E(Y ) lorsque X et Y sont valeurs positives et ne prennent qu'un nombre ni de valeurs notes {x1 , . . . , xm } et {y1 , . . . , yp } respectivement. On peut alors crire
m m p

X=
i=1

xi 1X =xi =
i=1 j =1

xi 1{X =xi ,Y =yj } .

En dcomposant aussi Y de cette faon, on peut crire


m p

X +Y =
i=1 j =1

(xi + yj ) 1{X =xi ,Y =yj } .

Par dnition de l'esprance applique aux variables discrtes X , Y et X + Y , on a


m p

E (X + Y ) =
i=1 j =1 m p

(xi + yj ) P (X = xi , Y = yj )
m p

=
i=1 j =1

xi P (X = xi , Y = yj ) +
i=1 j =1

yj P (X = xi , Y = yj )

= E(X ) + E(Y ).
Considrons maintenant le cas de deux variables alatoires positives X et Y quelconques. Soient alors deux suites croissantes (Xn )n et (Yn )n de variables alatoires de D+ et telles que pour tout ,
n+

lim Xn ( ) = X ( ),

n+

lim Yn ( ) = Y ( ).

On voit que la suite Zn = Xn + Yn est une suite croissante d'lments de D+ telle que
n+

lim Zn ( ) = X ( ) + Y ( ).

Ainsi, en utilisant l'galit E(Zn ) = E(Xn ) + E(Yn ) que nous avons prouve juste avant, on a par dnition de l'intgrale

E (X + Y ) = lim E(Zn ) = lim E(Xn ) + lim E(Yn ) = E(X ) + E(Y ).


n n n

 Montrons ensuite le point 3.. Supposons d'abord 0 X Y . Soit (Xn )n (resp. (Yn )n ) une suite croissante d'lments de D+ telle que limn Xn = X (resp. limn Yn = Y ). Alors si p N, on a Xp Y et le Lemme 2 guarantit que

E(Xp ) lim E(Yn ) = E(Y ).


n

En passant la limite sur p, on obtient E(X ) E(Y ). Si maintenant, X et Y sont de signe quelconque, alors X + Y + et Y X . D'aprs ce qui a t montr juste avant, on a

E(X ) = E(X + ) E(X ) E(Y + ) E(Y ) = E(Y ).


22

 Montrons ensuite que E(X + Y ) = E(X ) + E(Y ) pour des variables alatoires X et Y intgrables. On a (X + Y )+ X + + Y + et (X + Y ) X + Y ce qui entraine l'intgrabilit de X + Y en utilisant l'intgrabilit de X et de Y ainsi que la linarit de l'esprance pour les variables alatoires positives. On a alors les dcompositions

X + Y = (X + Y )+ (X + Y ) = X + + Y + X + Y ,
ce qui permet d'avoir

(X + Y )+ + X + Y = (X + Y ) + X + + Y + .
En prenant l'esprance dans cette galit et en utilisant la linarit de l'esprance pour les variables alatoires positives, on trouve

E (X + Y )+ + E(X ) + E(Y ) = E (X + Y ) + E(X + ) + E(Y + ).


On obtient alors E (X + Y ) = E(X ) + E(Y ).  Montrons la n du point 2.. Si X D+ et R+ , alors on a videmment E(X ) = E(X ). Si (Xn )n est une suite croissante d'lments de D+ convergeante point par point vers X alors (Xn )n est une suite croissante d'lments de D+ convergeante point par point vers X . On en dduit

E(X ) = lim E(Xn ) = lim E(Xn ) = E(X ).


n n

Si maintenant 0 et X est de signe quelconque (avec X intgrable) alors

X = X + X
et on a d'aprs ce qui prcde

E(X ) = E(X + ) E(X ) = E(X ).


On a le mme rsultat lorsque < 0 en crivant X = ()X ()X + (= (X )+ (X ) ) et en appliquant les rsultats dj tablis.  Prouvons maintenant le point 1. Alors l'intgrabilit de X quivaut celle de |X | car |X | = X + + X est intgrable si et seulement si X + et X sont intgrables. On a alors

|E(X )| = |E(X + ) E(X )| E(X + ) + E(X ) = E(|X |).


 Prouvons ensuite le point 5. Supposons d'abord que E(X ) = 0. Alors pour tout entier n 1,

X X 1X 1
n

1 1 1. n X n

1 1 Le point 3. assure que 0 = E(X ) n P Xn . En utilisant la continuit suprieure de la mesure, on obtient

P(X > 0) = lim P X


n+

1 n

=0

et donc P(X = 0) = 1 P(X > 0) = 1. Si maintenant P(X = 0) = 1, alors toute variable alatoire Y de D+ plus petite que X vrie P(Y = 0) = 1. Il sut alors de prouver que E(Y ) = 0 (ce qui entrainera E(X ) = 0 en utilisant la dnition de l'esprance). Si Y = p i=1 yi 1Y =yi alors on a yi = 0
p

si P(Y = yi ) > 0. On a donc bien E(Y ) =


i=1

yi P(Y = yi ) = 0.

23

 Prouvons enn le point 4. Si Y = 0 et X D+ alors le rsultat est une consquence du point 5. Si maintenant Y = 0 et et X est intgrable de signe quelconque, alors P (X + = 0) = P (X = 0) = 1. On a donc E(X ) = E(X + ) E(X ) = 0. Enn si X et Y sont deux variables alatoires intgrables, on a en notant A = {X = Y } l'galit X Y = (X Y )1A = Z avec P(Z = 0) = 1. D'aprs ce qui prcde, on a E(X Y ) = E(X ) E(Y ) = 0 ce qui entraine que E(X ) = E(Y ).

Remarques.

 Soient m et M deux nombres rels. La proposition prcdente montre en particuler que si X est une variable alatoire intgrable telle que X M (resp. X m) alors E(X ) M (resp. E(X ) m).  Commentons le point 4. Dire que P(X = Y ) = 1 ne signie pas que X ( ) = Y ( ) pour tout . Par exemple, considrons = [0, 1] muni de la probabilit uniforme. Posons X ( ) = et Y ( ) = si = 0.5, Y (0.5) = 0. Dans ce cas P(X = Y ) = P ([0, 1] \ {0.5}) = 1 et pourtant X (0.5) = Y (0.5). Souvent on dit que X = Y presque srement (en abrg p.s). Ainsi la valeur de l'esprance est inchange si on remplace une variable alatoire X par une variable Y qui lui est presque srement gale.

La variance d'une variable alatoire X valeurs relles relle mesure la dispersion de X autour de sa moyenne. Nous rappelons sa dnition.

Dnition 12

Lorsque une variable alatoire X vrie E(X 2 ) < + alors la variance de X est le rel positif not Var (X ) et dni par Var (X ) = E (X E(X ))2 = E(X 2 ) (E(X ))2 .
On peut vrier la deuxime galit de la dnition prcdente en dveloppant le carr et en utilisant les proprits de linarit de l'intgrale. Noter que E(X 2 ) < entraine que X est intgrable : en eet, on a l'ingalit |X | 1 + X 2 et donc

E(|X |) 1 + E(X 2 ) < .


Mentionnons enn que Var (X ) = 0 entraine (X E(X ))2 = 0 p.s en utilisant le point 5. de la proposition prcdente. On en dduit facilement que X = E(X ) presque srement.

24

Chapitre 2
Indpendance. Variables alatoires discrtes

Dans tout ce chapitre, on suppose donn un espace probabilis (, A, P).


2.1 Indpendance entre variables alatoires

Dnition 13

Des variables alatoires X1 , X2 , . . . , Xn valeurs dans Rd1 , Rd2 , . . . , Rdn respectivement sont dites indpendantes si
n

P (n i=1 {Xi Ai }) =
i=1

P (Xi Ai ) ,

pour tout (A1 , . . . , An ) B Rd1 B Rdn .


Nous utiliserons souvent la notation

P (X1 A1 , . . . , Xn An ) = P (n i=1 {Xi Ai })


dans la suite. On dnit galement l'indpendance d'une famille quelconque de variables alatoires (de cardinal inni) : une telle famille est dite indpendante si toute sous-famille nie est indpendante au sens de la dnition ci-dessus.

Remarques
1. Rappelons que de faon gnrale, nous qualions une variable alatoire X : Rd de discrte lorsque P(X E ) = 1 o E est un sous-ensemble ni ou inni dnombrable de Rd . Pour une variable alatoire X discrte, rappelons la notation val(X ) =

x Rd /P(X = x) = 0 ,

qui est un sous-ensemble ni ou inni dnombrable de Rd . Considrons alors n variables alatoires discrtes X1 , . . . , Xn . Dans ce cas, on peut montrer que les variables alatoires X1 , . . . , Xn sont indpendantes si et seulement si
n

P (X1 = x1 , . . . , Xn = xn ) =
i=1

P (Xi = xi ) ,

(x1 , . . . , xn ) val(X1 ) val(Xn ).

25

2. Si n variables alatoires sont indpendantes alors ces variables alatoires sont indpendantes deux deux. Pour le voir il sut de poser Ai = Rdi pour tous les indices i correspondants aux n 2 variables alatoires restantes. En revanche, il faut bien garder l'esprit que n variables alatoires indpendantes deux deux ne sont pas indpendantes au sens de la Dnition 13. On pourra vrier en exercice que si X1 et X2 sont deux variables alatoires discrtes indpendantes et de mme loi donne par

P(X1 = 1) = 1 P(X1 = 1) = P(X2 = 1) = 1 P(X2 = 1) =

1 2

et X3 = X1 X2 alors les variables alatoires X1 , X2 , X3 sont indpendantes deux deux mais pas au sens de la Dnition 13. Posons = {1, 2, . . . , N } muni de la probabilit uniforme, c'est dire P ({ }) = 1 . Alors les applications coordonnes X1 : 1 et X2 : 2 sont des variables alatoires N2 indpendantes et de mme loi uniforme sur l'ensemble 0 = {1, 2, . . . , N }.

Exemple.

On peut justier leur existence en utilisant la notion de mesure produit. Pour 1 i n, soit (i , Ai , Qi ) un espace probabilisable. Notons = 1 d et munissons de la tribu produit A (voir Chapitre 1). Alors nous admettrons le rsultat suivant

Existence d'un

nuplet

de variables alatoires indpendantes et de lois donnes.

telle que

Proposition 8

Sur l'espace probabilisable (, A), il existe une unique mesure de probabilit P


P (A1 A2 An ) = Q1 (A1 ) Q2 (A2 ) Qn (An ) ,

pour Ai Ai , 1 i n. On dit que P est une mesure produit.


Donnons un exemple. Il s'agit de la mesure de probabilite uniforme sur = I1 I2 o I1 et I2 sont deux intervalles ferms borns de R. Si pour i = 1, 2, Ai = B (Ii ) et Qi est la mesure de probabilit uniforme sur (Ii , Ai ), alors la mesure produit P est appele mesure de probabilit uniforme sur . On peut alors montrer que si A A et x Rd sont tels que x + A A, alors P(x + A) = P(A) (invariance par translation, ce qui justie le caractre uniforme). P(A) s'interprte comme le quotient entre l'aire de A et l'aire de . Voyons maintenant pourquoi ce rsultat permet de construire n variables alatoires X1 , . . . , Xn indpendantes et de lois respectives Q1 , . . . , Qn . Si pour 1 i n, Qi est une mesure de probabilit sur Rdi , posons

= Rd1 Rdn = Rd1 +...+dn .


Soit A la tribu produit des tribus borliennes B Rd1 , . . . , B Rd1 (tribu qui concide en fait avec la tribu borlienne sur ). Soit alors P est la mesure produit correspondante et posons Xi ( ) = i Rdi pour (i, ) {1, . . . , d} . Alors les variables alatoires X1 , . . . , Xn sont indpendantes sous la probabilit P et sont bien de lois respectives Q1 , . . . , Qn . En eet si pour 1 i n, Ai B Rdi alors
n n

P (X1 A1 , . . . , Xn An ) = P (A1 An ) =
i=1

Qi (Ai ) =
i=1

P (Xi Ai ) .

Il existe un rsultat similaire (mais un peu plus compliqu) qui guarantit l'existence de suites de variables alatoires indpendantes et de lois donnes (plus prcisment il existe un espace probabilis sur lequel sont dnies une innit de variables alatoires indpendantes et de lois donnes). Nous admettrons l'existence de ce type de construction dans ce cours. 26

Pour une suite de variables alatoires indpendantes et telle que toutes les variables alatoires aient la mme loi, on dira que la suite est indpendante et identiquement distribue, ce qui sera not en abrg i.i.d.

Notation.

Etudions maintenant les proprits des variables alatoires indpendantes.

Proposition 9
Rei

Pour 1 i n, soient Xi une variable alatoire valeurs dans Rdi et fi : Rdi une fonction qui dnit galement une variable alatoire lorsque Rdi est muni de sa tribu borlienne. Supposons les variables alatoires X1 , . . . , Xn indpendantes et posons Yi = f (Xi ) pour 1 i n. Alors les variables alatoires Y1 , . . . , Yn sont galement indpendantes.

Preuve.

Il sut de remarquer l'galit

{Yi Bi } = Xi f 1 (Bi ) ,
pour 1 i n et pour tout borlien Bi . On applique ensuite la dnition 13 aux borliens Ai = f 1 (Bi ), 1 i n.

Une consquence fondamentale de l'indpendance entre variables alatoires concerne le calcul de l'esprance du produit de variables alatoires relles indpendantes.

Soient X1 , . . . , Xn des variables alatoires indpendantes, toutes valeurs relles. Alors le produit X1 Xn est intgrable si et seulement si les variables alatoires X1 , . . . , Xn sont intgrables. Dans ce cas, on a la formule
n

Proposition 10

E (X1 X2 Xn ) =
i=1

E (Xi ) .

Preuve.

On peut le montrer pour deux variables alatoires X et Y , le cas gnral s'en dduisant facilement par rcurrence nie. Commenons par prouver ce rsultat lorsque X et Y sont positives (dans ce cas, les esprances ont toujours un sens). Posons pour n N,
22n 1

Xn =
k=0

k 1 k k+1 , 2n { 2n X< 2n }

22n 1

Yn =
k=0

k 1 k k+1 . 2n { 2n Y < 2n }

On a vu au chapitre prcdent que la suite (Xn )nN est une suite croissante de variables alatoires positives ne prenant qu'un nombre ni de valeurs et convergeante point par point vers X . Ainsi la suite (Zn )nN de variables alatoires dnie par Zn = Xn Yn pour tout n N est aussi une suite croissante de variables alatoires positives ne prenant qu'un nombre ni de valeurs et convergeante point par point vers Z = XY . D'autre part, il est facile de vrier que E(Xn Yn ) = E(Xn )E(Yn ) pour tout n N, en utilisant l'indpendance de X et de Y . Ainsi la dnition de l'esprance d'une variable alatoire positive assure que

E(Z ) = lim E(Xn Yn ) = lim E(Xn )E(Yn ) = E(X )E(Y ).


n n

Nous avons donc montrer la proposition pour deux variables alatoires indpendantes positives. Dans le cas gnral, si X et Y sont indpendantes alors |X | et |Y | le sont galement et on a d'aprs ce qui prcde

E (|XY |) = E (|X |) E (|Y |) .


27

Ceci prouve que la variable alatoire XY est intgrable si et seulement si les variables alatoires X et Y le sont. La formule pour le calcul de l'esprance de XY se dduit alors facilement, en utilisant les dcompositions

X = X + X ,

Y = Y + Y .

En eet la partie positive ou ngative de X est indpendante de la partie positive ou ngative de Y , d'aprs la Proposition 9. Ainsi en utilisant le rsultat de la proposition pour les variables alatoires positives, on obtient

E(XY ) = E X + Y + + E X Y E X + Y E X Y + = E X+ E Y + + E X E Y E X+ E Y E X E Y + = E X+ E X E Y+ E Y = E(X )E(Y ).

On peut dduire du rsultat prcdent une formule bien connue pour le calcul de la variance de la somme de n variables alatoires indpendantes relles.

Corollaire 1

Soient X1 , . . . , Xn des variables alatoires indpendantes, toutes valeurs relles et de carr intgrable. Alors
n

Var (X1 + . . . + Xn ) =
i=1

Var (Xi ) .

Preuve.

En posant Yi = Xi E (Xi ) pour 1 i n, on a

Var (X1 + . . . + Xn )

= E (Y1 + . . . Yn )2
n

=
i=1 n

E Yi2 +
i= j

E (Yi Yj ) E (Yi ) E (Yj )


i= j

=
i=1 n

E Yi2 + E Yi2
i=1 n

= =
i=1

Var (Xi ) .

Ces galits proviennent du fait que pour 1 i n, la variables alatoire Yi est centr, de carr intgrable et indpendante Yj lorsque j = i.

2.2
2.2.1

Les variables alatoires discrtes


Les lois discrtes usuelles en modlisation

La loi de Bernoulli de paramtre


une loi de Bernoulli de paramtre p si

p (0 < p < 1). On dit qu'une variable alatoire X suit

P(X = 1) = 1 P(X = 0) = p.
28

On utilise la notation X B (p) pour indiquer que X suit cette loi. On peut ramarquer que p = E(X ) et Var (X ) = p(1 p). Cette loi intervient donc systmatiquement lorsqu'il y a deux ventualits dans l'exprience considre (jeu de pile ou face, individu sain ou malade,...). Remarquons galement que pour tout venement A A, la variable alatoire 1A suit une loi de Bernoulli de paramtre P(A).

Loi binomiale.
lorsque

On dit que X suit une loi binomiale de paramtres n et p (n N et p ]0, 1[)

P(X = k ) =
o

n k p (1 p)nk , k

k = 0, 1, . . . , n,

n k

n! k!(nk)! .

La loi binomiale est aussi la loi d'une somme X1 + X2 + . . . + Xn de n

variables alatoires indpendantes, toutes de loi de Bernoulli de paramtre p. Cette loi sert modliser le nombre de succs lors de la rptition de n expriences successives et identiques (e.g n lancers successifs d'une pice de monnaie, on peut aussi y avoir le nombre de rponses un sondage donn...). L'esprance de cetta loi vaut de E (X1 + . . . + Xn ) = np et d'aprs le Corollaire 1, la variance de cette loi est Var (X1 + . . . + Xn ) = np(1 p).

Loi de Poisson de paramtre

variable alatoire X est dnie par

> 0. On note X P () pour indiquer que la loi d'une k , k!

P(X = k ) = exp()

k N.

La loi de Poisson approxime bien les expriences impliquant des problmes de comptage (e.g nombre de connexions un serveur entre deux instants), en particulier pour des venements rares (e.g nombre de suicides par an). Si par exemple on compte le nombre de pices dfectueuses produites par une machine avec un nombre n de pices produites importantes et une proportion p de pices dfectueuses petite alors la loi de Poisson approxime bien la loi binomiale. En eet, on peut montrer que lorsque n +, p 0 et np , le nombre de exp() k! pour k N x. On a E(X ) = Var (X ) = si X P ().
k

n k p (1 p)nk s'approche k

La loi uniforme.

On dit qu'une variable alatoire X suit une loi uniforme si X () =

{x1 , . . . , xn } Rd et P(X = xk ) =

1 , n

k = 1, . . . , n.

On peut par exemple montrer que si on essaie d'ouvrir une porte l'aide de n clefs en choisissant d'abord une clef au hasard puis une clef au hasard parmi les n 1 restantes (si la premire n'ouvre pas la porte) et ainsi de suite jusqu' ce que la porte soit ouverte, alors la loi du nombre de clefs utilises suit la loi uniforme sur {1, . . . , n}. L'esprance d'une variable alatoire X de loi uniforme sur {1, . . . , n} est E(X ) = n+1 2 et sa
2 1 variance est Var (X ) = n 12 .

Loi gomtrique de paramtre

p ]0, 1[. Il s'agit de la loi du temps de premier succs dans une suite d'expriences alatoires indpendantes o la probabilit de succs est p. Plus prcisment, considrons une suite (Xi )i1 de variables alatoires i.i.d suivant toutes la loi B (p). Alors la variable alatoire T = inf {i 1/Xi = 1}
29

a sa loi dnie par

P(T = k ) = P (X1 = 0, . . . , Xk1 = 0, Xk = 1) = (1 p)k1 p,


1 L'esprance vaut E(T ) = p et la variance vaut Var (X ) = p2 . 1p

k N .

La loi hypergomtrique.

Considrons une population compose de N individus parmi lesquels une proportion p possde un caractre donn. Si on tire au hasard n N individus dans la population, alors le nombre alatoire X d'individus possdant le caractre envisag vrie

P(X = k ) =

Np k

N Np nk N n

pour max(0, n N + N p) k min(n, N p). Pour dcrire rigoureusement cette exprience, on peut considrer l'univers de tous les nuplets contenant uniquement des 0 et des 1 avec la contrainte que le nombre de 0 soit plus petit que N N p et le nombre de 1 soit plus petit que N p. On munit alors de l'ensemble de ses parties et de la probabilit uniforme et on pose X ( ) = n i=1 1i =1 si . n On peut montrer que E(X ) = np et Var (X ) = N N 1 np(1 p) si X H(N, n, p) (notation pour la loi hypergomtrique). Lorsque N devient grand, on peut aussi montrer que la loi de X est proche de la loi binomiale de paramtres n et p.

La loi binomiale ngative.

On dit qu'une variable alatoire X suit une loi binomiale ngative de paramtres n N et p ]0, 1[ si

P(X = k )

k1 n p (1 p)kn , kn

k = n, n + 1, . . . .

On remarquera que lorsque n = 1, on retrouve la loi gomtrique de paramtre p. On peut aussi reprsenter cette loi l'aide d'une suite (Xi )i1 i.i.d de variables alatoires toutes de loi de Bernouilli de paramtre p. On dnit alors T0 = 0 et les temps T1 , . . . , Tn par la relation

Ti+1 = inf {j > Ti /Xj = 1} ,

i = 0, . . . , n 1.

On peut alors montrer que les variables alatoires T1 , T2 T1 , . . . , Tn Tn1 sont indpendantes et toutes de loi gomtrique de paramtre p et que leur somme Tn a la mme loi que X (il s'agit donc n1 de la loi du nime temps de succs). On en dduit facilement que E (X ) = i=0 E (Ti+1 Ti ) = n p et
n1

Var (X ) =
i=0

Var (Ti+1 Ti ) =

n(1 p) . p2

2.3

Loi d'un couple. Loi marginale

 Si X et Y sont deux variables alatoires discrtes valeurs dans E = Rd et F = Re respectivement, alors la variable alatoire U = (X, Y ) est aussi une variable alatoire discrte, valeurs dans E F . En gnral, la loi de U n'est pas uniquement dtermine par les lois des variables alatoires X et Y . Prenons un exemple. Si X B (p), posons 30

Y1 = 1 X et Y2 = X . Alors Y1 et Y2 suivent des lois de Bernoulli de paramtre p. En revanche la loi du couple (X, Y1 ) ne concide pas avec celle du couple (X, Y2 ) car 1 et P(X = 0, Y2 = 1) = 0. 2 Par contre les lois de X et de Y dterminent la loi du couple (X, Y ) lorsque les deux P(X = 0, Y1 = 1) = P(X = 0) =
variables sont indpendantes grce aux galits

P(X = x, Y = y ) = P(X = x)P(Y = y ),

(x, y ) E F.

 Si U = (X, Y ) est une variable alatoire discrte valeurs dans E F alors les lois des variables alatoires X et Y sont appeles les lois marginales de U . On peut les calculer partir de la loi du couple en utilisant les galits :

P(X = x) =
y val(Y )

P(X = x, Y = y ),

P(Y = y ) =
xval(X )

P(X = x, Y = y ).

2.4

Le thorme de transfert

Nous allons d'abord noncer un rsultat pratique lorsque on somme des termes indexs l'aide de deux paramtres.

Thorme 2

(Thorme de Fubini pour les suites)  Si {ui,j /i, j 1} est une famille de nombres rels positifs, alors on a
+ i=1 + j =1 + j =1 + i=1

ui,j =

ui,j

(2.1)

Il se peut que ces deux sommes aient pour valeur +.  Si {ui,j /i, j 1} est une famille de nombres rels de signe quelconque et si l'une des quan+ + + tits + i=1 |ui,j | est nie (ces deux quantits sont toujours i=1 j =1 |ui,j | ou j =1 gales d'aprs le premier point), alors l'galit 2.1 est encore vraie.

Ce thorme est de porte assez gnrale. Toutefois, il peut arriver que l'inversion des signes 1 si i = j et ui,i = 0 pour somme ne soit pas possible : le cas de la suite u dnie par ui,j = i2 j2 tous i et j entiers plus grands que 1 fournit un contre-exemple.

Remarque.

L'esprance mathmatique d'une variable alatoire discrte X intgrable est donne par la formule :

E(X ) =
xval(X )

xP(X = x).

Lorsque val(X ) est inni dnombrable mais n'est pas l'ensemble des entiers naturels N (par exemple Z), on peut toujours lister les lments de val(X ) l'aide d'une suite quelconque, la valeur de la somme prcdente ne dpendra pas de la suite choisie. En eet les sries positives ou absolument convergente peuvent tre sommes indpendamment de l'numration choisie (par exemple 0, 1, 1, 2, 2, 3, 3, . . . et 0, 1, 2, 1, 2, 3, 4, 3, 4, . . . sont deux numrations direntes de Z). Le thorme de transfert (ici nonc pour les variables discrtes) permet de calculer l'esprance d'une variable alatoire du type Y = f (X ) en utilisant la loi de X uniquement (ce qui vite de calculer la loi de Y ). 31

Thorme 3

Soient X une variable alatoire discrte telle que val(X ) = {x1 , x2 , . . .} et f : val(X ) R une fonction telle que E (|f (X )|) < +. Alors on a la formule :
+

E (f (X )) =
i=1

f (xi )P(X = xi ).

Preuve.

Par hypothse, la variable alatoire Y = f (X ) est intgrable et vrie F = val(Y ) = {y1 , y2 , . . .} de R (F est donc compos des rels f (xj ), j N ). Supposons d'abord f positive. D'aprs la formule de l'esprance pour une variable alatoire disrte, on a :

E(Y ) =
j 1

yj P(Y = yj ). X f 1 ({yj }) pour j 1. Comme on a

Mais on a l'galit entre venements : {Y = yj } = la formule


+ i=1

P X f 1 ({yj }) =

1f 1 ({yj }) (xi )P(X = xi ),

on obtient en reportant dans l'expression de E(Y ) :


+

E(Y ) =
j 1

yj
i=1

1f 1 ({yj }) (xi )P(X = xi ).

On peut utiliser le thorme de Fubini pour inverser les sommes (les termes sont positifs), ce qui donne
+ i=1

E(Y ) =

P(X = xi )
j 1

yj 1f 1 ({yj }) (xi ).

Enn, on remarque que j 1 yj 1f 1 ({yj }) (xi ) = f (xi ), ce qui prouve le thorme lorsque f est positive. Lorsque f est de signe quelconque, on reproduit exactement le calcul prcdent jusqu'au passage de l'inversion des deux signes sommes. Cette inversion se justie l'aide du thorme de Fubini pour les termes de signe quelconques : en eet, si on considre la fonction g = |f |, le premire partie de la preuve appliqu Y = g (X ) montre que l'hypothse de sommabilit
+

P(X = xi )
i=1 j 1

yj 1g1 ({yj }) (xi ) = E(g (X )) = E(|f (X )|) < +

est bien vrie pour pouvoir appliquer le thorme de Fubini.


2.5 Les lois conditionnelles

Soit X et Y un couple de variables alatoires discrtes valeurs dans Rd et Re respectivement. Si y val(Y ), on dnit une loi de probabilit discrte Qy sur les parties de val(X ) telle que P(X = x, Y = y ) Qy ({x}) = , x val(X ). P(Y = y )
Qy est appel loi conditionnelle de X sachant Y = y (en abrg loi de X |Y = y ). On note P(X = x|Y = y ) au lieu de Qy ({x}).
32

Dnition 14

P(X = x|Y = y ) correspond la probabilit conditionnelle P(A|B ) des venements A = {X = x} et B = {Y = y } : P(A B ) P(A|B ) = . P(B )
Cette dnition de la loi conditionnelle est en accord avec l'intuition de l'approche frquentiste. Si on reptait plusieurs fois une exprience alatoire ayant un nombre ni d'issues (u, v ) et qu'on veuille tudier l'inuence d'une valeur v = y sur une valeur u = x, il est naturel de calculer la frquence d'appartion de la valeur x lorsque y est galement observe. Ceci revient alors f calculer le quotient f2 o f1 est la frquence d'apparition de y et f2 la frquence d'apparition 1 de (x, y ). D'o la dnition de la probabilit conditionnelle l'aide du quotient des probabilits correspondantes. On pourra remarquer que lorsque les variables alatoires sont indpendantes alors la loi conditionnelle de X |Y = y concide avec la loi de X .

Notation.

La moyenne de la loi conditionnelle X |Y = y sera note E (X |Y = y ). On a donc

E (X |Y = y ) =
xval(X )

xP (X = x|Y = y ) ,

qui sera bien dnie lorsque

|x|P (X = x|Y = y ) < +.


xval(X )

Proposition 11

Si (X, Y ) est un couple de variables alatoires discrtes tel que X soit intgrable, alors on a la formule
E(X ) =
y val(Y )

E (X |Y = y ) P(Y = y ).

Preuve.

A faire en exercice en utilisant la dnition prcdente et le thorme de Fubini.

Entre deux instants donns, des vhicules arrivent un carrefour en nombre poissonien Y . Chaque vhicule prend alors sur sa droite ou sur sa gauche avec probabilit 1 2 , et chacun le fait indpendamment des autres. Soit X le nombre de vhicules qui on choisit de continuer sur leur gauche. On souhaite calculer E(X ) (nombre moyen de vhicules ayant pris sur la gauche). Dans cet exemple, on considrera que  La loi de X est le loi de Poisson de paramtre > 0. 1  Le couple (X, Y ) est tel que la loi de X |Y = y est une loi binomiale de paramtres y et 2 . y On a alors E (X |Y = y ) = 2 et

Exemple de calcul.

E(X ) =
y N

y y 1 exp() = E(Y ) = . 2 y! 2 2

33

34

Chapitre 3
Mesures et intgration

Lorsque nous avons abord les mesures de probabilit densit, nous avons mentionn que pour une fonction f : R R+ intgrable et d'intgrale 1, il existait une unique mesure de probabilit P sur (R, B (R)) telle que pour tout couple de nombres rels (a, b) tel que a b
b

P ([a, b]) =
a

f (x)dx.

Il est alors naturel de se demander si cette mesure de probabilit peut tre dnie par l'galit P(B ) = B f (x)dx pour tout borlien B . Malheureusement, l'intgrale classique (intgrale de Riemann) ne permet de donner un sens ce type d'galit pour tous les borliens B . Il existe une autre manire de dnir l'intgrale d'une fonction et qui permet d'crire ce type d'galit. Il s'agit de l'intgrale au sens de Lebesgue qui permet d'intgrer des fonctions beaucoup plus irrgulires que la mthode de Riemann. De plus lorsque on intgrera une fonction continue ou continue par morceaux sur un intervalle ferm born, les deux mthodes d'intgration concideront ; l'intgrale de Lebesgue apparaitra donc comme plus gnrale. Initialement, l'intgrale de Lebesgue a t introduite an de faciliter certains des passages la limite du type
n

lim

fn (x)dx =

lim fn (x)dx,

en particulier lorsque la suite de fonctions (fn )n est une suite croissante de fonctions positives. Un problme dans l'utilisation de l'intgrale de Riemann rside dans le fait qu'une limite simple de fonctions intgrables n'est pas forcment intgrable (et ce mme si toutes les fonctions sont dnies sur [0, 1] et valeurs dans [0, 1] par exemple). L'intgrale au sens de Lebesgue permet de corriger ce type de problme. Sa construction est base sur la thorie de la mesure et la dnition de l'esprance des variables alatoires vue au Chapitre 1 est en fait un cas particulier de cette construction.
3.1 Mesure sur une tribu

Dnition 15

Soit E un ensemble et E une tribu sur E . Une application : E R+ {+} est appele une mesure si 1. () = 0 2. Pour toute suite (An )nN d'lments de E , disjoints deux deux, on a
(nN An ) =
nN

(An )

(proprit de additivit).
35

Toute mesure de probabilit est donc une mesure (la proprit d'additivit peut tre vue comme un cas particulier de la proprit de additivit en compltant une suite nie d'lments d'une tribu par l'lment ). On peut remarquer que la proprit P() = 1 a t remplac par la proprit () = 0. Pour la notion gnrale de mesure, la valeur (E ) peut tre positive quelconque et ventuellement innie. Une mesure de probabilit est donc simplement une mesure dont la masse totale (E ) est gale 1. On peut montrer que les proprits de la Proposition 3 du Chapitre 1 restent vraies pour une mesure en gnral, sauf pour la premire qui devient (A) + (Ac ) = (E ). De plus la Proposition 4 reste valable en rajoutant (A0 ) < + pour le deuxime point.

Exemple des mesures discrtes.

Soit (pn )nN une suite de nombres rels positifs et (xn )nN une suite de points de Rd . Alors l'application : P (Rd ) R+ {+} dnie par
+

( A) =
n=0

pn 1A (xn ),

A B Rd ,

est une mesure (la preuve est identique celle donne pour les mesures de probabilit discrte du + Chapitre 1). Comme pour x Rd et A P (Rd ), on a 1A (x) = x (A), on note = n=0 pn xn . Dans le cas particulier o pn = 1 pour tout n N, on parle de mesure de comptage sur l'ensemble D = {x0 , x1 , . . .} car dans ce cas

(A) = |A D|,

A P (Rd ).

La mesure de A est simplement le nombre d'lments de D qui se trouvent aussi dans A. Un cas particulier important est celui de la mesure de comptage sur N. Lorsque la suite (pn )nN est sommable et de somme 1, on retrouve les mesures de probabilits discrtes.

La mesure de Lebesgue Thorme 4


que Sur R muni de la tribu des borliens, il existe une unique mesure note telle
([a, b]) = b a, a < b.

Cette mesure est appele mesure de Lebesgue sur R.


La mesure de Lebesgue correspond une mesure de longeur et (B ) est souvent appel la longueur du borlien B . Comme on le verra, on peut construire n'importe quelle mesure de probabilit densit partir de la mesure de Lebesgue uniquement. Notons que ({a}) = 0. On a aussi les galits

([a, b[) = (]a, b[) = b a.


De plus, en utilisant les proprits de base d'une mesure, on peut voir que si I est un intervalle non born, alors (I ) = +. En particulier (R) = +.
3.1.1 Les mesures de Lebesgue-Stieltjes

Cet exemple gnralise la plupart des mesures sur R vues jusqu' prsent. Considrons une fonction F : R R+ croissante et continue droite. 36

Thorme 5

Il existe une unique mesure F sur R muni de la tribu des borliens telle que
F (]a, b]) = F (b) F (a), a < b.

Remarquons que si F (x) = x, on retrouve la mesure de Lebesgue. Remarquons que si a < b, on a en utilisant la continuit infrieure de la mesure

F ([a, b]) = lim F


n+

]a

1 , b] n

= lim F (b) F
n+

1 n

= F (b) F a ,

o F (a ) dsigne la limite gauche de F au point a. Ainsi F ({a}) = F (a) F (a ), quantit qui vaut 0 si F est continue. Donnons deux exemples fondamentaux.  Pour une suite (pn )n de rels positifs sommable et une suite (xn )n de nombre rels distincts, posons
+

F (x) =
n=0

1xn x pn ,

x R.

On peut vrier que F est continue droite (et bien sr croissante). L'unicit du Thorme + 5 entraine que la mesure F et la mesure discrte n=0 pn xn concident sur B (R).  Pour une fonction f : R R+ intgrable (au sens de Riemann), la fonction F dnie par
x

F (x) =

f (z )dz,

xR

est continue droite. Lorsque f est d'intgrale 1, La mesure F correspond alors la mesure de probabilit densit f . En probabilit, on a un lien entre les mesures de Lebesgue-Stieljes et la notion de fonction de rpartition d'une variable alatoire.

Dnition 16

Soit X une variable alatoire valeurs relles, dnie sur un espace probabilis (, A, P). La fonction F dnie par
F (x) = P (X x) , x R,

est une fonction continue droite appele fonction de rpartition.


Notons que F (x) = PX (] , x]). Ainsi les proprits des mesures (appliques ici la mesure PX ) entraine que F est bien croissante et continue droite et que
x

lim F (x) = 0,

x+

lim F (x) = 1.

Nous reparlerons de ces proprits lors du Chapitre 5. Ainsi, si X est une variable alatoire valeurs relles, alors PX est la mesure de Lebesgue-Stieljes associe F . On a alors la proprit suivante.

Proposition 12

1. Soit fonction F , croissante et continue droite telle que limx F (x) = 0 et limx+ F (x) = 1. Alors F est la fonction de rpartition d'une mesure de probabilit (et donc d'une variable alatoire).

2. Deux variables alatoires valeurs relles dont les fonctions de rpartition sont gales ont la mme loi. La fonction de rpartition caractrise donc compltement la loi d'une variable alatoire.
37

Preuve.
1. Soit P = F la mesure de Lebesgue-Steljes associe F . D'aprs la proprit de contimuit suprieure de P , on a

P(R) = lim (F (n) F (n)) = 1


n+

et donc P est une mesure de probabilit. En posant X ( ) = pour , on a

P (X x) = F (x) lim F (n) = F (x),


n+

x R.

Ainsi F est la fonction de rpartition de la variable alatoire X . 2. Supposons que deux variables alatoires X et Y aient la mme fonction de rpartition F . Alors PX = PY = F et donc X et Y ont la mme loi.
3.1.2 Un exemple qui heurte l'intuition : l'escalier de Cantor

On pourrait penser qu'il n'est pas possible de rejoindre le point (0, 0) au point (1, 1) l'aide d'une fonction croissante et continue qui n'est strictement croissante sur aucun sous-intervalle de [0, 1], aussi petit soit-il. Et pourtant... On construit une suite de fonctions (Fn )n dnies sur [0, 1] et valeurs dans [0, 1] de la faon suivante. On pose F0 (x) = x pour tout x [0, 1]. On construit ensuite F1 en divisant l'intervalle [0, 1] en trois. Sur [0, 1/3], F1 est ane et vrie F1 (0) = 0 et F1 (1/3) = 1/2. Sur [1/3, 2/3], F1 vaut 1/2. Enn F1 est ane sur l'intervalle [2/3, 1] (voir Figure 3.1). On itre ensuite ce procd : on divise tout intervalle I o Fn est ane et la fonction Fn+1 sera ane par morceaux
n n I I sur cet intevalle, constante et gale la valeur sur l'intervalle du milieu (voir 2 la courbe de F2 sur la Figure 3.2). Plus formellement, on a pour x [0, 1] et n N :

max (F )+min (F )

1 1 1 Fn+1 (x) = Fn (3x)1[0, ](x) + Fn (3x)1] 1 , 2 ] (x) + 3 3 2 3 2


ce qui permet d'obtenir la borne

1 1 + Fn (3 2x) 1[ 2 ,1] (x), 3 2 2

sup |Fn+1 (x) Fn (x)|


x[0,1]

1 . 2n

On peut alors montrer que la suite de fonctions (Fn )n converge uniformment sur [0, 1] vers une fonction F qui sera ainsi croissante et continue sur [0, 1]. Par contre, il n'existe aucun sous-intervalle de [0, 1] sur lequel F est strictement croissante. On peut voir sur la Figure 3.3 la courbe de l'approximation F10 de F . En prolongeant F par 0 sur les rels ngatifs et par 1 sur [1, +[, on obtient une fonction de rpartition sur R. Le complmentaire de la runion des intervalles o F est constante est appel l'ensemble de Cantor C (3). On peut montrer que C (3) est non dnombrable. De plus, C (3) est un borlien de mesure de Lebesgue nulle (voir ci-aprs), ce qui fournit un exemple d'ensemble non dnombrable mais de longueur nulle (un ensemble dnombrable tant forcment de mesure de Lebesgue nulle par additivit). Aussi la mesure de probabilit F associe F n'admet pas d'atome (F ({x}) = 0 pour tout x car F est continue) mais n'admet pas de densit non plus (voir un peu plus loin, on peut dj constater que F (x) = 0 si x C (3)c ) ! En modiant l'ensemble de Cantor, on peut aussi construire un borlien de longueur non nulle mais d'intrieur vide (c'est dire pour lequel il est impossible d'y inclure un intervalle ouvert, aussi petit soit-il). Voici un exemple de construction. Soit k un entier plus grand que 3. On part 1 1 1 1 de l'intervalle [0, 1] et on pose E1 = E1,1 =] 1 2 2k , 2 + 2k [ (intervalle de longueur k centr en 1 2 ). L'ensemble [0, 1] \ E1 est compos de deux intervalles disjoints I1 et I2 . On enlve alors deux 38

Fig.

3.1: Graphe de F0

Fig.

3.2: Graphe de F1

Fig.

3.3: Graphe de F10

1 intervalles ouverts E21 et E22 centr sur I1 et I2 et de longueur k 2 . On pose alors E2 = E21 E22 . [0, 1] \ (E1 E2 ) est compos de 4 intervalles disjoints sur lesquels on enlve des intervalles de 1 longueur k 3 . Ainsi par rcurrence, on peut dnit pour tout n 1 une suite d'intervalles ouverts 2 disjoints deux deux (Eni )1i2n1 et tous de longueur k1 n et on pose En = i=1 Eni . Pour k = 3, En reprsente la runion de tous les intervalles sur lesquels Fn devient constante sans que Fn1 le soit. Notons alors
n1

C (k ) = [0, 1] \ n=1 En .

Cette notation est bien compatible avec le cas k = 3 car on retrouve bien l'ensemble de Cantor. Calculons la longueur de C (k ). Tout d'abord par additivit, on a
2n1

(En ) =
i=1

(Eni ) =

2n1 . kn

Par additivit, on trouve


+

(C (k )) = 1
n=1

2n1 k3 = . n k k2

Ainsi si k = 3, C (k ) est donc bien de longueur nulle, alors que pour k > 3, C (k ) a une longueur strictement positive. De plus C (k ) est d'intrieur vide (car la longueur des intervalles conservs d'une tape la suivante est divise par 2).
3.2 Intgrale d'une fonction mesurable par rapport une mesure

Soit (E, E , ) un espace mesur (c'est dire un triplet compos d'un ensemble, d'une tribu sur cet ensemble et d'une mesure dnie sur cette tribu). On considrera des fonctions f : E R {, +} dites mesurables, c'est dire telles que 1. Pour tout couple (a, b) de nombres rels, {x E : a f (x) b} E . 2. {x E : f (x) = } E . Une fonction mesurable est donc l'analogue d'une variable alatoire dans le cadre la thorie des probabilits (on rajoute la possibilit pour ce type de fonctions de prendre des valeurs + ou , ce qui peut parfois s'avrer utile). Comme pour les variables alatoires on peut montrer que pour tout borlien B B (R), l'ensemble {x E : f (x) B } appartient E . Dans la suite, on dira qu'une fonction f : E R est tage si elle est mesurable et ne prend 39

qu'un nombre ni de valeurs. Si, on note y1 , . . . , yN les valeurs distinctes d'une fonction tage f , on convient d'crire dans la suite
N

f=
i=1

yi 1 A i ,

o on a pos pour 1 i N , Ai = {f = yi } = {x E : f (x) = yi } qui est un lment de E . + = R {+} par une On peut toujours approcher une fonction mesurable f valeurs dans R suite croissante de fonctions positives tages. Il sut de modier la suite dnie au Chapitre 1 (cf Proposition 6) en posant pour n N :
22n 1

fn (x) =
k=0

k n 1k k+1 + 2 1f 2n , 2 n 2n f < 2n

x E.

(3.1)

La preuve est alors quasiment identique celle de la Proposition 6. Pour pouvoir additionner ou multiplier des fonctions mesurables, il est ncessaire de prolonger = R {, +} en adoptant les conventions suivantes. l'addition et la multiplication R

+ + a = a + (+) = +, + a = a + () = ,

a R {+}, a R {}, a > 0, a < 0, a > 0, a < 0,

a (+) = (+) a = +, a (+) = (+) a = , a () = () a = , a () = () a = +,


Seule la somme + + () n'est pas dnie.

0 (+) = (+) 0 = 0 () = () 0 = 0.

Lorsque E = R et E = B (R), la plupart des fonctions sont mesurables (les fonctions continues, continues par morceaux et des fonctions bien plus irrgulires encore). La notion de mesurabilit est stable par tout un tas d'oprations, comme le montre la proposition suivante.

Proposition 13

deux fonctions mesurables. Alors la fonction f g est 1. Soient f, g : E R encore mesurable. Si de plus f + g est dnie (c'est dire lorsque la somme + + () n'intervient pas) alors f + g est mesurable.

2. Si f : E Rd est une fonction mesurable et g : Rd R est une fonction mesurable lorsque Rd est muni de la tribu des borliens alors g f : E R est mesurable. une suite de fonctions mesurables. Alors les applications inf nN fn et 3. Soit fn : E R supnN fn sont mesurables. Si de plus la suite est convergeante point par point vers une fonction f , alors f est galement mesurable.
Remarquons que le point 2. permet d'armer que g (X ) est une variable alatoire ds que X est une variable alatoire et g est une fonction mesurable. La preuve de ce point est d'ailleurs triviale : si A B (R), alors

{g (X ) A} = X g 1 (A)

qui est bien un lment de A vu que la mesurabilit de g entraine que g 1 (A) B (Rd ). Cette stabilit de la notion de mesurabilit est remarquable. Dans l'intgrale de Riemann, les suites de fonctions Riemann-intgrables peuvent avoir une limite non Riemann-intgrable. 40

Nous allons intgrer les fonctions mesurables partir des fonctions tages (comme pour les variables alatoires). N Pour une fonction tage f = i=1 yi 1f =yi , on pose
N

f d =
i=1

yi (f = yi ).

On retiendra en particulier que 1A d = (A) et que lorsque f est constante gale m, on a f d = m (E ). La dnition de l'intgrale pour une fonction mesurable gnrale se fait alors comme pour l'esprance des variables alatoires.

Proposition 14

1. Soit f : E R+ {+} une fonction mesurable. L'intgrale de f par rapport la mesure est note f d ou aussi f (x)d(x) et est dnie par
f d = lim
n+

fn d,

o (fn )n est une suite croissante de fonctions tages positives, convergeante point par point vers f . une fonction mesurable. Soient f + et f les parties positives et ngatives 2. Soit f : E R de f (voir Chapitre 1). On dit que f est intgrable lorsque f + d < + et f d < + sont intgrables. Dans ce cas, on pose
f d = f + d f d.

Ainsi si (, A, P) est un espace probabilis et X : R est une variable alatoire intgrable, on a E(X ) = XdP : l'esprance mathmatique est donc un cas particulier d'intgrale par rapport une mesure. On dispose alors des proprits suivantes qui se dmontrent de la mme faon que les proprits de l'esprance des variables alatoires (voir Chapitre 1).

Proposition 15

deux fonctions mesurables ou bien toutes deux valeurs Soient f, g : E R dans R+ {+} ou bien toutes deux intgrables.

1. On a (f + g )d = f d + gd lorsque la fonction somme f + g est bien dnie. En particulier, f + g est intgrable lorsque f et g sont intgrables. 2. Si a R, alors 3. Si f g alors
af d = a f d f d. gd.

4. La fonction f est intgrable si et seulement si la fonction |f | est intgrable (ce qui s'crit |f |d < +). On a alors
| , on dnit Si A E et f : E R f d =
A

f d|

|f |d.

1A f d.

Autrement dit, on dnit l'intgrale de f sur A comme l'intgrale sur E de la fonction qui est gale f sur A et qui vaut 0 sur Ac . Remarquons que lorsque f est intgrable, f 1A l'est galement car sa valeur absolue est intgrable : en eet

|f 1A | = 1A |f | |f |
41

et la proposition prcedente assure que |f 1A |d |f |d < +. Une autre consquence de la linarit de l'intgrale est la suivante : si A et B sont deux lements de E disjoints et f une fonction mesurable positive ou intgrable alors

f d =
AB A

f d +
B

f d.

En eet, en utilisant l'galit 1AB = 1A + 1B , il est facile de vrier que ces deux quantits valent (1A + 1B )f d.
3.2.1 Intgration par rapport une mesure discrte.

o (pn )n est suite de rels positifs et (xn )n une suite de points distincts de E = Rd que l'on munit de l'ensemble de ses parties. Alors dans ce cas nous obtenons le rsultat suivant. Soit =

+ n=0 pn xn

Proposition 16

Toute fonction f : E R est mesurable. Lorsque f prend ses valeurs dans R+ ou que f est intgrable, alors
+

f d =
n=0

pn f (xn ).
+ n=0 pn |f (xn )|

En particulier f est intgrable si et seulement si

< +.

Preuve

Le fait que toute fonction soit mesurable rsulte du choix de la tribu P (Rd ).  Commenons par le cas d'une fonction tage positive prenant les valeurs y1 , . . . yN et posons Ai = {f = yi } pour i = 1, . . . , N . Remarquons alors que xn Ai f (xn ) = yi . Alors on a
N

f d =
i=1 N

yi (Ai )
+

=
i=1 +

yi
n=0 N

pn 1Ai (xn ) yi 1Ai (xn )


i=1 N

=
n=0 +

pn

=
n=0 +

pn
i=1

f (xn )1Ai (xn )

=
n=0

pn f (xn ).

La dernire galit est due au fait que xn ne peut appartenir qu' un seul ensemble Ai .  Passons maintenant au cas d'une fonction positive. Si fk est une fonction tage plus petite que f , alors on a
+ +

fk d =
n=0

pn fk (xn )
n=0

pn f (xn ).
+

Ainsi, par dnition de l'intgrale, on a ncessairement f d n=0 pn f (xn ). Pour montrer l'ingalit dans l'autre sens, on peut observer que f f 1{x0 ,...,xn } = g . La fonction g 42

ne prend qu'un nombre ni de valeurs et il est facile de prouver que gd = n=0 pn f (xn ) en utilisant le premier point. En utilisant le point 3. de la proprit 15, on a
N

f d
En passant la limite sur N , on voit que

gd =
i=1

pi f (xi ).

f d
n=0

pn f (xn ).

On a donc bien la formule annonce.  Considrons enn le cas d'une fonction f de signe quelconque. f est intgrable si et seule+ ment si |f | l'est, ce qui signie d'aprs le point prcdent que n=0 |f (xn )|pn < +. Dans ce cas, on a, en appliquant la dnition de l'intgrale et le point prcdent
+ +

f d =

f d

f d =
n=0

pn f (xn ) f (xn ) =
n=0

pn f (xn ),

ce qui achve la preuve. Enn, mentionnons le thorme fondamental suivant.

Thorme 6 (convergence monotone)


fonctions mesurables, on a
n+

Pour tout suite croissante fn : E R+ {+} de


fn d.

lim fn d = lim

n+

Evidemment lorsque une suite de fonctions positives est croissante, sa limite est bien dnie. Cette limite f est de plus une fonction mesurable positive et l'intgrale est donc bien dnie. Mentionnons une consquence en probabilit. Supposons que (Xn )nN soit une suite de variables alatoires toutes positives. Alors on a
+ +

E
n=0

Xn

=
n=0

E (Xn ) .
et d'appliquer le thorme de la convergence

Pour le voir, il sut de considrer fN = monotone.


3.2.2

N n=0 Xn

L'intgrale de Lebesgue et l'intgrale de Riemann

Lorsque = (mesure de Lebesgue sur R), on obtient une intgrale appele intgrale de Lebesgue. Nous allons voir que cette intgrale concide le plus souvent avec l'intgrale de Riemann lorsque cette dernire a bien un sens. De plus il existe des fonctions intgrables au sens de Lebesgue mais pas au sens de Riemann. Rappelons la dnition de l'intgrale de Riemann sur un intervalle ferm born [a, b] de R. Une partie nie de [a, b] contenant les points a et b est appele une subdivision de [a, b] et sera note

:= a = x1 < x2 < . . . < xn = b.


La nesse d'une subdivision est dnie par || = max |xi+1 xi |.
1in

Soit f : [a, b] R une fonction borne. Pour toute subdivision : a = x1 < x2 . . . < xn , on pose

mi =

xi xxi+1

inf

f (x),
43

Mi =

sup
xi xxi+1

f (x).

On dnit alors

s =
i=1

mi (xi+1 xi ) ,

S =
i=1

Mi (xi+1 xi ) .
n i=1 mi 1]xi ,xi+1 ]

L'ide est alors d'encadrer l'aire sous la courbe de f entre celle de g = h = n i=1 Mi 1]xi ,xi+1 ] . On peut remarquer que

et

s s S S .
On dit alors que f est Riemann-intgrable si sup s = inf S , valeur appele intgrale de f sur [a, b]. On peut montrer que f est Riemann-intgrable si et seulement si il existe une suite croissante (k )k de subdivisions dont la nesse tend vers 0 telle que
k

lim sk = lim Sk .
k

Il existe des fonctions Lebesgue-intgrables qui ne sont pas Riemann-intgrables. C'est par exemple le cas pour f = 1Q sur l'intervalle [0, 1]. En eet, pour toute subdivision de [0, 1], on a Mi = 1 et mi = 0 pour tout i, ce qui entraine s = 0 et S = 1 et f ne peut tre Riemann-intgrable sur [0, 1]. En revanche f est Lebesgue-intgrable et
1

f (x)d(x) = (Q [0, 1]) = 0,


0

car Q [0, 1] est dnombrable. Ainsi, le thorme de convergence monotone n'est pas vrai pour les fonctions Riemann-intgrables : si (rn )n est une numration des nombres rationnels de [0, 1], la suite de fonctions fn = 1{r0 ,...,rn } est croissante vers f = 1Q[0,1] qui n'est pas Riemannintgrable alors que fn l'est et vrie 0 fn (x)dx = 0. Nous avons en fait le rsultat suivant.
1

Proposition 17

Soit f : [a, b] R une fonction borne.

1. Si f est Riemann-intgrable, f est Lebesgue-intgrable et les valeurs des deux intgrales sont les mmes. 2. La fonction f est Riemann-intgrable si et seulement si l'ensemble D des points de discontinuit de f vrie (D) = 0.
On peut vrier que la fonction 1Q n'est continue en aucun point, le point 2. de la proposition conrme la non-intgrabilit de cette fonction au sens de Riemann. Au niveau des intgrales impropres, toute fonction positive admettant une intgrale impropre au sens de Riemann est intgrable au sens de Lebesgue et les intgrales sont gales. Prouvons-le pour une fonction f : [0, +[ [0, +[. On a
+ n n +

f (x)dx = lim
0

n+ 0

f (x)dx = lim

n+ 0

f (x)d(x) =
0

f (x)d(x),

o la deuxime galit rsulte de la proposition prcdente et la troisime du thorme de la convergence monotone (car fn = f 1[0,n] est une suite croissante de fonctions positives). Il existe nanmoins un cas o une fonction peut admettre une intgrale impropre au sens de Riemann sans tre intgrable au sens de Lebesgue. C'est le cas des fonctions oscillantes. Un exemple + simple est donne par la fonction f = n=0 an 1[n,n+1[ qui admet une intgrale impropre au sens de Riemann lorsque la srie n=0 an est convergeante mais qui n'est pas Lebesgue-intgrable sur [0, +[ lorsque cette srie n'est pas absolument convergeante (l'intgrale de Lebesgue demande ce que la valeur absolue de f ait une intgrale nie). 44
+

Au vu des rsultats prcdents, nous noterons souvent f (x)dx (au lieu de f (x)d(x)) l'intgrale de la fonction f au sens de Lebesgue. De plus les rsultats utiliss pour les intgrales de Riemann (intgration par parties, formule du changement de variable) peuvent aussi tre utiliss pour l'intgrale de Lebesgue (nous noncerons la formule du changement de variables dans Rn un peu plus loin). On pourra noter la dirence fondamentale concernant la construction de ces deux intgrales : l'intgration au sens de Riemann se base sur l'approximation par des fonctions dites en escalier construites l'aide de subdivisions sur l'axe des abscisses alors que l'intgrale de Lebesgue utilise des fonctions tages construites l'aide de subdivisions de l'axe des ordonnes (voir la suite de fonctions 3.1).

Notation.

3.2.3

Le presque partout

sont Soit (E, E , ) un espace mesur. On dira que deux fonctions mesurables f, g : E R gales presque partout et on note f = g p.p, lorsque (f = g ) = 0. Lorsque est une mesure de probabilit, on dit plutt que f et g sont gales presque srement (et on note f = g p.s), ce qui revient aussi avoir (f = g ) = 1.

Proposition 18

deux fonctions mesurables. Soit f, g : E R

1. Supposons f = g p.p. Alors f est intgrable si et seulement si g est intgrable. Dans ce cas on a f d = gd. En particulier, pour A E , on a A f (x)d(x) = 0 lorsque (A) = 0. 2. Supposons que f soit valeurs dans R+ {+}. Alors p.p.
f d = 0 si et seulement si f = 0 f d < + alors (f =

3. Supposons que f soit valeurs dans R+ {+}. De plus si ) = 0. Dans ce cas on dit que f < + p.p.

Remarques.
 Considrons le cas o (E, E , ) = (R, B (R), ). Si f : R R est une fonction intgrable et g : R R telle que g (x) = f (x) pour x D c . Si (D ) = 0 (c'est par exemple le cas si D est dnombrable), alors le premier point de cette proposition assure que l'intgrale de g est gale l'intgrale de f .  Le deuxime point a dj t utilis au Chapitre 1 pour montrer qu'une variable alatoire positive d'esprance nulle est une variable alatoire nulle p.s et donc qu'une variable alatoire de carr intgrable et de variance nulle tait presque srement gale sa moyenne.  Illustrons le troisime point dans le cadre des probabilits. Considrons une suite (Xn )nN de variables alatoires telle que pour tout n N, Xn suive une loi de bernoulli de paramtre + pn . Alors si + n=0 pn < +, la variable alatoire X = n=0 Xn (qui existe en tant que limite d'une suite croissante de variables alatoires) est nie presque srement. En eet, on a par convergence monotone
+ + +

E
n=0

Xn

=
n=0

E(Xn ) =
n=0

pn < +,

et la variable alatoire X est nie presque srement d'aprs le troisime point de la proposition prcdente. La variable alatoire X ne peut videmment tre nie en tout point : elle vaut + lorsque qu'une innit de 1 apparaisse dans la suite ; par contre la probabilit que cela se produise est nulle. 45

3.3

Mesure produit et thorme de Fubini

Les produits de mesure gnralisent ceux dj vues pour les mesures de probabilit (cf Chapitre 1). Cette notion permet galement de dnir l'aire ou le volume d'un borlien de R2 ou de R3 , en eectuant un produit de mesure l'aide de la mesure de Lebesgue. Rappelons (voir Chapitre 1) que si E et F sont deux ensembles, chacun muni d'une tribu note respectivement E et F alors la tribu produit sur E F est note E F et est dnie par

E F = ({B C : (B, C ) E F}) .


On dnit le produit de deux mesures et sur E F lorsque les deux mesures sont nies. On dit qu'une mesure est nie lorsqu'on peut crire E = nN En avec (En )nN une suite d'lments de E , croissante pour l'inclusion, et telle que (En ) < + pour tout n N. Toute mesure de probabilit est nie (en prenant En = E pour tout n). La mesure de Lebesgue est aussi nie car R = nN [n, n] et ([n, n]) = 2n < +. Plus gnralement, toute mesure de Lebesgue-Stieljes est nie.

Thorme 7

Si (E, E , ) et (F, F , ) sont deux espaces mesurs avec des mesures et toutes deux nies, alors il existe une unique mesure, note , dnie sur E F et telle que
(B C ) = (B ) (C ), (B, C ) E F .
(3.2)

On dit que est la mesure produit de et de .


Par rcurrence, on peut aussi dnir la mesure produit de n mesures nies (comme cela a t directement nonc au Chapitre 1).

Cas particulier fondamental. Supposons que E = F = R est muni de la tribu des borliens et que = = la mesure de Lebesgue. Dans ce cas est note 2 et est appele mesure de Lebesgue sur R2 . Ainsi pour deux borliens B et C de R, on a
2 (B C ) = (B )(C ).
On dit alors que 2 est la mesure d'aire (pour A B (R2 ), on dit que 2 (A) est le volume du borlien A). Il est galement possible de dnir par rcurrence le produit . . . de n mesures de Lebesgue, mesure note n et qui est appele la mesure de Lebesgue sur Rn . Pour n = 3, 4, . . ., on parle de mesure de volume.

Revenons au cas gnral d'un produit . Evidemment un lment A de la tribu E F ne peut pas toujours s'crire B C avec (B, C ) E F (par exemple si A est un disque de R2 ). Il est alors possible de calculer la mesure de A partir de la mesure de ces sections". Plus prcisment, si (x, y ) E F , on dnit les sections A(x) et A(y ) de A par

A(x) = y F : (x, y ) A ,

A(y ) = x E : (x , y ) A .

Il est possible de vrier que A(x) F et A(y ) E . De plus on peut montrer que

( ) (A) =

(A(y )) d (y ) =

(A(x)) d(y ).

(3.3)

On peut donc calculer la mesure de A en intgrant la mesure de ses sections. Lorsque = = , les longueurs de deux sections d'un borlien de R2 sont reprsentes sur la Figure 3.4. La 46

Fig.

3.4: Un borlien et les longueurs de deux de ses sections

possibilit d'intgrer les sections en commenant par une ou l'autre des variables x ou y peut tre justie : les deux applications 1 : E F R+ {+} et 2 : E F R+ {+} dnies par

1 (A) =

(A(y )) d (y ),

2 (A) =

(A(x)) d(y ),

sont en fait deux mesures nies qui satisfont (3.2) et ces mesures sont donc gales par unicit. On a alors le thorme fondamental dit thorme de Fubini qui permet de calculer l'intgrale d'une fonction par rapport la mesure produit en utilisant uniquement le calcul intgral sur les mesures et .

Thorme 8

une application mesurable (par rapport la tribu produit). Soit f : E F R

1. Si f prend des valeurs positives ou ventuellement + alors


f (x, y )d (x, y ) = f (x, y )d(x) d (y ) = f (x, y )d (y ) d(x). (3.4)

2. Supposons que f prenne des valeurs quelconques. Alors, f est intgrable si et seulement si l'une ou l'autre des intgrales |f (x, y )|d (y ) d(x), |f (x, y )|d(x) d (y ) est nie (remarquer que ces deux intgrales sont forcment gales d'aprs le point 1.). Dans ce cas on a encore (3.4).
On pourra remarquer que lorsque f = 1A , alors on retrouve bien les galits (3.3). Ce thorme est extrmement utile. Voyons deux cas particuliers rencontrs couramment.  Lorsque E = F = R et = = , on a sous les hypothses du thorme

f (x, y )d2 (x, y ) =

f (x, y )dx dy =

f (x, y )dy dx.

L'intgrale sur R2 fournit un calcul du volume situ sous le graphe de la fonction f . Ce volume peut tre calcul, en commenant d'abord par calculer l'aire situe sous le graphe des applications partielles x f (x, y ) ou y f (x, y ) (voir Figure 3.5). Mentionnons deux cas particuliers fondamentaux. Lorsque f (x, y ) = g (x)h(y ) pour deux fonctions mesurables 47

Fig.

3.5: Illustration du calcul d'aire

g et h, alors f est intgrable (pour 2 ) si et seulement si g et h sont intgrables (pour ).


De plus, on a dans ce cas

f (x, y )d2 (x, y ) =

g (x)dx

h(y )dy,

galit qui est en fait toujours vrie si h et g sont valeurs dans R+ {+}. Le deuxime cas concerne l'intgration sur un sous-ensemble de R2 . Rappelons que par dnition

f (x, y )d2 (x, y ) =


A

1A (x, y )f (x, y )d2 (x, y ).

Lorsque A = B C et sous les conditions du thorme de Fubini, on a

f (x, y )d2 (x, y ) =


A B C

f (x, y )dy dx =
C B

f (x, y )dx dy.

 Toujours lorsque E = F = R mais que = et est la mesure de comptage sur N, on a


+ +

f (n, y )dy =
n=0 n=0

f (n, y ) dy,
+

lorsque f est positive ou intgrable (ce qui signie que


n=0

|f (n, y )|dy < +).

 Lorsque et sont toutes deux gales la mesure de comptage sur N, on retrouve le thorme de Fubini nonc au Chapitre 2.
3.4 Mesure densit et thorme de transfert

Maintenant que l'intgrale d'une fonction par rapport une mesure a t dnie, on peut construire d'autres mesures appeles mesures densit.

Proposition-Dnition 2

Soit (E, E , ) un espace mesur et soit f : E R+ une fonction mesurable. Alors l'application : E R+ {+} dnie par
(A) =
A

f d,

A E,

est une mesure appele mesure de densit f par rapport . On note = f .


48

Remarque.

Il est important de remarquer que la densit f de la mesure n'est pas unique. Supposons qu'une fonction mesurable g soit telle que ({x E : g (x) = f (x)}) = 0 (c'est dire f = g p.p). Alors g est encore une densit car

(A) =
A

f (x)d (x) 1f (x)=g(x) f (x)d(x) +


A A

= =
A

1f (x)=g(x) f (x)d(x)

1f (x)=g(x) g (x)d(x) + 0 1f (x)=g(x) g (x)d(x)


A

= =
A

g (x)d(x).

Nous avons utilis le premier point de la Proposition 18. On peut donc modier une densit sur un ensemble de mesure nulle. Ainsi, si = la mesure de Lebesgue sur R, toute fonction obtenue en modiant la densit de dpart en un nombre ni ou inni dnombrable de points est encore une densit. Lorsque = 2 est la mesure de Lebesgue sur R2 , alors on peut modier une densit le long d'un segment ou d'une droite de R2 : par exemple si D = {(x, y ) : x = 0}, on a par le thorme de Fubini

2 (D) =

(Dy )dy =

({0})dy = 0.

Preuve. Vrions que est bien une mesure. On a () = 0 car la fonction 1 f est nulle. De plus si (An )nN est une suite d'lments de E disjoints deux deux, alors en utilisant le fait que
+

1+ An =
n=0

1An
n=0

et le thorme de la convergence monotone, on a


+ n=0 An

= =

1+ An f d
n=0

1An f d
n=0 +

=
n=0 +

1An f d ( An ) .
n=0

Ainsi est bien une mesure.

Exemples

 Lorsque (E, E , ) = Rd , B (Rd ), d et f : Rd R+ est une fonction intgrable et d'intgrale 1, on dit que est une mesure de probabilit densit par rapport la mesure de Lebesgue (lorsque il n'y aura pas d'ambiguit, on parlera simplement de mesure de probabilit densit). 49

 Supposons (E, E , ) = (R, B (R), ) et soit f : R R+ une fonction intgrable par rapport . Alors la mesure = f concide avec la mesure de Lebesgue-Stieltjes F associe x la fonction F : R R+ dnie par F (x) = f (z )dz pour tout x R. Pour vrier ceci, on vrie que et F sont gales sur les intervalles. Il est ensuite possible de montrer que l'ensemble des borliens A pour lesquels et F concident est une tribu. Comme cette tribu contient les intervalles, elle est forcment gale B (R), ce qui montre l'galit des deux mesures sur B (R).  Lorsque E = R, E = P (R) et dsigne la mesure de dnombrement sur N, toute mesure + discrte = n=0 pn n possde une densit f par rapport . Il sut de dnir f : R R+ par f (n) = pn pour n N et f (x) = 0 si x / N. En eet, en utilisant l'expression de intgrales pour les mesures discrtes, on a alors pour A P (R) :
+ +

1A f d =
n=0

1A (n)f (n) =
n=0

1A (n)pn = (A).

Proposition 19

Soient (E, E , ) un espace mesur et f : E R+ une fonction mesurable. une fonction mesurable. Posons = f . Soit enn g : E R 1. Si g prend ses valeurs dans R+ {+}, alors
gd = f gd.

2. La fonction g est intgrable par rapport si et seulement si f g est intgrable par rapport . Dans ce cas, on a encore
gd = f gd.

Preuve.
1. L'galit est vrie pour une fonction tage g =
N N N i=1 yi 1Ai

positive. En eet, on a

gd =
i=1

yi (Ai ) =
i=1

yi

1Ai f d =

gf d,

en utilisant la linarit de l'intgrale. Soit maintenant g une fonction mesurable valeurs dans R+ {+} et (gn )n une suite croissante de fonctions tages positives convergeante point par point vers g . Alors (gn f )n est une suite croissante de fonctions mesurables positives convergeante point par point vers la fonction gf . Le thorme de la convergence monotone et la dnition de l'intgrale entraine alors

gd = lim

n+

gn d = lim

n+

gn f d =

gf d.

2. Si maintenant g prend des valeurs quelconques, on sait que g est intgrable par rapport si et seulement si |g |d < +. Or d'aprs le premier point |g |d = |gf |d. On a donc bien la condition ncessaire et susante annonce pour l'intgrabilit. En appliquant les formules du point 1. g + et g , on a bien la formule annonce pour l'intgrale. 50

Exemple.

Sur l'espace probabilis (R, B (R), P) avec P = f (f : R R+ tant une fonction mesurable telle que f (x)dx = 1), toute variable alatoire X positive vrie E(X ) = X (x)f (x)dx. Passons maintenant au thorme de transfert dans un cadre gnral. Considrons un espace probabilis (, A, P) et une variable alatoire X : Rd . Si on considre l'univers des valeurs possibles pour X , on a un autre espace probabilis : Rd , B (Rd ), PX . Le thorme de transfert permet de calculer l'esprance d'une variable alatoire fonction de X uniquement partir de la loi de X .

Thorme 9 (thorme de transfert)


E (g (x)) = g (x)dPX (x).

une fonction mesurable. Soit g : Rd R 1. Si g prend ses valeurs dans R+ {+}, alors on a la formule
(3.5)

2. Dans le cas gnral, la variable alatoire Y = g (X ) est intgrable si et seulement si g est PX intgrable. Dans ce cas, on a encore la formule (3.5).

Cas particuliers

 Lorsque PX = f d (on dit que la loi de X est densit), on a pour toute fonction mesurable positive g :

E (g (X )) =

g (x)f (x)dx.

Cette galit est due au thorme de transfert et la Proposition 19. La mme galit vaut aussi lorsque |g (x)|f (x)dx < +. +  Lorsque PX = n=0 pn xn est une mesure de probabilit discrte (et donc que X est une variable alatoire discrte) on retrouve le thorme de transfert dj nonc lors du Chapitre 2.

Preuve du thorme.
1. Si g =
N i=1 yi 1Ai

Comme auparavant, on prouve ce rsultat en suivant les tapes de la construction de l'intgrale. est une fonction tage, on a
N

g (X ) =
i=1

yi 1X Ai .

Par dnition, on a
N N

E (g (X )) =
i=1

yi P (X Ai ) =
i=1

yi

1Ai (x)dPX (x).

En utilisant la linarit de l'intgrale, on a bien E (g (X )) = g (x)dPX (x). Si maintenant (gn )n est une suite croissante de fonctions tages positives convergeante point par point vers g alors (gn (X ))n est aussi une suite croissante de fonctions tages positives convergeante point par point vers g (X ). On a alors

E (g (X )) = lim E (gn (X )) = lim


n+

n+

gn (x)dPX (x) =

g (x)dPX (x).

2. Comme d'aprs le premier point E (|g (X )|) = |g (x)|dPX (x), la variable alatoire Y = g (X ) est intgrable si et seulement si g est PX intgrable. En dcomposant g = g + g , on obtient le rsultat en utilisant le point prcdent et la linarit de l'intgrale. 51

3.5

La formule du changement de variables

Thorme 10

Soient A et B sont deux ensembles ouverts de Rn et : A B une application continument direntiable ainsi que sa rciproque et f : Rn R une fonction mesurable. Pour u A, soit J(u) le Jacobien de au point u, c'est dire le dterminant de la matrice i . Alors xj (u)
1i,j n

f intgrable sur B u f ((u)) |J(u)| intgrable sur A.

Dans ce cas, on a
f (x)dx =
B A

f ((u)) |J(u)| du.

Remarques

 Lorsque n = 1, A = [a, b] et B = [c, d], le thorme prcdent entraine


d b

f (x)dx =
c a

f ((u)) | (u)|du.

Cette formule est bien compatible avec la formule


d 1 (d)

f (x)dx =
c 1 (c)

f ((u)) (u)du.

En eet si l'application est croissante, il en va de mme de 1 et est positive ce qui entraine 1 (c) = a, 1 (d) = b et | (u)| = (u) pour tout u A. Si maintenant l'application est dcroissante, il en va de mme de 1 et est ngative ce qui entraine 1 (c) = b, 1 (d) = a et | (u)| = (u) pour tout u A. Ainsi d'aprs la convention utilise sur les bornes de l'intervalle d'intgration, on a
b b a 1 (d)

f ((u)) | (u)|du =
a a

f ((u)) (u)du =
b

f ((u)) (u)du =
1 (c)

f ((u)) (u)du.

 Remarquons aussi que sous rserve des conditions d'intgrabilit, on peut aussi crire la formule :

f ((u)) du =
A B

f (x)|J1 (x)|dx.

On gardera l'esprit que lorsqu'on change la variable u par la variable x = (u), on a u = 1 (x) et il faut remplacer du par |J1 (x)|dx dans l'intgrale de dpart. On peut voir en drivant l'galite 1 (x) = x que J1 (x) = J1 (u) .

L'exemple des coordonnes polaires.


et soit : A B dni par

Posons

B = R2 \ {(x, 0) : x 0} ,

A =]0, +[] , [,

(, ) = ( cos(), sin()) ,

(, ) A.

On peut montrer que vrie les hypothses du changement de variables et que

1 (x, y ) =

x2 + y 2 , 2 arctan

y x+
52

x2 + y 2

(x, y ) B.

De plus on peut vrier que |J(, )| = . Appliquons ce changement de variables pour le calcul de I = drons l'intgrale double

x2 2

dx. Pour cela, nous consi-

exp

x2 + y 2 2

d2 (x, y ) = I 2 ,

o l'galit prcdente est justie par le thorme de Fubini. On voit facilement que

exp

x2 + y 2 2

d2 (x, y ) = + =

x2 + y 2 d2 (x, y ) 2 x2 + y 2 1B c (x, y ) exp d2 (x, y ) 2 x2 + y 2 d2 (x, y ) 1B (x, y ) exp 2 1B (x, y ) exp

en remarquant la nullit de la deuxime intgrale (appliquer le thorme de Fubini). En eectuant le changement de variables avec les coordonnes polaires, on obtient

1B (x, y ) exp

x2 + y 2 2

d2 (x, y ) =
A

exp

2 2

dd = 2, 2 ce qui justie la

en appliquant de nouveau le thorme de Fubini. On trouve donc I = dnition de la loi gaussienne centre rduite.

53

54

Chapitre 4
Les variables alatoires densit

Dans ce chapitre, nous nous replaons dans le cadre de la thorie des probabilits. Soit

(, A, P) un espace probabilis. En utilisant les rsultats du chapitre prcdent, on conviendra qu'une variable alatoire X : Rd est densit (sous-entendu par rapport la mesure de Lebesgue sur Rd note d ) lorsque sa loi PX est une mesure densit par rapport d . Ceci signie qu'il existe une fonction mesurable f : Rd R+ telle que f (x)dd (x) = f (x)dx = 1
et

P (X A) =
A

f (x)dx,

A B Rd .

4.1

Exemples de lois densit

Voici quelques lois densit classiques rencontres en probabilits et en statistique.

Les lois Gaussiennes sur R.

On dit qu'une variable alatoire X suit une loi gaussienne de paramtres m R et > 0 (on parle aussi de loi normale ou encore de loi de Laplace-Gauss) et on note X N m, 2 lorque X est densit par rapport la mesure de Lebesgue et que la densit est donnes par :

1 (x m)2 f (x) = exp 2 2 2

x R.

On peut remarquer que si U N (0, 1) (on parle de loi gaussienne centre rduite) alors la variable alatoire m + U suit la loi N m, 2 (pour le montrer, on peut soit utiliser le thorme de transfert et eectuer un changement de variable ou calculer la fonction de rpartition, voir la section sur le calcul de lois). Il est facile de vrier que E(X ) = m (en utilisant les proprits de symtrie de la densit) et que Var (X ) = 2 (on peut le dmontrer d'abord pour la loi gaussienne centr rduite en eectuant une intgration par parties). Les proprits de symtrie de cette loi permettent de modliser les variations de certaines grandeurs autour d'une valeur donne (par exemple les erreurs de mesure). Cette loi est importante en statistique du fait de son rle de loi limite (nous en reparlerons lorsque nous noncerons le thorme central-limite).

Les lois uniformes.

Lorsque [c, d] est un intervalle de R, la loi uniforme sur [c, d] (dj rencontre au Chapitre 1) est la loi dont la densit f est dnie par

f (x) =

1 1 (x), d c [c,d]
55

x R.

On peut en fait dnir une loi uniforme sur n'importe quel borlien de mesure de Lebesgue non nulle. Par exemple sur R2 , la loi uniforme sur le disque unit possde une densit f : R2 R+ dnie par

f (x, y ) =

1 1 2 2 , x +y 1

(x, y ) R2 .

Lois gamma.

On dit qu'une variable alatoire X suit une loi gamma de paramtres k > 0 et > 0 (notation X (k, )), si la densit de X est donne par

f (x) =
o on a

xk1 exp x 1x>0 , (k )k


+

(k ) =
0

xk1 exp(x)dx.

On a alors E(X ) = k et Var (X ) = k 2 . On peut remarquer que pour k = 1 on a une loi exponentielle de paramtre 1 . Lorsque k est entier, on peut montrer que la loi (k, ) correspond galement la loi de la somme de k variables alatoires indpendantes toutes de loi exponentielle 2 de paramtre 1 (voir plus loin lorsque nous tudierons la convolution). La loi du , trs utilise en statistique est un cas particulier de la loi gamma (nous reparlerons de la loi du 2 lors du chapitre sur les vecteurs gaussiens).

Lois de Weibull.

On dit qu'une variable alatoire X suit une loi de Weibull de paramtres


1

, , si la densit de X est donne par f (x) = x exp x 1x> .

Cette loi est frquemment utilise en abilit pour modliser le taux de dfaillance d'un matriel (voir le TD pour des prcisions). Lorsque = 0 et = 1, on retrouve la loi exponetielle de paramtre 1. Plus gnralement, on peut montrer que Y = de paramtre 1.
X

suit une loi exponentielle

Loi de Cauchy.

La densit f est dnie par

f (x) =

1 , (1 + x2 )

x R.

Cette loi a la particularit de ne pas avoir de moyenne, car |x|f (x)dx = +. On peut montrer que la loi de Cauchy est la loi du quotient de deux variables alatoires gaussiennes, centres rduites et indpendantes.
4.2 Densits marginales. Indpendance

Dnition 17

Soit Z = (X, Y ) une variable alatoire valeurs dans R2 et dont la loi possde une densit f par rapport la mesure de Lebesgue sur R2 . Soient f1 : R R+ et f2 : R R+ les fonctions dnies par
f1 (x) = f2 (y ) = f (x, y )dy, f (x, y )dx,
56

x R, y R.

Alors les fonctions f1 et f2 sont des densits de probabilit appeles les densits marginales de Z et correspondent aux densits des mesures PX et PY respectivement.
La dnition prcdente se gnralisent au cas d'une variable alatoire Z valeurs dans Rd . Dans ce cas, la iime densit marginale est simplement la fonction obtenue en intgrant la densit de Z par rapport aux d 1 variables d'indices j = i. On notera que deux variables alatoires relles peuvent avoir une densit sans que ce soit le cas pour le couple : par exemple si Y = X alors le couple Z = (X, X ) ne peut avoir de densit car la diagonale de R2 , D = {(x, y ) : x = y }, est de mesure nulle (pour 2 ).

Proposition 20

Soient des variables alatoires X1 , . . . , Xn valeurs respectives dans Rd1 , . . . , Rdn et admettant des densits notes respectivement f1 , . . . , fd . Alors X1 , . . . , Xd sont indpendantes si et seulement si la variable alatoire Z = (X1 , . . . , Xn ) ( valeurs dans Rd , d = d1 + . . . + dn ) admet une loi densit f par rapport d , donne par
f (x1 , . . . , xn ) = f1 (x1 ) fn (xn ), (x1 , . . . , xn ) Rd .

Preuve.

Supposons d'abord les variables alatoires X1 , . . . , Xn indpendantes. Alors si Ai

B Rdi pour 1 i n, on a P (X1 A1 , . . . , Xn An ) = P (X1 A1 ) P (Xn An ) =


A1

f (x1 )dx1
An

f (xn )dxn

=
A1 An

f1 (x1 ) fn (xn )dx1 dxn ,

la dernire galit rsultant du thorme de Fubini. D'aprs l'unicit de la mesure produit, on en dduit que la loi de Z vrie
n

P ( Z A) =
A i=1

fi (xi )dd (x1 , . . . , xn ),

A B Rd .

Inversement, supposons que la densit de Z soit donne par le produit des densits f1 , . . . , fn . Alors l'application du thorme de Fubini entraine automatiquement l'indpendance des variables X1 , . . . , Xn (reprendre l'enchainement des galits ci-dessus mais en sens inverse).

Remarque.

Supposons que la densit f d'un couple (X, Y ) s'crivent sous la forme d'un produit, c'est dire

f (x, y ) = g (x)h(y ),

(x, y ) R2 ,

pour deux fonctions g et h valeurs positives (mais sans savoir priori qu'il s'agit de densits de probabilit). Alors le thorme de Fubini permet d'armer que les fonctions g et h sont, une constante prs, les densits de X et de Y respectivement. Par exemple, la densit de X est x h(y )dy g (x). De plus les variables alatoires X et Y sont indpendantes. Cette remarque se gnralise un nombre n 2 de variables alatoires. On retiendra qu'il sut d'arriver sparer les variables dans la densit jointe pour conclure l'indpendance.

Soient X et Y deux variables alatoires indpendantes valeurs dans Rd et dont les lois admettent des densits fX et fY respectivement. Alors la variable alatoire Z = X + Y admet une densit fZ : Rd R+ donne par
fZ (z ) = fX (z y )fY (y )dy = fY (z x)fX (x)dx, z Rd .

Proposition 21

On dit que fZ est le produit de convolution de fX et de fY .


57

Preuve.

Soit h = 1A , A B (Rd )). Nous avons

P ((Z A) = E (h(X + Y )) = = = = h(z ) h(x + y )fX (x)fY (y )d2d (x, y ) h(x + y )fX (x)dd (x) fY (y )dd (y ) h(z )fX (z y )dd (z ) fY (y )dd (y ) fX (z y )fY (y )dd (y ) dd (z ).

La deuxime galit rsulte du thorme de transfert et la troisime du thorme de Fubini. La quatrime galit est obtenue en eectuant le changement de variables z = x + y (de Jacobien 1). La dernire galit est obtenue en utilisant le thorme de Fubini.

Remarque.

Si on ne suppose pas l'indpendance de X et de Y , alors la somme Z n'a pas ncessairement une densit (c'est le cas si Y = X par exemple).

Exemple de calcul.

Il est utile de savoir refaire la dmonstration prcdente car celle-ci permet galement de trouver des densits de variables du type Z = X Y ou encore Z = XY lorsque les variables X et Y sont indpendantes. Appliquons directement la formule obtenue lorsque les variables alatoires X et Y suivent toutes les deux la loi exponentielle de paramtre > 0. Dans ce cas

fZ (z ) = =

1R+ (z y )1R+ (y )2 exp(z )dy


z 0

2 exp(z )dy = 2 z exp(z ), si z 0 0 sinon

Ainsi on trouve fZ (z ) = 1R+ (z )2 z exp(z ) pour z R. Z suit donc une loi 2, 1 . On peut aussi montrer la somme de deux variables alatoires indpendantes et de lois respectives (a, ) et (b, ) suit une loi (a + b, ). On voit alors immdiatement par rcurrence que la loi d'une somme de n variables alatoires indpendantes toutes de loi exponentielle de paramtre est une loi n, 1 .

Exemple de calcul : la densit des statistiques d'ordre. Soient X1 , . . . , Xn des variables alatoires i.i.d toutes de loi densit f sur R. Alors on peut montrer que pour i = j (1 i, j n), P (Xi = Xj ) = 0. Pour montrer ceci, on commence par remarquer que le couple (Xi , Xj ) est une variable alatoire densit qui est donne par (x, y ) f (x)f (y ). De plus on a l'galit P(Xi = Xj ) = E (1D (Xi , Xj )) o D = {(x, y ) R2 : x = y }. Avec l'abus de notation dj utilis auparavant, on pourrait aussi crire 1D = 1x=y . Appliquons maintenant le thorme de transfert. On a
y

E (1D (Xi , Xj )) =

1D (x, y )f (x)f (y )dxdy =

f (y )
y

f (x)dx dy,
y

la deuxime galit rsultant du throrme de Fubini. Comme pour tout y , y f (x)dx = 0, on obtient bien P (Xi = Xj ) = 0. On peut mme armer que

P (i=j {Xi = Xj })
i= j

P(Xi = Xj ) = 0.

58

Posons B = i=j {Xi = Xj }. Pour B c , les valeurs X1 ( ), . . . , Xn ( ) sont toutes distinctes. Pour tout B , soit alors : {1, . . . , n} {1, . . . , n} une permutation telle que X(1) ( ) < . . . < X(n) ( ) ( dpend de ) et posons

X(i) ( ) = X(i) ( ),

1 i n.

Si B , on pose X(i) ( ) = 0 pour 1 i n. Nous allons dterminer la densit du vecteur alatoire X(1) , . . . , X(n) . Remarquons au passage que pour B c , on a X(1) ( ) =

min1in Xi ( ) et X(n) ( ) = max1in Xi ( ). Soit A B (Rn ). Posons X (o) = X(1) , . . . , X(n) et X = (X1 , . . . , Xn ). On a alors P X (o) A = P { X ( o ) A} B c =
Sn

P {X(1) < . . . < X(n) } {(X(1) , . . . , X( n) ) A 1x1 <...<xn f (x1 ) f (xn )dn (x1 , . . . , xn ).
A

= n!

Commentons ces galits. La premire galit est due au fait que P(C ) = P(C B c ) pour tout C A car P(B c ) = 1. La deuxime galit est due au fait que

B c = Sn X(1) < . . . < X(n) ,


o on a not Sn comme tant l'ensemble de toutes les permutations de {1, . . . , n}. De plus cette runion est disjointe. La dernire galit est due au thorme de transfert et au fait que pour tout Sn donn, le nuplet X(1) , . . . , X(n) a la mme loi que X . Finalement, on voit que X (o) est densit. Cette densit est donne par

(x1 , . . . , xn ) n!1x1 <...<xn f (x1 ) f (xn ).


4.3 Les calculs de lois en pratique.

Dans cette section, nous donnons quelques exemples de calculs de lois dans diverses situations.  Variable discrte. Pour connaitre la loi, on calcule la probabilit de chaque valeur possible. Prenons l'exemple de Y = [X ] (partie entire de X ) lorsque X suit une loi exponetielle de paramtre . L'ensemble des valeurs possibles pour Y est N. Si n N, on a
n+1

P (Y = n) = P (n X < n + 1) =
n

exp(x)dx = exp(n) exp((n + 1)).

Ainsi Y suit une loi gomtrique de paramtre p = 1 exp(). Variable relle densit. Si X est une variable alatoire relle densit et que g est une fonction bijective susamment rgulire, la loi de Y = g (X ) sera une loi densit que l'on peut dterminer en utilisant un changement de variables dans l'intgrale. Prenons un exemple. On a mentionn sans le prouver qu'une variable alatoire Y suit une loi de Weibull de paramtres , , si Y = X 1/ + = g (X ) o X suit une loi exponentielle de paramtre 1. Calculons alors la densit de Y . Pour cela, on pose h = 1A pour un borlien A B (R). Le thorme de transfert donne

E (h(Y )) = E (h g (X )) =
59

h (g (x)) 1x>0 exp(x)dx.

Eectuons ensuite le changement de variables y = g (x) (g est continument drivable ainsi que sa rciproque de ]0, [ sur ], +[) ce qui donne x = g 1 (y ) = alors
y . 1

On obtient

E (h(Y )) =

h(y )1y> exp

dy.

On retrouve l'expression de la densit d'une loi de Weibull. Il galement possible de retrouver ce rsultat en calculer la fonction de rpartition FY : R [0, 1] dnie par FY (y ) = P (Y y ) partir de la fonction de rpartition de X . Ici, nous avons pour y > ,

FY (y ) = P X 1/ + y = P X
Ainsi, si y > , FY est drivable en y et on a

= 1 exp

FY (y ) = exp

De plus si y < , on a FY (y ) = 0 donc FY (y ) = 0. Lorsque une fonction de rpartition F est continue, continument drivable sur un intervalle I ouvert et nulle gauche de I (si la borne infrieure de I est > ) et valant 1 droite de I (si la borne suprieure de I z est < +), on a automatiquement F (z ) = F (u)du et F est une densit de la loi. On retrouve donc bien le rsultat prcdent.  Calcul d'esprance. On utilise le thorme de transfert et le thorme de Fubini (lorsque plusieurs variables sont en jeu). Par exemple, si X est une variable alatoire admettant une densit fX et h une fonction mesurable valeurs relles, on a (sous les hypothses du thorme de transfert)

E (h(X )) =


h(x)fX (x)dx.

l'application est bijective, on peut utiliser la formule du changement de variables. Voici un exemple de calcul. Soit (X, Y ) un couple de variables alatoires suivant la loi uniforme sur le disque unit de R2 , c'est dire de densit dnie par

Image d'un couple de variables alatoires densit par une application. Lorsque

fX,Y (x, y ) =

1 1 2 2 . x +y <1

Soit R et le rayon et l'angle associs au point (X, Y ) (coordonnes polaires du point (X, Y )). On a

(X, Y ) = (R cos(), R sin()) = (R, ).


Cherchons la loi du couple (R, ). Pour une fonction h : R2 R mesurable borne, on a en utilisant le thorme de transfert

E (h(R, )) = E h 1 (X, Y ) 1 = h 1 (x, y ) 1x2 +y2 <1 dxdy 1 = h 1 (x, y ) 1x2 +y2 <1 dxdy B o B = R2 \ (R {0}). On pose (r, ) = 1 (x, y ) ce qui donne (x, y ) = (r, ). On a dj voqu au chapitre prcdent que : A B tait continument direntiable que sa
60

rciproque avec A = R + ] , [ et J(r, ) = r . On remplace alors (x, y ) par (r, ) dans l'intgrale, le domaine d'intgration B par A et dxdy par |J(r, )|drd . On obtient

E (h(R, )) =
A

h(r, )1r2 <1 rdrd =

h(r, )r10<r<1 1<< drd.

On voit alors que R et sont des variables alatoires indpendantes et en renormalisant, on voit que f = 21 1], [ ce qui signie que suit la loi uniforme sur l'intervalle [, ]. De plus la denst de R est donne par fR (r ) = 2r 10<r<1 . Ces densits marginales pouvaient tre retrouver directement en utilisant la dnition intuitive de la loi uniforme. En eet (A) la probabilit d'un borlien A inclus dans le disque est 2 . Ainsi pour 0 < r < 1, la 2 probabilit P(R r ) = r (aire du disque de centre 0 et de rayon r ) correspond bien la fonction de rpartition au point r de la loi trouve. De plus si ] , [, on a + P ( ) = 2 (aire du secteur angulaire entre et ) ce qui correspond bien la fonction de rpartition de la loi uniforme sur l'intervalle [, ].  Loi d'une fonction d'une variable densit et d'une variable discrte. Pour calculer la loi d'une variable alatoire Z = F (X, Y ) valeurs dans Rd o X est discrte et Y est une variable densit indpendante de X , on se donne une fonction h mesurable borne arbitraire (par exemple une indicatrice) et on peut valuer l'esprance de h(Z ) de la faon suivante.

E (h(Z )) = E
xval(X )

h (F (x, Y )) 1X =x ) E (h (F (x, Y )) 1X =x )

=
xval(X )

=
xval(X )

E (h (F (x, Y ))) P (X = x) .

La deuxime galit se justie l'aide du thorme de Fubini car h est borne et la troisime galit est due l'indpendance de X et de Y . On poursuit alors le calcul de la loi de F (x, Y ) en utilisant ventuellement un changement de variable. Supposons par exemple que Z = (1 X )Y1 + XY2 o Y = (Y1 , Y2 ) est un couple de variables 2 , Y N , 2 . alatoires relles indpendant de X B (p) et tel que Y1 N 1 , 1 2 2 2 En notant f1 (resp. f2 ) la densit de Y1 (resp. Y2 ), on a alors

E (h(Z )) = (1 p)E (h(Y1 )) + pE (h(Y2 )) = (1 p) = h(z )f1 (z )dz + p h(z )f2 (z )dz

h(z ) ((1 p)f1 (z ) + pf2 (z )) dz.

La loi de Z est donc une loi densit fZ donne par un mlange des deux densits f1 et 2 . f2 (voir Figure 4.1). Remarquons que si f1 = f2 alors on a fZ = f1 et Z N m1 , 1 On peut aussi obtenir des lois mixtes : par exemple la variable alatoire X = Y o Y est une variable alatoire de densit f sur R, indpendante de B (p), vrie pour une fonction h mesurable borne,

E (h(X )) = E (h(0)1

=0 )

+ E (h(Y )1

=1 )

= h(0)(1 p) + p =

h(y )f (y )dy

h(y ) ((1 p)d0 (y ) + pf (y )dy ) .

On a donc PX = (1 p)d0 + pf . 61

4.1: Densit mlange de deux densits gaussienne de moyennes respectives 3 et 3 et de variance 1


Fig.

4.4

Densits conditionnelles.

Dnition 18

Soit (X, Y ) un couple de variables alatoires valeurs dans Rd Rk et dont la loi admet la densit fX,Y . Soit y Rk tel que fY (y ) = 0. On appelle loi conditionnelle de X sachant Y = y (et on note loi de X |Y = y ) la loi de probabilit qui possde la densit note fX |Y (|y ) et qui est dnie par
fX |Y (x|y ) = fX,Y (x, y ) , fY (y ) x Rd .

On dit que fX |Y (|y ) est la densit conditionnelle de X sanchant Y . Lorsque y Rk vrie fY (y ) = 0, on convient de dnir la loi de X |Y = y par une mesure de probabilit de densit arbitraire g sur Rd et on pose fX |Y (|y ) = g .
On dnit de faon analogue la loi de Y |X = x pour x Rd . On peut motiver la dnition prcdente partir des probabilits conditionnelles entre venements. Pour simplier, suppoP(X A,Y =y ) sosns d = k = 1. On ne peut pas dnir P (X A|Y = y ) partir du quotient , le P(Y =y ) numrateur et le dnominateur tant tous deux nuls. Un bon moyen pour mesurer l'inuence d'une valeur y de Y sur celles de X consiste regarder la limite des probabilits conditionnelles

P (X A|y < Y < y + ) =

P (X A, y < Y < y + ) , P (y < Y < y + )

(4.1)

lorsque 0. Si la densit est non nulle dans un voisinnage arbitrairement petit de y , ces quotients sont bien dnis. On a alors

P (X A|y < Y < y + ) = =

y+ y

A fX,Y (x, v )dx y+ y fY (v )dv

dv

G(y + ) G(y ) , F (x + ) F (x )
62

o on a pos G(z ) = A fX,Y (x, v )dx dv et o F dsigne la fonction de rpartition de X . En divisant par 2 , on a sous rserve de drivabilit

lim P (X A|y < Y < y + ) =


0

G (y ) = F (y )

A fX,Y (x, y )dx

fY (y )

On obtient donc l'intgrale sur A de la densit conditionnelle dnie prcdemment.

Notations. Vu la remarque prcdente, on notera P (X A|Y = y) = A fX |Y (x|y)dx. La fonction x P (X x|Y = y ) est appele fonction de rpartition conditionnelle de X |Y = y . De plus, lorsque elle est bien dnie, on notera E (X |Y = y ) = xfX |Y (x|y )dx la moyenne de la loi conditionnelle de X |Y = y .
Si X une variable alatoire intgrable et valeurs relles alors la moyenne conditionnelle de la loi de X |Y = y est bien dnie, et on a
E(X ) = E (X |Y = y ) fY (y )dy.

Proposition 22

Preuve.

Si X est intgrable, on a en utilisant le thorme de Fubini

E(X ) = = = =

xfX (x)dx xfX,Y (x, y )dxdy xfX |Y (x|y )fY (y )dxdy E (X |Y = y ) fY (y )dy.

Relation avec l'indpendance. Lorsque X et indpendant de Y , en prenant fX,Y (x, y) = fX (x)fY (y ), on voit que la densit conditionnelle de la loi de X |Y = y ne dpend pas de y . Exemple de calcul.
Soient X et Y deux variables alatoires indpendantes toutes deux de loi exponentielle de paramtre > 0. Posons Z = X + Y et calculons une densit de la loi conditionnelles de X |S = s. Cherchons d'abord une densit pour le couple (X, S ). Pour cela, on se donne une fonction h : R2 R mesurable borne (du type h = 1A pour A B (R2 )). On a alors

E (h(X, S )) = E (h(X, X + Y )) = = = h(x, x + y )2 exp ((x + y )) 1R+ (x)1R+ (y )dxdy h(x, x + y )2 exp ((x + y )) 1R+ (y )dy 1R+ (x)dx h(x, s)2 exp (s) 1s>x ds 1R+ (x)dx.

La troisime galit est due un changement de variables (y s = x + y pour x x) ; on aurait aussi eectuer directement un changement de deux variables (x, y ) (u, s) = (x, y ) = (x, x + y ) 63

qui donnerait J1 (u, s) = 1. On voit que la densit fX,S du couple (X, S ) est donne par

fX,S (x, s) = 2 exp (s) 1sx0 .


Calculons maintenant la densit conditionnelle fX |S (|s). On a dj vu dans ce chapitre que

fS (s) = 2 exp (s) s1R+ (s).


Ainsi pour s > 0 donn, on a fX,S (x, s) = 2 exp(s)1[0,s] (x) et fS (s) = 2 exp(s)s, ce qui donne

1 fX |S (x|s) = 1[0,s] (x). s s . On reconnait la loi uniforme sur l'intervalle [0, s]. En particulier E (X |S = s) = 2

64

Chapitre 5
Les outils analytiques classiques en probabilit

5.1

La fonction de rpartition

Pour une variable alatoire X prenant des valeurs relles, la fonction FX : R [0, 1] dnie par FX (x) = P (X x) est appele la fonction de rpartition de X . Donnons deux exemples de fonction de rpartition.  Lorsque X suit une loi exponentielle de paramtre , alors FX (x) = (1 exp(x)) 1x>0 .  Lorsque X suit une loi de Bernoulli de paramtre p, alors FX (x) = (1 p)10x<1 + 1x1 . Le dernier exemple montre qu'une fonction de rpartition n'est pas toujours une fonction continue. Quelques-unes des proprits des fonctions de rpartion avaient t mentionnes sans dmonstration lors du chapitre Mesure et Intgration.
5.1.1 Proprits gnrales des fonctions de rpartition

Proposition 23

suivantes. 1. F est une fonction croissante qui vrie 0 F (x) 1, limx+ F (x) = 1 et limx F (x) = 0. 2. F est continue droite. De plus lim F (y ) = P (X < x). Par consquent F est continue lorsque pour tout x R, le saut de F au point x, s(x) = P (X = x), est nul.
y x
<

Soit F la fonction de rpartition d'une variable alatoire X . On a les proprits

Preuve.
1. Si x < y , on a {X x} {X y }, ce qui entraine F (x) = P(X x) P(X y ) = F (y ). F est donc bien croissante. Soit ensuite (xn )n une suite croissante de nombres rels positifs et de limite +. Posons pour n N, An =] , xn ]. Alors (An )n est une suite croissante d'intervalles dont la runion est R. D'aprs la proprit de continuit suprieure de la mesure PX , on a
n+

lim F (xn ) = lim PX (An ) = PX (R) = 1.


n+

On aurait pu tout aussi bien utiliser la continuit suprieure de P en posant An = {X xn }. En posant Bn =] , xn ] et en utilisant la continuit infrieure de PX , on obtient
n+

lim F (xn ) = lim PX (Bn ) = PX () = 0.


n+

Ceci prouve bien que les limites annonces pour F . 65

2. La continuit droite est une consquence de la continuit infrieure, car si (xn )n est une suite dcroissante de limite x, alors
n+

lim F (xn ) = lim PX (] , xn ]) = PX (] , x]) = F (x).


n+

On a utilis le fait que ] , x] = + n=0 ] , xn ]. Si maitenant (xn )n est une suite strictement croissante de nombres rels convergeante vers x, alors + n =0 ] , xn ] =] , x[.

La continuit suprieure de PX entraine que


n+

lim F (xn ) = PX (] , x[) = P (X < x) .

Ainsi le saut s(x) = P(X = x) de F au point x vaut aussi

s(x) = P(X x) P(X < x) = F (x) lim F (y ).


y x
<

Ainsi F est continue si et seulement si s(x) = 0 pour tout x R. On voit donc que la fonction de rpartition d'une variable alatoire densit est toujours continue. En revanche, la fonction de rpartition d'une variable alatoire X discrte, telle que PX = + n=0 pn xn et o (xn )n est une suite strictement croissante de nombres rels, est dnie par FX (x) = n:xn x pn : FX est donc constante entre les xn et le saut au point x est nul sauf si x = xn auquel cas s(xn ) = pn . On a dj voqu que la fonction de rpartition permettait d'obtenir la densit en calculant sa drive. Il faut cependant que la variable alatoire ait une densit (en particulier F doit tre continue) : driver la fonction de rpartition d'une variable alatoire discrte donne une fonction nulle entre les valeurs xn telles que P(X = xn ) > 0, ce qui ne correspond videmment pas une densit de probabilit par rapport la mesure de Lebesgue. En revanche cette approche peut tre utilise pour toute fonction de rpartition F continue, continument drivable sur un intervalle I =]a, b[ et gale 1 (resp. 0) sur [b, +[ (resp. ] , a[). Par exemple, si X suit une loi N (0, 1), quelle est la loi de X 2 ? En notant la fonction de rpartition de X , on a FX 2 (x) = 0 si x 0 et si x > 0 :

FX 2 (x) = P X 2 x = P x X x = ( x) ( x) = 2( x) 1.
En utilisant que (t) = 1 exp(t2 /2), on obtient alors
2

FX 2 (x) =
Ainsi X 2 suit une loi (1/2, 2).
5.1.2

1 exp(x/2). 2x

Fonction de rpartition inverse et simulation

Soit F : R [0, 1] une fonction de rpartition. On dnit alors une fonction G :]0, 1[ R par

G(t) = inf {x R : F (x) t},

t ]0, 1[.

G est appele la fonction de rpartition inverse de F . Voici les proprits de base de G.

Proposition 24

1. G est une fonction croissante. Lorsque F est strictement croissante et continue alors G = F 1 .
66

2. Si F est continue alors on a toujours F (G(t)) = t pour t ]0, 1[. 3. Si F est strictement croissante, alors G (F (x)) = x pour tout x R. 4. Dans le cas gnral, on a toujours l'quivalence
F (x) t x G(t).
Pour voir que G n'est pas toujours l'inverse de F , on peut observer le comportement de la fonction de rpartition dans deux cas pathologiques : lorsque F est constante juste aprs G(t) (voir Figure 5.1) ou lorsque F est discontinue en x (Figure 5.2).

Fig.

5.1: F constante au voisinage de x

Fig.

5.2: F discontinue en x

Preuve.
1. Le fait que G soit une fonction croissante est immdiat car si 0 < t1 < t2 < 1,

{x R : F (x) t2 } {x R : F (x) t1 }.
La deuxime assertion rsulte des points 2. et 3.. 2. Remarquons que l'on a toujours F (G(t)) t que F soit continue ou pas car si (xn )n est une suite de points strictement dcroissante vers G(t), alors F (xn ) t par croissance de F et en utilisant la dnition de G, ce qui donne
n

lim F (xn ) = F (G(t)) t,

par continuit droite de F . Ensuite, si x < G(t) alors F (x) t. Si F est continue en G(t), on en dduit que F (G(t)) t en faisant tendre x vers G(t). On a donc bien F (G(t)) = t. 3. Remarquons que l'on a toujours G (F (x)) x pour tout x tel que 0 < F (x) < 1. Ceci est du la dnition de la borne infrieure car x appartient {u R : F (u) F (x)}. Supposons de plus F strictement croissante. Alors si x R, F (x) ]0, 1[. Si x0 < x alors F (x0 ) < F (x) et donc x0 G (F (x)). En faisant tendre x0 vers x, nous obtenons x G (F (x)). On a donc bien G (F (x)) = x. 67

4. Si F (x) t alors par dnition de la borne infrieure, on a G(t) x. Si maintenant G(t) x, la croissance de F assure que

F (x) F (G(t)) t,
o la deuxime ingalit a t prouv lors de la preuve du point 2. La fonction de rpartition inverse permet de simuler une variable alatoire relle X de loi donne partir d'une variable alatoire de loi uniforme sur [0, 1].

Proposition 25 Soit U une variable alatoire de loi uniforme sur [0, 1] et F une fonction de rpartition donne. Alors la variable alatoire G(U ) a pour fonction de rpartition F . Preuve.
D'aprs la proposition prcdente, on a pour x R

P (G(U ) x) = P (U F (x)) = F (x),


ce qui prouve le rsultat.

Exemple.

Pour simuler une variable alatoire de loi exponentielle de paramtre partir d'une variable alatoire U de loi uniforme sur [0, 1], on peut remarquer que si F (x) = 1 exp(x) alors pour t ]0, 1[, on a

G(t) = inf {x : F (x) = t} =

ln(1 t) .

La variable alatoire G(U ) suit alors la loi exponentielle de paramtre . Remarquons que 1 U suit aussi une loi uniforme sur [0, 1] et on peut tout aussi bien considrer la variable alatoire ln(U )/. La fonction de rpartition inverse n'est pas toujours facile calculer et parfois d'autres mthodes de simulation sont prfrables.

Rciproque partielle de la Proposition 25.

Soit X une variable alatoire de fonction de rpartition F continue sur R. Alors la variable alatoire F (X ) suit une loi uniforme sur [0, 1]. En eet, on a pour 0 < t < 1 :

P (F (X ) t) = P (X G(t)) = 1 F (G(t)) = 1 t.
En notant H la fonction de rpartition de F (X ), on voit alors que

1 H (t) = P (F (X ) > t) = lim P F (X ) t +


n

1 n

= 1 t,

en utilisant la continuit suprieure de la mesure. Ainsi H (t) = t pour 0 < t < 1, ce qui prouve que F (X ) a la mme loi qu'une variable alatoire de loi uniforme sur [0, 1].
5.2
5.2.1

Covariance et moments
Moments d'une variable alatoires relle

Soit X une variable alatoire valeurs relles. Les moments de X sont les nombres mk = E X k pour k N . Le nombre mk est bien dni si E |X |k < +. Il est possible qu'aucun moment n'existe (c'est par exemple le cas si X suit une loi de Cauchy). D'autres variables 68

alatoires peuvent au contraire admettre des moments tout ordre k ; c'est le cas si X est une variable alatoire borne par M > 0 car dans ce cas E |X |k M k . Si X N (0, 1), alors X admet galement des moments tout ordre car si k N et on peut mme les calculer : les moments d'ordre k impair sont nuls car la fonction intgrer est impaire, tandis que si k = 2p pour p 1, une intgration par parties montre que m2p = (2p 1)m2p2 ce qui donne au nal m2p = 2p p! pour p N (en particulier on a m4 = 3). Voici quelques proprits importantes concernant les moments.
(2p)!

Proposition 26

Soient X et Y deux variables alatoires toutes deux valeurs relles.

1. Si X admet un moment d'ordre k alors X admet un moment tout ordre j k . 2. Si X et Y admettent un moment d'ordre k , alors Z = X + Y admet galement un moment d'ordre k . 3. Si X et Y admettent un moment d'ordre 2, alors XY admet un moment d'ordre 1 et on a l'ingalit suivante appele ingalit de Cauchy-Schwarz :
E (|XY |) E (X 2 ) E (Y 2 ).

4. Si X et Y sont indpendantes et admettent toutes deux un moment d'ordre k , alors le produit XY aussi et on a
E XkY k = E Xk E Y k .

5. Si X est une variable alatoire intgrable et : R R une fonction convexe telle que (X ) soit intgable, alors on a l'ingalit dite de Jensen :
(E(X )) E ((X )) .
Voici enn deux ingalits classiques faisant intervenir les moments.

Proposition 27

Soit X une variable alatoire valeurs relles et k N . Alors pour tout t > 0,
P (|X | t) E |X |k . tk

Lorsque p = 1 on parle d'ingalit de Markov. Lorsque p = 2 et X est de carr intgrable, on en dduit l'ingalit dite de Tchebychev :
P (|X E(X )| t)

Var (X ) . t2

On a l'ingalit |X |p tp 1|X |t et l'ingalit est obtenue en prenant l'esprance de part et d'autre de cette ingalit. L'ingalit de Tchebychev est une consquence de cette ingalit applique X E(X ) au lieu de X et pour p = 2.
5.2.2 Covariance et corrlation

Preuve.

La covariance entre deux variables alatoires X et Y valeurs relles et toutes deux de carr intgrable est dni par Cov (X, Y ) = E ((X E(X ))(Y E(Y ))) = E(XY ) E(X )E(Y ). 69

Cette expression a bien un sens en vertu de l'ingalit de Cauchy-Schwarz. Remarquons que Cov (X, Y ) = Cov (Y, X ). On a galement les proprits de bilinarit Cov (X1 + X2 , Y ) = Cov (X1 , Y )+ Cov (X2 , Y ), Cov (X, Y1 +Y2 ) = Cov (X, Y1 )+ Cov (X, Y2 ),

valable pour des variables alatoires X1 , X2 , Y1 , Y2 galement de carr intgrable. De plus pour tous rels a, b, c, d, on a Cov (aX + b, cY + d) = ac Cov (X, Y ). En particulier, les translations laissent invariante la covariance. La covariance permet de quantier la liaison entre deux variables alatoires avec le coecient de corrlation.

Proposition-Dnition 3

Le coecient de corrlation linaire de deux variables alatoires X et Y de carr intgrable est dni par
r(X, Y ) =

Cov (X, Y ) , (X ) (Y )

o (X ) = seulement si

X E(X ) (X )

Var (X ) dsigne l'cart-type de X . De plus, |r(X, Y )| 1 et r(X, Y ) = 1 si et E(Y ) = Y (Y ) presque srement.


X E(X ) (X )

Preuve.

On pose T =

et S =

Y E(Y ) (Y ) .

Alors T et S sont des variables alatoire de

moyenne nulle et de variance 1. De plus Cov (X, Y ) = E(ST ). L'ingalit de Cauchy-Schwarz guarantit que

|r(X, Y )| E(|ST |) 1.
Supposons que r (X, Y ) = 1. Alors E(ST ) = 1 et donc

E (S T )2 = E(S 2 ) + E(T 2 ) 2E(ST ) = 0.


On en dduit alors que P(S = T ) = 1 en utilisant les rsultats du premier chapitre. Si r (X, Y ) = 1, on a de mme E (S + T )2 = 0 ce qui donne P(S = T ) = 1. Le sens rciproque de l'quivalence est vident. Lorsque r (X, Y ) = 0, on parle de variables alatoires dcorrles. L'indpendance entraine bien sr la dcorrlation mais le contraire est faux : les variables alatoires X et Y = X 1 o X N (0, 1) et P( = 1) = 1 P( = 1) = 2 sont dcorrles mais pas indpendantes vu 2 2 que X = Y . Le coecient de corrlation sera plutt positif si les deux variables ont tendance s'carter de leur moyenne dans le mme sens et ngatif si elles ont tendance s'carter de leur moyenne en sens contraire. En revanche, un coecient de corrlation nul dnote une absence claire de liaison linaire : avec les notations de la preuve prcdente l'cart quadratique minimal E (T aS )2 est atteint pour a = r (X, Y ) et vaut E(T 2 ) r (X, Y )2 qui est clairement maximale lorsque r(X, Y ) = Cov (X, Y ) = 0. Cependant il peut exister une liaison non linaire comme dans le contre-exemple ci dessus.
5.3 Fonction caractristique d'une variable alatoire

Remarque.

Pour deux vecteurs u et v dans Rd reprsents l'aide de matrices colonnes, nous noterons
d

uT la transpose de u (qui est donc une matrice ligne) et le produit uT v =


produit scalaire canonique de u et de v . 70
i=1

ui vi dsignera le

Dnition 19
X

Si X est une variable alatoire valeurs dans Rd , sa fonction caractristique : Rd C est dnie par
X (t) = E exp(itT X ) , t Rd .

L'esprance d'une variable alatoire Z pouvant prendre des valeurs complexes est dnie par

E ( Re (Z )) + iE ( Im (Z )) .
Ainsi

X (t) = E cos tT X

+ iE sin tT X

est toujours bien dnie car les fonctions cosinus et sinus sont bornes.

Exemples

 Si X suit une loi de Poisson de paramtre > 0. Alors


+

X (t) =
k=0

exp(itk ) exp()

k = exp ((exp(it) 1)) . k!


+

On rappelle que pour un nombre complexe z , on a exp(z ) =


k=0

zk . k!

 Supposons maintenant que X suive une loi gaussienne centre rduite. Le calcul direct de la fonction caractristique est plus dlicat. On peut faire le calcul en drivant X . Nous admettrons la possibilit de driver sous le signe esprance, ce qui donne

X (t) = E (iX exp(itX )) .


On calcule alors cette dernire expression l'aide d'une intgration par parties (les calculs pour des fonctions valeurs complexes sont les mmes que pour des fonctions valeurs relles). On a alors

ix exp(itx) exp(x2 /2)dx 2 i + 2 = exp(itx) exp(x /2) t exp(itx) exp(x2 /2)dx. 2 On trouve donc X (t) = tX (t) ce qui donne X (t) = exp t2 /2 . On peut en dduire la fonction caractristique de la variable Y = m + X N (m, 2 ) : X (t) = Y (t) = exp(itm)X (t) = exp(itm) exp 2 t2 2 .

Il est possible de montrer (mais nous l'admettrons) que si une variable alatoire valeurs relles X admet un moment d'ordre n N , alors la fonction caractristique est n fois drivable et les drives peuvent tre obtenues en drivant sous le signe E. Ainsi pour k = 1, . . . , n, on a

La fonction caractristique et les moments.

X (t) = ik E X k exp(itX ) ,
ce qui donne mk = X (0). On pourra vrier titre d'exercice qu'on retrouve par exemple la moyenne et la variance d'une loi de Poisson en drivant deux fois la fonction caractristique. 71
(k)

(k )

Proposition 28

La fonction caractristique d'une variable alatoire valeurs dans Rd est une fonction continue telle que X (0) = 1. De plus si Y : Rd est une autre variable alatoire telle que Y (t) = X (t) pour tout t Rd , alors X et Y ont la mme loi. La fonction caractristique caractrise donc compltement la loi.
Evidemment deux variables alatoires ayant mme loi ont mme fonction caractristique d'aprs le thorme de transfert. La preuve de l'implication inverse donne dans cette proposition est un peu technique et sera admise. On retiendra que si les intgrales des fonctions x cos tT x et x sin tT x concident pour deux lois alors ces lois sont gales. Aussi on peut en dduire la proprit suivante : si E (h(X )) = E (h(Y )) pour toute fonction h : Rd R continue borne, alors PX = PY (les variables X et Y ont la mme loi).

La fonction gnratrice des moments.


X

Pour une variable alatoire X discrte valeurs dans N, on utilise plutt la fonction gnratrice GX dnie par
+

GX (s) = E s

=
k=0

sk P (X = k ) ,

0 < s < 1.

Une gnralisation de cette notion est aux variables alatoires valeurs dans Rd est donne par

LX (t) = E exp tT X

t Rd .

Ces deux notions vitent le recours aux nombres complexes et les moments peuvent tre aussi obtenus par drivation. Le problme est que contrairement la fonction caractristique qui est toujours dnie, la fonction gnratrice des moments ne l'est pas toujours si la variable alatoire prend des valeurs ngatives et/ou n'est pas borne.

Proposition 29

Deux variables alatoires X et Y valeurs respectives dans Rd et Rp sont indpendantes si et seulement si


d p

(X,Y ) (u, v ) = E exp(


i=1

ui Xi +
j =1

vj Yj ) = X (u)Y (v ),

(u, v ) Rp Rd .

Evidemment la condition ncessaire est vidente car si X et Y sont indpendantes alors il en va de mme des variables exp iuT X et exp iv T Y et l'esprance de leur produit concide avec le produit de leur esprance. La preuve de la condition susante est un peu technique et ne sera pas aborde.

72

Chapitre 6
Loi et esprance conditionnelle

6.1

Gnralisation des lois conditionnelles

Dans cette section, nous gnralisons la notion de loi conditionnelle pour un couple de variables alatoires dont la loi admet une densit par rapport une mesure produit. Soient (X, Y ) un couple de variables alatoires valeurs dans Rd Rp et et deux mesures nies sur Rd et Rp respectivement. On suppose que la loi de (X, Y ) admet une densit note fX,Y par rapport la mesure produit , autrement dit

P (X A, Y B ) =
AB

fX,Y (x, y )d ( ) (x, y ),

A B B Rd B (Rp ).

(6.1)

Rappelons que le thorme de Fubini guarantit que

P (X A, Y B ) =
A B

fX,Y (x, y )d (y ) d(x) =


B A

fX,Y (x, y )d(x) d(y )

et nous remplacerons souvent la notation d ( ) (x, y ) par d(x)d (y ). Dans ce cas, les lois de X et de Y sont donnes par

P ( X A) =
A

fX,Y (x, y )d (y ) d(x), fX,Y (x, y )d(x) d (y ),


B

A B (Rd ). B B (Rp ).

P (Y B ) =

Ainsi la loi de X admet une densit fX par rapport qui est donne par

fX (x) =

fX,Y (x, y )d (y ),

x Rd .

De mme, la loi de Y admet une densit fY par rapport qui est donne par

fY (y ) =

fX,Y (x, y )d(x),

y Rd .

Lorsque et sont les mesures de Lebesgue, on retrouve les lois densit prcdemment tudies. Lorsque et sont les mesures de comptage sur N, on retrouve les couples de variables alatoires discrtes : la densit fX,Y peut alors tre dnie par fX,Y (x, y ) = P (X = x, Y = y ) pour (x, y ) R2 . Un exemple de cas non tudi prcdemment est celui ou dsigne la mesure de Lebesgue sur R et dsigne la mesure de comptage sur N. Pour ce dernier cas, on pourra remarquer que

P (X A, Y = y ) =
A

fX,Y (x, y )dx,

A B (R)

et que fY (y ) = P(Y = y ) pour tout y N. 73

Dnition 20

Soit (X, Y ) un couple de variables alatoires dont la loi vrie (6.1). Soit galement g une densit de probabilit quelconque pour la mesure . On dnit alors la loi conditionnelle de X |Y = y comme tant la mesure de probabilit de densit note fX |Y (|y ) par rapport la mesure , densit qui est dnie par
fX |Y (x|y ) = fX,Y (x, y ) , fY (y ) x Rd ,

lorsque fY (y ) est dirent de 0. Si y Rp vrie fY (y ) = 0, on dnit fX |Y (|y ) = g .


Lorsque et sont ou bien toutes deux des mesures de Lebesgue ou bien toutes deux la mesure de comptage sur N, on retrouve la dnition des lois conditionnelles donne pour un couple de variables alatoires densit ou pour un couple de variables discrtes. Donnons un exemple de situation o on est amen considrer des lois conditionnelles pour un couple (X, Y ) densit par rapport au produit de la mesure de Lebesgue et de la mesure de comptage. Supposons que l'on dispose de n machines pour eectuer un tche donne, les machines ont des dures de vie X1 , . . . , Xn de lois de densits respectives f1 , . . . , fn . La probabilit que la machine i soit choisie pour eectuer cette tche est pi . On observe uniquement une dure de vie X sans savoir quelle machine a t choisie. Quelle est alors la probabilit que la machine i ait t choisie ? On peut remarquer qu'il est possible de reprsenter X sous la forme
n

X=
i=1

Xi 1Y =i ,

o Y une variable alatoire indpendante de (X1 , . . . , Xn ) et telle que P (Y = i) = pi pour i = 1, . . . , n. Si A B (R) et i {1, . . . , n}, on a

P (X A, Y = i) = P (Xi A, Y = i) = P(Xi A)pi =


A

pi fi (x)dx.

En posant fX,Y (x, y ) = fy (x)py 1{1,...,n} (y ), on voit que (X, Y ) a une densit par rapport , o dsigne la mesure de Lebesgue sur R et la mesure de comptage sur N. De plus la loi de X |Y = i a la densit fi . On cherche ici la loi de Y |X = x. Nous avons
n

fX (x) =

py fy (x)d (y ) =
j =1

pj fj (x)

(la densit de X est donc donne par un mlange) et d'aprs la dnition de la loi conditionnelle, on a si i = 1, . . . , n :

P (Y = i|X = x) =

pi fi (x)
n

pj fj (x)
j =1

Moyenne conditionnelle

En gardant les notations prcdentes, pour un couple de variable alatoire (X, Y ) admettant une densit fX,Y par rapport une mesure produit et lorsque X est une variable alatoire intgrable et valeurs relles, la moyenne conditionnelle est dnie par

E (X |Y = y ) =

xfX |Y (x|y )dx.

Lorsque est la mesure de comptage sur N, on pourra remarquer que si P(Y = y ) > 0 alors

E (X |Y = y ) =
74

E (X 1Y =y ) . P(Y = y )

6.2

Esprance conditionnelle

L'objectif de la notion d'esprance conditionnelle peut tre rsum grossirement ainsi. Lorsque une partie de l'information est disponible (des venements ou encore une variable alatoire, ce qui bien souvent revient au mme), on souhaite attribuer une valeur moyenne une variable alatoire X non observe mais qui tienne compte de cette information (par exemple, lors du lancer de deux ds, on sait juste que la somme est paire ou pas mais on ne connait pas les numros sur les ds). L'esprance conditionnelle une sous-tribu est une variable alatoire qui pourra tre construite partir de l'information disponible et qui sous certaines hypothses sera la meilleure approximation de X au sens de la perte quadratique. Lorsque l'information disponible se rsumera une variable alatoire Y , la moyenne de la loi conditionnelle de X |Y = y sera directement l'origine de cette variable alatoire.
6.2.1 Variable alatoire mesurable par rapport une sous-tribu

Soit B une sous-tribu de A. On dira qu'une variable alatoire Z : R est Bmesurable si pour tous a b, l'venement {a Z b} appartient B . Ainsi la variable alatoire Z peut tre construite uniquement l'aide des venements de B , en utilisant l'approximation par une variable alatoire discrte (on renvoit au Chapitre 1 pour cette approximation). De fa on image, B peut tre vue comme une quantit d'information disponible et les variables alatoires Bmesurables comme toutes les fonctions qu'il est possible de construire partir de cette information. Donnons un premier exemple. Si B est la tribu engendre par un venement A de A, alors

B = {, A, Ac , } .
Si Z est une variable alatoire Bmesurable alors il existe deux nombres rels et tels que

Z = 1A + 1Ac .
En eet, si Z est constante et gale c, on peut prendre = = c. Si Z prend deux valeurs distinctes a et b, on a la dcomposition

Z = a1Z =a + b1Z =b
et comme {Z = a}, {Z = b} B sont deux venements non vides et de runion , l'un vaut A l'autre Ac et on pose , = a, b. Ensuite il n'est pas possible que Z prenne trois valeurs distinctes car il n'y a pas trois lments distincts non vides et dirents de l'univers dans B . Remarquons que lorsque A = ou A = , alors les variables alatoires Bmesurables sont simplement les constantes. Cet exemple se gnralise au cas d'une tribu B = ({A1 , A2 , . . . , An }) engendre par un nombre ni d'venements A1 , . . . , An disjoints deux deux et de runion . Dans ce cas B est la tribu constitue de toutes les runions formes partir des Ai et on peut montrer que qu'une variable alatoire Bmesurable est de la forme
n

Z=
i=1

i 1Ai .

Passons maintenant au cas d'une tribu engendre par une variable alatoire.

Dnition 21

Si Y : Rd est une variable alatoire, la tribu engendre par Y est la tribu note (Y ) et qui est dnie par
(Y ) = {Y A} : A B (Rd ) .
75

On pourra vrier titre d'exercice que la famille d'venements entre accolades donne dans la dnition ci-dessus vrie bien la dnition d'une tribu. La tribu B = ({A1 , A2 , . . . , An }) engendre par un nombre ni d'venements A1 , . . . , An disjoints deux deux et de runion , est un exemple de ce type de tribu si on pose par exemple
n

Y =
i=1

(i 1)1Ai .

En particulier la tribu engendre par l'venement A concide avec la tribu engendre par la variable alatoire 1A . En fait, on peut toujours voir une tribu comme engendre par une variable alatoire mais ceci demande une dnition plus gnrale de la notion de variable alatoire qu'il n'est pas question d'aborder dans ce cours. Par exemple en mathmatiques nancires, il existe la notion d'une tribu engendre par des variables alatoires Zs , 0 s t qui reprsente l'ensemble des prix de l'instant initial jusqu'au temps t > 0 : dans ce cas la variable alatoire sous-jacente est valeurs dans un espace de fonction et pas dans Rd .

Remarque.

Lorsque une tribu B est gnre par une variable alatoire, on a une description plus parlante des variables alatoires valeurs relles et Bmesurables.

Lemme 3 (lemme de Doob)

Soit Z : R une variable alatoire mesurable par rapport la tribu B = (Y ) o Y : Rd est une variable alatoire. Alors, il existe une fonction g : Rd R mesurable et telle que Z = g (Y ).
En d'autres termes, les variables alatoires (Y )mesurables concident avec les fonctionnelles (mesurables) de Y .
6.2.2 Esprance conditionnelle par rapport une sous-tribu

Le thorme suivant est la base de la dnition de l'esprance conditionnelle. Pour simplier 2 les noncs nous introduisons l'ensemble L1 B (resp. LB ) constitu des variables alatoires U : R, Bmesurables et intgrables (resp. dont le carr est intgrable, i.e E(U 2 ) < +).

Soit X une variable alatoire valeurs relles et intgrable. Soit galement B une sous-tribu de A. Alors il existe une variable alatoire Z L1 B telle que pour tout A B , on ait
E (1A X ) = E (1A Z ) .
(6.2)

Thorme 11

Cette variable alatoire est unique l'galit presque sre prs : si Z L1 B qui vrie (6.2) alors P (Z = Z ) = 1. 2 En outre, si E(X 2 ) < + alors Z L2 B et dans ce cas on a pour toute variable alatoire U LB
E (U X ) = E (U Z ) ,
(6.3)

ainsi que l'ingalit


E (X Z )2 E (X U )2 .
(6.4)

2 Rciproquement, si E X 2 < + et Z L2 B vrie (6.4) pour tout U LB alors Z vrie (6.3) (et donc galement (6.2).

76

Conservons les hypothses du thorme prcdent. Alors toute variable alatoire Z satisfaisant (6.2) est appele une version de l'esprance conditionnelle de X sachant B. Nous noterons alors abusivement E (X |B) toute version de l'esprance conditionnelle.
L1 B
Lorsque la variable alatoire X est de carr intgrable, l'esprance conditionnelle minimise l'cart quadratique E (X U )2 sur U L2 B et de plus, d'aprs le thorme prcdent, ce minimum est unique l'galit presque sre prs. C'est pour cela que cette notion est souvent utilise pour faire de la prvision en modlisation lorsqu'on souhaite prvoir une variable alatoire X non observe partir de certains venements (ou variables alatoires) connus. Lorsque la variable alatoire est simplement intgrable, cette proprit de minimisation n'est plus forcment valable : l'esprance conditionnelle apparait alors comme une variable alatoire de L1 B qui a la mme valeur moyenne que X sur les venements de B (voir (6.2)). Reste savoir comment calculer l'esprance conditionnelle en pratique. C'est ce que nous verrons un peu plus loin.

Dnition 22

Quelques lments de preuve pour le Thorme 11.

 L'existence de la variable alatoire Z est dicile justier et est admise. Montrons l'unicit. Si Z et Z sont deux lments de L1 B satisfaisant (6.2), alors en posant A = {Z > Z } qui est bien un venement de B , on a E (1A (Z Z )) = 0 et la variable alatoire V = 1A (Z Z ) prend des valeurs positives. D'aprs les proprits de l'esprance, on a P(V = 0) = 1. Mais {V = 0} = {Z Z } et donc P(Z Z ) = 1. En changeant le rle de Z et Z , on a aussi P(Z Z ) = 1. L'intersection de deux venements de probabilit 1 tant de probabilit 1, on conclut que P(Z = Z ) = 1.  Montrons ensuite que la variable alatoire Z du thorme vrie (6.3) lorsque X est de carr intgrable. Il faut auparavant montrer que Z est de carr intgrable. Remarquons qu'il est clair que par linarit, les galits (6.2) entraine que E(XU ) = E(ZU ) pour toute variable alatoire U , Bmesurable et ne prenant qu'un nombre ni de valeurs. Considrons alors une suite croissante (Vn )n d'lments de D+ (voir le Chapitre 1), Bmesurables et convergeante point par point vers |Z |. Posons Un = (1Z 0 1Z<0 ) Vn . Alors on a

E(Vn |Z |) = E(Un Z ) = E (Un X )

2 ) E(X 2 ), E(Vn

2 , on en dduit E(V 2 ) o on a utilis l'ingalit de Cauchy-Schwarz. Comme Vn |Z | Vn n 2 2 E(X ) et comme (Vn ) est une suite croissante de D+ convergeante point par point vers Z 2 , il rsulte de la dnition de l'esprance que : 2 E(Z 2 ) = lim E Vn E X2 , n

(6.5)

ce qui prouve bien que E(Z 2 ) < +. Remarquons ensuite que si les galits (6.3) sont valables pour U ne prenant qu'un nombre ni de valeurs alors, elles sont aussi valables pour U borne : en eet, il est facile d'approcher U borne par une suite (Un ) de variables alatoires ne prenant qu'un nombre ni de valeurs de sorte que
n+

lim sup |Un ( ) U ( )| = 0.

Ceci entraine que

|E(U X ) E(U Z )| |E(U X ) E(Un X )| + |E(Un Z ) E(U Z )| 2 sup |Un ( ) U ( )| (E(|X |) + E(|Z |)) .
En faisant tendre n vers + on obtient les galits 6.3 pour des variables alatoires U 2 bornes. Ces galits s'tendent toutes les variables alatoires U L2 B . En eet si U LB et n N , la variable alatoire Un = U 1|U |n est borne et on a E(Un X ) = E(Un Z ). 77

Montrons alors que limn E(Un X ) = E(U X ) (le mme raisonnement vaudra pour Z ). Les proprits de l'esprance et l'ingalit de Cauchy-Schwarz assure que

|E(Un X ) E(U X )| E (|X | |Un U |)

E(X 2 )

E ((U Un )2 ).

Montrons pour conclure que limn E (U Un )2 = 0. On a Sn = (U Un )2 = U 2 1|U |>n et en posant Tn = U 2 1|U |n , on a

E(U 2 ) = E(Tn ) + E(Sn ).


Par convergence monotone (voir le chapitre Mesure et intgration), on a limn E(Tn ) = E(U 2 ). On conclut alors que limn E(Sn ) = 0. On a de mme limn E(Un Z ) = E(U Z ) et on prouve alors facilement (6.3). 2  Pour nir montrons qu'une variable alatoire Z L2 B satisfait (6.3) pour tout U LB si 2 et seulement si elle satisfait 6.4 pour tout U LB . Supposons d'abord que Z satisfait 6.3 pour tout U L2 B (donc en particulier pour U = Z ). Alors pour U donn dans L2 , nous avons B

E (X U )2 E (X Z )2

= E U 2 2E (XU ) + 2E(XZ ) E Z 2

= E U 2 2E (ZU ) + 2E Z 2 E Z 2 = E (U Z )2 0,
ce qui prouve (6.4). Supposons maintenant que Z satisfait 6.4 pour tout U L2 B . Soit alors t > 0. On a U + tZ L2 et (6.4) entraine que B

E (X Z tU )2 E (X Z )2 .
En dveloppant les carr, on voit alors que

t2 E U 2 2tE ((X Z )U ) 0.
En divisant l'ingalit prcdente par t et en faisant tendre t vers 0, on obtient E ((X Z )U ) 0. En remplaant U par U dans cette dernire ingalit, on obtient galement E ((X Z )U ) 0. Finalement on conclut que E ((X Z )U ) = 0 ce qui prouve (6.3).

Deux exemples simples.

Lorsque B = {, }, les variables alatoires Bmesurables sont les constantes. Ce n'est pas surprenant, cette sous-tribu n'apporte pas d'information relle. Dans ce cas la constante qui vrie (6.2) est E (X |B ) = E(X ) (on a le choix uniquement entre A = et A = ). Du point de vue de la minimisation de l'cart quadratique, ce n'est pas surprenant : on sait sans utiliser ce qui prcde que la constante a qui minimise E (X a)2 est a = E(X ) et la valeur minimale est la variance (pour le prouver directement, dvelopper le carr et tudier le polynme du second dgr en a). Supposons maintenant que la sous-tribu B soit engendre par un seul venement A non vide et dirent de . Alors l'esprance conditionnelle est de la forme

Z = 1A + 1Ac ,
pour des nombres rels et dterminer. On utilise les galits (6.2). On a

E (X 1A ) = E (Z 1A ) = P(A) + 0,
78

ce qui donne =

E(X 1A ) P(A) .

De mme,

E (X 1Ac ) = E (Z 1Ac ) = P (Ac ) ,


et donc =
E(X 1Ac ) P(Ac ) .

On en dduit

E (X |B ) =

E (X 1A ) E (X 1Ac ) 1A + 1Ac . P(A) P (Ac )

Par exemple si on lance deux ds quilibrs, on peut considrer A l'venement la somme est un nombre pair et X le numro du premier d. Si on observe qu'eectivement la somme est paire, E(X 1A ) on prvoira X par la valeurs P(A) . Si en revanche la somme est impaire, on utilisera la valeur
E(X 1Ac ) P(Ac ) .

Tribu engendre par une variable alatoire discrte

Il s'agit de gnraliser l'exemple prcdent (qui concernait en fait le cas d'une tribu engendre par une variable alatoire de loi de Bernoulli). Supposons maintenant que B = (Y ) o Y : Rd est une variable alatoire discrte. Dans ce cas, on peut chercher l'esprance conditionnelle sous la forme Z = g (Y ) pour une fonction g : Rd R mesurable et telle que

E (|g (Y )|) =
y

|g (y )| P (Y = y ) < +.
val(Y )

Si y val(Y ), on pose A = {Y = y }. On a alors en utilisant (6.2)

E (X 1A ) = E (Z 1A ) =
w E(X 1Y =y ) P(Y =y )

g (w)E (1Y =w 1Y =y ) = g (y )P(Y = y ).


val(Y )

On obtient alors g (y ) =

pour tout y val(Y ). On a

|g (y )| P (Y = y ) E (|X |) < +
y

val(Y )

et on peut poser

E (X |B ) = g (Y ) =
y

val(Y )

E (X 1Y =y ) 1Y =y . P(Y = y )

Esprance conditionnelle et moyenne conditionnelle.

Voici le lien fondamental entre la moyenne de la loi conditionnelle et l'esprance conditionnelle lorsque B est une tribu engendre par une variable alatoire Y : Rd et lorsque le couple (X, Y ) possde une densit fX,Y par rapport une mesure produit .

Proposition 30

On suppose X intgrable. Soit g (y ) = E (X |Y = y ). Alors E (X | (Y )) = g (Y ).


79

Preuve.
AB

Rd

On vrie l'galit (6.2). Tout venement de B = (Y ) est de la forme {Y A} pour . On a alors

E X 1{Y A}

= = = =
A

x1A (y )fX,Y (x, y )d(x)d (y ) x1A (y )fX |Y (x|y )fY (y )d(x)d (y ) 1A (y ) fX |Y (x|y )d(x) fY (y )d (y )

g (y )fY (y )d (y )

= E (1A (Y )g (Y ))
D'aprs la caractrisation (6.2) de l'esprance conditionnelle, la proposition est prouve.

Notation. Remarque.

On utilisera plutt la notation E (X |Y ) au lieu de E (X | (Y )).

Reprenons l'exemple de la tribu engendre par une variable alatoire discrte Y valeurs dans N = val(Y ) et examinons la cas o le couple (X, Y ) admet une densit fX,Y par rapport une mesure produit avec la mesure de comptage sur N. Alors, on a prouv que
+

E (X |Y ) =
n=0

E (X 1Y =n ) 1Y =n . P(Y = n)

On a vu aussi (voir le dbut de ce chapitre) que

E (X |Y = n) =

E (X 1Y =n ) . P(Y = n)

Cet exemple conrme donc bien le rsultat de la Proposition 30.


6.2.3 Proprits gnrales de l'esprance conditionnelle

Voici les proprits gnrales de l'esprance conditionnelle.

Proposition 31
U L1 B.

Soient X et X deux variables alatoires intgrables, B une sous-tribu de A et

1. On a E (E (X |B )) = E(X ). 2. On a E (U |B) = U . 3. On a les proprits de linarit suivantes (les galits tant valables presque srement)
E X + X |B = E (X |B ) + E X |B , E (U X |B ) = U E (X |B ) ,

lorsque U est borne. Si de plus, E X 2 < +, alors la deuxime galit est aussi valable pour U L2 B. 4. Si X est valeurs positives, alors E (X |B) est aussi valeurs positives. De plus si X X , alors E (X |B ) E (X |B). 5. Si X est indpendante de B, alors E (X |B) = E(X ).
80

6. Si C est une tribu telle que C B alors


E (E (X |B ) |C ) = E (X |C ) .
On retiendra aussi les deux cas particuliers suivants du point 2. : E (X |B ) = E (X |B ) et E (|B ) = pour tout rel . On peut remarquer que les trois premiers points montrent que l'esprance conditionnelle se comporte en gros comme une esprance mais pour laquelle les variables alatoires Bmesurables jouent le rle de constantes. Le point 6. est souvent utilis dans le cas suivant : C = (Y1 ) et B = ((Y1 , Y2 )) o Y1 et Y2 sont deux variables alatoires, l'inclusion rsultant du fait que toute fonction de Y1 est une fonction de (Y1 , Y2 ) (voir l'exemple du modle autorgressif). Pour la plupart de ces proprits, il sut de montrer que la variable alatoire annonce vrie la caractrisation (6.2) : pour montrer une galit du type E (S |B ) = Z , on montre que Z L1 B puis que pour tout A B , on a

Preuve.

E (1A S ) = E (1A Z ) .
1. Le premier point se dduit de la relation (6.2) en prenant A = .

(6.6)

2. Si A B , alors en posant S = U , on voit que la variable alatoire Z = U , qui appartient L1 B , vrie trivialement (6.6). Par unicit de l'esprance conditionnelle ( l'galit presque sre prs), on a E (U |B ) = U . 3. La variable alatoire S = X + X est intgrable ainsi que la variable alatoire Bmesurable

Z = V1 + V2 = E (X |B ) + E X |B .
De plus Z vrie (6.6) car si A B ,

E (1A Z ) = E (1A V1 ) + E (1A V2 ) = E (1A X ) + E 1A X = E (1A S ) .


Toujours par unicit, on conclut

E X + X |B = E (X |B ) + E X |B .
Pour prouver que E (U X |B ) = U E (X |B ) lorsque X est de carr intgrable et U L2 B , on commence par remarquer que la variable alatoire candidate est bien intgrable en tant que produit de variable alatoire de carr intgrable et qu'elle est de plus Bmesurable. Il sut ensuite de voir que si A B , on a (en posant Z = E (X |B ))

E (1A U Z ) = E (1A U X ) ,
en utilisant (6.3) que l'on a appliqu la variable alatoire 1A U L2 B au lieu de U et S = U X au lieu de X . Ainsi (6.6) est vrie pour tout A B . Lorsque X est seulement intgrable, il faut d'abord que la caractrisation (6.2) s'tend en remplant les indicatrices 1A par des variables alatoires Bmesurables bornes (ceci a en fait t dj montr dans la preuve du Thorme 11) et on procde comme pour le cas X de carr intgrable (cas prcdent) pour nir la preuve. 81

4. Posons Z = E (X |B ). En choisissant A = {Z < 0}, on a Z 1A 0 et vu que 0 E (X 1A ) = E (Z 1A ), on en dduit que E (Z 1A ) = 0 et donc galement que l'esprance de la variable alatoire positive Z 1A est nulle. Les proprits de l'esprance assure que P(A) = 0. On en dduit P(Z 0) = 1. La deuxime assertion est une consquence directe de la premire car X X 0 entraine E (X X |B ) 0. La linarit de l'esprance conditionnelle (point 3.) permet alors de conlure. 5. Lorsque X est indpendante de B , alors Z = E(X ) appartient L1 B (comme toute constante). De plus pour A B , (6.6) est vrie car les deux membres sont tous les deux gaux E(X )P(A). 6. Posons S = E (X |B ). La variable alatoire Z = E (S |C ) appartient bien L1 C (car S est intgrable). De plus si A C , on a

E (1A Z ) = E (1A S ) = E (1A X ) .


La premire galit utilise la dnition de l'esprance conditionnelle et la deuxime galement car A B . On a conclut alors l'galit annonce.

Exemple d'application pour un modle autorgressif.

On considre une suite i.i.d U de variables alatoires valeurs relles, intgrables et de toutes de moyenne nulle. Posons alors X0 = x (variable alatoire constante relle) et dnissons X1 , x2 , . . . de faon rcurssive par

Xn+1 = aXn + b + Un+1 ,

n N.

Ce type de dynamique est frquemment utilis pour modliser l'volution temporelle de certains phnomnes (volution d'actifs d'un jour au suivant, volution du niveau d'eau dans un lac...). On pourra remarquer en itrant l'quation que Xn peut s'crire comme une combinaison linaire des variables U1 , . . . , Un . La variable alatoire Un+1 est donc indpendante de Xn et plus gnralement de Fn = (X1 , . . . , Xn ). Calculons alors l'esprance conditionnelle E (Xn+1 |Fn ). On a la srie d'galits

E (Xn+1 |Fn ) = E (aXn + b + Un+1 |Fn ) = aE (Xn |Fn ) + b + E (Un+1 |Fn ) = aXn + b + E(Un+1 ) = aXn + b.

Pour la premire galit, on a utilis la linarit de l'esprance conditionnelle et le fait qu'une constante est Fn mesurable. Pour la deuxime, on a utilis que Xn tait Fn mesurable (et donc le point 2. de la Proposition 31) et le fait que Un+1 tait indpendante de Fn (et donc le point 5. de la Proposition 31). On peut alors faire des prvisions horizon h 2. Par exemple, on a en utilisant ce qui prcde et le point 6. de la Proposition 31

E (Xn+2 |Fn ) = E (E (Xn+2 |Fn+1 ) |Fn ) = E (aXn+1 + b|Fn ) = aE (Xn+1 |Fn ) + b = a2 Xn + ab + b.

82

On voit alors par rcurrence que pour h 1,

E (Xn+h |Fn ) = ah Xn + ah1 b + . . . + ab + b.


Au passage on pourra remarquer l'galit Fn = (U1 , . . . , Un ) : en eet, pour i = 1, . . . , n, Xi est une fonction de Ui , . . . , U1 et inversement on a Ui = Xi aXi1 b. Mentionnons enn deux dernires proprits utiles en pratique aussi bien pour le calcul de l'esprance conditionnelle que pour celui des lois conditionnelles.

Proposition 32

On considre un couple (X, Y ) de variables alatoires pour lequel nous avons dni la notion de loi conditionnelle. 1. On suppose que X = F (U, Y ) o F est mesurable et U est une variable alatoire indpendante de Y . Posons g (y ) = E (F (U, y )). Alors g (Y ) = E (X |Y ). On a mme plus : la loi conditionnelle de X |Y = y est aussi la loi de F (U, y ). 2. Si est une fonction mesurable et telle que (X ) soit intgrable alors
E ((X )|Y = y ) = (x)fX |Y (x|y )d(x).

Le point 2. est une sorte de thorme de transfert conditionnel : si on connait la loi conditionnelle de X |Y = y il n'est pas ncessaire de connaitre celle de (X )|Y = y pour calculer l'esprance conditionnelle correspondante, il sut d'intgrer par rapport la loi conditionnelle de X |Y = y.

Exemples de calculs

 Considrons un modle autorgressif de la forme

Xn+1 = f (Xn , Un+1 ) ,

nN

avec U une suite i.i.d, f une fonction connue et X0 = x0 est une constante. On voit que Xn s'crit comme une fonction des variables alatoires Un , Un1 , . . . , U1 . Un+1 est donc une variable alatoire indpendante de Xn et mme indpendante de Fn = (X1 , X2 , . . . , Xn ). D'aprs la proposition prcdente la loi de Xn+1 |Xn = x concident avec la loi de f (x, Un+1 ) (remarquer qu'il s'agit aussi de la loi de Xn+1 |Xn , . . . , X1 ). Prenons le cas o f (x, y ) = y 1 + ax2 et la suite U est une suite de gaussiennes N (0, 1) : il s'agit d'un exemple de modle ARCH (autorgressif et conditionnellement htroscedastique). Dans ce cas, la loi de Xn+1 |Xn = x est la loi N 0, 1 + ax2 . On remarquera galement que E (Xn+1 |Fn ) = 0 2 |F ici. En revanche, on peut regarder E Xn +1 n : un calcul l'aide des proprits de la loi conditionnelle montre que
2 2 2 2 2 E Xn +1 |Fn = 1 + aXn E Un+1 |Fn = 1 + aXn E (Un+1 ) = 1 + aXn .

On aurait aussi pu obtenir directement ce rsultat en utilisant le point 2. de la proposition prcdente avec (z ) = z 2 et en uilisant la loi conditionnelle N (0, 1 + ax2 ).  Supposons par exemple qu'une variable alatoire X s'crit sous la forme X = exp(Y U ) avec Y et U deux variables alatoires indpendantes et valeurs relles et densit avec par exemple U de loi uniforme sur [0, 1]. Calculons E (X |Y ). La proposition prcdente assure que E(X |Y ) = g (Y ) o g est la fonction dnie par
1

g (y ) = E (exp(yU )) =
0

exp(yu)du =

exp(y ) 1 , y

en convenant que le quotient vaille 1 si y = 0. On obtient alors la formule

E (X |Y ) =
83

exp(Y ) 1 . Y

 Retrouvons par le conditionnement un rsultat dj obtenu. Si X = Y X1 + (1 Y )X2 avec X1 , X2 et Y indpendantes, Y B (p) et Xi densit fi sur R pour i = 1, 2, alors on voit que d'aprs la proposition prcdente, la loi de X |Y = 1 est la loi de X1 et que la loi de X |Y = 0 est la loi de X2 .

Preuve partielle du point

1 de la Proposition 32. Prouvons l'assertion sur l'esprance conditionnelle. Encore une fois, il sut de vrier que la variable alatoire g (Y ) satisfait (6.2). Remarquons dj que g (Y ) est intgrable : en eet le thorme de transfert et le thorme de Fubini assure que E (|X |) = |F (u, y )|dPY (y )dPU (u) = E (|F (U, y )|) dPY (y )

et est un nombre ni par hypothse sur X . Ceci montre que g (Y ) est intgrable. Aussi pour un venement {Y A} (Y ), nous avons

E (X 1A (Y )) = =
A

F (u, y )1A (y )dPU (u)dPY (y ) g (y )dPY (y )

= E (1A (Y )g (Y )) .
L'galit (6.2) est bien vrie.

84

Chapitre 7
Les lois gaussiennes

7.1

Lois gaussiennes sur

Nous avons dj dni les lois gaussiennes sur R lors du chapitre sur les variables alatoires densit. On rappelle qu'une variable alatoire X valeurs relles suit une loi gaussienne de moyenne m R et de variance 2 > 0 si la densit de X est donne par

fX (x) =

1 (x m)2 exp 2 2 2

x R.

On inclut aussi dans la dnition le cas dgnre o = 0 : dans ce cas on convient que la variable alatoire X est presque srement gale sa moyenne m (i.e la loi de X est la masse de Dirac m ). Dans tous les cas, on notera X N m, 2 . On rappelle que lorsque m = 0 et = 1, on parle de loi gaussienne centre rduite. Une proprit importante de ces lois est leur stabilit vis vis des transformations anes. La proposition suivante se prouve aisment en eectuant un changement de variable.

Proposition 33

Soient m R et un rel positif. Si X N (0, 1) alors Y = m + X N m, 2 . m Inversement, si > 0 et Y N m, 2 , alors Y N (0, 1).
Lorsque nous avons introduit les fonctions caractristiques, nous avons calcul celle de la loi N m, 2 . Si X N m, 2 , alors

X (t) = exp(itm) exp

2 t2 2

t R,

cette expression tant aussi valable lorsque = 0. L'utilisation des fonctions caractristiques et de leurs proprits permet de prouver facilement la proposition suivante (cf TD).

Proposition 34 Une somme de variables alatoires indpendantes et toutes de loi gaussienne sur R suit encore une loi gaussienne sur R.
Ainsi si X = X1 + . . . Xn est une somme de variables alatoires indpendantes telle que Xi 2 pour 1 i n alors X N m, 2 avec ncessairement m = m + . . . + m et N mi , i 1 n 2 2 2. = 1 + . . . + n 85

7.2
7.2.1

Les matrices de variance-covariance


Quelques rappels sur les matrices

Soit A une matrice carre de taille d d dont les entres sont des nombres rels. On notera det(A) son dterminant. Le noyau de A est le sous-espace vectoriel de Rd Ker (A) =

x Rd : Ax = 0

(on conviendra de noter les vecteurs de Rd par des matrices colonnes). Alors on les quivalences fondamentales suivantes : A inversible det(A) = 0 Ker (A) = {0}. Ainsi dire que A n'est pas inversible signie qu'il existe x Rd \ {0} tel que Ax = 0. On dit que A est matrice symtrique lorsque Aij = Aji pour 1 i, j d. + Dans la suite nous noterons Sd l'ensemble des matrices carres A de taille d d qui sont semi++ dnies positives c'est dire telles que xT Ax 0 pour tout x Rd . On notera galement Sd l'ensemble des matrices carres A de taille d d qui sont symtriques et dnies positives (c'est-dire telles que xT Ax > 0 pour x Rd \ {0}). On rappelle que toute matrice symtrique est diagonalisable dans une base orthonorme. Ceci signie qu'il existe une matrice P de taille d d telle que P T P = P P T = Id (matrice identit) et A = P DP T o D est une matrice diagonale dont les lments diagonaux sont des nombres rels + ++ appels les valeurs propres de A. Dans ce cas, on a A Sd (resp. A Sd ) si et seulement si les valeurs propres notes 1 , . . . , d (avec ventuellement des rptitions) sont toutes positives ++ + (resp. strictement positives). Ainsi on a A Sd si et seulement si A Sd et det(A) = 0. + + (c'est--dire une matrice B admet une unique racine carre dans Sd Toute matrice A de Sd telle que B 2 = A) : cette racine carre sera note A1/2 . Lorsqu'on parlera de la racine carre ++ ++ de A, il s'agira de A1/2 . Lorsque A Sd , A1/2 appartient aussi Sd . Si A = P DP T on a 1 / 2 1 / 2 T 1 / 2 A = P D P et D est la matrice diagonale dont les lments diagonaux sont donns par ++ ++ les racines carres des valeurs propres 1 , . . . , d . Enn lorsque A Sd alors A1 Sd et de plus la racine carre de A1 est l'inverse de la racine carre de A et sera note A1/2 : on

0
.. .

1 d

a A1/2 = P 0

T 0 lorsque A = P DP .

0
7.2.2

...

Vecteurs alatoires, variance et covariance

Soit X une variable alatoire valeurs dans Rd (on parle aussi de vecteur alatoire) pour d N . Si X = (X1 , . . . , Xd )T est tel que E Xi2 < + pour i = 1, . . . , d, alors on dnit la matrice de covariance de X par Var (X ) = [ Cov (Xi , Xj )]1i,j n . Remarquer que si les coordonnes de X sont indpendantes (ou mme dcorrles deux deux ce qui est plus faible) alors Var (X ) est une matrice diagonale. Dans la suite, nous conviendrons que si K est une matrice p n dont les entres dnissent des variables alatoires Ki,j alors l'esprance E(K ) est la matrice p n telle que E(K )ij = E (Kij ) (on prend l'esprance de chacune des entres de la matrice). Nous avons alors les proprits fondamentales suivantes.

Proposition 35

1. On a les expressions Var (X ) = E ((X E(X ))(Y E(Y ))) = E XX T E(X )E(X )T .
86

2. Si A est une matrice de nombres rels de taille n d, alors le vecteur alatoire Y = AX vrie E(Y ) = AE(X ), Var (Y ) = A Var (X )AT . 3. si le dterminant de Var (X ) vrie det ( Var (X )) = 0 si et seulement si il existe x Rd \ {0} et un rel tel que d i=1 xi Xi = presque srement. 4. Toute de matrice de covariance est symtrique et semi-dnie positive (i.e xT Var (X )x 0 pour tout x Rd ). Inversement pour toute matrice symtrique et semi-dnie positive de taille d, il existe un vecteur alatoire X tel que Var (X ) = .

Preuve.
1. Il s'agit d'une simple rcriture matricielle. 2. Soit i {1, . . . , n}. Alors, on a
d

Yi =
j =1

Aij Xj .

Par linarit de l'esprance on obtient


d

E(Yi ) =
j =1

Aij E(Xj ).

On a donc bien E(Y ) = AE(X ). De plus, le calcul de la variance montre que


d d

Var (Yi ) =
j,j =1

Aij Aij Cov (Xj , Xj ) =


j,j =1

Aij Var (X )jj AT j i.

Var (Yi ) concide bien avec la iime coordonne de A Var (X )AT . 3. Supposons d'abord que det ( Var (X )) = 0. Dans ce cas, il existe x Rd \ {0} tel que Var (X )x = 0 (le noyau de la matrice n'est pas rduit 0) donc tel que xT Var (X )x = 0. Mais comme xT Var (X )x = Var xT X d'aprs la point prcdent, on en dduit que la variable alatoire xT X =
d i=1 xi Xi

est presque srement gale sa moyenne note .


d i=1 xi Xi

Inversement, supposons qu'il existe x Rd \{0} et un rel tel que srement. Alors si 1 j d,
d d

= presque

xi Var (X )ij = Cov


i=1 i=1

xi Xi , Xj

= Cov (, Xj ) = 0.

Comme Var (X )ij = Var (X )ji , on obtient ( Var (X )x)j = 0. Ainsi x = 0 appartient au noyau de Var (X ) ce qui entraine que det (v (X )) = 0. 4. Le fait que Var (X ) soit symtrique rsulte de sa dnition. De plus cette matrice est semi-dnie positive car xT Var (X )x = Var xT X d'aprs ce qui prcde. Inversement toute matrice symtrique tant diagonalisable dans une base orthonorme, on a

=P

.. .

T T P = P DP , d

o P T P = P P T = Id (matrice identit de taille d). De plus les valeurs propres sont positives (car la matrice est semi-dnie positive) et en posant Q = P D 1/2 (o D 1/2 est 87

la matrice diagonale forme par 1 , . . . , d ), on obtient = QQT . Ainsi si Z est un vecteur alatoire de taille d et dont les entres sont indpendantes et de variance 1 (en particulier Var (Z ) = Id ), alors X = QZ vrie Var (X ) = . On dnit galement la covariance entre deux vecteurs alatoires X et Y valeurs respectives dans Rd et Rn : il s'agit de la matrice note (X, Y ) de taille (p, n) et dont le terme (i, j ) est donne par Cov (Xi , Yj ). On a alors les expressions matricielles : Cov (X, Y ) = E (X E(X ))(Y E(Y ))T Les proprits suivantes sont immdiates. Cov (Y, X ) = Cov (X, Y )T , Cov (AX, Y ) = A Cov (X, Y ), Cov (X, BY ) = Cov (X, Y )B T ,

= E XY T E(X )E(Y )T .

si A et B sont deux matrices d colonnes et n colonnes respectivement. Enn, si Z =

X Y

(vecteur alatoire de dimension d + n), on remarquera que la matrice de covariance de Z peut tre dnie par blocs : Var (Z ) = Var (X ) Cov (Y, X ) Cov (X, Y ) Var (Y )

7.3

Les vecteurs gaussiens

Dnition 23

Un vecteur alatoire X de Rd est appel un vecteur gaussien si pour tout u Rd , la variable alatoire uT X suit une loi gaussienne sur R.
En d'autres termes, un vecteur alatoire X est gaussien si et seulement si toute combinaison linaire de ses coordonnes est une variable alatoire gaussienne dans R. En particulier les variables alatoires coordonnes X1 , . . . , Xd suivent des loi gaussiennes sur R. Comme pour les lois gaussiennes sur R, les transformations anes prserve le caractre gaussien.

Proposition 36 Preuve.
vT X

Si X est un vecteur gaussien valeurs dans Rd , A une matrice de taille n d entres relles et b Rn alors Y = AX + b est un vecteur gaussien de Rn .

Si u Rn , on a uT Y = v T X + o on a pos v = AT u et = uT b. Par hypothse suit une loi gaussienne sur R et donc uT Y aussi d'aprs les proprits d'invariance des lois gaussiennes sur R.

Proposition 37

Soit X un vecteur gaussien de Rd . Notons E(X ) = m et Var (X ) = . Alors la fonction caractristique de X a l'expression suivante :
1 X (t) = exp imT t exp tT t , 2 t Rd .

Etant donn que la fonction caractritique caractrise compltement la loi, on voit que la loi d'un vecteur gaussien dpend uniquement de sa moyenne et de sa matrice de covariance. Ainsi la loi d'un vecteur gaussien de Rd de moyenne m et de variance sera note Nd (m, ). 88

Preuve.

Il sut d'observer que pour t Rd , on a X (t) = tT X (1). Comme la variable alatoire tT X suit une loi gaussienne sur R, dont la moyenne est donne par tT m et dont la matrice de covariance vaut Var (X ) = tT t, le rsultat est obtenu en utilisant l'expression de la fonction caractristique des lois gaussiennes sur R.

Proposition 38

Soit X un vecteur gaussien de Rd , de moyenne m et de variance inversible (on dit alors que le vecteur est non dgnr). Alors X admet une densit par rapport la mesure de Lebesgue sur Rd et qui est donne par
fX (x) =
1 exp 2 (x m)T 1 (x m)
d

(2 ) 2

det()

x Rd .

Preuve.

Commenons pour le cas m = 0 et = Id . Dans ce cas la fonction caractristique de X T est donne par X (t) = exp t 2 t , pour t Rd , ce qui correspond la fonction caractristique de d variables alatoires indpendantes toutes de loi N (0, 1). On en dduit que X admet une densit sur Rd qui est dnie par

fX (x) =

T exp 1 2x x

(2 )

d 2

x Rd .

ce qui est bien l'expression annonce. Passons maintenant au cas gnral. La matrice symtrique est inversible, elle est alors dnie positive et admet une unique racine carre note 1/2 symtrique et dnie positive. Ainsi si X Nd (m, ) alors X a la mme loi que le vecteur Y = m + 1/2 Z o Z Nd (0, Id ) (car ce sont deux vecteurs gaussiens qui ont mme moyenne et mme variance). Il sut donc de calculer la densit du vecteur Y . Si h : Rd R est une fonction mesurable borne, on a

E (h(Y )) =

h m + 1/2 x

1 T exp 2 x x

(2 ) 2

dx,

en utilisant le thorme de transfert et la premire partie de la preuve. Pour montrer que l'on obtient bien la densit annonce, il sut d'eectuer le changement de variable y = m + 1/2 x. On a alors x = 1/2 (y m) = (y ) et le jacobien est donn par

J(y ) = det 1/2 =

1 det()

. Des calculs lmentaires conduisent alors l'expression de la densit.

Remarque sur les vecteurs gaussiens dgnrs.

Reprenons les notations de la proposition prcdente. Lorsque n'est pas inversible, on a vu que le vecteur X appartenait un hyperplan ane de Rd avec probabilit 1 (on parle de vecteur gaussien dgnr). Dans ce cas, le vecteur X ne peut pas avoir de densit par rapport la mesure de Lebesgue sur Rd car un hyperplan ane est de mesure nulle (pour d ).

Indpendance et dcorrlation.

Supposons que les entres d'un vecteur gaussien X soient 2 0 pour i = 1, . . . , d. Dans dcorrles (i.e Cov (Xi , Xj ) = 0 pour i = j ) et que Var (Xi ) = i ce cas, la fonction caractristique est donne par
d

X (t) =
j =1

2 t2 j j exp(itj mj ) exp 2

=
j =1

Xj (tj ).

89

D'aprs les proprits des fonctions caractristiques, on voit que les variables alatoires X1 , . . . , Xd sont indpedantes. Cette quivalence entre dcorrlation et indpendance est une proprit typique des vecteurs gaussiens et sera gnralise un peu plus loin dans ce chapitre.

De la loi

Nd (m, ). Soit m Rd et une matrice symtrique semi-dnie positive. Alors on peut voir qu'un vecteur Y Nd (m, ) a la mme loi que le vecteur Z = m +1/2 X o X Nd (0, Id ). Cette proprit a dj t voque dans la preuve de la proposition prcdente. Lorsque est inversible, on peut aussi voir que le vecteur X = 1/2 (Y m) suit la loi Nd (0, Id ). Nd (0, Id )
On a vu que si X tait un vecteur gaussien alors les variables alatoires coordonnes X1 , . . . , Xd taient gaussiennes. En revanche, un vecteur alatoire dont toutes les entres suivent des lois gaussiennes sur R n'est pas forcment un vecteur gaussien (sauf si X1 , . . . , Xd sont indpendantes auquel cas la fonction caractristique permet de conclure). Par exemple, si X1 N (0, 1) et V est une 1 variable alatoire indpendante de X et telle que P(V = 1) = P(V = 1) = 2 alors en posant T X2 = V X1 , on peut vrier que X2 N (0, 1). Mais X = (X1 , X2 ) ne peut tre un vecteur 1 gaussien car la somme X1 + X2 = (1 + V )X1 peut valoir 0 avec probabilit 2 (la somme ne suit donc pas une loi gaussienne).

la loi

Des entres gaussiennes ne forment pas toujours un vecteur gaussien.

X un vecteur gaussien avec X et Y deux vecteurs alatoires Y (forcment gaussiens) valeurs respectives dans Rd et Rn . Alors les vecteurs alatoires X et Y sont indpendants si et seulement si Cov (X, Y ) = 0. En d'autres termes, pour un vecteur gaussien, l'indpendance de deux sous-vecteurs quivaut leur dcorrlation.

Proposition 39

Soit Z =

Preuve.

Posons m = d + n. Supposons d'abord que X et Y vrie Cov (X, Y ) = 0. Pour montrer leur indpendance, il sut d'utiliser le critre d'indpendance bas sur les fonctions caractristiques. Remarquons que u Var (X ) 0dn . Soit t = la variance de Z est donne par blocs par Var (Z ) = v 0nd Var (Y ) Rm . Alors tT Var (Z )t = uT Var (X )u + v T v (Y )v. La fonction caractristique de Z est alors donne par

Z (t) = exp i(uT E(X ) + v T E(Y )) exp

1 T u Var (X )u + v T v (Y )v 2

= X (u)Y (v ).

Les vecteurs alatoires X et Y sont donc bien indpendants. Inversement si X et Y sont indpendants, alors les variables alatoires Xi et Yj sont indpendantes pour 1 i d et 1 j n et donc (Xi , Yj ) = 0. On a donc (X, Y ) = 0. Une proprit fondamentale des lois gaussiennes sur Rd est leur stabilit vis vis du conditionnement. La proposition suivante est fondamentale pour le calcul des lois conditionnelles dans un vecteur gaussien. On retiendra surtout l'ide de la preuve car elle permet de retrouver facilement des formules un peu complexes.

X un vecteur gaussien avec X un vecteur alatoire valeurs Y dans Rd et Y un vecteur alatoire valeurs dans Rn . On suppose que Y est non dgnre (i.e

Proposition 40

Soit Z =

90

Var (Y ) est inversible). Alors la loi conditionnelle de X |Y = y est une loi gaussienne Nd (m, ) dont les paramtres sont donns par
m = E(X ) + Cov (X, Y ) Var (Y )1 (y E(Y )) = Var (X ) Cov (X, Y ) Var (Y )1 Cov (Y, X )

Preuve.

La preuve peut se dcomposer en trois tapes.  On commence par chercher un matrice C de taille d n telle que le vecteur U = X CY soit dcorrl avec Y (et donc indpendant car le vecteur form l'aide de U et de Y est un vecteur gaussien en tant qu'image du vecteur Z par une application linaire). On a

0 = Cov (U, Y ) = Cov (X, Y ) Cov (CY, Y ) = Cov (X, Y ) C Var (Y ).


On trouve alors C = Cov (X, Y ) Var (Y )1 .  Comme X = U + CY est une fonction de deux variables alatoires indpendantes, les proprits sur les loi conditionnelles vues au chapitre prcdent montre que la loi de X |Y = y concide avec la loi de la variable alatoire U + Cy = X + C (y Y ). Il s'agit donc bien d'une loi gaussienne.  On dtermine la moyenne et la variance de la loi gaussienne obtenue. On a

E(U + Cy ) = E(X ) + C (y E(Y )) = E(X ) + Cov (X, Y ) Var (Y )1 (y E(Y )) ,


ce qui est bien l'expression attendue. Pour la variance, on a Var (U + Cy )

= = = = = =

Var (U ) Var (X CY ) Var (X ) + Var (CY ) Cov (X, CY ) Cov (CY, X ) Var (X ) + C Var (Y )C T Cov (X, Y )C T C Cov (Y, X ) Var (X ) + Cov (X, Y ) Var (Y )1 Cov (Y, X ) 2 Cov (X, Y ) Var (Y )1 Cov (Y, X )

Var (X ) Cov (X, Y ) Var (Y )1 Cov (Y, X ). La proposition est prouve.

Remarque fondamentale.

Sous les hypothses de la proposition prcdente avec d = 1, on


n

voit que l'esprance conditionnelle E(X |Y ) est une combinaison linaire du type pour des nombres rels 1 , . . . , n , .
i=1

i Yi +

X 1 soit un vecteur gaussien de moyenne m = Y 1 1 0.5 et de matrice de covariance = . Le vecteur gaussien est non dgnre. A 0.5 1 priori, on peut aussi calculer la loi conditionnelle de X |Y = y en utilisant le quotient des densits. Cependant, il faut dj inverser la matrice pour rcuprer la densit de Z et eectuer

Un exemple.

Supposons que Z =

ensuite quelques calculs. Appliquons la mthode de la preuve de la proposition prcdente. C (X,Y ) L'galit Cov (U, Y ) = Cov (X cY, Y ) = 0 est ralise pour c = = 0.5. Comme Var (Y ) 91

X = U 0.5Y , la loi de X |Y = y est aussi la loi de U 0.5y = X 0.5(y Y ). La moyenne de cette loi est donc E(U 0.5y ) = 1 0.5(y + 1) = 1.5 0.5y . La variance est donne par
Var (U 0.5y ) = Var (X +0.5Y ) = Var (X )+0.25 Var (Y )+ Cov (X, Y ) = 1.25 0.5 = 0.75. On obtient donc la loi N (1.5 0.5y, 0.75). Ainsi E(X |Y ) = 1.5 0.5Y . On pourra retrouver titre d'exercice ces rsultats en utilisant la formule de la densit conditionnelle.
7.4 Quelques lois fondamentales pour la statistique

Nous donnons ici trois exemples de loi qui interviennent assez frquemment en statistique et qui sont construites partir de variables alatoires X1 , X2 , . . . indpendantes et toutes de loi N (0, 1).
2 est une loi 1 , 2 (voir TD). Ainsi la somme X 2 + X 2 + . . . + X 2 La loi de X1 n 1 2 2 est la convole de n variables alatoires toutes de loi et elle suit donc une loi n 2 , 2 . Cette loi est aussi appele loi du 2 (prononcer khi-deux) n degrs de libert.

La loi du 2 .

La loi de Student.

Il s'agit de la loi de la variable alatoire

T =
La loi de T correspond donc la loi de Z et de lois respectives N (0, 1) et densit

Xn+1
2 (X1 2 )/n + . . . + Xn

Y /n

o les variables alatoires Z et Y sont indpendantes

n degrs de libert. On peut montrer que la loi de T a pour

n
n 2

n+1 2

1+

t2 n

n+1 2

La loi de Fisher.

La loi de

2 2 Xn +1 +...+Xn+m m 2 +...+X 2 X1 n n

est appele loi de Fisher m et n degrs de libert.

A une renormalisation prs, cette loi est aussi celle du quotient de deux variables alatoires indpendantes suivant toutes les deux une loi du 2 , m et n degrs de libert respectivement. On peut alors montrer que la densit est donne par

z 1R+ (z )


m 2

n+m 2

m 2 n 2 z 2 1
n 2

(n + mz )

m+n 2

92

Chapitre 8
Convergence des suites de variables alatoires

On se xe donc un espace probabilis (, A, P). De plus nous utiliserons la notation || aussi bien pour la valeur absolue sur R que pour la norme euclidienne sur Rd , d 2.
8.1
8.1.1

Comportement asymptotique d'une suite d'venements


Limite infrieure et suprieure

Pour tudier les problmes asymptotiques lis des suites d'venements, la notion de limite infrieure et de limite suprieure intervient frquemment. Si (An ) est suite d'lments de A, la limite infrieure est l'venement not limAn qui est constitu de l'ensemble des preuves qui appartiennent tous les An partir d'un certain indice p (qui peut dpendre de ). Par 1 exemple, lorsque = R, en posant An = [ n , 1] si n 1, on voit que limAn =]0, 1]. Il existe une criture ensembliste : on a
lim inf An = pN + n=p An . n

En eet dire que limAn signie qu'il existe un entier p tel que pour tout n p, on ait An . La limite suprieure de la suite (An ) est l'venement not lim supn An qui est compos des preuves qui appartiennent une innit d'venements An . Par exemple, si

A1 = [0, 1],

A2 = [1, 2],

A3 = [0, 1],

A4 = [1, 2], . . . ,

on voit que lim supn An = [0, 2] alors que lim inf n An = {1}. On a l'criture ensembliste
lim sup An = pN + n=p An . n En eet dire que pN + n=p An signie que pour tout entier p, il existe un entier n p tel que An . De par la dnition de ces ensembles, on voit aisment que lim inf n An lim supn An . De plus, on a les relations c c

lim inf An
n

lim sup Ac n, n

lim sup An
n

= lim inf Ac n,
n

qui peuvent se dmontrer en utilisant les dnitions ensemblistes de la limite infrieure ou suprieure (ou par le bon sens, par exemple ne pas tre dans tous les An partir d'un certain rang revient tre une innit de fois dans leur complmentaire). 93

8.1.2

Lemme de Borel-Cantelli

Ce lemme est d'un usage courant lorsque on s'intresse au comportement asymptotique d'une suite d'vnements. Pour la suite, on rappelle qu'une suite d'vnements indpendants est une suite (An )nN telle que pour tout k N et tout k-uplet (n1 , . . . , nk ) Nk , les vnements An1 , . . . , Ank sont indpendants.

Lemme 4

Soit (An )nN une suite d'vnements.


+

1. On a l'implication :
P(An ) < + P lim sup An
n=0 n

= 0.

2. Si on suppose que les vnements An sont indpendants :


+

P(An ) = + P lim sup An


n=0 n

= 1.

Remarque.

Ainsi pour des vnements indpendants, on a


+

P(An ) < + P lim sup An


n=0 n

= 0.

Exemples.

Donnons deux illustrations de ce lemme.  Considrons une suite innie de pile ou face, c'est--dire une suite i.i.d (Xn ) de va1 riables alatoires toutes de loi de Bernoulli de paramtre 2 ainsi qu'un entier N 1. En utilisant le lemme de Borel-Cantelli, montrons qu'avec probabilit 1, on obtiendra une innit de fois N piles conscutifs (on pourrait mme montrer que l'on obtiendrait une innit de fois toute squence nie donne). Pour cela posons pour n N, An = XnN = 1, . . . , X(n+1)N 1 = 1 . La suite (An ) est une suite d'venements indpendants
+

chacun tant de probabilit

1 . 2N

Donc
n=0

P (An ) = +. Le deuxime point du lemme de

Borel-Cantelli assure qu'avec probabilit 1, toute ralisation appartiendra une innit d'venements An . Il y aura donc une innit de fois N piles conscutifs.  Maintenant supposons que (Xn )n soit une suite de variables alatoires telles que pour tout n N, Xn suive la loi de Bernoulli de paramtre 2n , alors les ralisations de cette suite ne comportent qu'un nombre ni de 1 presque srement. En eet posons An = {Xn = 1}. Alors
+ +

P (An ) =
n=0 n=0

1 < +. 2n

Le premier point du lemme de Borel-Cantelli assure qu'avec probabilit 1, une ralisation appartient au complmentaire de lim supn An donc lim inf n Ac n . Il n'y a donc que des 0 au bout d'un moment.

Preuve.

Posons A = lim supn An .

1. Pour le premier point, remarquons que pour tout n N, A pn Ap , ce qui donne les majorations :

P (A) P (pn Ap )
pn

P (Ap ) ,

94

ce qui donne le rsultat car le membre de droite est le reste d'une srie convergente et tend donc vers 0 lorsque n tend vers +. 2. Pour le deuxime point, on peut se rappeler que P(A) = 1 P(Ac ) = 1 P (lim inf n Ac n ). c Il sut donc de prouver que P (lim inf n Ac ) = 0 . En posant B = A , on a n pn p n

Ac = lim inf Ac n = n0 Bn .
n

Les vnements Bn forment une suite croissante d'vnements pour l'inclusion, on a donc P(Ac ) = limn+ P(Bn ). Nous allons montrer que P(Bn ) = 0 ce qui permettra de conclure. c Remarquons que en posant pour q n, Cq = q p=n Ap , on a P(Bn ) = limq + P (Cq ), car les vnements Cq forment une suite dcroissante d'vnements pour l'inclusion. En x 1 x, on obtient utilisant l'indpendance des venements Ac n ainsi que l'ingalit e
q

P(Cq ) =

(1 P(Ap )) e
p=n

q p=n

P(Ap )

Ainsi limq+ P(Cq ) = 0 et donc P(Bn ) = 0.


8.2
8.2.1

Les modes de convergence


Convergence presque sre et en probabilit

Dnition 24

On dit qu'une suite (Xn )nN de variables alatoires converge presque srement vers une variable alatoire X si il existe A vriant P = 1 et , limn+ Xn ( ) = X ( ). Autrement dt, la convergence a lieu point par point en dehors d'un ensemble de mesure nulle.
En abrg nous noterons Xn X p.s. Il existe un mode de convergence qui est plus faible, la convergence en probabilit.

Dnition 25

On dit qu'une suite (Xn )nN de variables alatoires valeurs dans Rd converge en probabilit vers une variable alatoire X si pour tout > 0,
n+

lim P (|Xn X | > ) = 0.

Remarques
1. La convergence presque sre entrane la convergence en probabilit. En eet la convergence presque sre entrane que pour > 0, P (lim supn An ) = 0 avec An = {|Xn X | > }. Comme

P (An ) P (pn Ap )
et le membre de droite converge vers P lim supq Aq = 0 lorsque n tend vers +, on en dduit que lim P(An ) = 0.
n+

2. La convergence en probabilit n'entrane pas la convergence presque sre comme le montre l'exemple suivant. Soit (Xn )nN une suite de variables alatoires indpendantes telles 1 que P (Xn = 1) = n = 1 P (Xn = 0). Cette suite converge en probabilit vers 0 car si 0 < < 1,

P (|Xn | > ) = P (Xn = 1) =


95

1 n+ 0. n

Remarquons au passage que pour montrer la convergence en probabilit, on peut se restreindre des valeurs de plus petite qu'un certain seuil dans la dnition (car si < , P (|Xn | > ) P (|Xn | > )). Remarquons ensuite que
+ +

P(Xn = 1) =
n=1 n=1

1 = + n

et donc que P (lim supn {Xn = 1}) = 1 en utilisant le deuxime point du lemme de BorelCantelli. Ainsi p.s, la suite (Xn )n prend une innit de fois la valeur 1, elle ne peut donc converger vers 0 presque srement. La convergence presque sre ou en probabilit est stable par composition par une fonction continue.

Proposition 41 Preuve.

Si Xn X p.s (resp. en probabilit) et f une fonction continue, f : Rd Rk , alors f (Xn ) f (X ) p.s (resp. en probabilit).
C'est clair pour la convergence presque sre. Pour la convergence en probabilit, soit

> 0 et > 0. On va montrer qu'il existe n0 N tel que n n0 , P (|f (Xn ) f (X )| > ) < . Choisissons d'abord r > 0 tel que P (|X | > r ) /2, ce qui est toujours possible. Sur {|x| 2r }, f est uniformment continue. Choisissons alors > 0 tel que |x| , |y | 2r, |x y | < |f (x) f (y )| .

Remarquons alors que |x| r et |x y | min(r, ) entraine |f (x) f (y )| . Donc |f (x) f (y )| entraine ou bien |x| > r ou bien |x y | > min(r, ). En notant An = {|f (Xn ) f (X )| > }, nous obtenons

P (An ) P (|X | > r) + P (|Xn X | > min(r, )) .


Le premier terme de droite est < /2 et la convergence en probabilit de la suite (Xn ) permet de trouver n0 N tel que le deuxime terme soit < /2 si n n0 . Ainsi P(An ) si n n0 . Comme est arbitraire, on en dduit limn P(An ) = 0. La convergence en probabilit de la suite (f (Xn ))n vers f (X ) en dcoule. Une condition susante pour la convergence presque sre est donne par la proposition suivante.

Proposition 42
Si pour tout

(Critre de convergence p.s) > 0, n0 P (|Xn X | > ) < + alors Xn X p.s.


E (|Xn X |p ) < +, alors Xn X p.s.
n0

En particulier, si il existe p > 0 tel que

Un exemple simple de suite qui converge p.s vers 0 est par exemple Xn = Y n, n 1 avec Y une variable alatoire donne. Ce critre permet de dire un peu plus en considrant la n suite dnie par Xn = Y n avec (Yn )n une suite de variables alatoires toutes de mme loi. En 2 eet si E Y1 < +, on a
+ + +

Exemple.

P (|Yn | > n ) =
n=1 n=1

P (|Y1 | > n )
n=1

E Y12 < +, 2 n2

96

en utilisant l'ingalit de Markov, ce qui permet de conclure Xn 0 p.s. En fait ce rsultat est valable si E (|Y1 |) < + seulement en utilisant des majorations plus prcises. On peut d'ailleurs prouver que dans le cas de variables alatoires indpendantes :

Xn 0 p.s E (|Y1 |) < +.


On trouvera une dmonstration de ces rsultats dans [1] (Exercice 9.12, p. 85).

Remarque.

La proposition prcdente fournit une condition susante de convergence presque sre mais non ncessaire. Prenons = [0, 1] muni de la tribu des borliens et P la probabilit uniforme sur . Si on pose pour n N \ {0}, Xn = 1[0, 1 ] alors on voit que pour > 0,
n

1 P (|Xn | > ) = P [0, ] n


Ainsi
n=1 P (|Xn |

1 . n

> ) = + alors que (Xn )n1 converge presque srement vers 0 (prendre =]0, 1] dans la dnition de la convergence presque sre).

Preuve de la proposition 42.


lim supn An,

> 0, posons An, = {|Xn X | > } et A = . D'aprs le premier point du lemme de Borel-Cantelli, l'hypothse P (|Xn X | > ) <
n0

Pour tout

+ entrane que P (A ) = 0. Ainsi P kN A1/k = 0 par sous-additivit. Par passage au


complmentaire, on a
c P kN Ac 1/k = P kN lim inf An,1/k = 1, n

ce qui se lit

(k N , p tel que n p,

|Xn X | 1/k ) ,

p.s. > 0,

La convergence presque sre de la suite (Xn ) en dcoule. Remarquons de plus que la condition E (|Xn X |p ) < + entrane que pour tout
n0

P (|Xn X | > ) =
n0 n0

P (|Xn X |p >

)
n0

E (|Xn X |p ) < ,

par application de l'ingalit de Markov. Ceci justie le deuxime point. Finissons ce paragraphe en donnant un dernier lien entre la convergence en probabilit et la convergence presque sre.

Proposition 43

Si Xn X en probabilit, alors il existe une sous-suite Xnj presque srement vers X .

qui converge

Preuve. Remarquons tout d'abord que pour > 0 et > 0, la convergence en probabilit entrane l'existence d'un entier n0 tel que n n0 , P (|Xn X | > /2) /2. Remarquons galement que si deux rels y, z vrient |y z | > alors si x est un rel, on a ou bien |y x| > /2 ou bien |z x| > /2. Ainsi si p, q n0 , on a l'inclusion
{|Xp Xq | > } {|Xp X | > /2} {|Xq X | > /2} .
97

On en dduit

P (|Xp Xq | > ) P (|Xp X | > /2) + P (|Xq X | > /2) .


Ainsi pour tout , > 0, il existe un entier n0 tel que

p, q n0 ,

P (|Xp Xq | > ) .

Ainsi, il est possible de construire une suite de nombre entiers (nj )j avec n0 = 0 et pour j N ,

nj = inf n > nj 1 /p, q n,

P |Xp Xq | >

1 2j

<

1 2j

De plus cette suite tend en croissant vers +. Ainsi


+

P
j =0

Xnj +1 Xnj >

1 2j

j =0

1 < +. 2j Xnj +1 Xnj > 1 2j 1 2j


est de

Le lemme de Borel-Cantelli assure alors que l'vnement lim sup


j

probabilit 0 et donc que son complmentaire B = lim inf


j

Xnj +1 Xnj

est de pro-

babilit 1. Mais si B , la srie de terme gnral Xnj +1 ( ) Xnj ( ) est convergente donc la suite (Xnj ( ))j converge. La suite de variables alatoires (Xnj )j converge p.s et la limite est forcment X car (Xnj )j converge en probabilit vers X .

8.2.2

La convergence en loi

Dnition 26

On dit qu'une suite de variables alatoires (Xn )n converge en loi vers une variable alatoire X si pour toute fonction continue borne h : Rd R,
n+

lim E (h(Xn )) = E (h(X )) .

Remarques.
1. Ce type de convergence ne concerne que la suite des lois des variables alatoires et pas le comportement des trajectoires n Xn ( ). Par exemple toute suite de variables alatoires de mme loi converge en loi puisque la loi des variables est constatnte. 2. Contrairement la convergence p.s ou en probabilit, la convergence en loi de (Xn )n vers X n'est pas quivalente la convergence en loi de (Xn X )n vers 0, comme le montre l'exemple Xn = X = Y o Y N (0, 1). 3. Cette dnition entrane automatiquement que si (Xn )n converge en loi vers X et f : Rd Rk est une application continue, alors la suite (f (Xn ))n converge en loi vers f (X ). Dans la suite on notera Xn X pour exprimer la convergence en loi. On peut alors montrer que la convergence en loi est la plus faible des trois convergences introduites jusqu'ici.
L

Proposition 44

La convergence en probabilit entrane la convergence en loi.


98

Preuve.

Soit une suite (Xn )n telle que Xn X . Soit h : Rd R une fonction continue borne. Soit > 0. Remarquons que pour x, y Rd :

|h(x) h(y )| + 2 h
Ainsi

1|h(x)h(y )|>

|E(h(Xn )) E(h(X ))| E (|h(Xn ) h(X )|) + 2 h

P (|h(Xn )

h(X )| > ) .

La suite (h(Xn ))n convergeant vers h(X ) en probabilit (d'aprs la proposition 41), on en dduit que pour n susamment grand

|E(h(Xn )) E(h(X ))| (1 + 2 h


Ainsi
n+

) .

lim E (h(Xn )) = E (h(X )). D'o la convergence en loi.

Remarque :

La rciproque de cette proprit est fausse, comme le montre l'exemple suivant. Soit X une variable alatoire de loi N (0, 1) et Xn = X alors (Xn )n converge en loi vers X (toutes les variable suivent la loi N (0, 1)) mais pas en probabilit vers X . Pour les variables alatoires valeurs dans Z, on a la caractrisation suivante :

Proposition 45

Si (Xn )n est une suite de variables alatoires discrtes alors


Xn X
L

k Z,

n+

lim P (Xn = k ) = P (X = k ) .

La dmonstration de la condition ncessaire est laisse titre d'exercice (on pourra 1 considrer des fonctions continues hk telles que hk (k ) = 1 et hk (x) = 0 si |x k | > 2 ). Dmontrons la condition susante. On suppose que pour tout k Z, limn+ P(Xn = k ) = P(X = k ). Soit h : R R une fonction continue et borne. Il faut montrer que
n+

Preuve.

lim

h(k )P(Xn = k ) =
kZ k Z

h(k )P(X = k ).

(8.1)

Cette convergence est immdiate si on suppose l'existence de N N tel que P(Xn = k ) = P(X = k ) = 0 pour |k | > N (convergence d'une somme nie de suites). Pour le cas gnral, on commence par choisir N N tel que h |k|>N P(X = k ) < (ce qui toujours possible car on considre le reste d'une srie convergente). On a alors

|
kZ

h(k )P(Xn = k )
kZ

h(k )P(X = k )| An + Bn ,

avec

An = |
|k|N

h(k )P(Xn = k )
|k|N

h(k )P(X = k )|.

et

Bn = h

|k|>N

P(Xn = k ) + h

|k|>N

P(X = k ).

Il est vident que limn An = 0. De plus en crivant

P(Xn = k ) = 1
|k|>N |k|N

h(k )P(Xn = k ),

99

on voit que
n

lim

P(Xn = k ) =
|k|>N |k|>N

P(X = k ),

et donc que
n+

lim Bn = 2 h

|k|>N

P(X = k ) < 2 .
peut tre

On en dduit l'existence d'un entier n0 tel que si n n0 , An + Bn < 3 . Comme arbitrairement petit, on voit que
n

lim (An + Bn ) = 0.

On a bien limn E (h(Xn )) = E (h(X )), ce qui montre la convergence en loi annonce.

Remarque.

Concernant les variables alatoires Xn densit fXn (par rapport la mesure de Lebesgue sur Rd ), on peut montrer que si limn+ fXn (x) = f (x) en tout point x Rd avec f densit de probabilit sur Rd , alors la suite (Xn )n converge en loi vers la loi de densit f . Ce rsultat constitue le Lemme de Sche. Cependant la rciproque de ce lemme est fausse : (Xn )n peut converger en loi sans que la suite des densits converge point par point (un exemple de ce cas de gure est donne dans [1], p. 319). La convergence en loi peut s'exprimer l'aide de la convergence des fonctions caractristiques seulement. Nous admettrons le thorme suivant.

Thorme 12

Xn X si et seulement si t Rd ,
n+

lim Xn (t) = X (t).

Remarque.

Il est facile de montrer que dans le cas de vecteurs alatoires la convergence en loi entrane la convergence en loi des marginales. Cependant la rciproque est fausse en gnral (sauf dans le cas o les marginales sont indpendantes). En fait, le thorme prcdent permet de montrer l'quivalence

Xn X

t Rd ,

tT Xn tT X.

Mentionnons un dernier critre de convergence en loi trs utile pour le cas des variables alatoires valeurs relles. Nous admettrons le rsultat suivant.

Proposition 46

Pour une suite de variables alatoires relles, on a Xn X si et seulement si la suite de leur fonctions de rpartition FXn satisfait lim FXn (t) = FX (t) en tout point t de
n+

continuit de FX .

La convergence des fonctions de rpartition a lieu en tout point si la loi limite est densit. D'ailleurs si la fonction de rpartition limite est continue, il est mme possible de prouver que suptR |FXn (t) FX (t)| tend vers 0 (c'est--dire que la convergence est uniforme). Cependant en gnral, on ne peut esprer avoir la convergence en tout point comme le montre
1 l'exemple suivant. Si Xn = n , alors Xn 0 p.s. donc Xn 0, alors que FXn (0) = 0, pour tout n et FX (0) = 1. L

Remarque.

100

8.3
8.3.1

Deux thormes fondamentaux


La loi des grands nombres

Soit (Xn )nN une suite de variables alatoires relles, indpendantes et identiquement distribues telle que E (|X1 |) < +. Alors
lim X1 + X2 + . . . + Xn = E(X1 ), n

Thorme 13

n+

p.s.

Remarques
1. En considrant par exemple le jeu de pile ou face avec des lancers indpendants, on comprend pourquoi la convergence ne peut avoir lieu en tout point = {0, 1}n , puisque pour toute suite constante partir d'un certain rang, la limite ci dessus vaut 0 ou 1 alors que la moyenne d'un lancer est 1/2. 2. On peut aussi obtenir ce type de convergence pour certaines suites de variables alatoires dpendantes (e.g certains processus de type autorgressifs vus dans ce cours).

Preuve.

4 < +. Pour cela posons On va dmontrer le rsultat seulement lorsque E X1 n

Sn = (X1 + . . . Xn ) nE(X1 ) =
i=1

(Xi E(X1 )) .

Les variables Yi = Xi E(X1 ) possdent aussi un moment d'ordre 4 et elles sont indpendantes et centres. Pour montrer que
+ n=1

Sn = 0 p.s. (qui est le rsultat attendu), on va montrer que n+ n lim

4 < +, ce qui conduira au rsultat, d'aprs le critre donn par la proposition n4 E Sn

42. Nous avons si n 1 (en convenant que S0 = 0),


4 4 4 3 2 2 Sn = Sn 1 + Yn + 4Sn1 Yn + 6Sn1 Yn + 4Sn1 Yn .

En prenant l'esprance dans cette dernire galit, on obtient, vu que les variables alatoires Yn et Zn1 sont indpendantes et centres :
4 4 4 2 2 E Sn = E Sn 1 + E Y1 + 6E Y1 E Sn1 . 2 2 Remarquons que par indpendance des variables Yi , E Sn 1 = (n 1)E Y1 . Ainsi en posant 2 a = 6 E(Y12 ) et b = E Y14 a, nous avons : 4 4 E Sn = E Sn 1 + an + b. 4 = n2 a + n b + a . Il est alors immdiat que En itrant cette galit, on obtient E Sn 2 2 + 4 n4 E Sn < +, n=1

ce qui termine la preuve. 101

Fig.

8.1: Convergence de

1 n

n 1 Xj pour une suite i.i.d de loi de Bernoulli (p = 2 ). j =1

8.3.2

Le thorme central limite

Thorme 14

Soit (Xn )nN une suite de variables alatoires indpendantes valeurs dans Rd , de mme loi et de carr intgrable. Soit = Var(X1 ). Alors
n X1 + . . . + Xn E (X1 ) n Nd (0, ).
L

Remarque.

Ce type de convergence vers une loi Gaussienne peut avoir lieu dans certains cas pour des variables non identiquement distribues voire dpendantes. Ce thorme exprime qu'une somme importante de phnomnes indpendants et de faible amplitude suit approximativement une loi gaussienne, ce qui justie et rend pertinent l'utilisation de cette loi en pratique.

Preuve.

Comme pour la loi des grands nombres, quitte poser Yj = Xj E (Xj ), on peut supposer les variables centres, ce que nous ferons. Notons qu'il sut de montrer le rsultat pour des variables alatoires valeurs dans R. En eet pour le cas vectoriel, en posant Tn = Xi , il sut de montrer que pour tout u, uT Tn converge en loi vers uT X avec X Nd (0, ) (d'aprs la remarque juste aprs le thorme 12). Mais ceci rsulte du cas rel appliqu aux variables uT Xi , i N . Considrons donc le cas rel. Nous allons utiliser le thorme 12. Pour cela, en notant pour une variable alatoire Y , Y sa fonction caractristique, nous avons pour t R x l'galit suivante : n

1 n

Tn (t) = n j =1 Xj

t n

X1

t n

Les deux galits prcdentes rsultent respectivement de l'indpendance et de l'quidistribution des variables Xj , j N . Remarquons ensuite que l'existence du moment d'ordre 2 pour X1 justie le dveloppement limit l'ordre 2 et en 0 de sa fonction caractristique

X1

t n

t t2 2 = 1 + i E (X1 ) E X1 +o 2n n
102

1 n

Ainsi nous avons

Tn (t) = 1 +

zn n

,
Pour montrer que lim Tn (t) =
n+

o la suite de nombres complexes (zn )n converge vers

2 t2 E(X1 ) . 2

(qui est bien la fonction caractristique au point t de la loi N (0, Var(X1 ))), nous admettrons l'ingalit

2) t2 E(X1 1 2

ez 1 +

z n

e|z | 1 +

|z | n

(z, n) Cov N.

Cette ingalit qui se prouve en dveloppant l'exponentielle en srie entire vite l'utilisation du logarithme complexe. Elle permet d'obtenir les majorations :

e 2 t

1 2 2) E(X1

Tn (t)

e 2 t e 2 t

1 2 2) E(X1

ezn + ezn 1 + e zn

1 2 2) E(X1

zn n n |zn | + e|zn | 1 + n

ce qui montre la convergence dsire en utilisant la continuit de la fonction exponentielle ainsi que les galits

1+

| zn | n

= exp n ln 1 +

|zn | n
L

= exp (|zn | + o(1)) .

Ainsi le thorme 12 permet de conclure que Tn N (0, Var(X1 )). Une graine a une probabilit p = 0.75 de donner naissance une plante. Combien doit-on semer de graines pour tre sr 99% d'obtenir au moins 50 plantes (on utilisera la valeur approche 0.01 pour P (N (0, 1) > 2.3)) ? Pour rpondre, on doit charcher n tel que
n

Exemple d'utilisation de l'approximation Gaussienne.

P
i=1

Xi > 49

0.99,

o (Xi ) est une suite i.i.d de variables alatoires toutes de loi de Bernoulli de paramtre p. On pourrait alors chercher la valeur minimale de n pour laquelle une binomiale de paramtres n et p vrie cette ingalit. An de limiter les calculs, on peut aussi se servir de l'approximation gaussienne car
n

P
i=1

Xi > 49

=P
n

n i=1 (Xi

p)

np(1 p)

>

49 np np(1 p)

i=1 (Xi p) Comme la fonction de rpartition de Tn = converge uniformment vers celle de la loi np(1p) N (0, 1), on peut alors rsoudre le problme de faon approche en cherchant n tel que

P N (0, 1)

49 np np(1 p)

0.01.

Comme P (N (0, 1) 2.3) 0.01, on peut chercher le plus petit entier n tel que

49 np np(1 p)
ce qui donne n 77. 103

2.3,

104

Bibliographie

[1] Ouvrard, J.Y, Probabilits 2. Cassini.

105

Vous aimerez peut-être aussi