Vous êtes sur la page 1sur 65

Anne 2014-2015

Probabilits
Premire Partie

Cline Lacaux & Denis Villemonais


Premire Anne FICM
Semestre 2

cole des Mines de Nancy - Dpartement Gnie Industriel - Campus ARTEM - CS 14234 - 54 042 Nancy Cedex
Email : Celine.Lacaux@univ-lorraine.fr, Denis.Villemonais@univ-lorraine.fr

Avant propos
Comme pour le premier semestre, vous devez lire le chapitre concernant la sance avant de venir en cours.
Les feuilles dexercices vous seront distribues au fur et mesure en sance de travaux dirigs. Aprs chaque
sance, vous trouverez sur la page web
http://www.iecn.u-nancy.fr/~lacaux/enseignement.html
les transparents du cours pour cette sance ainsi que la feuille dexercices. Vous trouverez aussi sur cette page
web la version pdf du polycopi.

Table des matires


Avant propos

1 Tribus, mesures et intgrale de Lebesgue


1.1 Tribus et fonctions mesurables . . . . . . . . . .
1.1.1 Tribus . . . . . . . . . . . . . . . . . . .
1.1.2 Fonctions mesurables . . . . . . . . . . .
1.2 Mesures . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Dfinition . . . . . . . . . . . . . . . . .
1.2.2 Les mesures discrtes . . . . . . . . . . .
1.2.3 La mesure de Lebesgue . . . . . . . . .
1.2.4 Ensembles Ngligeables . . . . . . . . .
1.3 Intgrale de Lebesgue . . . . . . . . . . . . . .
1.3.1 Construction de lintgrale de Lebesgue
1.3.2 Proprits gnrales . . . . . . . . . . .
1.3.3 Calcul dans des cas particuliers . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

3
3
3
4
5
5
6
7
8
9
9
10
11

2 Variables alatoires
2.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Loi dune variable alatoire . . . . . . . . . . . . . . . .
2.2 Variables alatoires et lois discrtes . . . . . . . . . . . . . . . .
2.2.1 Dfinition et existence . . . . . . . . . . . . . . . . . . .
2.2.2 Exemples et modlisation . . . . . . . . . . . . . . . . .
2.3 Variables et lois absolument continues . . . . . . . . . . . . . .
2.3.1 Dfinition et notion de densit . . . . . . . . . . . . . .
2.3.2 Exemples et modlisation . . . . . . . . . . . . . . . . .
2.4 Esprance et Thorme du transport . . . . . . . . . . . . . . .
2.4.1 Esprance . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Thorme du transport . . . . . . . . . . . . . . . . . .
2.5 Quelques techniques pour dterminer la loi dune variable g(X)
2.5.1 Cas o g(X) est discrte . . . . . . . . . . . . . . . . . .
2.5.2 Thorme de changement de variables . . . . . . . . . .
2.6 Annexes : Modlisation associe aux lois classiques . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

15
15
15
15
17
17
19
20
20
21
21
21
23
25
25
25
28

3 Fonction de rpartition et fonction caractristique


3.1 Fonction de rpartition . . . . . . . . . . . . . . . . . . .
3.1.1 Dfinition pour une v.a.r. et proprits gnrales
3.1.2 Variables alatoires relles discrtes . . . . . . . .
3.1.3 Variables alatoires relles absolument continues
3.1.4 Mlange de lois discrtes et absolument continues
3.1.5 Gnralisation aux vecteurs alatoires . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

31
31
31
34
36
39
40

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

3.2

Fonction caractristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Espaces Lp et moments
4.1 Espaces Lp et moments dune variable alatoire
4.1.1 Dfinitions et premires proprits . . .
4.1.2 Ingalits . . . . . . . . . . . . . . . . .
4.2 Le cas particulier de lespace L2 . . . . . . . . .
4.2.1 L2 en tant quespace de Hilbert . . . . .
4.2.2 Covariance et corrlation . . . . . . . . .
4.3 Calculs de moments . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

40
45
45
45
47
49
49
52
54

A Lois classiques

59

Bibliographie

61

Chapitre 1

Tribus, mesures et intgrale de Lebesgue


Dans tout le chapitre, est un ensemble non vide. Notre premier objectif est de dfinir la notion de mesure
sur . En particulier, nous aboutissons un cadre dabstraction commun pour les notions de cardinal, de
longueur, daire et de volume. Nous abordons ensuite les principales tapes de la construction de lintgrale de
Lebesgue par rapport une mesure 1 , notion fondamentale en thorie moderne des probabilits.

1.1

Tribus et fonctions mesurables

1.1.1

Tribus

Une tribu est une famille qui contient les sous-ensembles de que lon pourra mesurer .
Dfinition 1.1.
Une tribu F sur lensemble est une famille de sous-ensembles de telle que
(i) F,
(ii) F est stable par passage au complmentaire, cest--dire que
si A F, alors \A F,
(iii) F est stable par runion dnombrable, cest--dire que
si (An )nN est une suite dlments de F, alors

An F.

nN

Si F est une tribu sur , lespace (, F) est appel un espace mesurable (ou espace probabilisable).
Les lments de F (qui sont des sous-ensembles de ) sont appels les ensembles F -mesurables, ou
simplement mesurables sil ny pas dambigut sur la tribu considre.

Remarque 1.1.
1. Une tribu contient toujours lensemble vide (not ) et est stable par runion finie.
2. Nous aurions pu dfinir la notion de tribu en remplaant
lassertion (i) par lassertion (i) F.
et/ou lassertion (iii) par lassertion (iii) F est stable par intersection dnombrable.
A fortiori une tribu est stable par intersection finie.
1. Nous ne donnons pas les preuves des propositions nonces, car leur technicit scarte des objectifs du cours. Toutefois, le
lecteur intress est invit parcourir les nombreux ouvrages de rfrences disponibles sur la question (par exemple Mesure et
intgration de Daniel Revuz, 1997 aux ditions Hermann).

Exemple 1.1. Soit un ensemble non vide.


1. F = P() est la plus grande tribu (au sens de linclusion) sur . Elle est appele tribu discrte sur .
2. F = {, } est la plus petite tribu (au sens de linclusion) sur . Elle est appele tribu grossire sur .
3. Soit A P() tel que A 6= et A 6= . Alors F = {, A, Ac , } est une tribu sur .
4. tant donne une famille S de sous-ensembles de , on dfinit la tribu engendre par S, note (S),
comme lintersection de toutes les tribus qui contiennent S :
\
(S) :=
F.
F tribu, SF

Il sagit de la plus petite tribu (au sens de linclusion) qui contient tous les lments de S. En particulier,
la tribu engendre par S = {A} est {, A, Ac , }.
5. Considrons le cas Rd . Comme nous souhaitons tendre la notion de longueur, daire et de volume,
il est intressant de dfinir la plus petite tribu contenant toutes les boules de . Il sagit en fait de la
tribu engendre par les ouverts de , appele tribu borlienne et note B(). Les ensembles B()mesurables sont appels les ensembles borliens.
Remarque 1.2. Dans tout ce cours, sauf mention du contraire, si est un espace non vide fini ou dnombrable,
nous le munirons de la tribu discrte P().

1.1.2

Fonctions mesurables

Dfinition 1.2.
Soient (1 , F1 ) et (2 , F2 ) deux espaces mesurables. Une fonction f : 1 2 est dite mesurable si
B F2 , f 1 (B) F1 ,
o on rappelle que f 1 (B) = {x 1 | f (x) B}.

Notons que la notion de fonction mesurable dpend des tribus choisies pour 1 et 2 . Pour bien signaler cette
dpendance, nous dirons aussi que f est mesurable par rapport F1 et F2 ou crirons, pour tre concis,
f : (1 , F1 ) (2 , F2 ) .
Remarque 1.3. Si 1 Rd1 et 2 Rd2 sont munis de leur tribu borlienne, une fonction mesurable sera
encore appele fonction borlienne.
Exemple 1.2.
1. Les fonctions constantes sont toutes mesurables (quelles que soient les tribus F1 et F2 considres).
2. Soient (1 , F1 ) un espace mesurable et A 1 . On dfinit la fonction indicatrice 1A : 1 {0, 1} par
(
1 si x A,
1A (x) =
0 si x
/ A.
La fonction indicatrice 1A est mesurable si et seulement si A est un ensemble F1 -mesurable. Il est conseill
au lecteur dtablir ce rsultat, en guise dexercice.
3. Soient 1 Rd1 et 2 Rd2 . Nous munissons ces deux espaces de leur tribu borlienne. Alors les fonctions
continues par morceaux ou encore les fonctions drives sont borliennes, cest--dire mesurables.

Remarque 1.4. Pour des raisons pratiques, nous souhaiterons souvent considrer des fonctions pouvant prendre
les valeurs et +. Pour y parvenir, nous introduisons lensemble R := [, +] muni de sa tribu borlienne (la plus petite tribu qui contient les ouverts de R). Nous parlerons alors de fonctions mesurables valeurs
dans (R, B(R)).
Terminons cette partie en donnant quelques proprits de stabilit de lensemble des fonctions mesurables.
Proposition 1.1.
1. Ds quelle est bien dfinie, toute fonction qui est une combinaison linaire, un produit ou une
compose de fonctions mesurables est une fonction mesurable.
2. Soit (fn )nN une suite dapplications mesurables de (, F) dans (R, B(R)).
(a) Alors, les fonctions sup fn et inf fn sont aussi mesurables.
nN

nN

(b) De plus si (fn )nN converge simplement, alors sa limite f := lim fn est aussi mesurable.
n+

Les fonctions que nous rencontrerons dans ce cours seront en gnral mesurables et nous aurons rarement nous
soucier de problmes de non-mesurabilit. Cependant, la notion de mesurabilit est pertinente et mme cruciale
ds que lon considre ltude de processus stochastiques (quantits qui voluent alatoirement en fonction du
temps) ou de processus partiellement observs. Dans ces situations, la tribu contient linformation disponible par
un observateur ; une fonction mesurable est alors une fonction qui, au mieux, maintient linformation disponible.

1.2

Mesures

1.2.1

Dfinition

Dfinition 1.3.
Soit (, F) un espace mesurable. Une mesure positive sur lespace mesurable (, F) est une application : F [0, +] telle que
(i) () = 0,
(ii) est -additive, cest--dire que pour toute suite (An )nN dlments de F deux deux disjoints
!
[
X

An =
(An ).
(1.1)
nN

nN

Le triplet (, F, ) est alors appel un espace mesur. Si () = 1, alors la mesure est appele
probabilit et le triplet (, F, ) espace de probabilits.

Les trois premires proprits de la proposition suivante sont faciles dmontrer. Il est donc conseill au
lecteur dtablir ces rsultats en guise dexercice.
Proposition 1.2.
Soit (, F, ) un espace mesur.
1. La mesure est additive, cest--dire que si A0 , . . . , AN F sont deux deux disjoints, alors
!
N
N
[
X

An =
(An ).
n=0

n=0

2. La mesure est croissante sur F (pour linclusion), cest--dire que pour tous A, B F,
A B = (A) 6 (B).
3. Pour tous A, B F,
(A B) + (A B) = (A) + (B).

(1.2)

4. La mesure est -sous-additive, cest--dire que si I est un ensemble fini ou dnombrable et si


(Ai )iI est une famille dlments de F, alors
!
X
[

(Ai ).
Ai 6
iI

iI

1. La mesure vrifie les deux proprits suivantes appeles continuit monotone respectivement croissante et dcroissante.
(a) Si (An )nN est une suite croissante dlments de F (cest--dire si An F et An An+1
pour tout n N) alors la suite ((An ))nN est une suite croissante et
!
[

An = lim (An ).
nN

n+

(b) Si (Bn )nN est une suite dcroissante dlments de F (cest--dire si Bn F et Bn+1 Bn
pour tout n N) telle que (B0 ) < +, alors la suite ((Bn ))nN est une suite dcroissante et
!
\

Bn = lim (Bn ).
nN

n+

Remarque 1.5. Supposons que () < +. Alors par croissance de , pour tout A F, (A) < +
(autrement dit est valeurs dans [0, +[). Ds lors, dans lgalit (1.2), il est possible de faire passer un
terme du membre de droite (resp. gauche) dans le membre de gauche (resp. droite). En particulier, cette galit
se rcrit sous la forme :
A, B F, (A B) = (A) + (B) (A B) .
De plus, en prenant B = Ac et en appliquant (1.2), nous obtenons que pour tout A F, (Ac ) = () (A).
En particulier, si est une probabilit, alors pour tout A F,
(Ac ) = 1 (A).

1.2.2

Les mesures discrtes

Cette partie prsente un exemple classique et fondamental de mesures : les mesures discrtes. Un autre
exemple important sera donn dans la partie suivante (la mesure de Lebesgue).
Soit a . La mesure de Dirac en a, note a , est la mesure sur (, P()) dfinie par
(
1 si a A
A P(), a (A) =
0 si a
/ A.
Soient (an )nN une famille dlments de et (i )nN une famille dlments de [0, +]. Alors en adoptant la
convention + 0 = 0, pour tout ensemble A P(),
X
(A) =
n an (A)
(1.3)
nN

est bien dfini et lapplication : P() [0, +] est une mesure positive sur (, P()). Une telle mesure est
appele une mesure discrte. 2
Remarque 1.6. La mesure discrte =
parle alors de probabilit discrte.

nN n an

est une probabilit si et seulement si

nN n

= 1. On

Exemple 1.3.
1. Pour tout a , la mesure de Dirac en a est une probabilit discrte.
2. Soit est un ensemble non vide fini ou dnombrable. Remarquons alors que pour tout A P(),
X
Card(A) =
(A).

Lensemble tant fini ou dnombrable, Card scrit sous la forme (1.3) et est donc une mesure discrte
sur , appele mesure de comptage sur .
3. Si lensemble non vide est fini, la mesure dfinie par
X
1
(A) =
(A), A P(),
Card()

est une probabilit discrte, appele mesure uniforme discrte sur .

1.2.3

La mesure de Lebesgue

Cette partie introduit la mesure de Lebesgue sur Rd , qui tend la notion de longueur, daire et de volume
aux ensembles borliens de Rd .
Soit d N . Il existe une unique mesure d sur Rd muni de la tribu borlienne telle que
d (]a1 , b1 [ ]ad , bd [) = (b1 a1 ) (bd ad ),
pour toutes familles (ai )16i6d et (bi )16i6d de [, +] vrifiant ai < bi pour tout 1 6 i 6 d. Cette mesure est
la mesure de Lebesgue sur Rd .
tant donn que la mesure de Lebesgue tend les notions de longueur, aire ou volume, nous sommes autoriss
appliquer les formules connues pour calculer les aires et volumes classiques (triangle, disque, boule, etc...).
Par exemple, la mesure de Lebesgue dun disque C de R2 de rayon r > 0 est
2 (C) = aire (C) = r2 .
Proposition 1.3.
La mesure de Lebesgue est invariante par les isomtries euclidiennes de Rd . En particulier, elle est invariante par translation, par symtrie et par rotation.

Remarque 1.7. La mesure de Lebesgue ne permet pas de mesurer tous les ensembles de Rd . En effet, en
supposant que tous les sous-ensembles de Rd sont mesurables, on arrive des paradoxes clbres : on peut
construire un ensemble de longueur nulle contenant [0, 1] (ensemble de Vittali) et on peut couper une boule de
R3 en morceaux disjoints pour en reformer deux distinctes, chacune de mme volume que la premire (paradoxe
de Banach-Tarski) ! Cependant tous les ensembles borliens peuvent tre mesurs par la mesure de Lebesgue. Les
ensembles borliens contiennent en particulier les runions et intersections dnombrables densembles ouverts
et ferms de Rd : cela suffira amplement notre tude !
2. Dans lcriture de , il est toujours possible de choisir les lments an deux deux distincts (dans ce cas n = ({an })). Il
est aussi toujours possible de supposer n > 0.

1.2.4

Ensembles Ngligeables

Jetons une pice de monnaie quilibre une infinit de fois. Lvnement la pice tombe toujours sur
face est un vnement non vide de probabilit nulle ; il sagit dun exemple dvnement ngligeable. La notion
densembles ngligeables joue un rle important en thorie de la mesure et en probabilits. La dfinition suivante
prcise cette notion.
Dfinition 1.4.
Soit (, F, ) un espace mesur.
1. Un sous-ensemble N est dit -ngligeable (ou simplement ngligeable) sil est inclus dans un
ensemble mesurable de mesure nulle, cest--dire si
A F tel que N A et (A) = 0.
2. Une proprit , dpendant de , est dite vraie -presque partout si lensemble
{ / () est fausse}
est -ngligeable.
3. Si est une probabilit, une proprit vraie -presque partout est dite vraie -presque srement.

On observe que tout sous-ensemble dun ensemble ngligeable est ngligeable. De plus, on montre facilement
laide de la proposition 1.2 que la famille des ensembles ngligeables est stable par runion finie ou dnombrable.
Exemple 1.4.
1. Lensemble vide est ngligeable.
2. Soient A Rd un ensemble fini ou dnombrable et d la mesure de Lebesgue sur Rd . Lensemble A est
alors d -ngligeable.
3. Une droite de R2 est toujours ngligeable par rapport 2 . De manire gnrale, les hyperplans affines de
Rd sont ngligeables par rapport d .
Exemple 1.5. Soit (, F, ) un espace mesur.
1. Deux fonctions f, g : R sont gales -presque partout si { / f () 6= g()} est ngligeable.
2. Une suite de fonctions (fn )nN converge -presque partout vers une fonction f sil existe un ensemble
ngligeable N tel que
fn () f (),
/ N.
n

3. Une fonction f est dfinie -presque partout sur si elle est dfinie sur \N avec N ngligeable.
Remarque 1.8. Dans la suite du cours, nous supposerons trs souvent que les ensembles -ngligeables sont
F-mesurables, quel que soit lespace mesur (, F, ) tudi. Cette hypothse a priori cavalire est rendue
possible en ajoutant F les ensembles ngligeables. Voici deux consquences simples et importantes de cette
hypothse.
1. Si f = g -presque partout, alors f est F-mesurable si et seulement si g est F-mesurable.
2. La proposition 1.1 peut tre tendue : si une fonction est gale -presque partout au supremum, linfimum
ou la limite simple dune suite de fonctions F-mesurables, alors elle est galement F-mesurable.
Dans la littrature, un espace mesur (, F, ) dont la tribu contient tous les ensembles -ngligeables est dit
complet.
8

1.3

Intgrale de Lebesgue

Dans toute la suite du chapitre, (, F , ) est un espace mesur. Cette partie introduit lintgrale de
Lebesgue dune fonction mesurable par rapport la mesure . tant donne une fonction mesurable f : R,
o R est muni de la tribu borlienne, on notera cette intgrale
Z
f d.

Attention ! On indique d dans lintgrale pour rappeler la dpendance en . On trouvera de manire courante
les notations suivantes, qui sont parfaitement quivalentes :
Z
Z
Z
f (x) (dx).
f (x) d(x) =
f d =

Dans le cadre probabiliste, cest--dire quand est une probabilit, lintgrale de f par rapport est appele
lesprance de f par rapport , note E (f ) ou simplement E(f ) sil ny a pas dambigut sur . Nous
reviendrons sur cette notion importante dans les chapitres suivants.
Nous donnons dans un premier temps les principales tapes de la construction de lintgrale de Lebesgue puis
les proprits gnrales de cette intgrale. Cette construction abstraite prsente lintrt dtre trs gnrale.
Dans un deuxime temps, nous nous concentrons sur le calcul de cette intgrale dans des cas particuliers.

1.3.1

Construction de lintgrale de Lebesgue

La construction de lintgrale de Lebesgue se fait en 4 tapes : dans un premier temps, nous considrons
les fonctions indicatrices, puis les fonctions positives dites tages, puis les fonctions mesurables positives et
enfin les fonctions dites intgrables. Le lecteur constatera que chaque tape est une extension naturelle de la
prcdente.
tape 1. Soit f une fonction indicatrice mesurable, cest--dire soit f = 1A avec A F. Nous rappelons que
(
1 si x A,
f (x) = 1A (x) =
0 si x
/ A.
On appelle intgrale de f par rapport la quantit
Z
f d := (A).

tape 2. Soit f une fonction tage positive, cest--dire une fonction scrivant sous la forme
f (x) =

n
X

i 1Ai (x).

i=1

avec n N , A1 , A2 , . . . , An F et 1 , 2 , . . . , n [0, +]. On appelle intgrale de f par rapport la


quantit
Z
f d :=

n
X

i (Ai ),

i=1

avec la convention 0 + = + 0 = 0. Cette quantit est bien dfinie et appartient [0, +].
9

tape 3. Soit f : [0, +] une fonction mesurable positive. On appelle intgrale de f par rapport la
quantit
Z

Z
f d := sup


h d


0 6 h 6 f et h est tage .

Cette valeur est toujours bien dfinie, ventuellement gale +.


tape 4. Soit f : R une fonction mesurable valeurs dans R. On note f+ et f les fonctions appeles
partie positive et partie ngative de f , qui sont dfinies par
f+ (x) = max(f (x), 0) et f (x) = max(f (x), 0), x ,
Par dfinition de f+ et f ,
(

= f+ f

|f | = f+ + f .
Remarquons que |f |, f+ et f sont des fonctions mesurable positives dont on peut construire lintgrale grce
ltape 3. On dira que f est intgrable si
Z
|f | d < .

Dans ce cas,

f+ d

< et

f d

< et on appelle intgrale de f par rapport le rel


Z

Z
f+ d

f d =

f d.

Ceci clt la construction de lintgrale de Lebesgue par rapport la mesure .


R
Remarque 1.9. Si f nest pas intgrable, cest--dire si |f | d = +, alors on ne peut pas dfinir lintgrale
de f , sauf si f est valeurs positives (auquel cas lintgrale de f = |f | est +).

Remarque 1.10. Soit f une fonction valeurs complexes,


R cest--dire telle que f = f1 + if2 avec f1 et f2
mesurables valeurs relles. On dit que f est intgrable si |f | d < , ce qui est quivalent f1 et f2 sont
intgrables. Dans ce cas, on pose
Z

Z
f d =

Z
f1 d + i

f2 d.

Les proprits nonces dans la section suivante, lorsquelles sappliquent, restent vraies pour les fonctions
valeurs complexes.

1.3.2

Proprits gnrales

Dans cette section, tout sous-ensemble R est muni de la tribu borlienne.


Proposition 1.4.
1. Soient f, g : R deux fonctions mesurables gales -presque partout. Alors f est intgrable si et
seulement si g est intgrable. Dans ce cas, leurs intgrales concident.
10

2. Linarit de lintgrale :
Si f, g : R sont deux fonctions intgrables par rapport , alors, pour tous , R, la fonction
f + g est intgrable et
Z
Z
Z
g d.
(f + g) d = f d +

Lgalit ci-dessus reste vraie pour f, g : [0, +] mesurables, avec , [0, +].
3. Positivit/Croissance de lintgrale
(a) Si f, g : [0, +] sont deux fonctions mesurables positives telles que f 6 g -presque
partout, alors
Z
Z
g d.
f d 6

(b) Si f, g : R sont deux fonctions intgrables par rapport telles que f 6 g -presque
partout, alors
Z
Z
g d,
f d 6

avec galit si et seulement si f = g -presque-srement.


(c) Soit f : R une fonction intgrable par rapport telle que f > 0 -presque partout. Alors
Z
f d = 0 f = 0 -presque-srement.

4. Si f : R est une fonction intgrable par rapport , alors f est finie -presque partout et
Z
Z


f d 6
|f | d.

Remarque 1.11. Soit A F un ensemble mesurable. Pour toute fonction f : R telle que
est bien dfinie (cest--dire telle que f 1A est mesurable positive ou -intgrable), on pose
Z
Z
f (x) d(x) :=
1A (x) f (x) d(x).
A

1A (x) f (x) d(x)

De cette faon, on retrouve immdiatement lgalit de Chasles : pour tous A, B F disjoints tels que
est bien dfinie, on a
Z
Z
Z
f (x) d(x) =
f (x) d(x) +
f (x) d(x).
AB

1.3.3

R
AB

f d

Calcul dans des cas particuliers

Lintgrale de Lebesgue permet de construire des intgrales sur tous les espaces mesurs, ce qui en fait
un des fondements de la thorie des probabilits modernes comme nous le verrons dans les chapitres suivants.
Cependant, il est parfois dlicat, voire impossible, de calculer une intgrale de Lebesgue sur un espace quelconque.
Nous nous concentrons dans cette section sur des cas particuliers pour lesquelles nous seront capables de mener
des calculs explicites.
11

Mesures discrtes
Soient un ensemble non-vide et une mesure discrte sur . Il existe alors une famille (an )nN dlments
de et une famille (n )nN dlments de [0, +] telles que
X
(A) =
n an (A), A P().
nN

Soit f : R une fonction mesurable. On a alors


Z
X
|f | d =
n |f (an )|.

nN

Nous en dduisons que f est intgrable si et seulement si


X
n |f (an )| < +,
nN

cest--dire si et seulement si la srie de terme gnral n f (an ) est absolument sommable. De plus si f est
intgrable,
Z
f d =

n f (an ).

nN

Insistons sur le fait que la formule ci-dessus est vraie pour f mesurable positive ou f intgrable.
Remarque 1.12. Soit u : N R une fonction valeurs relles et la mesure de comptage sur N, donne par
X
(A) =
n (A) = Card(A), A N.
nN

Daprs ce qui prcde, lintgrale de |u| par rapport est donne par
Z
X
|u(n)| d(n) =
|u(n)|.
N

nN

Ainsi, la fonction u est intgrable par rapport la mesure de comptage si et seulement si la srie de terme
gnral |u(n)| est absolument sommable. Si tel est le cas, on a de plus
Z
X
u(n) d(n) =
u(n).
N

nN

En particulier, il sera possible de considrer les sries comme des intgrales et de leur appliquer les mmes
proprits.
Mesure de Lebesgue
Soit d > 1. On suppose ici que Rd est muni de la tribu borlienne et de la mesure de Lebesgue d .
Lintgrale par rapport la mesure de Lebesgue gnralise lintgrale de Riemann qui
R est elle dfinie pour les
fonctions continues par morceaux. Ainsi, lorsque lon cherche calculer lintgrale f dd o f est continue
par morceaux, on peut utiliser les techniques connues pour lintgrale de Riemann (relation de Chasles, calcul
de primitive, intgration par partie, changement de variables, etc...). Par exemple,
Z
]0,1/2[



1 1/2
1
1
d1 (x) =
=
.
2
x(ln x)
ln x 0
ln 2
12

Lorsque la fonction f nest pas continue par morceaux, on peut essayer de se ramener une fonction continue
par morceaux g gale f d -presque partout. Par exemple, comme 1xQ
/ = 1 1 -presque partout,
1xQ
/

1
1
=
2
x(ln x)
x(ln x)2

1 -presque partout

et donc
Z

1
d1 (x) =
1xQ
/
x(ln x)2
]0,1/2[

Z
]0,1/2[

1
1
d1 (x) =
.
2
x(ln x)
ln 2

On peut galement essayer de se ramener une fonction f limite croissante (resp. uniformment borne) de
fonctions dont on sait calculer lintgrale et utiliser le thorme de convergence monotone (resp. domine). Nous
prciserons cela au fur et mesure du cours et notamment lors du chapitre 6 sur les grands thormes de
lintgration.
Attention ! La notion dintgrale impropre nexiste pas pour lintgrale de Lebesgue.
Mesures densit
tant donn un espace mesur (, F, ) et une fonction positive mesurable h : [0, +], on peut dfinir
une fonction : F [0, +] par
Z
1A (x)h(x) d(x), A F.
(A) =

La fonction ainsi dfinie est une mesure positive, appele mesure de densit h par rapport . On note
souvent d = h d.
R
R
Remarque 1.13. On aR () = 1 (x)h(x) d(x) = h(x) d(x). On en dduit donc que est une probabilit si et seulement si h d = 1.
Pour toute fonction mesurable f : R, on a
Z
Z
|f (x)| d(x) =
|f (x)| h(x) d(x).

Par suite, une fonction mesurable f : R est -intgrable si et seulement si f h est -intgrable. De plus, si
f est -intgrable, alors
Z
Z
f (x) d(x) =
f (x) h(x) d(x).

Insistons sur le fait que lgalit prcdente est vraie pour f mesurable
positive ou f telle que f h est -intgrable.
R
Cette galit explique la notation d = h d : pour calculer f d, on remplace formellement le terme d par
h d.
Exemple 1.6 (Cas o est la mesure gaussienne N (0, 1)). Vous avez dj rencontr cet exemple dans le cours
de statistique et appris que cette mesure vrifie, pour tout 6 a < b 6 +,
Z b
x2
1
([a, b]) =
e 2 dx
2 a
o lintgrale a lieu au sens de Riemann. Comme la fonction intgre est continue par morceaux, on a
Z
x2
1
([a, b]) =
1x[a,b] e 2 d1 (x),
2 R
o lintgrale a lieu au sens de Lebesgue. En fait, cette galit stend tous les ensembles borliens et on en
2

dduit que la mesure gaussienne est la mesure de densit x 7


1 .
13

x
1 e 2
2

par rapport la mesure de Lebesgue

Remarque 1.14. Nous utiliserons couramment des mesures densit par rapport la mesure de Lebesgue
dans la suite du cours. Suivant une pratique courante en probabilits, nous omettrons abusivement de prciser
que la mesure de rfrence est la mesure de Lebesgue. Ainsi, nous pourrons crire la mesure gaussienne est
2

une mesure de densit x 7

x
1 e 2
2

en omettant par rapport la mesure de Lebesgue 1 .

Mesures mixtes
On se place dans la situation = Rd est muni de la tribu borlienne. Une mesure mixte sur Rd est une
mesure qui possde une partie discrte et une partie densit par rapport la mesure de Lebesgue. Plus
prcisment, une mesure sur Rd est dite mixte sil existe une famille (an )nN dlments de Rd , une famille
(n )nN dlments de [0, +] et une fonction mesurable positive h : Rd [0, +], telle que
Z
X
1A (x)h(x) dd (x).
(A) =
n an (A) +
Rd

nN

Dans ce cas, on note souvent d =

nN n dan

+ h dd .

Pour toute fonction mesurable f : R, on a


Z
Z
X
|f (x)| h(x) dd (x)
|f (x)| d(x) =
n |f (an )| +

nN

Alors une fonction mesurable f est -intgrable si et seulement si elle vrifie les deux conditions suivantes :
la srie de terme gnral (n )f (an ) est absolument sommable ;
f h est Lebesgue-intgrable.
De plus, si ces deux conditions sont vrifies,
Z
f (x) d(x) =

Z
n f (an ) +

f (x) h(x) dd (x).

nN

14

Chapitre 2

Variables alatoires
Prcisons avant tout que le vocabulaire utilis en probabilits nest pas toujours le mme que celui de la
thorie de la mesure. Ainsi lorsquune fonction est dfinie sur un espace (, F, P) de probabilits, les probabilistes utilisent le terme variable alatoire la place de fonction mesurable. Ils nomment aussi par esprance
lintgrale de Lebesgue contre la probabilit P. Ce chapitre r-crit un certain nombre de notions/rsultats du
premier chapitre en termes probabilistes mais introduit aussi deux points clefs en probabilits : la notion de loi
et le thorme du transport.
Hypothses/Notations pour ce chapitre
(, F, P) est un espace de probabilits (qui ne sera, sauf exception, pas explicit) ; comme voqu
dans le chapitre 1, il est suppos complet, cest--dire que la tribu F contient tous les ensembles
ngligeables pour la mesure P.
(E, E) est un espace mesurable ; si lespace E est un espace fini ou dnombrable (respectivement est
d
inclus dans R ), il est muni de sa plus grande tribu E = P(E) (respectivement de sa tribu borlienne
E = B(E)).

2.1

Gnralits

2.1.1

Dfinition

La dfinition dune variable alatoire X prenant ses valeurs dans un espace E quelconque est la suivante.
Dfinition 2.1.
Une application X : E est appele variable alatoire si elle est mesurable, cest--dire si
B E, X 1 (B) F.

Remarque 2.1. Nous rappelons que pour B E, X 1 (B) = { / X() B}. En probabilits, cet ensemble
est encore not {X B}.
Remarque 2.2. La notion de variable alatoire concidant avec celle de fonction mesurable, cette notion dpend
des tribus F et E dont sont munis les espaces et E.

2.1.2

Loi dune variable alatoire

La loi dune variable alatoire X est une mesure dfinie sur lespace dans lequel X prend ses valeurs.
15

Dfinition-Proposition 2.1.
Soit X : E une variable alatoire. Alors lapplication
PX :

E [0, +]
B 7 P(X 1 (B)) = P(X B)

est une probabilit sur (E, E) appele loi de la variable alatoire X (sous la probabilit P).

Dmonstration. Vrifions que PX dfinit bien une probabilit sur la tribu E (cf. dfinition 1.3 p. 5 du chapitre 1).
(i) Notons tout dabord que pour B E, X 1 (B) F car X : E est mesurable. Par suite,
PX (B) = P(X 1 (B))
est bien dfini pour tout B E. De plus comme P est une mesure positive, lapplication PX dfinie
sur E est bien valeurs dans [0, +].
(ii) Par dfinition,
PX () = P(X 1 ()) = P() = 0,
car X 1 () = et P est une mesure.
(iii) Pour toute suite (An )nN dlments de E deux deux disjoints,
!
!!
!
[
[
[
X

1
1
PX
An = P X
An
=P
X (An ) =
P X 1 (An ) ,
nN

nN

nN

nN

car les ensembles mesurables X 1 (An ) sont deux deux disjoints et P est une mesure.
Les trois points prcdents assurent que PX est une mesure positive. De plus, par dfinition de PX ,

PX (E) = P X 1 (E) = P () = 1,
car P est une probabilit. Par suite, la mesure positive PX est elle-mme une probabilit sur (E, E).

Remarque 2.3. La loi dune variable alatoire dpend des tribus F et E considres ainsi que de la probabilit P.
En modlisation, la loi de X est prcise mais le plus souvent lespace (, F, P) ne lest pas. Ne pas prciser le
choix de cet espace permet notamment de considrer plusieurs variables alatoires X1 , . . . , Xn sans se demander
si lespace de probabilit sous-jacent (, F, P) doit tre agrandi pour assurer lexistence de ces variables. Procder
ainsi est possible car seule la loi de la variable X = (X1 , . . . , Xn ) est importante pour la modlisation (cf.
Thorme du transport, . 2.4.2 p. 23).
Exemple 2.1.
1. Considrons la variable alatoire X : dfinie par X() = . Alors, la loi de X est PX = P car
X 1 (B) = B pour tout B F.
2. Fixons A F et considrons la variable alatoire relle X = 1A . Alors, la loi PX est donne par

P() = 0
si 1
/ B et 0
/ B,


P(X
=
1)
=
P(A)
si
1

B
et
0

/ B,
B B(R), PX (B) = P X 1 (B) =
P(X = 0) = 1 P(A) si 1
/ B et 0 B,

1
si 1 B et 0 B.
16

Ainsi, la loi de X est PX = (1 p)0 + p1 avec p = P(A). Cette loi est appele loi de Bernoulli de
paramtre p.
Terminons cette partie par un rsultat simple mais important.
Proposition 2.2.
Deux variables alatoires X, Y : E gales P-presque srement ont mme loi.

Remarque 2.4. La rciproque est fausse.


Dmonstration. Notons PX (resp. PY ) la loi de X (resp. de Y ). Fixons B E.
Par dfinition,
PX (B) = P(X B).
Alors, les vnements {X = Y } et {X 6= Y } formant une partition de ,
PX (B) = P(X B, X = Y ) + P(X B, X 6= Y ).
Par hypothse, X = Y P-presque srement, ce qui signifie que {X 6= Y } est un ensemble ngligeable
pour P. A fortiori, son sous-ensemble {X B, X 6= Y } est ngligeable et donc P(X B, X 6= Y ) = 0.
Ds lors, il vient :
PX (B) = P(X B, X = Y ).
Par symtrie,
PY (B) = P(Y B, X = Y ) = P(X B, X = Y ) = PX (B).
Nous venons de montrer que sur E, PY = PX , cest--dire que X et Y ont mme loi.

2.2

Variables alatoires et lois discrtes

2.2.1

Dfinition et existence

Dfinissons tout dabord la notion de variable alatoire discrte.


Dfinition 2.2.
Une variable alatoire discrte est une variable alatoire prenant un nombre fini ou dnombrable de
valeurs.

Pour vrifier quune fonction prenant un nombre fini ou dnombrable de valeurs est une variable alatoires,
il est possible de se contenter dtudier les images inverses de singletons au lieu dtudier celles de nimporte
quel ensemble mesurable.
Proposition 2.3.
Considrons une application X dfinie sur . Supposons que E = X() est fini ou dnombrable et
munissons E de la tribu E = P(E). Alors, X : E est une variable alatoire (i.e. est mesurable) si et
seulement si
x E, X 1 ({x}) F.

17

Dmonstration
Supposons que X est une variable alatoire, cest--dire est mesurable. Pour tout x E, {x} P(E),
et alors par mesurabilit de X, X 1 ({x}) F.
Rciproquement, supposons que, pour tout x E, X 1 ({x}) F. Soit B E = P(E). Lensemble E
tant fini ou dnombrable, B lest aussi. En consquence, nous pouvons crire :
!
[
[
X 1 (B) = X 1
{x} =
X 1 ({x}) ,
xB

xB

o la runion est finie ou dnombrable. Par hypothse, X 1 ({x}) F pour tout x B E, et la


tribu F est stable par runion finie ou dnombrable. En consquence, X 1 (B) F pour tout B E.
Lapplication X est donc mesurable, cest--dire est une variable alatoire.


Intressons-nous prsent la loi dune variable alatoire discrte.


Proposition 2.4.
Soit X : [0, +] une variable alatoire discrte. Alors sa loi est la mesure discrte
X
PX =
px x
xX()

avec px = P(X = x). Nous notons que pour tout x X(), 0 6 px 6 1 et que

xX() px

= 1.

Dmonstration. Pour tout B E, on a


X 1 (B) = X 1 (B X()) =

X 1 ({x}),

xBX()

o la runion est fine ou dnombrable et disjointe. Ainsi, P tant une mesure sur (, F),

[

PX (B) = P X 1 (B) = P
X 1 ({x})
xBX()

Les ensembles X 1 ({x}, x B, tant deux deux disjoints,


X
PX (B) =
P(X 1 ({x}))
xBX()

car la mesure P est -additive et B est fini ou dnombrable. Par consquent,


X
X
PX (B) =
P(X = x) =
px x (B),
xBX()

xX()

avec px = P(X = x). De plus, 0 6 px = PX ({x}) 6 1 et


X
px = PX (E) = 1,
xX()

car PX est une probabilit.


18

Se donnant un ensemble E = {xi /i I} fini ou dnombrable et des valeurs (pi )iI , il est lgitime de se
demander si il existe une variable alatoire discrte X valeurs dans E et telle que
i I, P(X = xi ) = pi .
La proposition prcdente nous donne des conditions ncessaires vrifies par pi . Il savre que ces conditions
sont aussi suffisantes.
Proposition 2.5.
Soit E un ensemble fini ou dnombrable. Notons E = {xi /i I} avec I = {1, . . . , n} (avec n N ) ou
I = N et xi 6= xj si i 6= j. Si (pi )iI est une famille de rels vrifiant
X
i I, pi > 0 et
pi = 1,
iI

alors il existe un espace de probabilits (, F, P) et une variable alatoire X : E dont la loi (sous P)
est la loi discrte
X
PX =
p i xi .
(2.1)
iI

En particulier, pour tout i I, P(X = xi ) = pi .

Exemple 2.2. En appliquant la proposition prcdente, le lecteur vrifiera que


+
1
4 X
1
= 2 + 2
n
2

(n + 1)2
n=0

est la loi dune variable alatoire X valeurs dans N


2 .

Remarque 2.5. Une variable alatoire X est encore dite discrte si sa loi est donne par (2.1) avec I fini ou
dnombrable et ce mme si X() est infini non dnombrable. Dans ce cas, la variable X est presque srement
valeurs dans un espace fini ou dnombrable (cest--dire quil existe un ngligeable N tel que X(\N ) est fini
ou dnombrable).

Exemple 2.3. Donnons un exemple pour illustrer la remarque prcdente. Supposons = [0, 1], F = B(),
E = [0, 1] et E = B(E). Supposons aussi que la probabilit P sur [0, 1] est la mesure de Dirac 0 . Dfinissons
X : E par X() = . Cette fonction est bien mesurable et lensemble darrive X() = E nest pas
dnombrable. Toutefois, pour tout B E,
PX (B) = P(X 1 (B)) = P(B) = 0 (B).
Ainsi, PX = 0 est bien de la forme (2.1) et suivant la remarque prcdente, la variable X est dite discrte mme
si X() est infini non dnombrable. Le lecteur notera que X = 0 P-presque srement.

2.2.2

Exemples et modlisation

Le tableau 2.2 page 28 donne une liste de lois discrtes et prcise pour chacune dentre elle un exemple
dutilisation en modlisation. En annexe A, vous trouverez dautres informations sur ces lois (portant sur des
notions dfinies un peu plus loin dans le cours).
19

2.3

Variables et lois absolument continues

2.3.1

Dfinition et notion de densit

Nous pourrions nous contenter de dfinir les notions de variables alatoires et lois absolument continues par
la proposition 2.7 donne ci-aprs. Nanmoins nous prenons le parti de donner la dfinition plus gnrale de
labsolue continuit dune mesure par rapport une autre et dnoncer le thorme 2.6 qui tablit, en particulier,
pourquoi une loi sur Rd absolument continue peut tre dfinie par la proposition 2.7.
Dfinition 2.3.
1. Considrons et deux mesures positives sur un espace mesurable (0 , F 0 ). La mesure positive
est dite absolument continue par rapport la mesure positive (ce que lon note << )
si
A F 0 , (A) = 0 = (A) = 0.

2. Dans le cas o (0 , F 0 ) = Rd , B Rd , la mesure positive est dite absolument continue si elle
est absolument continue par rapport la mesure de Lebesgue d sur Rd .
3. Une variable alatoire X : Rd est dite absolument continue si sa loi PX est une mesure
absolument continue (par rapport la mesure de Lebesgue).

Remarque 2.6. Labsolue continuit de par rapport signifie que les ensembles ngligeables pour sont
aussi ngligeables pour .

En se restreignant des mesures dites -finies, les mesures absolument continues sont les mesures densit
introduites dans le chapitre 1. Avant dnoncer ce rsultat, prcisons la notion de mesure -finie.
Dfinition 2.4.
0
Une mesure sur un espace mesurable (0 , F 0 ) est
S -finie si il existe une suite (An )nN dlments de F
0
telle que (An ) < + pour tout n N et = nN An .

Exemple 2.4. Toute probabilit est -finie. La mesure de Lebesgue sur Rd est aussi -finie.

Le thorme ci-aprs est une consquence du thorme de Radon-Nicodym, que nous nnonons pas prcisment dans ce cours. Le thorme de Radon-Nicodym donne plus gnralement une reprsentation de toute
mesure -finie par rapport une autre.
Thorme 2.6.

Soient et deux mesures positives -finies sur Rd , B Rd . Alors, les deux assertions suivantes sont
quivalentes :
(i) <<
(ii) il existe une fonction f : Rd [0, +] borlienne telle que
Z
 
d
A B R , (A) =
f (x) d(x).
A

20

De plus, si << , alors la fonction f vrifiant (ii) est unique -presque partout et est appele
drive de Radon-Nykodim de par rapport . Nous notons la relation entre est sous la
forme
d = f d

ou

f=

d
d .

Notant que la loi PX dune variable X est une mesure -finie (car est une probabilit), lquivalence nonce
dans le thorme prcdent vaut pour = PX et = d , ce qui conduit la caractrisation suivante dune
variable absolument continue.
Proposition 2.7.
Une variable alatoire X valeurs dans Rd (ou sa loi PX ) est absolument continue sil existe une fonction
fX : Rd [0, +] borlienne telle que
Z
 
fX (x) 1A (x) d (dx).
A B Rd , PX (A) = P(X A) =
Rd

La fonction fX est alors appele densit de X (en omettant de mentionner quil sagit dune densit par
rapport la mesure de Lebesgue) et est unique d -presque partout.

Terminons ce paragraphe en voquant lexistence des variables de lois absolument continues. Plus prcisment, se donnant une fonction f : Rd R, nous pouvons nous demander quelles conditions cette fonction
est la densit dune variable alatoire X absolument continue. La proposition suivante donne une condition
ncessaire et suffisante.
Proposition 2.8.
Considrons une fonction f : Rd R. Alors il existe un espace de probabilits (, F, P) et une variable
alatoire X : Rd dfinie sur cet espace et de densit f si et seulement si f est une fonction borlienne
valeurs dans [0, +] et telle que
Z
f (x) d (dx) = 1.
Rd

2.3.2

Exemples et modlisation

Le tableau 2.3 page 29 donne une liste de lois absolument continues. Pour chacune de ces lois, un exemple
de modlisation est prcis. En annexe A, vous trouverez dautres rsultats sur ces lois concernant des notions
dfinies dans la suite du cours (esprance, variance, fonction de rpartition, fonction caractristique).

2.4
2.4.1

Esprance et Thorme du transport


Esprance

Comme mentionn dans lintroduction du chapitre, lesprance est une notion que nous avons rencontre dans
le chapitre prcdent : il sagit du terme probabiliste dsignant lintgrale de Lebesgue contre la probabilit P
dont est muni lespace (, F) sous-jacent la modlisation des phnomnes tudis.

21

Dfinition 2.5 (Esprance dune variable alatoire positive ou intgrable).



Soit X : (, F) R, B R une variable alatoire P-intgrable ou valeurs dans [0, +] P-presque
srement. Lesprance E(X) de X est lintgrale de X par rapport la probabilit P, cest--dire que
Z
E(X) =
X() dP().

Exemple 2.5.
1. Toutes les variables alatoires relles constantes sur sont P-intgrables. De plus, si a R {+} et si
X = a est la variable constante gale a sur , alors E(X) = aP() = a.
2. Considrons lespace de probabilits (, F, P) = (, P(), a ). Alors toute fonction X : R est une
variable alatoire (cest--dire est mesurable) et
Z
E(|X|) =
|X| da = |X(a)|.

Ainsi, une fonction X : R est a -intgrable si et seulement si X(a) R. De plus, si X(a) R{+},
Z
E(X) =
X da = X(a).

Nous reformulons les principales proprits de lintgrale de Lebesgue pour la mesure P, vues dans le premier
chapitre, en utilisant la notation esprance E.
Proposition 2.9.
Soient X et Y deux variables alatoires dfinies sur lespace de probabilit (, F, P) valeurs dans R.
1. Lesprance est linaire sur le R-espace vectoriel des variables alatoires P-intgrables valeurs dans
R, cest--dire que si X et Y sont intgrables alors pour tous a, b R,
E(aX + bY ) = aE(X) + bE(Y ).
Si X > 0 et Y > 0 P-presque srement, alors lgalit prcdente est aussi vrifie ds lors que
a, b [0, +].
2. Si Y > 0 P-presque srement ou si X et Y sont toutes les deux P-intgrables, alors,
Y 6 X P-presque srement = E(Y ) 6 E(X).
En particulier, si X > 0 P-presque srement, alors E(X) [0, +].
3. Si X > 0 P-presque srement, alors
E(X) = 0 X = 0 P-presque srement.
4. Si la variable alatoire X est P-intgrable, alors X est finie P-presque srement et
|E(X)| 6 E(|X|).

22

Remarque 2.7. Dans lassertion 1., a priori, X + Y nest bien dfinie que sur \N avec
N = {X = +} {Y = } F
et P(N ) = 0 (daprs lassertion 4.). Par consquent, la variable X + Y se prolonge en une variable alatoire sur
. Lesprance E(X + Y ) dsigne lesprance de nimporte quel prolongement (mesurable) de X + Y .

2.4.2

Thorme du transport

Le thorme du transport relie lesprance sous P celle sous la loi PX dune variable alatoire. Il justifie le
fait quen pratique, il est inutile de dfinir lespace (, F, P) sur lequel sont construites les variables modlisant
le phnomne tudi : lessentiel est de connatre la loi des processus (variables) considrs.
Thorme 2.10.
Soit (E, E) un espace 
mesurable et X : E une variable alatoire. Notons PX la loi de X. Considrons
: (E, E) R, B R une fonction mesurable.
1. La fonction est PX -intgrable si et seulement si (X) est P-intgrable.
2. Si (X) est P-intgrable ou valeurs P-presque srement dans [0, +], alors
Z
(x)PX (dx).
E((X)) =
E

Le tableau 2.1 donn en fin de section r-crit ce thorme dans le cas des lois que nous rencontrerons dans
ce cours (lois discrtes, lois absolument continues et lois ayant une partie discrte et une partie absolument
continue). Ce tableau est donc important, vu quil nous donne la formule qui est en gnral le point de dpart
de tout calcul dune esprance dans le cas des lois sur lesquelles se focalise ce cours.
En consquence immdiate du thorme du transport, nous pouvons donner la caractrisation suivante de
la loi dune variable alatoire.
Proposition 2.11 (Caractrisation de la loi dune variable alatoire).
Soient X, Y : (, F) (E, E) deux variables alatoires. Alors, X et Y ont mme loi si et seulement si
pour toute fonction : (E, E) ([0, +], B([0, +])) mesurable,
E((X)) = E((Y )).

(2.2)

Remarque 2.8. Les variables alatoires


 X, Y : E ont mme loi si et seulement si (2.2) est vrifie pour
toute fonction : (E, E) R, B R mesurable borne positive.
De plus, si E Rd et E est la tribu borlienne sur E, alors les variables alatoires
X, Y : E ont mme

loi si et seulement si (2.2) est vrifie pour toute fonction : (E, E) R, B R continue borne positive.
Dmonstration.
Supposons que X et Y ont mme loi. Le thorme du transport implique alors immdiatement que
E((X)) = E((Y )) pour toute fonction mesurable : (E, E) ([0, +], B([0, +])).
23

Rciproquement, supposons que pour toute fonction mesurable : (E, E) ([0, +], B([0, +])),
E((X)) = E((Y )). Considrons un ensemble A E. La fonction
1A : (E, E) ([0, +], B([0, +]))
est alors mesurable positive (cf. Exemple 1.2, page 4). Par suite, daprs le thorme du transport,
Z
1A (x) dPX (x) = PX (A).
E(1A (X)) =
E

De mme, E(1A (Y )) = PY (A). Donc, par hypothse, PX (A) = PY (A), pour tout A E. Par consquent,
PX = PY , cest--dire que X et Y ont mme loi.


Loi de la v.a. X

criture de E((X)) pour (X) positive p.s. ou intgrable


X

E((X)) =

Loi discrte
PX (A) =

pn (xn ).

nN

pn xn

(X) intgrable

nN

pn |(xn )| < +.

nN

Loi absolument continue


Z
A B(Rd ), PX (A) =
f (x)d (dx).

E((X)) =

(x)f (x)d (dx).


Rd

(X) intgrable f Lebesgue intgrable.

Loi ayant une partie discrte et une partie


absolument continue1 :
Pour tout A B(Rd ),
Z
X
PX (A) =
n xn (A) +
h(x)d (dx)
A

nN

E((X)) =

Z
n (xn ) +

(X) intgrable

(x)h(x)d (dx).
Rd

nN

n |(xn )| < +
nN

et h Lebesgue intgrable

avec 0 6 n 6 1 et h borlienne positive tels que


Z
X
n +
h(x)d (dx) = 1.
nN

Rd

Table 2.1 Thorme du transport dans des cas particuliers

1. Dans lcriture de la loi, a priori, lintgrale de h sur Rd nest pas gale 1 et la mesure discrte
probabilit.

24

nN

n xn nest pas une

2.5

Quelques techniques pour dterminer la loi dune variable g(X)

Considrons une variable alatoire X de loi connue PX et une variable alatoire Y = g(X). Nous cherchons
dterminer la loi de Y . Dans les chapitres suivants, nous verrons diffrentes caractrisations de cette loi, et donc
diffrentes possibilits pour la dterminer. Dans ce chapitre, nous proposons une dmarche se basant simplement
sur la dfinition de la loi dune variable et/ou la caractrisation donne dans la proposition 2.11.

2.5.1

Cas o g(X) est discrte

Supposons que g(X) est valeurs presque srement dans un ensemble fini ou dnombrable E. Alors, la loi
de Y = g(X) est :
X
PY =
P(g(X) = s)s .
sE

Par suite, dterminer cette loi revient calculer


P(Y = s) = P(g(X) = s)
pour tout s E. Lide est souvent dexhiber un ensemble Bs tel que
P(Y = s) = P(X Bs ) = PX (Bs )
et ensuite utiliser lexpression de PX .
Exemple 2.6. Supposons que Y = 1[0,1] (X) avec X de loi exponentielle E(). Alors, Y est une variable alatoire
discrte car elle est valeurs dans E = {0, 1}. De plus,
Z
P(Y = 1) = P(0 6 X 6 1) = PX ([0, 1]) =
[0,1]

ex/
1 (dx) = 1 e1/

et P(Y = 0) = 1 P(Y = 1) = e1/ . La loi de Y est la loi de Bernoulli de paramtre 1 e1/ .

Notons que si X est discrte alors g(X) est aussi discrte et que lon peut donc procder comme propos
ci-dessus pour donner la loi de Y = g(X). Dans la suite, nous ne considrerons donc plus le cas o X est
discrte.

2.5.2

Thorme de changement de variables

Supposons que la loi de X est absolument continue de densit fX : Rd [0, +]. Partant de la proposition 2.11, si nous trouvons une mesure positive telle que pour toute fonction borlienne positive borne,
Z
E((Y )) =
(y) (dy)
Rd

alors est une probabilit (prendre = 1) et est la loi de Y = g(X). Utilisant le thorme du transport, nous
pouvons tout dabord crire que
Z
E((Y )) = E( g(X)) =
g(x)fX (x)dd (x).
(2.3)
Rd

Il est ensuite naturel de se poser la question suivante : est-il possible deffectuer le changement de variable
y = g(x) dans lintgrale de Lebesgue ci-dessus ? Mme si nest pas rgulire, le changement de variable
dans lintgrale de Lebesgue est valable sous les mmes hypothses que dans le cadre de lintgrale au sens de
Riemann. Il est ainsi possible dutiliser par exemple le thorme suivant.
25

Thorme 2.12.
Soit U un ouvert de Rd et g : U Rd une application injective de classe C 1 dont la matrice jacobienne
Jac g, dfinie par


gi
Jac g(x) =
(x)
, x U,
xj
1i,jd
est inversible pour tout x U . Posons V = g(U ).
1. Alors, pour toutes fonctions mesurables positives : V [0, +] et f : U [0, +],
Z
Z


(y) f g 1 (y) det Jac g 1 (y) d (dy),
g(x)f (x) d (dx) =
V

o Jac g


1

est la matrice jacobienne de linverse de g.

2. La formule ci-dessus reste vraie pour toutes fonctions mesurables et f telle que f ( g) est
Lebesgue-intgrable.

Revenons lexpression (2.3). La question se poser est donc : peut-on poser y = g(x) et appliquer un
thorme de changement de variable ? Notons dores et dj que ceci suppose que g(X) et X sont toutes deux
valeurs dans le mme espace Rd . Bien videmment si g satisfait les hypothses du thorme 2.12 avec U = Rd ,
nous pouvons effectuer le changement de variables. Mais ceci est trs fort : le premier cas prsent ci-aprs
donne une hypothse a priori plus faible (i.e. un choix plus petit de U ) permettant de conclure en appliquant
une seule fois le thorme 2.12.
1er cas : Avant de faire des hypothses sur g, supposons quil existe un ouvert U Rd tel que fX est nulle
d -presque partout en dehors de U , cest--dire que d ({x
/ U, fX (x) 6= 0}) = 0. Ainsi, (2.3) peut tre rcrite
sous la forme
Z
E((X)) =
(g(x))fX (x)d (dx).
U

Si g satisfait prsent les hypothses du thorme 2.12 avec ce choix de U , nous pouvons poser y = g(x) et
rcrire lexpression (2.3) sous la forme :
Z
Z


(y) (dy)
E((Y )) =
(y)fX g 1 (y) det Jac g 1 (y) d (dy) =
Rd

g(U )

avec la mesure absolument continue de densit




y 7 fX g 1 (y) det Jac g 1 (y) .
Lcriture ci-dessus tant vraie pour toute fonction mesurable positive , la loi de Y = g(X) est la loi absolument
continue sur Rd de densit


y 7 fX g 1 (y) det Jac g 1 (y) .
Illustrons la dmarche ci-dessus par un exemple.
Exemple 2.7. Supposons que X suit la loi uniforme sur [0, 1]. Et considrons la variable Y = X 2 . Rappelons
que la densit fX de X est dfinie par
fX (x) = 1[0,1] (x),

x R.

Fixons : R [0, +] une fonction borlienne positive. Alors, par le thorme du transport,
Z
Z


2
2
E((Y )) = E X
=
x fX (x)1 (dx) =
(x2 ) 1 (dx).
[0,1]

26

Notons que comme 1 ({0, 1}) = 0,


Z


x2 1 (dx).

E((Y )) =
]0,1[

Le lecteur vrifiera que la fonction g : x 7 x2 satisfait les hypothses du thorme 2.12 en prenant U =]0, 1[ et
V = g(U ) =]0, 1[. En appliquant ce thorme de changement de variable, le lecteur vrifiera aussi que
Z
(y)
E((Y )) =
1 (dy).
]0,1[ 2 y
Ceci tant vrai pour toute fonction borlienne positive , la loi de Y est absolument continue de densit
fY : R
y

R+
1]0,1[ (y)

2 y

En appliquant la dmarche propose dans ce premier cas, il est aussi possible dtablir des proprits de
stabilit pour certains ensembles de lois classiques.
Proposition 2.13.
Soient a, b R et X : R une variable alatoire relle.
1. Si X est de loi uniforme sur [c, d] (avec c, d R et c < d) et si a 6= 0, alors aX + b suit la loi
uniforme sur lintervalle [ac + b, ad + b].
2. Si X est de loi exponentielle de paramtre R+ et si a > 0, alors aX suit la loi exponentielle de
paramtre a.
3. Si X suit la loi gaussienne de paramtre (m, 2 ) R R+ , alors aX + b suit la loi gaussienne de
paramtre (am + b, a2 2 ).

2nd cas : Dans le cas o g ne satisfait pas directement le thorme du changement de variable aprs avoir
choisi U , il faut tre plus astucieux. Lide est de dcouper lintgrale sur Rd en K intgrales, chacune sur un
ensemble Ui choisi de sorte pouvoir appliquer le thorme du changement de variables. Le plus simple est
dillustrer ce cas par un exemple.
Exemple 2.8. Soit X une variable alatoire de loi uniforme sur [1, 2]. Dterminons la loi de la variable alatoire
Y = X 2 . Fixons : R [0, +] une fonction borlienne positive. Alors, par le thorme du transport,
Z
Z


1
1
E((Y )) =
x2 1 (dx) =
x2 1 (dx)
3 [1,2]
3 ]1,2[
car 1 ({1, 2}) = 0. Nous souhaitons poser y = x2 mais ceci ne dfinit pas un changement de variable sur
U =] 1, 2[ (car x 7 x2 nest pas bijective). Par contre x 7 x2 est bijective de ] 1, 0[ (respectivement ]0, 2[)
sur ]0, 1[ (respectivement ]0, 4[). Lide est donc de dcomposer lintgrale en deux :
Z
Z


1
1
2
E((Y )) =
x 1 (dx) +
x2 1 (dx)
3 ]1,0[
3 ]0,2[
daprs la relation de Chasles et car 1 ({0}) = 0. Il devient alors possible deffectuer le changement de variable
y = x2 sur louvert U =] 1, 0[ puis sur louvert U =]0, 2[. Le lecteur vrifiera que lon obtient ainsi :


Z
Z
Z
1
(y)
1
(y)
(y)
1
E((Y )) =
1 (dy) +
1 (dx) =
1]0,1[ (y) + 1]1,4[ (y) 1 (dx).
3 ]0,1[ 2 y
3 ]0,4[ 2 y
2
R 3 y
Ceci tant vrai pour toute fonction borlienne positive , la loi de Y est absolument continue de densit
fY : R
y 7

3 y

R+

1]0,1[ (y) + 12 1]1,4[ (y) .

27

2.6

Annexes : Modlisation associe aux lois classiques

Loi de la v.a. X

Expression de PX

Modlisation

N
1 X
PX =
xi
N

Loi uniforme sur

Le rsultat X obtenu lors dun lanc dun d non truqu suit une loi uniforme sur {1, 2, 3, 4, 5, 6}.

i=1

E = {x1 , . . . , xN }
avec N N et xi 6= xj
pour i 6= j

Loi de Bernoulli

Ralisons une exprience dont la probabilit de succs


est p. Alors la variable alatoire X dfinie par

1 si un succs est obtenu
X=
0 sinon

PX = (1 p)0 + p1
B(p)
avec p [0, 1]

suit la loi de Bernoulli de paramtre p.

Loi Binomiale
PX =

B(n, p)

n  
X
n
k=0

pk (1p)nk k

avec n N et p [0, 1]
Loi de Poisson

PX =

+ k
X
e
k=0

P()

k!

Cette loi est utilise pour modliser le nombre de ralisations dun vnement A dont la probabilit doccurrence est faible mais dont le nombre de ralisations
peut tre grand (par exemple, nombre dappels reus
en une minute par un standard).

avec R+

Loi Gomtrique
G(p)

PX =

+
X

k1

p(1 p)

Ralisons n fois, de manire indpendante1 , une exprience dont la probabilit de succs est p. Alors le
nombre de succs X obtenus au cours des n expriences
suit une loi B(n, p).

Notons p la probabilit de succs dune exprience.


Ralisons cette exprience plusieurs fois de manire
indpendante. Notons Y le premier instant n N
correspondant un succs. Alors, Y suit la loi G(p).

k=1

avec p ]0, 1[

Table 2.2 Exemples de modlisation par des lois discrtes

1. Cette notion doit tre traduite en termes probabilistes lors de la modlisation, cf. chapitre 7.

28

Loi de la v.a. X

Densit de PX
(par rapport 1 )

Loi Uniforme
fX (x) =

U (B)

Modlisation / Utilisation

1
1B (x)
d (B)

avec B Rd born tel


que 0 < d (B) < +
Loi Gaussienne
fX (x) =

N (m, 2 ),

1
2 2

(xm)2
2 2

Un marcheur se trouve en la position (0, 0) et


se dplace alatoirement dans le plan sans prfrence. La direction (norme) quil prend suit la
loi uniforme sur le cercle C(0, 1) : langle de la
direction avec le vecteur (0, 1) choisi suit une loi
uniforme sur [0, 2[.
Erreur commise par un appareil de mesure.

o m R et R+

Loi Exponentielle

ex/
fX (x) =
1R+ (x)

E()

Dure de vie dun phnomne sans mmoire ou


sans vieillissement.

avec R+

Loi du 2

xk/21 ex/2
fX (x) = k/2
2 (k/2)

2 (k)

Utilise pour les tests statistiques (cf. cours du


1er semestre).

k N degrs de libert
Table 2.3 Exemples dutilisation de lois absolument continues

29

30

Chapitre 3

Fonction de rpartition et fonction


caractristique
Dans le chapitre prcdent, nous avons dfini la notion de loi dune variable alatoire et donn une premire
caractrisation. Dans ce chapitre, nous allons proposer deux nouvelles caractrisations de la loi dune variable
alatoire : lune par la fonction de rpartition et lautre par la fonction caractristique.
Hypothses/Notations pour ce chapitre
(, F, P) est un espace de probabilits (qui ne sera, sauf exception, pas explicit) ;
Rd est muni de sa tribu borlienne.
Sauf mention du contraire, les variables alatoires considres sont dfinies sur (, F, P).

3.1

Fonction de rpartition

3.1.1

Dfinition pour une v.a.r. et proprits gnrales

La loi dune variable alatoire X valeurs dans R est caractrise par sa fonction de rpartition que nous
dfinissons ci-aprs.
Dfinition 3.1 (Fonction de rpartition dune variable alatoire relle).
Soit X : (, F, P) (R, B(R)) une variable alatoire relle de loi PX . La fonction de rpartition de
X est la fonction FX : R [0, 1] dfinie par

t R, FX (t) = P(X 6 t) = P X 1 (] , t]) = PX (] , t]).

Exemple 3.1. Considrons une variable alatoire relle X. Notons PX sa loi et FX sa fonction de rpartition.
1. Soit a R. Supposons que X = a presque srement, cest--dire que PX = a . Alors,

FX (t) = PX (] , t]) =

0 si t ] , a[
1 si t [a, +[.

Remarquons que la fonction de rpartition de la loi discrte PX = a est constante par morceaux. Nous
verrons que ceci est caractristique des lois discrtes.

31

FX

Figure 3.1 Fonction de rpartition de la variable X = a


2. Supposons que X est de loi uniforme sur [a, b] (a < b). Alors,
1
FX (t) =
ba

1 (] , t] [0, 1])
1[a,b] (x)1 (dx) =
=

ba

0 si t < a,
si a 6 t < b,
1 si t > b.

ta
ba

0.8

FX

0.6

0.4

0.2

0.2
3

Figure 3.2 Fonction de rpartition de la loi uniforme sur [1, 1]


Remarquons que la fonction de rpartition de la loi uniforme sur [a, b] est continue et mme C 1 sauf en
quelques points. Nous verrons que ceci est caractristique des lois absolument continues.

Donnons prsent quelques proprits gnrales sur les fonctions de rpartitions. Nous nous intresserons
aux cas des lois discrtes, absolument continues ou combinant une partie discrte avec une partie absolument
continue dans les sections suivantes.
Proposition 3.1.
Soit X : (, F, P) (R, B(R)) une variable alatoire relle.
1. La fonction de rpartition FX de X est une fonction croissante, continue droite telle que
lim FX (t) = 0 et

lim FX (t) = 1.

t+

(3.1)

2. Par ailleurs, FX admet une limite gauche en tout point et


t R, FX (t ) = lim FX (x) = PX (] , t[).
xt

32

(3.2)

3. De plus, FX admet au plus un nombre fini ou dnombrable de points de discontinuit.


4. Enfin, pour tous rels a, b tels que a < b,

PX (]a, b]) = P(a < X 6 b) = FX (b) FX (a),

P ([a, b]) = P(a 6 X 6 b) = FX (b) FX (a ),

X
PX ([a, b[) = P(a 6 X < b) = FX (b ) FX (a ),

P ([a, +[) = P(X > a) = 1 FX (a ),

PX (]a, +[) = P(X > a) = 1 FX (a).

Preuve de la proposition 3.1 :


1. Soient t, s R tels que s 6 t. Alors, ], s] ], t] et donc par croissance de PX (cf. proposition
1.2 du chapitre 1 page 5),
FX (s) = PX (] , s]) 6 PX (] , t]) = FX (t).
Lingalit prcdente tant vraie pour tous t, s R tels que s 6 t, la fonction FX est croissante sur
R.
La continuit droite de FX , la proprit (3.1) sobtiennent en utilisant la continuit monotone
de PX (cf. proposition 1.2 du chapitre 1 page 5).
2. La proprit (3.2) sobtient aussi en utilisant la continuit monotone de PX .
3. La fonction FX tant croissante continue droite, lensemble de ses points de discontinuit est


[
 1
.
S=
Dn avec Dn = x R / FX (x) FX x >
n

nN

tant donn que 0 6 FX 6 1 et que FX est croissante, pour tout n N , Dn est de cardinal fini car
X

CardDn
6
FX (x) FX x 6 1.
n
xDn

Par consquent, S est un ensemble fini ou dnombrable.


4. Pour tous rels a, b tels que a < b,
PX (]a, b]) = PX (] , b]] , a]c ) = PX (] , b]) PX (] , a]) = FX (b) FX (a)

et PX ([a, b]) = PX (] , b]] , a[c ) = PX (] , b]) PX (] , a[) = FX (b) FX (a ).


Les autres formules donnes dans lassertion 2. se dmontrent de manire analogue.

Se donnant une fonction F : R R+ , nous pouvons nous demander quelles proprits sont suffisantes
pour quelle soit une fonction de rpartition. Lnonc suivant tablit que lassertion 1. de la proposition 3.1
caractrise la notion de fonction de rpartition dune variable alatoire relle.
33

Proposition 3.2.
Soit F : R [0, 1] une fonction croissante et continue droite telle que
lim F (x) = 1 et

x+

lim F (x) = 0.

Alors, il existe un espace de probabilit (, F, P) et une variable alatoire relle X dfinie cet espace dont
F est la fonction de rpartition.

Terminons cette partie en nonant le rsultat voqu en dbut de paragraphe : la fonction de rpartition
caractrise la loi dune variable alatoire.
Proposition 3.3 (Caractrisation de la loi dune variable alatoire relle).
Soient X et Y deux variables alatoires relles dfinies sur lespace de probabilit (, F, P). Alors, les
variables alatoires X et Y ont mme fonction de rpartition si et seulement si elles ont mme loi.

3.1.2

Variables alatoires relles discrtes

Cette partie sintresse aux fonctions de rpartition de variables alatoires discrtes valeurs dans R. Dans
la suite, les variables discrtes seront donc toujours valeurs dans un ensemble
S = {xi / i I}
avec I = {1, . . . , n} avec n N ou I = N. Nous supposerons toujours que xi < xi+1 , ce qui en particulier
exclut le cas de variables alatoires valeurs dans Q (ensemble dont les lments ne peuvent pas tre numrs
de faon croissante).
Proposition 3.4.
Supposons que I = {1, . . . , n} (avec n N ) ou I = N . Considrons alors
S = {xi / i I} R
une famille strictement croissante de rels (i.e. telle que xi < xi+1 pour tout i I tel que i + 1
I). Supposons que X une variable alatoire dfinie sur (, F, P) valeurs P-presque srement dans S.
Rappelons que la loi de X scrit alors
X
PX =
pi xi
iI

o pi = P(X = xi ) [0, 1].


1. (a) Si S est fini, alors

si t ], x1 [
0
p1 + + pi si xi 6 t < xi+1 avec 1 6 i < n
FX (t) =

1
si t [xn , +[.
(b) Si S est infini dnombrable, alors
(
0
si t ], x1 [
FX (t) =
p1 + + pi si xi 6 t < xi+1 avec i N .
34

2. De plus, la fonction FX est constante par morceaux et continue sauf ventuellement aux points xi ,
i I. Enfin pour tout i I,
pi = FX (xi ) FX (xi )
est la valeur du saut de la fonction FX au point xi .

Preuve de la proposition 3.4. Laisse en exercice. Le lecteur notera que lassertion 2. dcoule aisment de
lexpression de FX donne par lassertion 1.

Exemple 3.2. Soit X une variable alatoire de loi binomiale de paramtre (2, 1/3), cest--dire de loi
PX =

2
X
k=0

C2k

 k  nk
2
4
4
1
1
k = 0 + 1 + 2 .
3
3
9
9
9

Alors, reprenant la formule donne dans la proposition prcdente, la fonction FX de rpartition de X est dfinie
par

0
si t < 0

4
si 0 6 t < 1
9
FX (t) =
4
4
8

9 + 9 = 9 si 1 6 t < 2

1
si t > 2.

0.8

0.6

0.4

0.2

0.2
1

0.5

0.5

1.5

2.5

Figure 3.3 Fonction de rpartition dune variable de loi B(2, 1/3)

Terminons par le problme inverse. Se donnant une fonction F : R 7 R+ , nous nous demandons
si il existe des conditions suffisantes pour que F soit la fonction de rpartition dune loi discrte
et si oui, quelle est la loi associe ?
La proposition 3.1 et lassertion 2. de la proposition 3.4 donnent des conditions ncessaires, qui savrent tre
aussi suffisantes ( condition dtre toujours sous lhypothse du dbut de section pour S).

35

Proposition 3.5.
Soit F : R R une fonction croissante et continue droite telle que
lim F (t) = 0 et lim F (t) = 1.

t+

Supposons que F est constante par morceaux, au sens o il existe une famille strictement croissante de
rels
S = {xi / i I} R
finie ou dnombrable (i.e. telle que I est fini ou dnombrable) telle que F est constante sur chaque intervalle
[xi , xi+1 [.
1. Alors, il existe un espace de probabilit (, F, P) et une variable alatoire relle discrte X dfinie
sur cet espace dont F est la fonction de rpartition.
2. De plus la loi de X est
PX =

pi xi

iI

avec pour tout i I, pi = P(X = xi ) = F (xi ) F (xi ) la valeur du saut de F au point xi .

Exemple 3.3. Considrons la fonction F : R R dfinie par

0 si x < 1

0.25 si 1 6 x < 3
F (x) =

1 si x > 3.

0.8

0.6

0.4

0.2

0.2
1

Figure 3.4 Fonction F = 41 1[1,3[ + 34 1[3,+[ .


Le lecteur vrifiera que la fonction F satisfait bien les hypothses de la proposition 3.5. En particulier, elle est
continue sauf en x = 1 et en x = 3. De plus, son saut en x = 1 vaut 1/4 et son saut en x = 3 vaut 3/4. Par
suite, F est la fonction de rpartition dune variable alatoire X de loi PX = 41 1 + 34 3 .

3.1.3

Variables alatoires relles absolument continues

tudions prsent les fonctions de rpartitions des variables alatoires relles de loi absolument continue.
36

Proposition 3.6.
Soit X une variable alatoire relle de loi absolument continue de densit fX . Notons FX sa fonction de
rpartition.
1. Alors, daprs le thorme du transport,
Z
t R, FX (t) =

fX (x) 1 (dx).
],t]

2. De plus, la fonction FX est continue. Elle est aussi drivable 1 -presque partout et FX0 = fX 1 presque partout, cest--dire quil existe un ngligeable N B(R) pour 1 tel que sur N c , FX est
drivable et
t
/ N, FX0 (t) = fX (t).
3. Enfin, si la densit fX est continue sur R, alors la fonction FX est C 1 sur R et
t
/ R, FX0 (t) = fX (t).

Exemple 3.4. Soit X une variable alatoire de loi exponentielle de paramtre R+ , i.e. de densit fX avec
fX (x) =

ex/
1R+ (x).

Notons FX la fonction de rpartition de X. Daprs le thorme du transport,


t

Z
FX (t) = P(X 6 t) =
Z
Pour t > 0, FX (t) =

Z
fX d1 =

ex/
1R+ (x) dx.

0 dx = 0. Et pour t > 0,

Z
FX (t) =

Z
fX d1 =

ix=t
h
ex/
dx = ex/
= 1 et/ .

Ainsi, la fonction de rpartition de X est donne par par



0
FX (t) =
1 et/

si t 6 0,
si t > 0.

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
1

Figure 3.5 Fonction de rpartion dune variable de loi E(1)

37

Terminons par le problme inverse. Se donnant une fonction F : R 7 R+ , nous nous demandons
si il existe des conditions suffisantes pour que F soit la fonction de rpartition dune loi discrte
et si oui, quelle est la loi associe ?
Les propositions 3.1 et 3.6 donnent des conditions ncessaires, qui ne sont en gnral pas suffisantes. La proposition suivante donne une condition suffisante proche mais qui impose une proprit de rgularit F .
Proposition 3.7.
Soit F : R R une fonction croissante continue telle que
lim F (t) = 0 et lim F (t) = 1.

t+

Supposons quil existe (xi )iI , avec I = {1, . . . , n} ou I = N , une famille strictement croissante de rels
tel que F est C 1 sur chaque intervalle ]xi , xi+1 [. Alors, il existe une variable alatoire X dfinie sur un
espace (, F, P) dont F est la fonction de rpartition. De plus, la loi de X est la loi absolument continue
de densit f = F 0 (fonction bien dfinie sauf peut-tre en xi ).

Remarque 3.1. Dans la proposition prcdente, la fonction f nest pas a priori bien dfinie en xi , i I. Ceci
nest pas un problme car la densit dune variables alatoire est unique galit presque sre prs et {xi , i I}
est 1 -ngligeable car fini ou dnombrable. Nous pouvons prolonger f en xi comme nous le souhaitons.

Exemple 3.5. Considrons la fonction F : R R dfinie par

0 si t < 0
t2 si t [0, 1[
F (t) =

1 si t > 1.
La fonction F est continue croissante sur R telle que

0.8

0.6

0.4

0.2

0.2
1

0.5

0.5

1.5

Figure 3.6 Fonction F


lim F (t) = 0 et lim F (t) = 1.

t+

Par ailleurs, F est C 1 sauf en 1. Par consquent, F est la fonction de rpartition dune variable alatoire de loi
absolument continue de densit f : R R dfinie par f (x) = 2x1]0,1[ (x).
38

3.1.4

Mlange de lois discrtes et absolument continues

Nous considrons prsent le cas dune variable alatoire dont la loi est la somme dune mesure discrte et
dune mesure absolument continue.
Proposition 3.8.
Soit I = {1, . . . , n} avec n N ou I = N. Considrons X une variable alatoire de loi
X
dPX = fX dd +
pi dxi

(3.3)

iI

avec
(i) fX une fonction borlienne positive,
(ii) (xi )iI une famille finie ou dnombrable de rels strictement croissante (i.e. telle que xi < xi+1 )
(iii) pour tout i I, pi [0, 1].
Rappelons qualors pi = P(X = xi ).
1. Alors, la fonction de rpartition FX de X est continue sauf peut-tre en les points xi , i I. Le saut
de FX en xi est :
pi = FX (xi ) FX (xi )
2. De plus F est drivable 1 -presque partout et FX0 = fX 1 -presque partout.
3. Si la fonction fX est continue sur ]xi , xi+1 [, alors FX est C 1 sur ]xi , xi+1 [ et
t ]xi , xi+1 [, FX0 (t) = fX (t).

En prenant fX 0 ou pi = 0 pour tout i, nous retrouvons les proprits noncs pour les fonctions de
rpartition des lois discrtes et des lois absolument continue. Autrement dit, la proposition prcdente gnralise
les propositions 3.4 et 3.6. Comme dans les paragraphes prcdents, nous terminons en donnant des conditions
suffisantes pour quune fonction soit la fonction de rpartition dune loi PX donne par (3.3). La proposition
suivante gnralise les propositions 3.5 et 3.7.
Proposition 3.9.
Soit F : R R une fonction croissante continue droite et telle que
lim F (t) = 0 et lim F (t) = 1.

t+

Supposons quil existe (xi )iI , avec I = {1, . . . , n} ou I = N , une famille strictement croissante de rels
telle que F est C 1 sur chaque intervalle ]xi , xi+1 [. Alors, il existe une variable alatoire X dfinie sur un
espace (, F, P) dont F est la fonction de rpartition. De plus, la loi de X est
X
dPX = fX dd +
pi dxi
iI

avec

(i) pour tout i I, pi = FX (xi ) FX xi le saut de la fonction FX en xi
(ii) fX = FX0 (fonction bien dfinie sauf peut-tre en xi ).

39

Exemple 3.6. Considrons la fonction F : R R dfinie par

0 si t < 0
F (t) =
t si t [0, 1/4[

1 si t [1/4, +[.

0.8

0.6

0.4

0.2

0.2
1

0.8

0.6

0.4

0.2

0.2

0.4

0.6

0.8

Figure 3.7 Fonction F


La fonction F tant croissante continue droite telle que limx+ F (x) = 1 et limx F (x) = 0, il
sagit de la fonction de rpartition dune variable alatoire relle X. En appliquant la proposition prcdente,
dPX = f d1 +
avec f : R R+ dfinie par f (t) =

3.1.5

2 t

1
d
2 1/4

1]0,1/4[ (t).

Gnralisation aux vecteurs alatoires

Nous terminons ce paragraphe en gnralisant la notion de fonction de rpartition aux variables alatoires
valeurs dans Rd .
Dfinition 3.2.
Pour tout entier 1 6 i 6 d, considrons Xi : (, F, P) (R, B(R)) une variable alatoire. Notons PX la
loi de X = (X1 , . . . , Xd ). La fonction de rpartition de X est la fonction FX : Rd [0, 1] dfinie par
(t1 , . . . , td ) Rd , FX (t1 , . . . , td ) = P

d
\
i=1

!
{Xi 6 ti }

= PX

!
d
Y
] , ti ] .
i=1

Remarque 3.2. La proposition 3.3 reste vraie pour des variables valeurs dans Rd .

3.2

Fonction caractristique

Nous terminons ce chapitre en introduisant une nouvelle fonction caractrisant la loi dune variable alatoire.
40

Dfinition 3.3 (Fonction caractristique).


Soit X une variable alatoire valeurs dans Rd . La fonction caractristique de X est la fonction
X : Rn C dfinie par


 Pn
 Z
d
iht,Xi
i k=1 tk Xk
t = (t1 , . . . , tn ) R , X (t) = E e
=E e
=
ei<t,x> dPX (x)
Rd

o PX dsigne la loi de X.

Remarque 3.3.
1. La fonction caractristique de la variable alatoire X ne dpend que de la loi de X. Alors, si les variables
alatoires X et Y ont mme loi, elles ont mme fonction caractristique. Nous verrons que la rciproque
est vraie (voir thorme 3.10).
2. La fonction caractristique de X est un exemple de transforme de Fourier dune mesure. La notion de
transforme de Fourier est trs utile dans la plupart des sciences de lingnieur (physique, traitement du
signal, mcanique, mathmatiques,...) Elle peut tre dfinie pour des fonctions intgrables ou pour des
objets plus gnraux comme les distributions. Elle est notamment utilise pour rsoudre des quations
aux drives partielles (quation de la chaleur,...) ou encore pour compresser des signaux ou des images
(JPEG, MP3).
3. (a) Si X admet comme densit la fonction fX , alors
Z
X (t) =
eiht,xi fX (x)d (dx).
Rd

Dans ce cas, !X est la transforme de Fourier de la fonction fX .


P
(b) Si la loi de X est la loi discrte PX = nN an xn , alors
X (t) =

an eiht,xn i .

nN

En particulier, si xn = 2n
T pour tout n, X est une srie de Fourier, associe une fonction T priodique (dont les an sont les coefficients dit de Fourier).
Thorme 3.10 (Caractrisation de la loi dune variable alatoire).
Si deux variables alatoires X et Y ont mme fonction caractristique alors X et Y ont mme loi.

Remarque 3.4. Attention si X = Y , X nest pas a priori gale presque srement Y . En effet si X suit
une loi uniforme sur [0, 1], Y = 1 X suit encore une loi uniforme sur [0, 1]. En particulier X et Y ont mme
fonction caractristique. Il est clair que la variable X nest pas gale presque srement Y .
Le tableau suivant donne quelques exemples de fonctions caractristiques de lois classiques. Le lecteur est
encourag essayer de calculer ses fonctions, sauf celle de la loi gaussienne (le calcul se basant sur la thorie
des fonctions holomorphes, a priori non connue par le lecteur).

41

Loi de la v.a. X

Fonction caractristique de X

X (t) = 1 p + peit

Loi de Bernoulli
B(p)
avec p [0, 1]

Loi binomiale

X (t) = peit + 1 p

n

X (t) = peit + 1 p

n

B(n, p)
avec n N et p [0, 1]
Loi de Poisson
P()
avec R+
Loi gomtrique

X (t) =

peit
1 (1 p)eit

G(p)
de paramtre p ]0, 1[
Loi Uniforme


X (t) =

eit 1
it

si t 6= 0
1 si t = 0

U ([0, 1])

Loi Gaussienne
N (m, 2 ),



t2 2
X (t) = exp itm
2

o m R et R+
Table 3.1 Fonction caractristique de quelques lois classiques
Nous nonons prsent quelques proprits de la fonction caractristique.
Proposition 3.11.
Si X une variable alatoire relle de fonction caractristique X , alors la fonction X est uniformment
continue sur Rd , cest--dire que
> 0, > 0, (x, y) Rd Rd , kx yk 6 = |X (x) X (y)| 6 .
A fortiori X est continue sur Rd . De plus, elle est borne par 1.

42

Proposition 3.12 (Drivation dune fonction caractristique).


Considrons une variable alatoire relle X et notons X sa fonction caractristique.


1. Soit k N un entier tel que E |X|k < +. Alors X est k fois drivable et
 
X(k) (0) = ik E X k .
De plus, au voisinage de 0,
X (t) =

k
X
(it)n
n=0

n!

E(X n ) + o(|t|k ).

En particulier, si X est intgrable, alors X est drivable et E(X) = iX0 (0). De plus, si X est de
carr intgrable, alors X est deux fois drivable et E X 2 = X00 (0).

2. Si X est drivable (2p) fois, avec p N , alors E X 2p < + et
 
E X k = (i)k (k) (0)
pour tout entier 0 6 k 6 2p.

Remarque 3.5.



1. Lorsque E |X|k < +, le rel E X k est appel moment dordre k de X. Nous reviendrons sur cette
notion dans le chapitre 4.
2. La dmonstration de lassertion 1. de la proposition prcdente repose sur un des thormes clefs de lintgration : le thorme de convergence domine que nous noncerons dans le chapitre 6. Plus prcisment, ce
thorme permet en particulier dtudier la rgularit dune intgrale paramtre et dchanger les signes
drivations et intgration.


3. Il est possible que X soit (2p + 1) fois drivable avec p N et que E |X|2p+1 = +.
Appliquons la proposition prcdente pour la loi gaussienne centre rduite.
Corollaire 3.13.


Soit Z une variable alatoire de loi gaussienne rduite et centre. Alors pour tout k N, E |Z|k < +
et
(
 
(2p)!
si k = 2p avec p N
k
2p p!
E Z =
0 si k est impair

Preuve du corollaire 3.13. Laisse en exercice.

43

44

Chapitre 4

Espaces Lp et moments
Dans ce chapitre, nous tudions les espaces de variables alatoires dont la puissance pme est intgrable.
Considrant comme gales deux variables alatoires gales presque partout et p > 1, ces espaces sont des
espaces dit de Banach. Nous verrons aussi que lespace des variables de carr intgrable est un espace de Banach
muni dun produit scalaire, cest--dire un espace de Hilbert. Les espaces de Banach et de Hilbert sont des outils
essentiels de lanalyse fonctionnelle. En particulier, les espaces de Hilbert sont incontournables dans ltude des
quations aux drives partielles, en traitement du signal, en physique... Un des intrts de ces espaces est le
fait quil est possible de dfinir la notion de projection orthogonale, notion gnralisant un espace de Hilbert
quelconque celle connue par le lecteur par exemple dans R3 .
Prcisons que ce chapitre est loin de prsenter toutes les proprits intressantes des espaces de Banach et
de Hilbert. Il se focalise seulement sur la notion de moment, des ingalits classiques en probabilits et la notion
de projection orthogonale dans lespace des variables de carr intgrable.
Hypothses/Notations pour ce chapitre
(, F, P) est un espace de probabilits (qui ne sera, sauf exception, pas explicit) ;
Rd est muni de sa tribu borlienne.
Sauf mention du contraire, les variables alatoires considres sont dfinies sur (, F, P).
Nous considrerons que deux variables alatoires sont gales si et seulement si elles sont gales Ppresque srement : si X et Y sont deux variables alatoires telles que P(X = Y ) = 1, alors on crira
X = Y 1.

4.1
4.1.1

Espaces Lp et moments dune variable alatoire


Dfinitions et premires proprits

Dfinition 4.1 (Espaces Lp (, F, P)).


1. Pour tout p ]0, +[, Lp (, F, P) est lensemble des variables alatoires X dfinies sur lespace de
probabilits (, F, P) et valeurs dans R telles que
E (|X|p ) < .
2. L (, F, P) est lensemble des variables alatoires X dfinies sur lespace de probabilits (, F, P)
et valeurs dans R vrifiant
c > 0, tel que |X| 6 c P-presque srement.

45

Remarque 4.1. La notion despace Lp peut tre gnralise en remplaant dans les dfinitions prcdentes
la probabilit P par une mesure positive
lesprance E par lintgrale contre la mesure
le terme variable alatoire par fonction mesurable.
Les espaces ainsi introduits sont nots Lp (, F, ), p ]0, +]. Tous les rsultats de ce chapitre, lexception
de la proposition 4.2, de lingalit de Markov et de lingalit de Bienayme-Tchebytchef, restent vrais dans ce
cadre plus gnral.
Les espaces Lp (, F, P), p > 1, sont des espaces de Banach, notion introduite dans la dfinition suivante.
Pour ce chapitre, cette dfinition un peu technique peut tre omise en premire lecture, lessentiel tant de
retenir la dfinition des normes, le fait que Lp est un espace vectoriel et les ingalits classiques donnes en
section 4.1.2. Nanmoins, cette notion despace de Banach est importante notamment lorsque lon tudie la
convergence dune suite de variables alatoires (Xn )nN dans Lp (cf. chapitre 8).
Dfinition 4.2.
Soit E un espace vectoriel muni dune norme k k.
1. Une suite (un )nN dlments de E est dite de Cauchy de E si
> 0, n0 > 1 tel que n > n0 , m > 0, kun un+m k 6 .
2. Lespace vectoriel E muni de la norme k k est un espace de Banach si toute suite de Cauchy de E
converge.

Proposition 4.1.
Soit p [1, +]. Lespace Lp (, F, P) est un espace de Banach pour la norme k k dfinie sur Lp (, F, P)
par
(
kXkp = (E(|X|p ))1/p si p [1, +[,
kXk = inf{c > 0 tel que |X| 6 c presque srement}.

Remarque 4.2.
1. Pour p ]0, 1[, lapplication
X 7 (E(|X|p ))1/p
est bien dfinie mais nest pas une norme sur Lp (, F, P) car elle ne satisfait pas lingalit triangulaire.
2. Lhypothse consistant identifier les variables gales presque srement est cruciale pour tablir la proposition prcdente. En effet, elle assure que kXkp = 0 X = 0 P-presque srement.

Nous dfinissons maintenant la notion de moment dordre p dune variable alatoire, notion ayant un sens
pour les variables alatoires appartenant Lp (, F, P). Classiquement cette notion nest introduite que pour p
entier, mme si la dfinition propose aurait un sens pour tout p ]0, +[.
46

Dfinition 4.3 (Moment dune variable alatoire).



Soit X : (, F) R, B R une variable alatoire valeurs dans R et p N . La variable alatoire X
admet un moment dordre p si
E(|X|p ) < +,
Dans ce cas, le moment dordre p de X est le rel E(X p ).

Les moments dune variable gaussienne centre rduite ont t donns dans la proposition 3.13 du chapitre 3.
Rappelons que ces moments ont t obtenus en drivant la fonction caractristique. Noublions pas quun autre
thorme utile pour calculer un moment dune variable X est le thorme du transport, thorme permettant
dexprimer ce moment laide dune intgrale contre la loi de X. La section 4.3 contient des exemples de calculs
de moments pour les lois classiques.
Terminons par une comparaison entre les espaces Lp , assurant en particulier lexistence dun moment dordre
p < p0 lorsque X admet un moment dordre p0 .
Proposition 4.2.
0

Pour tous 0 < p 6 p0 6 + Lp (, F, P) Lp (, F, P). En particulier, si X admet un moment dordre


p0 > 1, alors elle admet un moment dordre p ]1, p0 ].

Remarque 4.3. Cette proposition est fausse si on remplace P par une mesure positive quelconque .
0

Dmonstration. Soient 0 < p 6 p0 6 + et X Lp (, F, P). On a


1|X|61 |X|p 6 1 et 1|X|>1 |X|p 6 |X|p

P-presque srement.

Or |X|p = 1|X|61 |X|p + 1|X|>1 |X|p 6 1 + |X|p , donc, par croissance et par linarit de lesprance,


0
E (|X|p ) 6 1 + E |X|p <
0

car X Lp (, F, P) par hypothse. Par suite, X Lp (, F, P). Nous avons tabli linclusion nonce. 

4.1.2

Ingalits

Cette partie nonce plusieurs ingalits classiques. Les ingalits de Hlder, Minkowski ou encore de Jensen
peuvent tre nonces dans le cadre plus gnral des espaces Lp (, F, ) o est une mesure positive quelconque.
Proposition 4.3 (Ingalit de Minkowski).
Soit p [1, +]. Si X et Y sont deux variables alatoires toutes deux valeurs dans [0, +] presque
srement ou sont toutes deux presque srement finies, alors
(E[|X + Y |p ])1/p 6 (E[|X|p ])1/p + (E[|Y |p ])1/p .

Remarque 4.4. Lingalit de Minskowski est simplement lingalit triangulaire satisfaite par la norme k kp .

47

Proposition 4.4 (Ingalit de Hlder).


Soient X et Y deux variables alatoires valeurs dans R.
1. Soit p ]1, +[. Considrons le rel q ]1, +[ tel 1/p + 1/q = 1 (autrement dit q = p/(1 p)).
Alors
E(|XY |) 6 (E(|X|p ))1/p (E(|Y |q ))1/q
Par suite, si X Lp (, F, P) et si Y Lq (, F, P), XY est intgrable.
En particulier si p = 2 (et donc q = 2), lingalit de Hlder est encore nomme ingalit de
Cauchy-Schwarz et scrit :
E(|XY |) 6 E X 2

1/2

E Y2

1/2

2. Supposons p = 1. Alors
E(|XY |) 6 E(|X|)kY k .
Par suite, si X Lp (, F, P) et si Y L (, F, P), XY est intgrable.
Lingalit de Hlder permet dtablir un comparaison entre le moment dordre p et celui dordre p0 > p
lorsquils existent.
Corollaire 4.5.
Pour tous 1 6 p 6 p0 6 + et toute variable alatoire X valeurs dans R, on a
kXkp 6 kXkp0 .

(4.1)

Remarque 4.5. Cette proposition est fausse si on remplace P par une mesure positive quelconque .
Dmonstration. Soient 1 6 p 6 p0 6 + et X une variable alatoire. Daprs lingalit de Hlder,
1p/p0

 0

 0 
1
0 p/p
0 p/p
= E |X|p
E (|X|p ) = E (|X|p 1) E |X|p
.
E 1 1p/p0
La fonction x 7 x1/p tant croissante sur R+ , on en dduit que

 0
0 1/p
E (|X|p )1/p E |X|p
,
ce qui permet de conclure.
Proposition 4.6 (Ingalit de Jensen).
1. Pour toute fonction convexe : R+ R+ et toute variable alatoire X valeurs dans R+ ,
(E(X)) 6 E((X)).

(4.2)

2. Si X L1 (, F, P) et si : R R est une fonction convexe telle que (X) L1 (, F, P), alors


(E(X)) 6 E((X)).

48

(4.3)

Proposition 4.7 (Ingalit de Markov).


Si X est une variable alatoire valeurs dans [0, +] presque srement et si R+ , alors,
P(X > ) 6

E(X)
.

Dmonstration. Soit R+ . Remarquons que


X > 1{X>} > 0
presque srement. Alors,

E(X) > E 1{X>} = P(X > ),


ce qui prouve lingalit de Markov.


Proposition 4.8 (Ingalit de Bienayme-Tchebytchef).
Soit X une variable alatoire admettant un moment dordre 2. Alors, pour tout ]0, +[,
P(|X E(X)| > ) 6

Var (X)
,
2


o Var (X) = E |X E(X)|2 .

Dmonstration. Posons Y = |X E(X)|. Alors Y > 0 et




{|X E(X)| > } = {Y > } = Y 2 > 2 .
Daprs lingalit de Markov applique la variable Y 2 ,
2

P(|X E(X)| > ) = P Y >


E Y2
6
,
2


ce qui prouve lingalit de Bienayme-Tchebytchef car E Y 2 = Var (X).

4.2
4.2.1

Le cas particulier de lespace L2


L2 en tant quespace de Hilbert

Dans cette section, nous nous intressons plus particulirement lespace L2 (, F, P). Nous savons que cet
espace est un espace de Banach pour la norme k k2 dfinie par
X L2 (, F, P), kXk2 = E X 2

1/2

Cette norme est en fait associe au produit scalaire h, i dfini par


Z
2
X, Y L (, F, P), hX, Y i =
XY dP = E(XY ),

ce qui fait de lespace de L2 (, F, P) un espace de Hilbert. Notons tout dabord que lingalit de Hlder pour
p = q = 2 justifie que h, i est bien dfini. La dfinition suivante prcise les notions de produit scalaire et
despace de Hilbert. Le lecteur pourra vrifier que ces proprits sont bien satisfaites lorsque h, i est dfini
comme ci-dessus.
49

Dfinition 4.4.
Soit E un K-espace vectoriel avec K = R ou C.
1. Une application h, i : E E K est un produit scalaire sur E si elle satisfait les trois assertions
suivantes :
(i) elle est linaire en sa premire variable, cest--dire que pour tous a, b K et tous x, y, z E,
hax + by, zi = ahx, zi + bhy, zi
(ii) pour tous x, y E, hx, yi = hy, xi
(iii) hx, xi = 0 = x = 0.
La norme k k associe un produit scalaire h, i est dfinie par
kxk = (hx, xi)1/2 , x E
2. Lespace E muni du produit scalaire h, i est un espace de Hilbert si il est un espace de Banach
pour la norme associe ce produit scalaire.

Rappelons dans un premier temps lingalit de Cauchy-Schwarz, qui nest autre que lingalit de Hlder
dans le cas p = 2.
Proposition 4.9 (Ingalit de Cauchy-Schwarz).
Soient X, Y L2 (, F, P) deux variables alatoires valeurs relles de carr intgrable. Alors XY est
intgrable et
p
p
|E(XY )| 6 E(|XY |) 6 E(X 2 ) E(Y 2 ).
De plus, il y a galit dans lquation ci-dessus si et seulement si X = Y (presque srement).

La fin de cette premire partie sur lespace L2 est consacre aux notions de base orthonormale et de projection
orthogonale, notions qui font en particulier le succs des espaces de Hilbert.
Thorme 4.10 (Projection orthogonale).
Soit X L2 (, F, P) et F un sous-espace vectoriel ferm de L2 (, F, P). Alors il existe une unique
variable alatoire PF (X) F telle que
kX PF (X)k2 = inf kX Zk2 ,
ZF

ou, de manire quivalente, telle que




E (X PF (X))2 = inf E (X Z)2 .
ZF

De plus, PF (X) est lunique variable alatoire de F telle que


hX PF (X), Zi = 0, Z F,
ou, de manire quivalente, telle que
E ((X PF (X)) Z) = 0, Z F.
50

La variable alatoire PF (X) est appel le projet orthogonal de X sur F . Lapplication PF : L2 F


est appele la projection orthogonale sur F ou le projecteur orthogonal sur F . Il sagit dune
application linaire.

Remarque 4.6. Le thorme prcdent stend nimporte quel espace de Hilbert E.


Exemple 4.1. Soient X et Y deux variables alatoires de carr intgrable. Lensemble
F = {a + bY, a R, b R}
est le sous-espace vectoriel ferm de L2 engendr par 1 et Y . Dans cette situation, dterminer PF (x) revient
dterminer la variable alatoire a0 + b0 Y avec a0 , b0 R choisis de sorte que


E (X (a0 + b0 Y ))2 = min E (X (a + bY ))2 .
a,bR

Autrement dit, cela revient dterminer la meilleure approximation de X (au sens de k k2 ) par une fonction
affine de Y .
Pour pouvoir utiliser ce rsultat en pratique, il nous reste apprendre calculer PF (x), ce qui est le sujet de
la suite de cette section.
Proposition 4.11.
Soit I N. Considrons (Xk )kI un systme orthonormal de L2 (, F, P), cest--dire une famille de
variables alatoires de L2 (, F, P) telle que
k, l I, E(Xk2 ) = kXk k22 = 1 et E(Xk Xl ) = hXk , Xl i = 0.
Considrons F = Vect(Xk , k I) le sous-espace vectoriel ferm de L2 (, F, P) engendr par (Xk )kI .
Alors, pour tout X L2 (, F, P), la projection orthogonale de X sur F est
X
X
PF (X) =
hX, Xk i Xk =
E(XXk ) Xk .
kI

kI

De plus,
E(PF (X)2 ) =

X
X
hX, Xk i2 =
E(XXk )2 E(X 2 ),
kI

kI

avec galit si et seulement si X = PF (X) presque srement.

Remarque 4.7. Le thorme prcdent stend nimporte quel espace de Hilbert E.


Remarque 4.8. En pratique, on dispose souvent dune base de F qui nest pas orthonormale (comme dans
lexemple 4.1 ci-dessus). Dans ce cas, on utilise le procd dorthonormalisation de Gramm-Schmidt pour poursuivre. Rappelons ce procd sur un exemple : si F = Vect(X1 , X2 ) avec X1 et X2 non colinaires, alors la
famille (Y1 , Y2 ), dfinie par
Y1 =

X1
X1
X2 hX2 , Y1 iY1
X2 E(X2 Y1 ) Y1
p
=p
et
Y
=
=
2
kX1 k2
kX2 hX2 , Y1 iY1 k2
E((X2 E(X2 Y1 ) Y1 )2 )
E(X12 )

est une base orthonormale de F .


51

Exemple 4.2. Reprenons lexemple 4.1, o F = Vect(1, Y ). Dans ce cas, la famille (Y1 , Y2 ), dfinie par
1
Y E(Y 1) 1
Y E(Y )
Y1 = p
= 1 et Y2 = p
=
2
2
Var Y
E(1 )
E((Y E(Y 1)) )
est une base orthonormale de F . Daprs la proposition 4.11, le projet orthogonal de X sur F est donc donn
par


Y E(Y ) Y E(Y )

PF (X) = E(X 1) 1 + E X
.
Var Y
Var Y
En dveloppant le calcul, on obtient donc
PF (X) = E(X)

Cov(X, Y )
Cov(X, Y )
E(Y ) +
Y.
Var Y
Var Y

Remarque 4.9. On peut gnraliser lexemple 4.2 ci-dessus au cas o lon souhaite approximer X par une
combinaison linaire de plusieurs variables alatoires Y1 , Y2 , ..., Yn . On parle alors de rgression linaire.

4.2.2

Covariance et corrlation

Intressons-nous prsent aux notions de covariance et variance.


Dfinition-Proposition 4.12 (Covariance/Variance).
Soient X, Y L2 (, F, P).
1. Alors, la quantit
Cov(X, Y ) = E[(X E(X))(Y E(Y ))]
est bien dfinie et est appele covariance entre X et Y .
2. Les variables alatoires X et Y sont dites dcorrles si Cov(X, Y ) = 0.
3.
La covariance Cov(X, X) est encore appele variance de X et note VarX. Enfin, le rel positif
VarX est appel cart-type de X.

Remarque 4.10. Soient X, Y L2 (, F, P).


1. La covariance est symtrique : Cov(X, Y ) = Cov(Y, X).
2. Soit X une variable constante presque srement. Alors X = E(X) presque srement. Par suite, quel que
soit Y , Cov(X, Y ) = 0. Ainsi la variable X est dcorrle de toute autre variable Y L2 (, F, P) (et donc
en particulier delle-mme).
3. La covariance est dtermine par la loi du couple (X, Y ).
Donnons prsent quelques proprits.
Proposition 4.13.
Soient X, Y L2 (, F, P)
1. X est constante presque srement si et seulement si VarX = 0.
2. Pour tout a R,
Var(aX) = a2 VarX, Var(X + Y ) = VarX + VarY + 2 Cov (X, Y ) et Var(X + a) = VarX.

3. Enfin, Cov(X, Y ) = E(XY ) E(X) E(Y ). En particulier, VarX = E X 2 (E(X))2 .
52

Dmonstration. Laisse en exercice


Remarque 4.11. Si X1 , . . . , Xn sont toutes dans L2 (, F, P), alors
Var

n
X

!
Xi

i=1

n
X

Var (Xi ) +

i=1

Cov (Xi , Xj ) =

n
X

Var (Xi ) + 2

i=1

i6=j

Cov (Xi , Xj ).

16i<j6n

Terminons cette partie en introduisant le coefficient de corrlation linaire entre deux variables.
Dfinition 4.5 (Coefficient de corrlation linaire).
Soient X, Y L2 (, F, P). Supposons que X et Y ne sont pas presque srement constantes, cest--dire
supposons que


E X 2 < +, E Y 2 < +, Var (X) > 0 et Var (Y ) > 0.
Le coefficient de corrlation linaire entre X et Y est le rel
Cov(X, Y )
p
XY = p
.
Var (X) Var (Y )

La proposition suivante justifie la terminologie corrlation linaire .


Proposition 4.14.
Soient X, Y deux variables alatoires valeurs dans R. Supposons que X, Y L2 (, F, P) et que X et Y
ne sont pas constantes, cest--dire supposons que


E X 2 < +, E Y 2 < +, Var (X) > 0 et Var (Y ) > 0.
Notons XY le coefficient de corrlation linaire entre les variables X et Y .
1. Alors, |XY | 6 1.
2. De plus, en posant F = Vect(1, Y ),


X E(X)
Y E(Y )

PF
= XY
.
Var X
Var Y
3. Enfin, XY = 1 (respectivement XY = 1) si et seulement si il existe (a, b) R+ R tel que
Y = aX + b (respectivement Y = aX + b).

Dmonstration.
1. Daprs lingalit de Cauchy-Schwarz,
|Cov(X, Y )| = |E((X E(X))(Y E(Y ))|

p
p

E ((X E(X))2 ) E ((Y E(Y ))2 ) = Var X Var Y .

Par consquent, |XY | 6 1.


2. Il sagit dune simple consquence de la formule obtenue dans lexemple 4.2 et de la linarit de PF .
53

3. Supposons que |XY | = 1. Alors



E PF

X E(X)

Var X

2 !


=E

Y E(Y )

Var Y

2 !


=1=E

X E(X)

Var X

2 !
.

Nous dduisons donc de la dernire partie de la proposition 4.11 (cas dgalit), que


X E(X)
X E(X)
Y E(Y )

= XY
= PF
.
Var X
Var X
Var Y
Par consquent, si XY = 1 (respectivement XY = 1), alors il existe (a, b) R+ R tel que
Y = aX + b (respectivement Y = aX + b).
Rciproquement, supposons quil existe (a, b) R+ R tel que Y = aX + b. Alors X F , donc
PF (X) = X. Or PF (1) = 1, donc, par linarit de PF ,


X E(X)
Y E(Y )
X E(X)

= XY
= PF
.
Var X
Var X
Var Y
Or on vrifie aisment que Y = aX + b avec a R+ implique
Y E(Y )
X E(X)

=
.
Var Y
Var X
On en dduit que XY = 1.
De mme, si Y = aX + b avec a R+ , on vrifie que
Y E(Y )
X E(X)

=
Var Y
Var X
et on en dduit que XY = 1.

4.3

Calculs de moments

Le tableau suivant donne le moment dordre 1 et la variance de chacune des lois classiques. Suite ce tableau,
vous trouverez les calculs justifiant ces valeurs.

54

Loi de la v.a. X

Esprance

Loi binomiale

Variance

np

np(1 p)

1
p

1p
p2

a+b
2

(b a)2
12

B(n, p)
avec n N et p [0, 1]
Loi de Poisson
P()
avec R+
Loi gomtrique
G(p)
de paramtre p ]0, 1[
Loi Uniforme
U ([a, b])

Loi Exponentielle
E()
avec R+
Loi Gaussienne
N (m, 2 ),
o m R et R+

Table 4.1 Esprance et variance de quelques lois classiques


Calcul pour les lois binomiales
Soit X une variable alatoire de loi binomiale B(n, p) avec n N et p [0, 1].
Par dfinition
n
n
X
X
k
k1 k
k k
E(X) =
kCn p (1 p) = n
Cn1
p (1 p)nk
k=0

k=1

k1
car nCn1
= kCnk pour 1 6 k 6 n. Alors,

E(X) = n

n1
X

l
Cn1
pl+1 (1 p)nl = pn

l=0

daprs la formule du binme de Newton.


55

Au lieu de calculer lesprance du carr de X on value E[X(X 1)]. Alors, daprs le thorme du
transport,
n
n
X
X
k
k2 k
k k
E(X(X 1)) =
k(k 1)Cn p (1 p) = n(n 1)
Cn2
p (1 p)nk
k=0

k=2


2

Si n = 1, alors E(X(X 1)) = 0 et donc E X = E(X) = p car X 2 = X(X 1) + X. Par consquent,


si n = 1
VarX = p p2 = p(1 p).
Supposons maintenant n > 2. Alors,
E(X(X 1)) = n(n 1)

n2
X

k
Cn2
pk+2 (1 p)nk2 = n(n 1)p2 .

k=0


Alors, E X 2 = n(n 1)p2 + pn et VarX = n(n 1)p2 + pn p2 n2 = np(1 p).

Calcul pour les lois de Poisson


Soit X une variable alatoire de loi de Poisson de paramtre R+ .
Par dfinition,
E(X) =

X n
nP(Y = n) =
n e = e
n!

n>0

= e

n>0

X
n>1

n
(n 1)!

!
= e

X n1
(n 1)!

n>1

e = .

Au lieu de calculer lesprance du carr de X on value E[X(X 1)].


!
X
X n
n
E[X(X 1)] =
n(n 1) e = e
= 2 e
n!
(n 2)!
n>0
2

n>2

X n2
(n 2)!

n>2

= e

e = .

Mais X 2 = X(X 1) + X donc E X 2 = 2 + E[X] = 2 + et Var (X) = + 2 2 = .

Calcul pour les lois gomtrique


Soit X une variable alatoire de loi gomtrique G(p) avec p ]0, 1[. Pour le calcul de lesprance et la
variance de X on procde comme pour la loi de Poisson, on value directement E(X) puis E[X(X 1)].
On utilise les identits suivantes :
X
1
xn =
; pour tout x ] 1, 1[.
(4.4)
1x
n>0

d
dx
d2
dx2

!
X

xn

n>0

X
n>1

nxn1 =

1
; pour tout x ] 1, 1[
(1 x)2

!
X
n>0

xn

n(n 1)xn2 =

n>2

2
; pour tout x ] 1, 1[
(1 x)3

(4.5)

(4.6)

On en dduit que

1
2(1 p)
2
1
1p
E(X) = , E[X(X 1)] =
, E X2 = 2
et Var (X) =
.
2
p
p
p
p
p2

56

Calcul pour la loi uniforme sur [a, b]


Soit X une variable alatoire de loi uniforme sur [a, b] (avec a, b R tel que a < b), cest--dire une
variable alatoire de loi absolument continue ayant pour densit la fonction f dfinie sur R par
f (x) =

1
1 (x).
b a [a,b]

Daprs le thorme du transport,


1
E(X) =
ba
Do Var (X) =

Z
a

a+b
xdx =
2

et E X

1
=
ba

x2 dx =

b2 + ab + a2
.
3

b2 + ab + a2 (a + b)2
(b a)2

=
.
3
4
12

Calcul pour les lois exponentielles


Soit X une variable alatoire relle de loi exponentielle de paramtre > 0, cest--dire de loi absolument
continue ayant pour densit la fonction f dfinie sur R par
x R, f (x) =

ex/
1]0,+[ (x).

La variable alatoire Y = X / suit une loi exponentielle de paramtre un.


tant donn que X = Y , E(X ) = E(Y ) et Var(X ) = 2 Var (Y ). Il suffit par consquent de calculer
lesprance et la variance lorsque = 1. Pour = 1,
Z
Z

E(X1 ) =
x ex 1 (dx) et E X12 =
x2 ex 1 (dx).
]0,+[

]0,+[

Les fonctions intgres tant continues, en procdant par intgrations par parties, on constate que
Z +
Z +

x
2
E(X1 ) =
e dx = 1 et E X1 = 2
x ex dx = 2.
0

On en dduit Var(X1 ) = 1.

Calcul pour les lois gaussiennes



Soit X une variable de loi N m, 2 . Nous savons que Y =
et a pour
densit par rapport 1 la fonction

Xm

suit une loi gaussienne centre rduite

f : R R
2
x 7 12 ex /2 .
En utilisant la parit de f , on montre facilement que Y est centre et donc par linarit de lesprance
que E(X) = m.
Par ailleurs,
Z
Z

1
1
2
2
2 t2 /2
t e
1 (dt) =
t(tet /2 )1 (dt).
E Y =
2 R
2 R
En remarquant que lintgrale prcdente au sens de Lebesgue concide avec lintgrale au sens de Riemann
et en utilisant une intgration par parties,
h

Z +
i+ Z +

1
1
2
2
2
E Y2 =
tet /2
+
et /2 dt =
et /2 dt = 1.

2
2

57


Par consquent, Y admet un moment dordre 2 et Var Y = E Y 2 (E(Y ))2 = 1. tant donn que
X = Y + m,
X admet ausssi un moment dordre 2 et Var X = 2 Var Y = 2 .

58

59

et p [0, 1]

avec p ]0, 1[

G(p)

avec
Loi Gomtrique

R+

P()

Loi de Poisson

avec n

B(n, p)

avec p [0, 1]
Loi Binomiale

B(p)

Loi de la v.a. X
Loi de Bernoulli

PX =
k=1

p(1 p)k1 k

k=0

k!

nk

p (1p)

+ k
X
e

+
X

PX =

k=0

n  
X
n

PX = (1 p)0 + p1

PX =

PX

1
p

np

1p
p2

np(1 p)

p(1 p)

Esprance Variance

X (t) =

n

peit
1 (1 p)eit

it 1)

X (t) = e(e

X (t) = 1 p + peit

X (t) = 1 p + peit

Fonction Caractristique

Annexe A

Lois classiques

60

Loi de Cauchy

avec R+

E()

Loi Exponentielle

U ([0, 1])

Loi Uniforme

o m R et

R+

(xm)2
2 2

1
fX (x) =
(1 + x2 )

ex/
fX (x) =
1R+ (x)

fX (x) = 1[0,1] (x)

2 2

N (m, 2 ),

fX (x) =

Densit de PX

Loi de la v.a. X
Loi Gaussienne

nexiste pas

1
2

Esprance

nexiste pas

1
12

Variance
x

Z
fX (t)1 (dt)

0 si x < 0
1 ex/ si x > 0

1 arctan(x)
FX (x) = +
2

FX (x) =

0 si x < 0
x si x [0, 1]
FX (x) =

1 si x > 1

FX (x) =

Fonction de rpartition

2 x2
2

X (x) = e|x|

1
1 ix

si x 6= 0
1 si x = 0

eix 1
ix

X (x) =

X (x) =

X (x) = eimx

Fonction Caractristique

Bibliographie
[1] Barbe, P. et Ledoux, M. Probabilits, De la licence lagrgation. Belin, 1998.
[2] Bouleau, N. Probabilits de lingnieur, variables alatoires et simulation. 2nde dition. Hermann, 2002.
[3] Briane, M. et Pages, G. Thorie de lintgration. Vuibert, 2006.
[4] Foata, D. et Fuch, A. Calcul des probabilits. 2nde dition. Dunod, 2003.
[5] Garet, O. et Kurtzmann, A. De lintgration aux probabilits. Ellipses, 2011.
[6] Neveu, J. Bases mathmatiques du calcul des probabilits. Masson, 1970.
[7] Rudin, W. Analyse relle et complexe. 3me dition. Dunod, 1998.
[8] Rudin, W. Principe danalyse mathmatique. Dunod, 2002.
[9] Revuz, D. Mesure et intgration. Hermann, 1997.
[10] Revuz, D. Probabilits. Hermann, 1997.
[11] Wagschal, C. Drivation, intgration. Hermann, 1999.

61