Chapitre 2

Master/SMA/S1/2023-2024. Cours de Probabilités avancées.
October 16, 2023

Cours de Probabilités Chapitre 2
B. Boufoussi, Département de Mathématiques, FSSM,
email: boufoussi@uca.ac.ma
2
Contents
1 Variables aléatoires 5
1.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Variables aléatoires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Loi d'une variable aléatoire. . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Variables discrètes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Variables aléatoires absolument continues. . . . . . . . . . . . . . . 9
1.4 Espérances et moments des variables aléatoires. . . . . . . . . . . . . . . . 13
1.4.1 Espérance mathématique d'une v.a.r. . . . . . . . . . . . . . . . . . 13

1.4.2 Propriétés d'une espérance mathématique. . . . . . . . . . . . . . . 14
1.4.3 Moments. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.4 Inégalités classiques. . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5 Variables indépendantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.6 Transformtions de variables aléatoires. . . . . . . . . . . . . . . . . . . . . 26
1.6.1 Loi d'une variable fonction d'une autre. . . . . . . . . . . . . . . . . 28
1.6.2 Covariance, matrice de disperssion . . . . . . . . . . . . . . . . . . 31
3
4
CONTENTS
Chapter 1
Variables aléatoires
1.1 Introduction.
Généralement, l'étude d'un phénomène aléatoire se fait à travers des valeurs pouvant le
caractériser. Autrement dit, la détermination compléte de "l'aléa", à savoir l'ensemble
Ω, n'est en générale pas nécessaire pour faire une étude probabiliste ou statistique d'un
phénomène aléatoire.
Par exemple le nombre de clients qui arrivent dans une le d'attente, le temps de service
et le temps d'attente de chaque client, sont des valeurs qu'on peut qualier d'aléatoire,
car non prévisible à l'avance, et qui permettent d'étudier l'état d'une le d'attente sans

la détermination d'un espace fondamental correspondant Ω.
Donnons des exemples simples:
Exemple 1.1.1. 1) On tire au hasard une main de quatre cartes dans un jeu de 52
cartes. On s'interesse au nombre d'as obtenu. Ici on peut décrire complétement Ω;
c'est l'ensemble des combinaisons de quatre cartes prises parmi 52 cartes. On dénit
l'application
Ω −→ R
ω 7−→ X(ω) = nombre d'as dans ω
X est une variable dont on ne peut prévoir la valeur à l'avance, elle est donc dite aléatoire.
Elle est à valeurs dans l'ensemble {0, 1, 2, 3, 4}.
2) La durée de vie d'une ampoule électrique est une variable qui est aléatoire et qui prend
ses valeurs dans l'ensemble R+ .
3)Etude de la concentration de pesticides (X1 ) utilisee sur un domaine agricole et la
concentration en nitrates (X2 ) des eaux souterraines au niveau du champ. Pour étudier
le lien entre ces deux valeurs, il est utile de considérer le vecteur (X1 , X2 ).
4) La position d'une particule qui évolue dans un environnement peut être représentée par
un vecteur (X, Y, Z) où X, Y et Z sont des variables aléatoires à valeurs réelles.
5
6 CHAPTER 1. VARIABLES ALÉATOIRES
1.2 Variables aléatoires.
Pour motiver la dénition qui va suivre, prenons l'exemple de la durée de vie d'une
ampoule, qu'on note par T . On sera amené, par exemple, à déterminer la probabil-
ité de "l'événement" {ω : T (ω) ≥ t} pour t ∈ R+ . Mais pour le faire il faut déjà que
{ω : T (ω) ≥ t} soit un événement.
Soient (Ω, F, P) un espace de probabilités et (E, T) un espace mesurable.
Dénition 1.2.1. Tout application X : Ω −→ E , F − T mesurable est dite variable

aléatoire. On notera v.a. pour abréger.
Si E = R̄, T = B(R̄), alors X est une variable aléatoire dite réelle (on utilisera
l'abréviation v.a.r.).
Si E = Rd , T = B(Rd ), où d ≥ 1, alors X est un vecteur aléatoire. Dans ce cas, on a
X(ω) = (X1 (ω), . . . , Xd (ω))t ,
où on a considéré X comme étant un vecteur colonne de composantes (Xi )1≤i≤d . Par

la suite on se permettra d'oublier le symbole de la transposition pour alléger l'écriture.

Notons qu'il n'est pas dicile de montrer que X est un vecteur aléatoire si et seulement
si ses composantes sont des v.a.r.
Si E = C, T = B(C), alors X est dite variable aléatoire complexe et on a X = X1 + iX2 ,
où X1 et X2 sont des v.a.r.

Rappelons que pour montrer qu'une applications X : Ω −→ Rd est une v.a., il sut de
montrer que [X ∈ B] ∈ F pour tout B ∈ C, où C est une classe qui engendre la tribu
borélienne B(Rd ). En particulier on a
Proposition 1.2.1. X : Ω −→ Rd est une v.a., ssi
{X1 ≤ x1 , . . . , Xd ≤ xd } ∈ F, ∀(x1 , . . . , xd ) ∈ Rd ,
où X1 , . . . Xd sont les composantes du vecteur X .
En eet, la classe C := ×di=1 (−∞, xi ] , (xi )1≤i≤d ∈ R engendre la tribu borélienne

B(Rd ) et on utilise le fait que σ(X −1 (C)) = X −1 (σ(C))
Exercice 1.2.1. Montrer que l'ensemble des v.a.r. est une algèbre.
Exercice 1.2.2. Soit (Xn , n ≥ 1) une suite de v.a.r
1) Montrer que lim sup Xn et lim inf Xn sont des v.a.r. et que l'ensemble
n n

ω : lim sup Xn (ω) = lim inf Xn (ω)
n n
est un événement.
2) Soit T : Ω −→ N une v.a. Montrer que Y , déni par Y (ω) = XT (ω) (ω), est une v.a.
1.3. LOI D'UNE VARIABLE ALÉATOIRE. 7
Dénition 1.2.2. Soit X : Ω −→ E une v.a.

L'ensemble σ(X) := {X −1 (B) , B ∈ T} est une sous tribu de F, appelée la tribu engendrée
par X , et c'est la plus petite tribu (au sens de l'inclusion) rendant mesurable X .
∆
Nous noterons par la suite [X ∈ B] pour désigner X −1 (B)= {ω ∈ Ω : X(ω) ∈ B}
Exemple 1.2.1. Soit A ∈ F, si X = IA alors σ(X) = σ(A).

Proposition 1.2.2. Une v.a. n-dimensionelle Y est σ(X)−mesurable si et seulement si
il existe une fonction borélienne f : Rd −→ Rn telle que Y = f (X).
Preuve. (Voir TD)
1.3 Loi d'une variable aléatoire.
Dénition 1.3.1. Soit X : Ω −→ Rd une v.a.. La mesure image de P par X , notée PX ,

est une mesure de probabilité sur (Rd , B(Rd ) appelée loi de probabilité de la variable X .
On a donc pour tout B ∈ B(Rd ),
PX (B) = P (X ∈ B) = P X −1 (B) .

PX est bien une mesure de probabilité sur (Rd , B(Rd ). En eet

PX (Rd ) = P(Ω) = 1
Soit (Bn )n≥1 une famille d'éléments de B(Rd ) deux à deux incompatibles, on a
(⋆) X
PX (∪n Bn ) = P X −1 (∪n Bn ) =P ∪n X −1 (Bn ) = PX (Bn ) .
n
Pour l'égalité (⋆) voir l'exercice ci-dessous.
Exercice 1.3.1. On considère E et F , deux ensembles non vides quelconque, et soit

X : E −→ F une application. On dénit l'application X −1 : P(F ) −→ P(E) donnée par
X −1 (B) = {e ∈ E : X(e) ∈ B} , ∀B ⊂ F .
Soit (Bj )j∈J une famille quelconque de parties de F .

1. Montrer que X −1 (∩j Bj ) = ∩j X −1 (Bj ) et X −1 (∪j Bj ) = ∪j X −1 (Bj ) .
2. Si B et C sont deux parties disjoints de F alors X −1 (B) et X −1 (C) sont aussi
disjointes.
3. Montrer que X (X −1 (B)) = B , pour tout B ⊂ F et que A ⊂ X −1 (X(A)), pour tout
A ⊂ E.
Remarquons que la loi de X est déterminée par la restriction de P sur σ(X). Donc les
événements observés de F en dehors de ceux liés à X ne sont pas utils pour déterminer
la loi de X .
Dénition 1.3.2. Deux variables aléatoires X et Y , éventuellement dénies sur deux

espaces de probabilités diérents, à valeurs dans le même espace Rd , sont dites identique-
ment distribuées (ou équidistribuées et on écrit pour abréger i.d.) si PX = PY , dans ce
L
cas on notera X =Y .
La connaissance de la loi du vecteur X , appelée aussi loi conjointe du vecteur permet de
déterminer les lois respectives (PXi )1≤i≤d de toutes les composantes du vecteur X1 , . . . Xd ,
appelées lois marginales du vecteur. En eet pour tout borelien A ∈ B(R), on a
PXi (A) = PX Ri−1 × A × Rd−i .

De même la loi conjointe permet aussi de déterminer les lois de tous les vecteurs (Xi1 , . . . , Xik )
avec 1 ≤ i1 < i2 < . . . < ik ≤ d. Par ailleurs, la seule connaissance des lois PXi ne permet
pas en générale de déterminer la loi conjointe du vecteur X .
1.3.1 Variables discrètes.
Une variable aléatoire X est dite discrète si l'image de Ω par X est dénombrable. Pour
xer les idées, supposons que X(Ω) = {xk , k ∈ I}, où I est un ensemble d'indice dénom-

brable. On a pour tout B ∈ B(Rd ),
X −1 (B) = ∪k∈I : xk ∈B {X = xk } .
X
Si on note pk = P [X = xk ], on obtient PX (B) = pk . Ce qui veut dire que la loi
k∈I : xk ∈B
de X est donnée par X
PX = p k δx k ,
k∈I
où δx (B) = IB (x), pour tout B ∈ B(R ). Voici les exemples les plus classiques:
d
1. La loi de Bernoulli de paramètre p ∈ (0, 1), qu'on notera par B(p), est la loi de
probabilité
µ = p δ1 + (1 − p) δ0 .
Elle modélise des phénomènes aléatoires à deux issues: "echec" et "réussite".
2. La loi Binômiale de paramètres n ≥ 1, p ∈ (0, 1), B(n, p) est la mesure de probabilité

n
X
µn,p = Cnk pk (1 − p)n−k δk .
k=0
Elle décrit le nombre de "réussites" obtenues en répétant, dans les mêmes conditions,
n fois une expérience à deux issues.

3. La loi de Poisson de paramètre λ > 0, qu'on notera par P(λ), est la mesure de
probabilité donnée par
X λk
µλ = e−λ δk .
k! k∈N
On l'utilise pour décrire les événements rares; accidents d'avion, défauts de fabrica-
tion dans une chaîne de production.
4. La loi multinomiale sur Rd , notée B(n, p1 , p2 , . . . pd ), où p1 + p2 + . . . pd = 1, est la

probabilité
X n!
µ= pn1 1 pn2 2 . . . pnd d δn1 ,n2 ,...nd .
n
n +...n =n 1
! n 2 ! . . . nd !
1 d
1.3.2 Variables aléatoires absolument continues.
1.3.2.1 Densité de probabilité.

Soit µ et ν deux mesures positives sur Rd . rappelons que µ est dite être absolument
continue par rapport à ν et on note µ ≪ ν si pour tout B ∈ B(Rd ),
ν(B) = 0 =⇒ µ(B) = 0 .
Dans ce cas d'après le théorème classique de Radon-Nikodym, il existe une fonction h :

Rd −→ R+ borélienne, telle que dµ = h dν . h est appelée la densité de µ par rapport à
ν et elle est unique à un ν−négligeable près.
Dénition 1.3.3. Une v.a. X est dite absolument continue si PX ≪ λ, où λ est la mesure
dP
de Lebesgue sur Rd . La densité de Radon-Nikodym fX = X est appelée densité de la
dλ
variable aléatoire X .
Z
Dénition 1.3.4. Toute fonction borélienne p : R −→ R+ telle que
d
p(x) dλ(x) = 1
Rd
est appelée densité de probabilité.
Exemple 1.3.1. On se contentera ici de rappeler quelques exemples classiques:
1
1. Soit B ∈ B(Rd ) tel que λ(B) > 0, la fonction p(x) = IB est une densité de
λ(B)
probabilité sur Rd dite loi uniforme sur B , qu'on notera U(B).
(x − m)2
1 −
2. Soient σ > 0 et m ∈ R, la fonction fσ,m (x) = √ e 2σ 2 est une densité de
2πσ
probabilité appelée la loi normale (ou gaussienne) notée N(m, σ2 ).
3. Soit λ > 0, la loi exponentiel de paramètre λ est la loi de probabilité de densité
fλ (x) = λ e−λx IR+ (x), on la note E(λ).
4. Soit α, β > 0, la loi Gamma, notée Γ(α, β) est la loi de probabilité de densité
β α α−1 −βx
fα,β (x) = x e IR+ (x).
Γ(α)
1
5. La loi de Cauchy a pour densité f (x) = .
π (1 + x2 )
1.3.2.2 Fonction de répartition.

Soit X une v.a.r., la connaissance de la loi PX sur la classe C := {(−∞, x] , x ∈ R}
entraîne la détermination de PX sur la semi algèbre
S = {R , ∅, ] − ∞, a], ]b, +∞[, ]a, b], a < b ∈ R} ,
et par suite sur l'algèbre de Borel
AR = {∪i∈I Ai | Ai ∈ S , Ai ∩ Aj = ∅, ∀i ̸= j et|I| < ∞}
PX étant nie elle s'étend de façon unique (Caratheodory-Haan) en une unique mesure
de probabilité sur (R, B(R)).

il est donc clair que la loi PX de X est complètement déterminée par le calcul de PX (C)
pour C ∈ C. Par les mêmes arguments nous déduisons pour le cas des variables vectorielles
X à valeurs dans Rd et on a la dénition suivante:

Dénition 1.3.5. On appelle fonction de répartition de la variable aléatoire X , la fonc-
tion réelle FX : Rd −→ R+ dénie par
P X −1 ×di=1 (−∞, xi ] ,

FX (x1 , . . . , xd ) =
= P [X1 ≤ x1 , X2 ≤ x2 , . . . Xd ≤ xd ]
La fonction FX détermine complétement la loi de X .

Par la suite on va utiliser aussi le mot 'loi' pour désigner la "fonction de répartition"
d'une v.a. Commençant par donner quelques propriétés des fonctions de répartitions
réelles.
Proposition 1.3.1. Soit FX la fonction de répartition d'une v.a.r., alors on a

1) 0 ≤ FX ≤ 1
2) FX est croissante.
3) FX est continue à droite.
4) lim FX (x) = 0 et lim FX (x) = 1.

x→−∞ x→+∞
5) Les points de discontinuités de FX sont les atomes de la loi de X , i.e. PX ({x}) ̸= 0.

Preuve. 1) Le premier point est évident.
2) Soit x < y , on a 0 ≤ P [x < X ≤ y] = FX (y) − FX (x). Par suite FX est croissante.
3) Soit x ∈ R et (xn )n≥1 une suite telle que lim ↓ xn = x. Puisque PX est une mesure
n
positive nie, la propriété de continuité monotone entraîne
lim FX (xn ) = lim PX (] − ∞, xn ])

n→∞ n→∞
= PX (∩n ↓] − ∞, xn ]|)
= PX (−∞, x]) = FX (x) .
D'où la continuité à droite de FX .

4) On a ∪n≥1 ↑] − ∞, n] = R =⇒ lim FX (n) = PX (R) = 1
n→+∞
et ∩n≥1 ↓] − ∞, −n] = ∅ =⇒ lim FX (n) = PX (∅) = 0. Ce qui montre 4) grâce à la
n→−∞
monotonie de FX .
1
5) Soit x ∈ R, on a ∪n≥1 ↑] − ∞, x − ] =] − ∞, x[. Ce qui donne
n
1
lim FX (x − ) = P (] − ∞, x[) = FX (x) − P [X = x] .
n→∞ n
Si on note par FX (x − 0) la limite à gauche de FX en x, alors le saut de FX en x est donné
par

∆FX (x) = FX (x) − FX (x − 0) = PX ({x}) .
Remarque 1.3.1. Soit x < y , on a
PX ([x, y]) = FX (y) − FX (x − 0) et PX ([x, y)) = FX (y − 0) − FX (x − 0) .
Dénition 1.3.6. Toute fonction F vériant 1), 2), 3) et 4) est appelée fonction de
répartition.
On notera ∆F (x) = F (x) − F (x − 0) l'amplitude du saut de F en x et C(F ) =
{x ∈ R : ∆F (x) = 0} l'ensemble des points de continuité de F .
1) Soit (aj )j≥1 (resp. (bj )j≥1 ) une suite de nombres réels (resp réels
Exercice 1.3.2.X
positifs), tel que bj = 1. La fonction
j
X
G(x) := bj I[aj ,∞) (x)
j≥1
est une fonction de répartition dite discrète.

2) Soit F une fonction de répartition
a) Montrer que C(F )c est au plus dénombrable.
b*) Montrer qu'il existe une unique mesure de probarilité dénie sur R muni de sa tribu
boréliunne B(R), notée dF , telle que
dF ((a, b]) = F (b) − F (a) .
dF est la mesure de Lebesgue-Steiltjes associée à la fonction monotone F .
1. Construire une v.a.r. X (sur un espace de probabilité à construire également) pour

laquelle F = FX .
La question b*) est un résultat classique.
3) Soit FX la fonction de répartition du vecteur aléatoire X = (X1 , . . . , Xd ). Déterminer
la fonction de répartition de X1 et du couple (X1 , X2 ), en fonction de FX . Calculer
lim FX (x1 , . . . , xd ).
xi →−∞
1.3.2.3 Décomposition des lois.

Soit F un loi de probabilité et soit (aj )j≥0 les points de discontinuités de F (les points de
sauts de F . On dénit
X
Fd (x) = ∆F (aj )
j : aj ≤x
X
= ∆F (aj )I[aj ,∞) (x)

j≥1
X
Fd est croissante, continue à droite, vériant lim Fd (x) = ∆F (aj ) ≤ 1. Ce n'est
x→∞
j≥1
X
donc pas nécessairement une fonction de répartition sauf si ∆F (aj ) = 1, et on a en
j≥1
particulier ∆F (x) = ∆Fd (x).
Proposition 1.3.2. La fonction Fc := F − Fd est croissante positive et continue.
Preuve. On a Fc est continue à droite car F et Fd le sont. Soit x < x′ ,
Fc (x′ ) − Fc (x) = [F (x′ ) − F (x)] − [Fd (x′ ) − Fd (x)] ,
En tendant x ↗ x′ ,
Fc (x′ ) − Fc (x′ − 0) = ∆F (x′ ) − ∆Fd (x) = 0 .
Fc est continue à gauche, donc elle est continue.
X
Fd (x′ ) − Fd (x) = F (aj ) − F (aj − 0) ≤ F (x′ ) − F (x) .
x<aj ≤x′
En tendant x → −∞, on déduit que Fd (x′ ) ≤ F (x′ ). Ce qui entraîne que Fc ≥ 0 et

Fc (x′ ) ≥ Fc (x), i.e. Fc est croissante. La fonction Fc est appelée la partie continue de F
et Fd est sa partie discrète.
1.4. ESPÉRANCES ET MOMENTS DES VARIABLES ALÉATOIRES. 13
Théorème 1.3.1. Toute fonction de répartition F se décompose, de façon unique, en une

combinaison convexe de fonction de répartition continue et discrète.
Preuve. Supposons que Fc ̸≡ 0 et Fd ̸≡ 0 (sinon F ≡ Fd ou F ≡ Fc et le résultat
devient trivial). Soit α = lim Fd (x). Si α = 0 (resp. α = 1), alors Fd ≡ 0 (resp. Fc ≡ 0
x→+∞
) et le résultat devient trivial. Supposons maintenant que 0 < α < 1, et considèrant F1
et F2 donnés par
Fd Fc
F1 = et F2 = .
α 1−α
Il est clair que F1 (resp.F2 ) est une fonction de répartition discrète (resp. continue), et
on a
F = αF1 + (1 − α)F2 .
Remarque 1.3.2. En faite on sait d'après le cours d'intégration, que toute fonction de
répartition F se décompose F = Fac + Fs où Fac est la partie absolument continue de F
et Fs est la partie singulière. En eet, il est clair que F ′ ∈ L1 et on dénit
Z x
F ′ (t) dt et Fs = F − Eac .
∀x ∈ R, , Fac (x) =
−∞
On a Fs′ = 0 λ − p.p.. Si en plus Fs n'est pas identiquement nulle, on peut la décomoser

en une fonction discrète et une fonction dont le support est portée par une partie λ− nég-
ligeable (qu'on peut appeler loi "purement singulière"). Les exemples de lois (ou mesures
de probabilité) qu'on va rencontrer dans ce cours sont discrètes, absolument continues ou

un mélange de ses deux types de lois. Par ailleurs, dans beaucoup de résultats du cours
on ne distinguera pas la nature de la loi considérée.
1.4 Espérances et moments des variables aléatoires.
1.4.1 Espérance mathématique d'une v.a.r.
Soit X : Ω −→ R, une v.a.r.

Z
Dénition 1.4.1. On dit que X admet une espérance mathématique si X(ω) dP(ω)
Z Z Ω
existe, i.e. si X + (ω) dP(ω) < ∞ ou X − (ω) dP(ω) < ∞, où X + = sup (X, 0) et
Ω Ω
X − = sup (−X, 0) On notera
Z Z
E(X) = +
X (ω) dP(ω) − X − (ω) dP(ω)
Ω Ω
Remarque 1.4.1. Une espérance mathématique s'elle existe est donc une valeur de R̄.
On verra que la variable aléatoire suivant la loi de Cauchy n'admet pas d'espérance math-
ématique.
Dans certains ouvrages de probabilités, une variable X ayant une espérance mathématique
signie que E(X) < ∞. Dans ce cours, on va toujours distinguer ses deux situations.
Dénition 1.4.2. On dit qu'une variable aléatoire est centrée s'elle admet une espérance
nulle.
Dans le cas vectoriel on a la dénition
Dénition 1.4.3. Le vecteur X = (X1 , . . . Xd )t admet une espérance si pour chaque i la

variable Xi a une espérance, et on note par
E(X) = (EX1 , . . . , EXd )t .
l'espérance de X .
1.4.2 Propriétés d'une espérance mathématique.
Nous allons énoncer ici des propriétés de l'espérance mathématique qui sont des résultats
classiques dans la théorie de mesure et intégration.
Soit X, Y deux v.a.r. dénies sur un espace de probabilité (Ω, F, P). Soit A ∈ F et
a, b ∈ R.
1. E(X) < ∞ ⇐⇒ E(|X|) < ∞. On a

Z
E(X IA ) = X(ω) dP(ω) .
A

2. Si E(X) < ∞ alors X < ∞, P-p.s.
3. Linéarité: Si E(X) < ∞ et E(Y ) < ∞ alors E (aX + bY ) < ∞ et on a
E (aX + bY ) = a E(X) + b E(Y ) .
4. Monotonie: Si X ≥ 0, P−p.s. (i.e. P [X ≥ 0] = 1), alors E (X) ≥ 0 . Plus

généralement si E(X) < ∞ et E(Y ) < ∞ et si (X − Y ) ≥ 0, P−p.s., alors
E(X) ≥ E(Y ) .
5. Si E(X) < ∞ et E(Y ) < ∞ et si E(X IA ) ≤ E(Y IA ) pour tout A ∈ F, alors X ≤ Y ,

P−p.s..
6. Si X ≥ 0, P−p.s., alors
E(X) = 0 =⇒ X = 0 , P − p.s. .
7. Convergence monotone: Soit (Xn )n≥1 une suite de v.a.r. presque sûrement positives.
Si de plus la suite est croissante p.s., i.e. p.s. ∀ω ∈ Ω, ∀n ≥ 1, on a Xn (ω) ≤
Xn+1 (ω). Alors
lim ↑ EXn = E lim ↑ Xn .
n→∞ n→∞
8. Lemme de Fatou: Soit Xn une suite de v.a.r., p.s. positive. Alors
E lim inf Xn ≤ lim inf EXn .

n n
9. Théorème de convergence dominé de Lebesgue: Soit Xn une suite de v.a.r. P −

intégrables, telle que Xn converge presque sûrement vers une v.a.r. X , (c'est à dire
pour ne plus le redire !!)
h i
P ω ∈ Ω : lim Xn (ω) = X(ω) = 1 .
n
Supposons qu'il existe une v.a.r. Y positive et P− intégrable telle que pour tout
n ≥ 1, |Xn | ≤ Y , P−p.s, alors
lim EXn = EX .
n
10. σ− additivité: Soit X une v.a.r. P− intégrable et soit (An )n≥1 une suite de parties
deux à deux disjointes de F. Alors
X
E (X I∪n An ) = EX IAn .
n
1.4.2.1 Espérance mathématique et la "queue" de la loi

Soit X une v.a.r. p.s. positive, on sait que

n2n −1
X k 
X = lim ↑ I 
+ nI{X≥n} .
n→∞
k=0
2n  k ≤X< k + 1 
 2n 2n 
Par suite la cnvergence monotone de l'espérance entraîne
n2n −1
X k k k+1
E(X) = lim ↑ P ≤X< + nP {X ≥ n} .
n→∞
k=0
2n 2n 2n
Ceci montre clairement que pour que EX soit ni ou inni cela dépend du comportement
de P [X ≥ k] pour les grandes valeurs de k . C'est en quelque sorte la "queue" de la loi
de X qui détermine le comportement de EX . Plus précisément nous avons le résultat
suivant
Proposition 1.4.1. Soit X une variable aléatoire, alors
+∞
X +∞
X
P [|X| ≥ n] ≤ E|X| ≤ 1 + P [|X| ≥ n] .
n=1 n=1
Remarque 1.4.2. En particulier

X
E|X| < ∞ ⇐= P [|X| ≥ n] < ∞ .
n
Preuve. On considère la suite d'éléments de F suivante,

An := [n ≤ |X| < n + 1] , n ≥ 0 .
Cette suite forme une partition de Ω, et on a par la σ−additivité de l'intégrale

XZ
E|X| = |X|dP .
n An
Par suite on a
X X
n P(An ) ≤ E|X| ≤ (n + 1) P(An )
n≥0 n≥0
X
=1+ n P(An ) . (1.1)
n≥0
Soit N ≥ 1 un entier xé, on a

N N
X X
n P (An ) = n (P [|X| ≥ n] − P [|X| ≥ n + 1])
n=0 n=0
XN
= P [|X| ≥ n] − N P [|X| ≥ N + 1] . (1.2)
n=1

On a clairement N I[|X|≥N +1] ≤ |X| I[|X|≥N +1] . En intégrant chaque membre de l'inégalité
Z
N P [|X| ≥ N + 1] ≤ |X| dP .
{|X|≥N +1}
Z
Si E|X| < ∞ alors lim |X| dP = 0. Ce qui entraîne que lim N P [|X| ≥ N + 1] =
N →∞ {|X|≥N +1} N
0 et donc
+∞
X +∞
X
n P (An ) = P [|X| ≥ n] .
n=0 n=1
Ce qui montre dans ce cas la proposition 1.4.2. X

Par ailleurs, si E|X| = +∞, alors d'après 1.1 on a n P(An ) = +∞. Et d'après 1.2 on
n
a
+∞
X X
+∞ = P [|X| ≥ n] ≥ n P(An ) .
n=1 n
Dans ce cas les'inégalités de la proposition 1.4.2 sont vériées.
Exercice 1.4.1. Montrer que si X est une v.a.r. à valeurs dans N, alors
+∞
X
EX = P [X ≥ n] .
1
1.4.3 Moments.
Nous commençons par rappeler le théorème de transfert classique qui permet de trans-
former l'intégrale sur Ω en une intégrale sur Rn , ce qui est utile pour appliquer les méthodes
pratiques de calculs d'intégrales sur Rn .
Théorème 1.4.1. Soit X :Z Ω −→ Rn une v.a. et soitZ h : Rn −→ R une fonction

borélienne. Alors l'intégrale h(X)(ω) dP(ω) existe ssi h(x) dPX (x) existe et on a
Ω Rn
l'égalité Z Z
h(X)(ω) dP(ω) = h(x) dPX (x) , (1.3)
Ω Rn
où PX est la loi de X .
Preuve. Le résultat est vrai pour tout indicatrice de borélien et, par linéarité, pour
toute fonction mesurable étagée. Si h est mesurable positive, alors elle vérie 1.3 par le
biais d'une suite croissante de fonctions étagées qui converge simplement vers h. Enn,
le cas générale se déduit facilement en considérant h = h+ − h− .
Z
Exemple 1.4.1. 1. Si X est intégrable alors la formule 1.3 entraîne EX = x dPX (x).
R
2. Si X est une v.a. intégrable de densité fX , alors la formule 1.3 devient

Z
Eh(X) = h(x) fX (x) dx .
Rn
3. Si X est une variable discrète de loi PX = pk δxk où (xk ) est une famille dénom-
X
k
brable d'éléments de Rn , alors
X
E(h(X)) = h(xk ) pk .
k
En particulier si n = 1 et h(x) = x, alors EX = xk pk , qui n'est rien d'autre

X
k
que le barycentre des points (xk )k aectés des masses pk .
4. Un exemple important est celui des v.a.r. X suivant la loi de Cauchy
Z +∞de densité sur R
1 x
la fonction f (x) = 2
. Il est clair que EX + = EX − = dx =
π(1 + x ) 0 π(1 + x2 )
+∞. Ce qui montre que la loi de Cauchy n'admet pas d'espérance.
Soit X une v.a.r., et soit la fonction h(x) = xr avec 1 ≤ r < ∞. Alors EX r , s'il existe,
est appelé le moment d'ordre r de X et on a
Z
r
EX = xr dPX (x) .
R
1.4.3.1 Variance.
Si EX 2 < ∞, alors la variance de la v.a.r. X est donnée par
Z
var(X) = σX = (X − EX)2 dP .
2
Ω
1/2
Le coecient σX = E (X − EX)2 est l'écart-type de X , il mesure la disperssion des
valeurs observées de X autour de la moyenne.
Remarque 1.4.3. 1. La variance réalise le minimum de la fonction a −→ E (X − a)2 .

En eet
(X − a)2 = (X − m)2 + (m − a)2 + 2 (m − a) (X − m) ,
avec m = EX . Par suite
E (X − a)2 = E (X − m)2 + (m − a)2 (1.4)
et donc
inf E (X − a)2 = σX
2
.
a
Remarquons aussi (en prenant a = 0 dans 1.4) que

2
σX = E(X 2 ) − (EX)2 .

2. Il est clair que
σX = 0 ⇐⇒ X = EX , P p.s. .
Dans ce cas on dit que X est dégénérée en EX .
Dans le cours de mesure et intégration, l'ensemble des v.a.r. ayant un moment d'ordre
1 ≤ p < ∞ ni est l'espace Lp (Ω, F, P). Le cas p = ∞ n'a aucun d'interêt pour ce cours.
Rappelons aussi que si on considère sur Lp la relation d'équivalence
XRY ⇐⇒ X = Y P − p.s. .
Alors l'ensemble des classes d'équivalence noté par Lp = Lp /R muni de la norme ||X̄||p =
1
(E|X|p ) p est un espace de Banach (où X est un représentant de la classe X̄ ). Dans la
suite, et sans le préciser, on va souvent confondre les variables aléatoires et leurs classes
d'équivalence.
Pour le cas vectoriel, si 1 ≤ p < ∞, on dit que X est dans Lp (Ω, F, P) si pour chaque
1 ≤ i ≤ d, la composante Xi est dans Lp (Ω, F, P) et on pose alors
d
X
||X||p = (E|Xi |p )1/p
i=1
1.4.3.2 Quelques exemples.

1. Soit X une v.a.r. suivant la loi normale centrée réduite. La densité de X est donc
donnée par
1 2
f0 (x) = √ e−x /2 , x ∈ R .
2π
On a clairement Z +∞ −x2 /2
e
EX = x √ dx = 0 ,
−∞ 2π
et par une intégration par partie
Z +∞ −x2 /2 Z +∞ −x2 /2
2 2 e 2 e
EX = x √ dx = 2 x √ dx = 1 .
−∞ 2π 0 2π
Par suite on obtient
EX = 0 et 2
σX =1 .
Maintenant, soit Y une v.a.r. de loi normale N(m, σ 2 ), m ∈ R et σ > 0. Considérons
Y −m
la variable aléatoire X = et commençons par chercher la loi de X . Pour
σ
cela soit φ une fonction borélienne bornée (ou positive), par un simple changement
y−m
de variable x = , on a
σ

Z +∞ 2 2
(y − m) e−(y−m) /2 σ

(Y − m)
E (φ(X)) = E φ( ) = φ( ) √ dy
σ −∞ σ σ 2π
Z +∞ 2
e−y /2
= φ(y) √ dy .
−∞ 2π
Par suite X ∼ N(0, 1). Par conséquent on a EY = m + σ EX = m et V ar(Y ) =
σ 2 V ar(X) = σ 2 . D'où
EY = m et V ar(Y ) = σ 2 .
Il est intéressant de noter que les moments de tout ordre de la loi gaussienne sont
nis. De plus, si X ∼ N(0, σ 2 ), alors
(
p 0 si p est impair
EX = p
σ Cp si p est pair ,
Qp/2
où Cp = j=0 (p − 2k − 1).
2. Une v.a.r. X suit la loi exponentielle de paramètre λ > 0 si sa densité est donnée
par f (x) = λ e−λx I{x≥0} . Un calcul simple montre que
1
EX = = σX .
λ
Ces lois on les rencontre dans des problèmes de les d'attente, à cause de leur
propriété d'être "sans mémoire". En eet, soit t > s, on a
P [X ≥ t , X ≥ s] P [X ≥ t]
P [X ≥ t|X ≥ s] = =
P [X ≥ s] P [X ≥ s]
−λ(t−s)
= e = P [X ≥ t − s] .
Notons enn que tous les moments d'ordre p > 0 de X sont nis. De plus si p ≥ 1
est un entier on
p!
EX p = p .
λ
1.4.4 Inégalités classiques.
aInégalité de Jensen.
Proposition 1.4.2. (Inégalité de Jensen) Soit X une v.a.r. intégrable. Alors pour toute
fonction réelle convexe f , on a:
f (E(X)) ≤ E (f (X)) .
Proof. Puisque f est convexe, alors il existe une fonction ane passant par (E(X), f (E(X)))
et située sous le graphe de f , i.e. il existe a ∈ R tels que
a x + b ≤ f (x) , ∀x ∈ R , (1.5)

où b := f (EX) − a EX . Ce qui entraîne que (en remplaçant x par X(ω) !)
(f (X))− = sup (−f (X), 0) ≤ |a| |X| + |b| .
Par suite on a E (f (X))− < ∞, ce qui veut dire que f (X) est quasi-intégrable et donc
Ef (X) est bien déni (mais non nécéssairement ni!).
Maintenant, l'inégalité 1.5 donne
a (X(ω) − EX) + f (EX) ≤ f (X(ω)) , ∀ω ∈ Ω ,
et en prenant l'espérance dans chacun des deux membres de l'inégalité on obtient le
résultat.
Remarque 1.4.4. Si la fonction est concave, alors par un argument similaire on obtient
l'inégalité inverse, à savoir
E(f (X)) ≤ f (EX) .
b Inégalité de Hölder.
Rappelons le résultat d'intégration suivant:
Proposition 1.4.3. (Inégalité ) Soit deux variables aléatoires X ∈ Lp et Y ∈
de Hölder
1 1
Lq , où 1 < p, q < ∞ sont tels que + = 1. Alors X Y est une variable intégrable et on
p q
a
E(|X Y |) ≤ (E|X|p )1/p (E|Y |q )1/q .
Par conséquent, nous avons l'injection continue suivante entre les espaces Lp (Ω, F, P)
Proposition 1.4.4. Si 1 ≤ p < q , alors
||X||p ≤ ||X||q
c'est à dire on a l'injection continue
Lq (Ω, F, P) ,→ Lp (Ω, F, P) .
Preuve. Il sut d'appliquer l'inégalité de Hölder aux variables |X|p et Y ≡ 1 avec le
q
paramètre α = .
p
cInégalité de Tchebychev. On a vu que la variance mesure la dispersion des valeurs
de X autour de la moyenne (l'espérance). Plus la variance est grande, plus la variable
peut prendre des valeurs dispersées et éloignées de la moyenne avec des probabilités im-
portantes. C'est ce que dit de manière générale l'inégalité de Bienaymé-Tchebychev que
nous allons établir dans un cadre plus générale.
Soit φ : R −→ R une fonction paire, croissante sur R+ et telle que φ(x) > 0 sur R \ {0}.
On a
Proposition 1.4.5. Soit X une v.a.r. telle que Eφ(X) < ∞, alors
Eφ(X)
P [|X| ≥ u] ≤ , ∀u > 0 . (1.6)
φ(u)

Preuve. La monotonie et la parité de φ donne
φ(u) I{|X|≥u} ≤ φ(|X|) = φ(X) .
En prenant l'espérance dans chacun des deux membres de l'inégalité on obtient
Eφ(X)
P [|X| ≥ u] ≤ .
φ(u)
D'où le résultat.
En particulier si φ(u) = u2 , on obtient l'inégalité de Markov
EX 2
P [|X| ≥ u] ≤ , ∀u > 0 .
u2
Proposition 1.4.6. (Bienaymé-Tchebychev) Soit X une v.a.r. telle que E(X 2 ) < ∞,
alors 2
σX
P [|X − EX| > λ] ≤ , ∀λ > 0 .
λ2
Remarque 1.4.5. Si on pose λ = kσ , on obtient
1
P [E(X) − kσ ≤ X ≤ E(X) + kσ] ≥ 1 − .
k2
Dans des questions liés aux problématiques d'intervalles de conance, on peut choisir k
pour satisfaire a une condition de probabilité xée.
1.5 Variables indépendantes.
On a vu que deux événements A et B sont indépendants ssi les tribus engendrées σ(A)
et σ(B) sont indépendantes. La variable X = IA engendre la tribu σ(IA ) = σ(A), on
peut donc naturellement généraliser la notion d'indépendance à une famille de variables
quelconques {Xα , α ∈ I}, où I est un ensemble d'indice ni ou inni dénombrable.
Dénition 1.5.1. Une famille de v.a. {Xα , α ∈ I} est dite indépendante (dans son
ensemble ou stochastiquement) si la famille des tribus engendrées {σ(Xα ) , α ∈ I} est
(stochastiquement) indépendante. Dans ce cas on écrit {Xα , α ∈ I} ⊥⊥
Remarque 1.5.1. 1. Une famille de v.a. {Xα , α ∈ I} est indépendante dans son
ensemble si pour tout sous ensemble ni d'indices J de I , on a les variables aléatoires
{Xα , α ∈ J} sont indépendantes. Maintenant pour vérier qu'une famille nie de
v.a. est indépendante il est inutile de vérier la propriété de l'indépendance pour
toutes les sous-familles , il sut de le faire pour la totalité des variables. Pour être
plus précis, soit J = {α1 , . . . , αk } et une famille {Xℓ , ℓ ∈ J} de variables aléatoires.
Pour xer les idées, on suppose que pour chaque indice ℓ ∈ J , la variable Xℓ prend
ses valeurs dans Rnℓ , nℓ ≥ 1. Alors on a

{Xℓ , ℓ ∈ J} ⊥⊥ ⇐⇒ ∀A1 ∈ B(Rnα1 ) . . . ∀Ak ∈ B(Rnαk ),
k
Y
P [Xα1 ∈ A1 , . . . , Xαk ∈ Ak ] = P Xαj ∈ A j .

j=1
2. Comme pour les événements, la notion d'indépendance deux à deux d'une famille
de v.a. est plus faible que l'indépendance (stochastique) déni ci-dessu.
1.5.0.1 Caractérisation de l'indépendance.

On va donner un premier outil permettant de voir si une famille nie de variables aléatoires
est indépendante dans son ensemble. Pour cela on va d'abord rappeler la notion de mesure
produit.
Soit (E1 , F1 ) et (E2 , F2 ) deux espaces mesurables. On dénit une tribu sur E1 × E2 , dite
tribu produit de F1 et F2 et notée F1 ⊗ F2 , par
F1 ⊗ F2 = σ {A1 × A2 , A1 ∈ F1 , A2 ∈ F2 } .
Théorème 1.5.1. Soient (E1 , F1 , µ) et (E2 , F2 , ν) deux espaces mesurés avec µ et ν σ−

nies, il existe une unique mesure sur F1 ⊗ F2 , notée µ ⊗ ν et appelée mesure produit de
µ et ν telle que
∀A1 ∈ F1 , ∀A2 ∈ F2 , µ ⊗ ν (A1 × A1 ) = µ(A1 ) ν(A2 ) .
Soit X1 , . . . Xk des v.a. à valeurs respectivement dans Rn1 , . . . , Rnk . On a

1.5. VARIABLES INDÉPENDANTES. 23
Proposition 1.5.1.
(X1 , . . . , Xk ) ⊥⊥ ⇐⇒ PX = ⊗ki=1 PXi (1.7)
où X = (X1 , . . . , Xk ) est le vecteur aléatoire de composantes Xi et ⊗ki=1 PXi est la mesure
produit des mesures PXi .
Preuve. D'après la remarque ci-dessu et l'unicité de la mesure produit, on a
(X1 , . . . Xk ) ⊥⊥ ⇐⇒ ∀A1 ∈ B(Rn1 ), . . . , Ak ∈ B(Rnk ) ,
k
Y
P [X1 ∈ A1 , . . . , Xk ∈ Ak ] = P [Xi ∈ Ai ] (1.8)
i=1
⇐⇒ ∀A1 ∈ B(Rn1 ), . . . , Ak ∈ B(Rnk ) ,
PX [A1 × . . . × Ak ] = ⊗k1 PXi [A1 × . . . × Ak ] .
⇐⇒ PX ≡ ⊗ki=1 PXi .
Exercice 1.5.1. Soit Cj ⊂ B(Rnj ), une classe contenant Rnj et satble par intersection
nie, telle que σ(Cj ) = B(Rnj ), 1 ≤ j ≤ k. Montrer que
k
Y
(X1 , . . . Xk ) ⊥⊥ ⇐⇒ ∀A1 ∈ C1 , . . . , ∀Ak ∈ Ck , PX [A1 × . . . Ak ] = PXj [Aj ] .
1
En déduire que si les variables (Xi )1≤i≤i≤n sont réelles alors

(X1 , . . . Xk ) ⊥⊥ ⇐⇒ FX1 ,...Xk = ⊗n1 FXi ,
où FX1 ,...Xk (resp. FXi ) est la fonction de répartition conjointe du vecteur X (resp. la
fonction de répartition marginale Xi , 1 ≤ i ≤ n).
Proposition 1.5.2. 1. Les variables X1 , . . . , Xk sont indépendantes, ssi pour toute
famille de fonctions boréliennes (f1 , . . . , fk ), les variables f1 (X1 ), . . . , fk (Xk ) sont
indépendantes.
2. Les variables aléatoires X1 , . . . , Xk sont indépendantes ssi pour toutes f1 , . . . fk boréli-
ennes positives
E (f1 (X1 ) . . . fk (Xk )) = E (f1 (X1 )) . . . E (fk (Xk )) .
3. Les variables aléatoires X1 , . . . , Xk sont indépendantes ssi pour toutes f1 , . . . fk boréli-

ennes tels que E|fj (Xj )| < ∞, ∀1 ≤ j ≤ k, on a
E (f1 (X1 ) . . . fk (Xk )) = E (f1 (X1 )) . . . E (fk (Xk )) .
Preuve.
1. On a clairement σ (fj (Xj )) ⊂ σ (Xj ), 1 ≤ j ≤ k . Par suite
(σ(X1 ), . . . , σ(Xk )) ⊥⊥ =⇒ (σ (f1 (X1 )) , . . . , σ (fk (Xk ))) ⊥⊥ .

La réciproque est claire en prenant fj (x) = x.
2. Supposons que les composantes du vecteur aléatoire X = (X1 , . . . , Xk ) sont indépen-

dantes. Ce qui entraîne d'après la proposition précédente que PX = ⊗k1 PXj . Soit
(f1 , . . . , fk ) boréliennes positives. on a
Z
E (f1 (X1 ) . . . fk (Xk )) = f1 (x1 ) . . . fk (xk ) dPX (x1 , . . . xk )
Rn1 +...nk
Z
= f1 (x1 ) . . . fk (xk ) dPX1 (x1 ) . . . dPXk (xk )
Rn1 +...nk
k
YZ
= fj (xj ) dPXj (xj ) , (1.9)
j=1 Rnj
k
Y
= E (fj (Xj )) ,
j=1
où l'on a utilisé Fubini-Tonelli pour l'égalité 1.9. Pour la réciproque, il sut de

prendre fj = IAj où Aj ∈ B(Rnj ).
3. On utilise le point précédent pour écrire

k
Y
E |f1 (X1 ) . . . fk (Xk )| = E |fj (Xj )| < ∞ .
1

Une application du théorème Fubini termine la preuve de ce sens de l'implication.
Le sens inverse est simple.
Remarque 1.5.2. Soit X1 , . . . , Xn des variables aléatoires réelles et intégrables, alors
on a n n
Y Y
(X1 , . . . , Xn ) ⊥⊥ =⇒ E Xj = EXj .
j=1 j=1
La réciproque est en générale fausse.

Proposition 1.5.3. Soit X = (X1 , . . . , Xn ) un vecteur aléatoire de densité f . Les v.a.r.
X1 , . . . , Xn sont indépendantes ssi il existe f1 . . . fn des fonctions réelles boréliennes pos-
itives telles que
f (x1 , . . . , xn ) = f1 (x1 ) f2 (x2 ) . . . fn (xn ) λ − p.p. . (1.10)
fi
Dans ce cas pour chaque 1 ≤ i ≤ n, la fonction Z , est la densité marginale de
fi (x) dx
la v.a.r. Xi .
R
Preuve Supposons que 1.10 est satisfaite, montrons que X1 , . . . Xn sont indépendantes.
Pour cela commençons par la détermination des lois marginales des variables Xi . Pour
1.5. VARIABLES INDÉPENDANTES. 25
xer les idées on prend i = 1 et A un borelien quelconque de R, on a

Z
PX1 (A) = f (x1 , . . . xn ) dx1 . . . dxn
A×Rn−1
Z
= f1 (x1 ) f2 (x2 ) . . . fn (xn ) dx1 . . . dxn
A×Rn−1
Z Z
Fubini
= f1 (x1 ) dx1 f2 (x2 ) . . . fn (xn ) dx2 . . . dxn
A R n−1
Z
f1 (x1 ) dx1 Z
Fubini A
= Z f1 (x1 ) . . . fn (xn ) dx1 . . . dxn
Rn
f1 (x1 ) dx1
R
Z Z
= f1 (x)/ f1 (x) dx dx . (1.11)
A R
f1
Il est donc clair que Z est la densité marginale de la variable X1 .
f1 (x) dx
R
Soit A1 , . . . An ∈ B(R), on a
Z
P [X1 ∈ A1 , . . . Xn ∈ An ] = f (x1 , . . . xn ) dx1 dx2 . . . dxn
A1 ×A2 ...An
Z

= f1 (x1 ) f2 (x2 ) . . . fn (xn ) dx1 dx2 . . . dxn
A1 ×A2 ...An
= ⊗ni=1 PXi (A1 × A2 . . . An ) .
où la dernière égalité découle en utilisant le théorème de Fubini et en faisant apparaitre
les densités marginales. La proposition 1.5.1 montre que les variables X1 , . . . Xn sont
donc indépendantes. Inversement, supposons que les composantes du vecteur X sont
indépendantes et que X est absolument continue de densité f . Pour chaque i = 1, . . . , n,
on notera par fi la densité marginale de Xi , donnée par
Z
fi (x) = f (x1 , . . . xi−1 , x, xi+1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn .
Rn−1
puisque les v.a.r. X1 , . . . , Xn sont indépendantes, alors pour tout borelien A ∈ Rn , on a

Z Z
n
PX (A) = f (x1 , . . . , xn ) dx1 . . . dxn = ⊗1 PXi (A) = f1 (x1 ) . . . fn (xn ) dx1 . . . dxn .
A A
ce qui entraîne par des arguments classiques que f = ⊗i=n

i=1 fi λ − p.p..
Proposition 1.5.4. Soit (Xi )1≤i≤n des variables aléatoires (di dimensionnalle) et soit les
entiers 0 = n0 < n1 < . . . < nk = n donnés. On dénit

Yj = Xnj−1 +1 , . . . , Xnj , j = 1, . . . k
Si les variables (Xi )1≤i≤n sont indépendantes alors il en est de même des variables (Yj )1≤j≤k .
Proof. Pour xer les idées, on suppose que les variables Xi sont réelles. On a donc
σ(Yj ) = Yj−1 B(Rnj −nj−1 )

= Yj−1 σ Anj−1 +1 × . . . Anj , Anj−1 +1 , . . . , Anj ∈ B(R)

= σ Yj−1 Anj−1 +1 × . . . Anj , Anj−1 +1 , . . . , Anj ∈ B(R)

n o
nj
= σ ∩l=nj−1 +1 Xl (Al ) , Anj−1 +1 , . . . , Anj ∈ B(R) .
−1
n o
nj
Les classes d'événements Cj = ∩l=n j−1 +1
X −1
l (Al ) , A nj−1 +1 , . . . , Anj
∈ B(R) , 1 ≤
j ≤ k , sont indépendantes, stables par intersections nies et contiennent Ω. Une ap-
plication du théorème des classes monotones entraîne l'indépendance des sous-tribus
(σ (Yj ))1≤j≤k . Ce qui achève la preuve.
Pour xer les idées, par exemple si on a (X, Y, Z) ⊥ ⊥, alors X (Y, Z), Y (X, Z) et
` `
(X, Y ) ⊥⊥ Z .
1.6 Transformtions de variables aléatoires.

L'un des objectifs des statisticiens est la détermination les lois de fonctions des valeurs
observées décrivant des phénomènes aléatoires. Pour être plus précis, si X est une v.a.
décrivant les valeurs observées d'un phénomène aléatoire, il est en générale question de
trouver les lois de variables obtenues comme transformations de X . Par exemple, sup-

posons qu'on veut étudier le problème de l'obesité chez la population marocaine. Un
des moyens pour le faire est d'analyser l'indice corporel des individus, qui correspond au
quotient du poid d'un individu par le carré de sa taille. Si on note P (resp. T ) la v.a.r.
décrivant le poids (resp. la taille) de la population marocaine, il est donc intéressant
P
de déterminer la loi de la v.a.r. I = 2 . Pour des raisons d'applications à la statis-
T
tique, la détermination de la loi de la somme de variables aléatoires indépendantes a une
importance capitale.
1.6.0.1 la loi de la somme de variables aléatoires indépendantes

On notera par Mb (Rd ) l'ensembles des mesures positives bornées. Soit µ , ν ∈ Mb (Rd ),
µ ⊗ ν est la mesure produit de µ et ν sur Rd × Rd . On considère l'application
T , : Rd × Rd −→ Rd
(x, y) 7−→ x + y
Dénition 1.6.1. Le produit de convolution des mesures µ et ν , qu'on notera par µ ⋆ ν ,
est la mesure image par T de la mesure produit µ ⊗ ν .
Soit A ∈ B(Rd ), on a par dénition
Z Z
−1

µ ⋆ ν(A) = µ ⊗ ν T (A) = dν(y) IA (x + y) dµ(x)
Rd Rd
= ν ⋆ µ(A) .
1.6. TRANSFORMTIONS DE VARIABLES ALÉATOIRES. 27
Remarque 1.6.1. 1. Mb (Rd ) est stable par le produit de convolution.

2. Si en plus µ et ν sont deux mesures de probabilités alors µ ⋆ ν est aussi une mesure
de probabilité.
3. Soit µ1 , µ2 , µ3 ∈ Mb (Rd ), en applicant le théorème de Fubini, on obtient
µ1 ⋆ (µ2 ⋆ µ3 ) = (µ1 ⋆ µ2 ) ⋆ µ3 ,
qu'on notera par µ1 ⋆ µ2 ⋆ µ3 . De la même façon on pourra dénir la convolution
de n mesures positives. On notera en particulier par µ∗n pour désigner le produit
µ ⋆ µ... ⋆ µ .
| {z n f ois
}
Exemple 1.6.1. Soit µ et ν deux mesures positives dénies sur B(Rd ) et soit α, β deux
nombres réels positifs. rappelons que la mesure positive α µ + β ν est dénie par
α µ + β ν(A) = α µ(A) + β ν(A) , ∀A ∈ B(Rd ) .
1. Pour tout a, b ∈ Rd , on a δa ⋆ δb = δa+b .
2. On montre facilement par récurrence que ∀n ≥ 1

n
X
∗n
(pδ1 + (1 − p)δ0 ) = Cnk pk (1 − p)n−k δk ,
k=0
où 0 ≤ p ≤ 1. Ce qui veut dire que le produit de convolution n fois de la loi de

Bernoulli de paramètre p est une binômiale de paramètre n et p. Par conséquent la
loi binômiale est stable par le produit de convolution, i.e.
B(n, p) ⋆ B(m, p) = B(n + m, p) .
3. Si µ et ν sont absolument continue par rapport à la mesure de Lebesgue sur Rd de

densités respectives f et g, alors µ ⋆ ν est aussi absolument continue de densité f ⋆ g
donnée par Z
f ⋆ g(x) = f (y) g(x − y) dy
Rd
En eat soit A ∈ B(Rd ), on a
Z Z
µ ⋆ ν(A) = dµ(y) IA (z + y) dν(z)
Rd d
Z RZ
= f (y) dy IA (z + y) g(z) dz
Rd Rd
Z Z
z=x−y
= f (y) dy IA (x) g(x − y) dx
Rd Rd
Z Z
Fubini
= dx f (y) g(x − y) dy
A Rd
On vérie facilement que f ⋆ g est une densité de probabilité.

Théorème 1.6.1. Soit X1 , X2 . . . Xn des variables aléatoires indépendantes à valeurs

n
dans R . Alors la loi de la variable aléatoire S = Xi est le produit de convolution des
X
d
i=1
mesures (PXi )1≤i≤n . i.e.,
PS = PX1 ⋆ PX2 ⋆ . . . ⋆ PXn .
Preuve. Commençons par montrer le théorème dans le cas n = 2. Soit A ∈ B(Rd ), on
a
Z
PS (A) = P [X1 + X2 ∈ A] = IA (x + y) dP(X1 ,X2 ) (x, y)
R2d
` Z
= IA (x + y) dPX1 (x) dPX2 (y)
R2d
denition
= PX1 ⋆ PX2 (A) .
On suppose que le résultat est vrai pour tout 1 ≤ k ≤ n − 1. Puisque les variables
X1 , X2 . . . Xn sont indépendantes alors il en est de même pour Sn−1 = X1 +X2 +. . .+Xn−1
et Xn (on utilise les propositions 1.5.2 et 1.5.4). D'où d'après le cas n = 2, on a
PS = PSn−1 +Xn = PSn−1 ⋆ PXn

réurrence
= PX1 ⋆ PX2 ⋆ . . . ⋆ PXn−1 ⋆ PXn
= PX1 ⋆ PX2 ⋆ . . . ⋆ PXn−1 ⋆ PXn .
1.6.1 Loi d'une variable fonction d'une autre.
Soit X une variable aléatoire réelle de loi PX et soit g une application réelle. On cherche
à déterminer la loi de Y = g(X), c'est à dire, on cherche une mesure de probabilité µ sur
R telle que pour tout fonction φ mesurable bornée, on a
Z
Eφ(Y ) = φ(y) dµ(y) .
R
Prenons quelques exemples pour xer les idées. Si la variable X est discrète de loi
X
PX = pk δxk ,
k∈I
où I est un ensemble d'indices dénombrable et A = {xk , k ∈ I} est l'ensemble des valeurs

prises par X . Si g(A) = {yj , j ∈ J} est l'image de A par g , alors on a
X
Eφ(Y ) = pk φ(g(xk ))
k∈I
X
= qj φ(yj ) ,
j∈J
où
X
qj = pk . (1.12)
k : g(xk )=yj
X
On a donc PY = qj δyj . En particulier, si l'application g est bijective de A sur f (A),
j∈J
alors la somme 1.12 est réduite à un seul terme.
Dans le cas d'une variable absolument continue de densité fX . On a
Z
Eφ(Y ) = φ(g(x)) fX (x) dx . (1.13)
R
A ce niveau, on ne peut pas donner une régle générale pour déterminer la loi de Y .
Remarquons d'abord Y n'est pas n¢essairement absolument continue, par exemple si g
est constante par morçeaux alors la variable Y est discrète (c'est le cas par exemple de
g(x) = Ent(x) la partie entière). Par contre si g est susamment régulière (par morçeaux)
alors on pourra appliquer un changement de variable dans 1.13 ce qui permet de trouver
la densité de Y .
Exemple 1.6.2. Cherchons la loi de Y = |X|, avec X ∼ N(0, σ 2 ). Par 1.13

Z Z
Eφ(Y ) = φ(|x|)) fX (x) dx = 2 φ(x) fX (x) dx . .
R R+
√
2 −x2
D'où Y a pour densité fY (x) = √ exp 2 IR+ (x) . Maintenant déterminons la loi de
σ π 2σ
Y = X + . On a
Z Z
+ + 1
Eφ(X ) = φ(x ) dPX (x) = φ(0) + φ(x)) fX (x) dx .
R 2 R+
1
Par suite dPY = dδ0 + IR+ fX dx la somme de deux mesures positives qui ne sont pas
2
des mesures de probabilités sur R.
Examinons le cas vectoriel: Soit X = (X1 , . . . Xn ) un vecteur aléatoire de densité fX et
soit g : Rn −→ Rd une application. On cherche à déterminer, sous des conditions sur g ,
la densité de Y = g(X). Dans le cas où n = d, on a le résultat classique suivant
Théorème 1.6.2. Soit U un ouvert de Rn tel que P [X ∈ U ] = 1. Si g est un diéomor-

phisme de U sur un ouvert V de Rn . Alors Y admet une densité donnée par
fY (y) = fX og −1 (y) |Jg−1 (y)| IV (y) ,
où Jg−1 (y) est le déterminant de la matrice jacobienne de g−1 .

On rappelle ici que g est dit un diéomorphisme si get g −1 sont

continument diéren-
∂gi
tiables et la matrice jacobienne de g en x est Dg (x) = (x) .
∂xj 1≤i,j≤n
Preuve. La preuve du théorème est une simple conséquence de la formule de changement
de variable sous le signe intégrale.
Remarque 1.6.2. 1. En pratique, il est parfois plus simple de calculer Jg que Jg−1 .
On utilise ensuite la formule
1
Jg−1 (y) = .
Jg (g −1 (y))
2. Si d > n alors Y n'admet pas de densité.

3. Si d < n on complète le vecteur Y par n − d variables convenables, on applique le
théorème précédent et on déduit la loi de Y comme loi marginale.
Exemple 1.6.3. 1. Soit X, Y deux v.a.r. indépendantes de même loi exponentielle de
X
paramètre λ. On va chercher la loi du couple (T, Z) = φ(X, Y ) = ( , X 2 + Y 2 ).

Y
x
Soit φ(x, y) = ( , x2 + y2 ) qui déni un diéomorphisme de R⋆+ × R⋆+ à valeurs dans
y
R⋆+ × R⋆+ . La matrice jacobienne de φ est donnée par
 1 −x 

Dφ (x; y) =  y y2  .
2x 2y
x2
r r
z z
et son déterminant Jφ (x, y) = 2(1 + 2 ). On a φ−1 (t, z) = (t , ).
y 1 + t2 1 + t2
Donc on a
1 1
Jφ−1 (t, z) = = .
Jφ (φ−1 (t, z)) 2 (1 + t2 )
Par le théorème 1.6.2, le couple (T, Z) a pour densité
λ2
r
z
f(T,Z) (t, z) = exp −λ (t + 1) IR⋆+ ×R⋆+ (t, z) .
1 + t2 1 + t2
Remarquons que T et Z ne sont pas indépendantes.
2. Soit (X, Y ) un couple de v.a.r. indépendantes identiquement distribuées de loi uni-
forme U([0, 1]). On pose
p p
U := −2 log X cos (2πY ) , V := −2 log X sin (2πY ) .
√ √
L'application ϕ(x, y) := −2 log x cos (2πy), −2 log x sin (2πy) déni un diéo-

morphisme de l'ouvert U =]0, 1[×]0, 1[ à valeurs dans l'ouvert V = R2 \ (R+ × {0}).

−1 2
Soit (u, v) = ϕ(x, y) on a x = exp (u + v 2 ).
2
−2 π
Un calcul simple montre que le jacobien Jϕ (x, y) = et donc
x
1 1 −1 2
Jϕ−1 (u, v) = −1
= exp (u + v 2 ) .
Jϕ (ϕ (u, v)) 2π 2
Par le théorème 1.6.2 la densité de (U, V ) est
f(U,V ) (u, v) = f(X,Y ) ϕ−1 (u, v) |Jϕ−1 (u, v)| IV (u, v)

1 −1 2
= exp (u + v 2 ) IR2 \(R+ ×{0}) (u, v)
2π 2
−1 2 −1 2
1 u v
= e 2 e 2 p.p.
2π
Les variables U et V sont donc indépendantes identiquement distribuées de même
loi N(0, 1). Ce résultat est classique il donne un moyen de générer la loi normale à
partir de la loi uniforme.
1.6.2 Covariance, matrice de disperssion
1.6.2.1 Covariance
Soit X, Y deux variables aléatoires réelles de L2 (Ω). On dénit

Cov(X, Y ) = E ((X − EX) (Y − EY )) = E(XY ) − E(X) E(Y ) ,
la covariance de X et Y . On a les propriétés suivantes
1. Cov(X, X) = V ar(X) et Cov(X, Y ) = Cov(Y, X)
2. X ⊥
⊥ Y =⇒ Cov(X, Y ) = 0. La réciproque est en générale fausse.
3. ∀a, b, c, d ∈ R, Cov(aX + b, cY + d) = ac Cov(X, Y ).
n
X n
X X
4. V ar( ak X k ) = a2k V ar(Xk ) + 2 ai aj Cov(Xi , Xj ). Par conséquent si
k=1 k=1 1≤i<j≤n
les variables X1 , . . . , Xn sont indépendantes alors
n
X n
X
V ar( ak X k ) = a2k V ar(Xk ) .
k=1 k=1
5. |Cov(X, Y )| ≤ ||X − EX||L2 ||Y − EY ||L2 = σX σY .

Dans le cas de variables réelles non dégénérées, on dénit le coecient de corrélation
linéaire entre X et Y par
Cov(X, Y )
ρ(X, Y ) = .
σX σY
Il est clair que |ρ(X, Y )| ≤ 1.
Dénition 1.6.2. 1. Les variables X et Y sont dites positivement (resp. négative-

ment) corrélées si ρ(X, Y ) > 0 (resp. ρ(X, Y ) < 0).
2. Les variables X et Y sont dites non correlées si ρ(X, Y ) = 0.
Proposition 1.6.1. Soit X, Y deux variables aléatoires réelles non dégénérées et de carrée
intégrable. La fonction Φ(a, b) = E (Y − (aX + b))2 atteind son minimum pour ā =
Cov(X, Y )
et b̄ = EY − ā EX et on a
V ar(X)
Φ(ā, b̄) = V ar(Y ) 1 − ρ2 (X, Y ) .

Preuve On pose Ȳ = Y − EY , X̄ = X − EX et b1 = b − EY + a EX , alors

2
Φ(a, b) = E Ȳ − a X̄ − b1
= V ar(Y ) + a2 V ar(X) + b21 − 2 a Cov(X, Y )
2
Cov 2 (X, Y )

Cov(X, Y )
= V ar(X) a − + b21 + V ar(Y ) −
var(X) var(X)
Cov(X, Y )
Par suite Φ atteind son minimum en ā = et b1 = 0, i.e. b̄ = EY − ā EX .
var(X)
min Φ(a, b) = Φ(ā, b̄) = V ar(Y ) 1 − ρ2 (X, Y ) .

a,b
Remarque 1.6.3. Si ρ(X, Y ) = ∓1, alors Y = āX + b̄ P−p.s..
1.6.2.2 Matrice de covariance

Pour tout x, y ∈ Rn , on notera par < x, y >Rn le produit scalair des vecteurs x et y dans
Rn et on a n
X
t t
x y = y x =< x, y >Rn = xi yi ,
i=1
où x = (x1 , . . . xn )t et y = (y1 , . . . yn )t . On a aussi x y t = (xi yj )1≤i,j≤n , c'est un produit

matriciel usuel. Soit X = (X1 , . . . Xn )t un vecteur aléatoire de carré intégrable (i.e. chaque
composante Xi est de carré intégrable). On dénit la matrice de covariance du vecteur X
par
Σ(X) = E (X − EX) (X − EX)t ,

où EX = (EX1 , . . . EXn )t est l'espérance du vecteur X , appelé aussi le paramètre de

localisation.
Σ(X) est appelé le paramètre de disperssion. Les coecients de la matrice Σ(X) sont
donnés par
Σ(X)i,j = Cov(Xi , Xj ) .
Remarque 1.6.4. Si les variables X1 , . . . Xn sont indépendantes alors la matrice de co-

variance du vecteur X = (X1 , . . . , Xn )t est diagonale et on a
 2

σX 1
0 ... ... 0
.
. . . ..
 
2
0 σX 0
 
 2

Σ(X) =  .
.. ... ... 0
.
 

 0 

2
0 ... 0 0 σX n
La réciproque n'est pas toujours vraie.

Rappelons qu'une matrice n × n est dite semi-dénie positive (resp. dénie positive) si
pour tout x ∈ Rn , < x, M x >≥ 0 (resp. ∀x ∈ Rn \ {0}, < x, M x >> 0).
Proposition 1.6.2. 1. ∀a ∈ Rn , Σ(X + a) = Σ(X). E < a, X >2 = at E(X X t )a et
V ar(< a, X >) = at Σ(X)a.
2. ∀a ∈ R, Σ(a X) = a2 Σ(X).
3. Pour toute matrice M , r × n, on a

E(M X) = M EX , Σ(M X) = M Σ(X) M t .
4. Σ(X) est symétrique, semi-dénie positive.

5. Σ(X) est dénie positive si et seulement si les composantes de X sont P p.s. ane-
ment indépendantes, c'est à dire
a ∈ Rn , b ∈ R, < a, X > +b = 0 P p.s. =⇒ a = 0, et b = 0 .
Preuve.
1. La première propriété est évidente. Pour le deuxième point, on utilise le fait que
at X = X t a et on a
E(at X)2 = E(at X at X) = E(at X X t a) = at E(XX t ) a ,
et
V ar(at X) = E(at X)2 − (Eat X)2

= at E(XX t ) a − at (EX) (EX)t a = at Σ(X)a
2. Ce point est facile.
3. Quitte à remplacer X par X − EX , on peut supposer que la variable X est centrée.

Soit M une matrice r × n, on a
Σ(M X) = E (M X) (M X)t = M E(XX t ) M t = M Σ(X) M t .

4. Il est clair que Σ(X)i,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σ(X)j,i . D'ou la symétrie

de Σ(X). De plus, soit a ∈ Rn , on a
2
at Σ(X) a = at E (X − EX) (X − EX)t a = E at (X − EX) ≥ 0 .

5. Soient a ∈ Rn et b ∈ R, on a
2
at X + b = 0 P p.s. ⇐⇒ E at X + b = E(at X)2 + 2b E(at X) + b2 = 0
2
⇐⇒ V ar(at X) + E(at X) + b = 0
2
⇐⇒ at Σ(X)a + E(at X) + b = 0
2
⇐⇒ at Σ(X) a = 0 et E(at X) + b = 0
⇐⇒ a = 0 et b = 0
Remarque 1.6.5. Σ(X) n'est pas dénie positive entraîne en particulier que la loi de X
est supportée par un hyperplan de Rn , i.e.
∃a ∈ Rn et b ∈ R tels que PX {x ∈ Rn : < a, x >Rn +b = 0} = 1 .
Puisque tout hyperplan de Rn est de mesure de Lebesgue (de Rn ) nulle, PX est donc
singulière par rapport à la mesure de Lebesgue de Rn .

Chapitre 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2

Transféré par

Droits d'auteur :

Formats disponibles

Master/SMA/S1/2023-2024. Cours de Probabilités avancées.

October 16, 2023

B. Boufoussi, Département de Mathématiques, FSSM,

B. Boufoussi, Département de Mathématiques, FSSM,

1.4.1 Espérance mathématique d'une v.a.r. . . . . . . . . . . . . . . . . . 13

B. Boufoussi, Département de Mathématiques, FSSM,

B. Boufoussi, Département de Mathématiques, FSSM,

B. Boufoussi, Département de Mathématiques, FSSM,

1.2 Variables aléatoires.

Dénition 1.2.1. Tout application X : Ω −→ E , F − T mesurable est dite variable

X(ω) = (X1 (ω), . . . , Xd (ω))t ,

où on a considéré X comme étant un vecteur colonne de composantes (Xi )1≤i≤d . Par

la suite on se permettra d'oublier le symbole de la transposition pour alléger l'écriture.

B. Boufoussi, Département de Mathématiques, FSSM,

Proposition 1.2.1. X : Ω −→ Rd est une v.a., ssi

B(Rd ) et on utilise le fait que σ(X −1 (C)) = X −1 (σ(C))

Dénition 1.2.2. Soit X : Ω −→ E une v.a.

Exemple 1.2.1. Soit A ∈ F, si X = IA alors σ(X) = σ(A).

1.3 Loi d'une variable aléatoire.

Dénition 1.3.1. Soit X : Ω −→ Rd une v.a.. La mesure image de P par X , notée PX ,

On a donc pour tout B ∈ B(Rd ),

PX est bien une mesure de probabilité sur (Rd , B(Rd ). En eet

B. Boufoussi, Département de Mathématiques, FSSM,

Pour l'égalité (⋆) voir l'exercice ci-dessous.

Exercice 1.3.1. On considère E et F , deux ensembles non vides quelconque, et soit

Soit (Bj )j∈J une famille quelconque de parties de F .

Dénition 1.3.2. Deux variables aléatoires X et Y , éventuellement dénies sur deux

PXi (A) = PX Ri−1 × A × Rd−i .

1.3.1 Variables discrètes.

B. Boufoussi, Département de Mathématiques, FSSM,

2. La loi Binômiale de paramètres n ≥ 1, p ∈ (0, 1), B(n, p) est la mesure de probabilité

n fois une expérience à deux issues.

tion dans une chaîne de production.

4. La loi multinomiale sur Rd , notée B(n, p1 , p2 , . . . pd ), où p1 + p2 + . . . pd = 1, est la

1.3.2 Variables aléatoires absolument continues.

1.3.2.1 Densité de probabilité.

continue par rapport à ν et on note µ ≪ ν si pour tout B ∈ B(Rd ),

Dans ce cas d'après le théorème classique de Radon-Nikodym, il existe une fonction h :

B. Boufoussi, Département de Mathématiques, FSSM,

1.3.2.2 Fonction de répartition.

S = {R , ∅, ] − ∞, a], ]b, +∞[, ]a, b], a < b ∈ R} ,

et par suite sur l'algèbre de Borel

AR = {∪i∈I Ai | Ai ∈ S , Ai ∩ Aj = ∅, ∀i ̸= j et|I| < ∞}

de probabilité sur (R, B(R)).

B. Boufoussi, Département de Mathématiques, FSSM,

La fonction FX détermine complétement la loi de X .

Proposition 1.3.1. Soit FX la fonction de répartition d'une v.a.r., alors on a

4) lim FX (x) = 0 et lim FX (x) = 1.

5) Les points de discontinuités de FX sont les atomes de la loi de X , i.e. PX ({x}) ̸= 0.

lim FX (xn ) = lim PX (] − ∞, xn ])

D'où la continuité à droite de FX .

B. Boufoussi, Département de Mathématiques, FSSM,

est une fonction de répartition dite discrète.

1. Construire une v.a.r. X (sur un espace de probabilité à construire également) pour

1.3.2.3 Décomposition des lois.

B. Boufoussi, Département de Mathématiques, FSSM,

En tendant x → −∞, on déduit que Fd (x′ ) ≤ F (x′ ). Ce qui entraîne que Fc ≥ 0 et

Théorème 1.3.1. Toute fonction de répartition F se décompose, de façon unique, en une

On a Fs′ = 0 λ − p.p.. Si en plus Fs n'est pas identiquement nulle, on peut la décomoser

B. Boufoussi, Département de Mathématiques, FSSM,

1.4.1 Espérance mathématique d'une v.a.r.

Soit X : Ω −→ R, une v.a.r.

Dénition 1.4.3. Le vecteur X = (X1 , . . . Xd )t admet une espérance si pour chaque i la

Dénition 1.2.1. Tout application X : Ω −→ E , F − T mesurable est dite variable

Dénition 1.2.2. Soit X : Ω −→ E une v.a.

Dénition 1.3.1. Soit X : Ω −→ Rd une v.a.. La mesure image de P par X , notée PX ,

PX est bien une mesure de probabilité sur (Rd , B(Rd ). En eet

Dénition 1.3.2. Deux variables aléatoires X et Y , éventuellement dénies sur deux

Dénition 1.4.3. Le vecteur X = (X1 , . . . Xd )t admet une espérance si pour chaque i la

Soit N ≥ 1 un entier xé, on a

Dans ce cas les'inégalités de la proposition 1.4.2 sont vériées.

où l'on a utilisé Fubini-Tonelli pour l'égalité 1.9. Pour la réciproque, il sut de

xer les idées on prend i = 1 et A un borelien quelconque de R, on a

On vérie facilement que f ⋆ g est une densité de probabilité.

Théorème 1.6.2. Soit U un ouvert de Rn tel que P [X ∈ U ] = 1. Si g est un diéomor-

On rappelle ici que g est dit un diéomorphisme si get g −1 sont