Vous êtes sur la page 1sur 37

Probabilités

Imade Fakhouri

Université Ibn Zohr


Ecole Nationale des Sciences Appliquées
Agadir, Maroc
c Draft date 13 mai 2021
”Quels que soient les progrès
des connaissances humaines,
il y aura toujours place pour
l’ignorance, et par suite pour
le hasard et la probabilité.”
EMILE BOREL (LE HASARD, 1914)
Table des matières

1 Vecteurs Aléatoires 5
1.1 Fonction de répartition d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Densité d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Vecteurs discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Indépendance des composantes d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . 9
1.5 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Fonctions génératrices et fonctions caractéristiques 15


2.1 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Caractérisation d’une loi sur N . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.3 Calcul d’espérance et de variance à l’aide de la fonction génératrice . . . . . . . 17
2.2 Fonction Caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Vecteurs aléatoires gaussiens 23


3.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4 Convergences, Théorèmes Limites et Approximations 27


4.1 Convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.2 Convergence en Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.3 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . 29
4.2.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.2 Théorème central-limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.2.1 Théorème central-limite uni-dimensionnel . . . . . . . . . . . . . . . . 30
4.2.2.2 Théorème central limite multi-dimensionnel . . . . . . . . . . . . . . . 30
4.2.3 Approximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.3.1 Approximation de la loi binomiale par une loi de Laplace-Gauss . . . 31
4.2.3.2 Approximation de la loi de Poisson par une loi de Laplace-Gauss . . . 31

5 Espérance Conditionnelle 33
5.1 Probabilités conditionnelles (composées). . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.0.1 Axiomes des probabilités composées. . . . . . . . . . . . . . . . . . . . 34
5.1.1 Principe des Probabilités Totales . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.1.2 Théorème de Bayes (Problème de Bayes) . . . . . . . . . . . . . . . . . . . . . 34
5.2 Lois Conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.1 Loi d’une variable discrète conditionnée par une variable discrète . . . . . . . . 35
5.2.2 Loi d’une variable continue conditionnée par une variable continue . . . . . . . 35
5.3 Espérance Conditionnelle et Variance Conditionnelle . . . . . . . . . . . . . . . . . . . 36

3
Probabilités ENSA Agadir 2020-2021

4
Chapitre 1

Vecteurs Aléatoires

Les vecteurs aléatoires permettent de modéliser des phénomènes et des systèmes dont la description
nécessite plusieurs variables aléatoires.

Définition 1.0.1 Un vecteur aléatoire réel de dimension N est un vecteur dont les composantes sont
des v.a. réelles ; il est décrit par une application mesurable X = (X1 , . . . , Xk ) définie sur un espace
probabilisé (Ω, F, P) à valeurs dans (IRN , B(IRN )) où B(IRN ) désigne la tribu des boréliens de IRN .
Pour tout événement B appartenant à la tribu B(IRN ), X −1 (B) ∈ F.

1.1 Fonction de répartition d’un vecteur aléatoire


Soit X = (X1 , · · · , XN ) un vecteur aléatoire réel.
La loi de probabilité PX dite loi conjointe de X est définie sur (IRN , B(IRN )) par :

∀B ∈ B(IRN ), PX (B) = P (X1 , · · · , XN ) ∈ B .




On appelle fonction de répartition de X, l’application :

FX : IRn −→ [0, 1]
(x1 , · · · , xN ) −→ FX (x1 , · · · , xN )

définie par :

∀(x1 , · · · , xN ) ∈ IRN , FX (x1 , · · · , xN ) = PX (] − ∞, x1 ] × · · · ×] − ∞, xN ])


= P (X1 6 x1 , · · · , XN 6 xN )
= P ((X1 6 x1 ) ∩ · · · ∩ (XN 6 xN )) .

Quelques propriétés usuelles :


• FX (x1 , · · · , xN ) −→ 1, quand toutes les variables xj −→ +∞, j = 1, . . . , N ;
• FX (x1 , · · · , xN ) −→ 0, si l’une au moins des variables xj −→ −∞, j = 1, . . . , N ;
• ∀j = 1, . . . , N , l’application xj −→ FX (x1 , · · · , xN ) est croissante.

1.2 Densité d’un vecteur aléatoire


On dit que la loi PX du vecteur aléatoire X est à densité (absolument continue par rapport à la
mesure de Lebesgue sur RN ) s’il existe une application

fX : (IRN , B(IRN )) −→ (IRN , B(IRN ))


(x1 , · · · , xN ) −→ fX (x1 , · · · , xN )

mesurable, positive appelée la densité de X telle que

PX ( dx1 · · · dxN ) = dPX (x1 · · · xN ) = fX (x1 , · · · , xN ) dx1 · · · dxN .

5
Probabilités ENSA Agadir 2020-2021

En particulier, pour tout borélien A ⊂ RN


Z Z Z Z
P(X ∈ A) = PX (A) = · · · dPX (x1 · · · xN ) = · · · fX (x1 , · · · , xN ) dx1 · · · dxN .
A A

On a la relation suivante qui lie la densité et la fonction de répartition :


Z Z
FX (x1 , · · · , xN ) = . . . fX (u1 , · · · , uN ) du1 · · · duN ,
]−∞,x1 ]×...×]−∞,xN ]

ou encore
∂ N FX (x1 , · · · , xN )
= fX (x1 , · · · , xN ) .
∂x1 · · · ∂xn

Z Z
Remarque 1.2.1 ··· fX (x1 , · · · , xN ) dx1 · · · dxN = P(X ∈ IRN ) = 1.
IRN

Exercice 1.2.1 Soit (X, Y ) un vecteur aléatoire de densité :

f(X,Y ) (x, y) = θ2 e−θ(x+y) 1R∗+ (x)1R∗+ (y)

où θ > 0 est une constante fixée.


1. Vérifier que f(X,Y ) est une densité.
2. Calculer la fonction de répartition F(X,Y ) du vecteur aléatoire (X, Y ).
3. Calculer P(2 ≤ X ≤ 5) et P(1 ≤ Y ≤ 3).

Calcul de la probabilité d’événements de la forme (X 6 Y ) ou (X + Y 6 t) :

Soit P(X,Y ) la loi du couple (X, Y ) :


1) On a : ZZ
P(X 6 Y ) = P(X,Y ) ((x, y) | x 6 y) = dP(X,Y ) (x, y)
x≤y

Si (X, Y ) est de densité f(X,Y ) :


ZZ
P (X 6 Y ) = f(X,Y ) (x, y)dxdy.
x≤y

2) On a :

FX+Y (t) = P(X,Y ) ((x, y) | x + y 6 t)


ZZ
= dP(X,Y ) (x, y)
x+y≤t
ZZ
= f(X,Y ) (x, y)dxdy.
x+y≤t

1.3 Marginales
Soit X = (X1 , X2 , . . . , XN ) un vecteur aléatoire de loi PX et de densité de probabilité fX .

Définition 1.3.1 La v.a. Xj , j-ème compsante de X, s’appelle j-ème marginale de X et la loi PXj
s’appelle loi marginale de Xj (ou bien loi de la j-ème marginale).

6
Probabilités ENSA Agadir 2020-2021

Si on connait PX on sait trouver les lois PXj .


En effet ∀B ∈ B(R)

P (Xj ∈ B) = P [(X1 ∈ R) ∩ . . . ∩ (Xj ∈ B) ∩ . . . ∩ (Xn ∈ R)]


Z Z
= ··· fX (x1 , . . . , xj , . . . , xn ) dx1 . . . dx2 . . . dxn
R×...×B×...×R

par le théorème de Fubini


Z Z
P (Xj ∈ B) = dxj fX (x1 , . . . , xj , . . . , xn ) dx1 . . . dxn
B Rn−1 | {z }
sauf dxj

L’égalité ayant lieu pour tout B, on obtient :


Z Z
fXj (xj ) = · · · fX (x1 , . . . , xj , . . . , xn ) dx1 . . . dxn .
Rn−1 | {z }
sauf dxj

La loi marginale de Xj est aussi donnée par sa fonction de répartition

FXj (xj ) = F(X1 ,··· ,XN ) (+∞, · · · , +∞, xj , +∞, · · · , +∞) .

Remarque 1.3.1 Attention. Réciproquement, sauf dans le cas des composantes indépendantes, la
connaissance des lois marginales PXj des (Xj )1≤j≤N ne suffit évidemment pas pour déterminer la loi
conjointe PX du vecteur X = (X1 , · · · , XN ).

Maintenant on va faire l’extension au cas d’un sous vecteur (Xi1 , Xi1 , . . . , Xik ) extrait de X, avec
k < N.
On appelle loi marginale la loi de tout sous-vecteur (Xi1 , Xi1 , . . . , Xik ) extrait de X.

Proposition 1.3.1 Soit 1 ≤ k < N . Alors la fonction de répartition de (X1 , · · · , Xk ) est

F(X1 ,··· ,Xk ) (x1 , · · · , xk ) = lim F(X1 ,··· ,XN ) (x1 , · · · , xN )


xk+1 →+∞,··· ,xN →+∞

On écrit aussi
F(X1 ,...,Xk ) (x1 , · · · , xk ) = F(X1 ,...,XN ) (x1 , · · · , xk , +∞, · · · , +∞)
   
k (n) (n)
Preuve. Fixons (x1 , · · · xk ) ∈ R . Soient xk+1 , · · · , xN des suites croissantes tendant
n>1 n>1
toutes vers l’infini. La suite d’événements (indexée par n )
n o
(n) (n)
X1 6 x1 , · · · , Xk 6 xk , Xk+1 6 xk+1 , · · · XN 6 xN

croit vers {X1 6 x1 , · · · , Xk 6 xk } . Donc


 
(n) (n)
P (X1 6 x1 , · · · , Xk 6 xk ) = lim P X1 6 x1 , · · · , Xk 6 xk , Xk+1 6 xk+1 , · · · XN 6 xN
n→∞

ou encore,  
(n) (n)
F(X1 ,··· ,Xk ) (x1 , · · · , xk ) = lim F(X1 ,··· ,XN ) x1 , · · · , xk , xk+1 , · · · , xN
n→∞
Ceci prouve le théorème.

Proposition 1.3.2 Le vecteur aléatoire (X1 , · · · , Xk ), 1 ≤ k < N admet la densité


Z Z
f(X1 ,··· ,Xk ) (x1 , · · · , xk ) = · · · f(X1 ,··· ,XN ) (x1 , · · · , xN ) dxk+1 · · · dxN
RN −k

7
Probabilités ENSA Agadir 2020-2021

Preuve. D’après la proposition précédente, on a


Z x1 Z xk Z Z 
F(X1 ,··· ,Xk ) (x1 , · · · , xk ) = du1 · · · duk · · · f(X1 ,··· ,XN ) (u1 , · · · , uN ) duk+1 · · · duN
−∞ −∞ R R

Donc (X1 , · · · , Xk ) a une loi qui est absolument continue par rapport à la mesure de Lebesgue sur Rk ,
de densité
Z Z
f(X1 ,··· ,Xk ) (x1 , · · · , xk ) = · · · f(X1 ,··· ,XN ) (x1 , · · · , xk , uk+1 , · · · , uN ) duk+1 · · · duN . ?
R R

Exemple 1.3.1 Soit (X, Y ) un vecteur aléatoire de densité

f(X,Y ) (x, y) = θ2 e−θ(x+y) 1R∗+ ×R∗+ (x, y)

Par la Proposition 1.3.2, on obtient la densité de X


Z
fX (x) = f(X,Y ) (x, y)dy
R
Z +∞
= θ2 e−θ(x+y) 1R∗+ (x)dy
0
Z ∞
2 −θx ∗
= θ e 1R+ (x) e−θy dy
0
= θe−θx 1R∗+ (x).

Donc X suit la loi exponentielle de paramètre θ. De même, on peut vérifier que Y suit également la
loi exponentielle de paramètre θ.

1.3.1 Vecteurs discrets


Soit (X1 , · · · , XN ) un vecteur aléatoire discret (de dimension N ) à valeurs dans un ensemble au
plus dénombrable E = E1 × · · · × EN inclus dans IRN .

Définition 1.3.2 La loi PX , dite loi conjointe du vecteur X, est définie par :

∀x ∈ E, PX (x1 , . . . , xN ) = P(X1 = x1 , . . . , XN = xN ).

Théorème 1.3.1 La loi PXi de Xi , dite loi marginale de Xi est définie par :
X X X X
PXi (xi ) = P (Xi = xi ) = ... ... PX (x1 , x2 , . . . , xN ) .
x1 ∈E1 xi−1 ∈Ei−1 xi+1 ∈Ei+1 xN ∈EN

Preuve. On a

P (Xi = xi ) = P (X1 ∈ E1 , . . . , Xi = xi , . . . , XN ∈ EN )
X X X X
= ... ... PX (x1 , x2 , . . . , xN ) .
x1 ∈E1 xi−1 ∈Ei−1 xi+1 ∈Ei+1 xN ∈EN

Pour le cas général on a :

Proposition 1.3.3 Si (X1 , · · · , XN ) est un vecteur aléatoire discret à valeurs dans E = E1 ×· · ·×EN .
Alors pour tout k < N ,
X
P (X1 = x1 , · · · , Xk = xk ) = P (X1 = x1 , · · · , XN = xN ) .
(xk+1 ,··· ,xN )∈Ek+1 ×···×EN

8
Probabilités ENSA Agadir 2020-2021

1.4 Indépendance des composantes d’un vecteur aléatoire


Les v.a. X1 , X2 , . . . , XN sont mutuellement indépendantes, si pour tout N-uplet de boréliens
(B1 , B2 , . . . , BN ) de IRN :
N
!
\
P(X1 ∈ B1 , X2 ∈ B2 , . . . , XN ∈ BN ) = P (Xi ∈ Bi ) = P(X1 ∈ B1 )P(X2 ∈ B2 ) . . . P(XN ∈ BN ),
i=1

encore équivalent à :
N
Y
∀Bi ∈ B(IR), P(X ∈ B1 × · · · × BN ) = P(Xi ∈ Bi ).
i=1

C’est-à-dire en introduisant les lois de probabilités


N
Y
∀Bi ∈ B(IR), PX (B1 × · · · × BN ) = PXi (Bi ).
i=1

Cette dernière égalité est la définition de la loi de probabilité PX , définie sur B(IRN ) = B(IR) × · · · ×
B(IR), est le produit (tensoriel) des lois de probabilités marginales PXi définies sur B(IR).
Ce qu’on écrit
PX = PXi ⊗ · · · ⊗ PXN .
On dit aussi que la loi PX sur B(IRN ) est la loi produit PXi ⊗ · · · ⊗ PXN .
Interprétation : les événements décrits par les v.a. (Xi )i=1,...,N sont indépendants entre eux ;
autrement dit, la réalisation d’un sous-ensemble quelconque d’entre eux, n’a aucune influence sur la
réalisation des autres.
Remarque 1.4.1 Soit X1 , · · · , Xk une famille de variables aléatoires. Si cette famille est indépendante
les variables aléatoires sont indépendantes deux à deux, mais la réciproque est fausse.

Remarque 1.4.2 Si X1 , · · · , Xn sont toutes des v.a. réelles discrètes, à valeurs dans E1 , · · · , En
respectivement, alors leur indépendance équivaut à :

P (X1 = x1 , · · · , Xn = xn ) = P (X1 = x1 ) · · · P (Xn = xn ) ,

pour tout (x1 , · · · , xn ) ∈ E1 × · · · × En .

Théorème 1.4.1 Les v.a. réelles X1 , · · · , Xn sont indépendantes si et seulement si

F(X1 ,...,XN ) (x1 , · · · , xN ) = FX1 (x1 ) · · · FXN (xN ) , ∀ (x1 , · · · , xN ) ∈ RN .

Théorème 1.4.2 Soit (X1 , · · · , Xn ) un vecteur aléatoire admettant la densité de probabilité fx et les
composantes X1 , · · · , XN admettant les densité fX1 , · · · , fXN . Pour que la famille X1 , · · · , Xn soit une
famille indépendante, il faut et il suffit que
N
Y
fX (x1 , · · · , xN ) = fXi (xi ) .
i=1

Preuve. Si (X1 , . . . , Xn ) est une famille indépendante :


 
n
\ Yn n
Y
FX (x1 , . . . , xn ) = P  (Xj ≤ xj ) = P (Xj ≤ xj ) = FXj (xj )
j=1 j=1 j=1

en dérivant les deux membres extrêmes :


n n
∂ n FX (x1 , . . . , xn ) Y ∂FXj (xj ) Y
fX (x1 , . . . , xn ) = = = fXj (xj )
∂xn . . . ∂x1 ∂xj
j=1 j=1

9
Probabilités ENSA Agadir 2020-2021

n
Y
Réciproquement si fX (x1 , . . . , xn ) = fXj (xj ).
j=1
Soit Bj ∈ B(R) pour j = 1 à n
   
n
\ n
Y
P (Xj ∈ Bj ) = P X ∈ Bj 
j=1 j=1
Z
= Qn fX (x1 , . . . , xn ) dx1 . . . dxn
j=1 Bj
Z n
Y
= Qn fXj (xj ) dxj
j=1 Bj j=1
n Z
Y
= fXj (xj ) dxj
j=1 Bj
Yn
= P (Xj ∈ Bj ) .
j=1

n
Y
Remarque 1.4.3 L’égalité fX (x1 , . . . , xn ) = fXj (xj ) est la définition de la fonction de n va-
j=1
riables fX est le produit tensoriel des fonctions d’une variable fXj . On écrit symboliquement

fX = fX1 ⊗ . . . ⊗ fXn .

Exemple 1.4.1 Soit le couple aléatoire X = (X1 , X2 ) de densité :


 2
x1 + x22

1
exp −
 22π 2  2  2  2
1 x1 + x2 1 x 1 x
Comme exp − = √ exp − √ − 2
2π 2 2π 2 2π 2
 2  2
1 x 1 x
et comme √ exp − 1 et √ exp − 2 sont les densités de X1 et de X2 ces deux composantes
2π 2 2π 2
X1 et X2 sont indépendantes.

Théorème 1.4.3 La densité fX+Y de la somme de deux v.a. indépendantes X et Y est égale au
produit de convolution fX ∗ fY des densités des v.a. X et Y .

Preuve. On a :
FX+Y (t) = P(X,Y ) ((x, y) | x + y 6 t)
ZZ
= dP(X,Y ) (x, y)
x+y6t
ZZ
= f(X,Y ) (x, y)dxdy.
x+y6t

En utilisant l’indépendance de X et Y on obtient :


ZZ Z +∞  Z t−y 
fY (y)fX (x)dxdy = fY (y) fX (x)dx dy
x+y6t −∞ −∞
Z +∞
= fY (y)FX (t − y)dy.
−∞

10
Probabilités ENSA Agadir 2020-2021

Si FX est dérivable sur son domaine de définition,


Z +∞ 
d d
fX+Y (t) = (FX+Y (t)) = fY (y)FX (t − y)dy ,
dt dt −∞

est égale, par application du théorème de dérivation sous le signe somme, à :


Z +∞ Z +∞
d
fY (y) FX (t − y)dy = fY (y)fX (t − y)dy = fX ∗ fY (t).
−∞ dt −∞

1.5 Moments
Théorème 1.5.1 Soit X = (X1 , . . . , XN ) un vecteur aléatoire de loi PX , et soit une fonction g :
RN → R telle que
Z Z
E(|g(X)|) = E(|g (X1 , . . . , XN )|) = ... |g (x1 , . . . , xN )| PX ( dx1 · · · dxN )
RN
Z Z
= ... |g (x1 , . . . , xN )| fX (x1 , . . . , xN ) dx1 . . . dxN < ∞,
RN

alors la v.a. réelle g (X1 , · · · , XN ) admet un moment d’ordre 1, avec


Z Z
E (g (X1 , · · · , XN )) = · · · g (x1 , · · · , xN ) fX (x1 , · · · , xN ) dx1 · · · dxN .
RN

Exemple 1.5.1 Soient le vecteur X = (X1 , X2 ) de loi P(X1 ,X2 ) , et g définie par : g(u, v) = u + v.
Alors ZZ
E (X1 + X2 ) = (x1 + x2 ) P(X1 ,X2 ) (dx1 dx2 )
2
Z ZR ZZ
= x1 P(X1 ,X2 ) (dx1 dx2 ) + x2 P(X1 ,X2 ) (dx1 dx2 )
2 R2
Z R Z
= x1 PX1 dx1 + x2 PX2 dx2
R R
= E (X1 ) + E (X2 ) .

Définition 1.5.1 Soit X = (X1 , . . . , XN ) un vecteur aléatoire. Si X1 , . . . , XN admettent toutes un


moment d’ordre 1. Alors, l’espérance de X est définie par le vecteur :

E(X) = (E(X1 ), . . . , E(XN )).

Théorème 1.5.2 Soit le vecteur X = (Xi )i=1,··· ,N de composantes indépendantes telles que E (|Xi |) <
+∞ pour tout 1 ≤ i ≤ N alors :
N
Y
E (|X1 X2 · · · XN |) < +∞ et E (X1 X2 · · · XN ) = E (Xi ) .
i=1

Preuve. Dans le cas d’un vecteur continu :


Z
E (X1 · · · XN ) = x1 · · · xN fX (x1 , · · · , xN ) dx1 · · · dxN
N
RZ  Z 
= x1 fX1 (x1 ) dx1 · · · xN fXN (xN ) dxN
N
Y
= E (Xi ) .
i=1

11
Probabilités ENSA Agadir 2020-2021

Théorème 1.5.3 (Caractérisation de l’indépendance des composantes d’un vecteur aléatoire.) X1 , X2 , . . . , XN


sont indépendantes si et seulement si pour tout N -uplet (ϕ1 , . . . , ϕN ) de fonctions mesurables bornées
de R dans R :
E (ϕ1 (X1 ) . . . ϕN (XN )) = E (ϕ1 (X1 )) . . . E (ϕN (XN )) .
Propriété 1.5.1 (Linéarité de l’espérance mathématique)
(a) Si X et Y sont des vecteurs aléatoires de même dimension :
E(X + Y ) = E(X) + E(Y ).
(b) ∀a ∈ R, E(aX) = aE(X).
Définition 1.5.2 À tout couple de v.a. (X, Y ) admettant des moments d’ordre 2, on associe la cova-
riance de ses composantes définie par :
Cov(X, Y ) = E((X − EX)(Y − EY )) = E(XY ) − E(X)E(Y ).
Propriété 1.5.2 Étant donné un couple de v.a. (X, Y ) admettant des moments d’ordre deux, on a :
(a) Cov(X, X) = V(X).
(b) Cov(X, Y ) = Cov(Y, X).
(c) Pour tous réels a, b, c, et d, Cov(aX + b, cY + d) = ac Cov(X, Y ).
(d) V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ).
(e) si X, Y sont indépendantes : Cov(X, Y ) = 0 et V (X + Y ) = V (X) + V (Y ). La réciproque est
en général fausse.
Définition 1.5.3 Si X et Y admettent des moments d’ordre 2 telles que Var(X) Var(Y ) > 0 alors
Cov(X, Y ) E(XY ) − E(X)E(Y )
ρ(X, Y ) := p p =
Var(X) Var(Y ) σX σY
est appelé le coefficient de corrélation entre X et Y . Il est compris entre -1 et 1, i.e. ρ(X, Y ) ∈ [−1, 1].
Preuve. Rappelons tout d’abord l’inégalité de Cauchy-Schwarz. Si X et Y sont des v.a. réelles ad-
mettant des moments d’ordre 2, alors :
p p
E(|XY |) ≤ E(X 2 ) E(Y 2 ).
On a
| Cov(X, Y )| 6 |E((X − EX)(Y − EY ))|
6 E(|(X − EX)(Y − EY )|)
p p p p
6 E ((X − EX)2 ) E ((Y − EY )2 ) = Var(X) Var(Y ).
Par conséquent, on déduit
|ρ(X, Y )| ≤ 1.
D’où le résultat.
Remarque 1.5.1 1. ρ(X, Y ) = ±1 ⇐⇒ Il existe une relation affine entre X et Y . X et Y sont
dites colinéaires.
2. ρ(X, Y ) = 0 ⇐⇒ Aucune relation affine entre X et Y . X et Y sont dites décorrélées.
Définition 1.5.4 Soit X = (X1 , · · · , XN ) un vecteur aléatoire tel que chaque composante admet un
moment d’ordre 2. On appelle
 
Var (X1 ) Cov (X1 , X2 ) · · · Cov (X1 , XN )
 Cov (X2 , X1 ) Var (X2 ) · · · Cov (X1 , XN ) 
ΓX = 
 
.. .. . . .. 
 . . . . 
Cov (XN , X1 ) Cov (XN , X2 ) · · · Var (XN )
matrice de variances-covariances de X. Il s’agit de la matrice symétrique ΓX = (σ ij )16i,j6N avec
σ ij = Cov (Xi , Xj ).

12
Probabilités ENSA Agadir 2020-2021

Propriété 1.5.3 La matrice Σ est positive au sens que pour tout a = (a1 , · · · , aN ) ∈ RN ,
X
aΓX at = σ ij ai aj > 0.
16i,j6N

Preuve. On a
X X
aΓX at = σ ij ai aj = ai aj E ((Xi − EXi ) (Xj − EXj ))
16i,j6N 16i,j6N
 
X
= E ai (Xi − EXi ) aj (Xj − EXj )
16i,j6N
 
 X  X 
= E ai (Xi − EXi ) aj (Xj − EXj ) 
16i6N 16j6N

N
!2 
X
= E ai (Xi − EXi )  > 0.
i=1

Définition 1.5.5 Les composantes Xi et Xj sont dites décorrélées si :

σ ij = Cov(Xi , Xj ) = 0.

Théorème 1.5.4 (L’indépendance de deux v.a. entraı̂ne leur décorrélation)

(X1 , X2 indépendantes ) =⇒ (Cov (X1 , X2 ) = 0)

Preuve. Si X1 et X2 sont indépendants alors E (X1 X2 ) = E (X1 ) E (X2 ). Et donc Cov (X1 , X2 ) = 0.

Remarque 1.5.2 Attention. La réciproque (Cov (X1 , X2 ) = 0 =⇒ X1 , X2 indépendantes) n’est vraie


que si (X1 , X2 ) est un vecteur gaussien ou un vecteur de Bernoulli. (On rappelle qu’un vecteur de Ber-
noulli (X1 , X2 ) prend ses valeurs dans l’espace {0, 1}2 .

Le résultat suivant est une généralisation de la Propriété 1.5.2 c) et d) au cas de plusieurs variables
aléatoires.

Proposition 1.5.1 (i) Si X1 , · · · , XN sont des v.a. réelles admettant toutes un moment d’ordre
2, alors
N
X X
Var (X1 + · · · + XN ) = Var (Xi ) + 2 Cov (Xi , Xj ) .
i=1 16i<j6N

(ii) Si X1 , · · · , XN , Y1 , · · · , YM sont des v.a. réelles admettant toutes un moment d’ordre 2 , alors
pour tous réels a1 , · · · aN , b1 , · · · , bM
 
XN M
X N X
X M
Cov  ai Xi , bj Yj  = ai bj Cov (Xi , Yj ) .
i=1 j=1 i=1 j=1

1.6 Changement de variables


Soit X un vecteur aléatoire à valeurs dans un ouvert ∆ ⊂ RN (souvent : ∆ = RN ) qui admet
comme densité fX = fX 1∆ . Soit
h:∆→D
(avec D ⊂ RN un C 1 -difféomorphisme de ∆ dans D, c’est-à-dire que h est une application de ∆


dans D qui est bijective et continument différentiable, et dont l’application réciproque h−1 (de D dans

13
Probabilités ENSA Agadir 2020-2021

∆ ) est aussi continument différentiable.


Alors le vecteur aléatoire Y = h(X) a pour densité

fX (x)
fY (y) = 1D (y), y = h(x)
|(Dh)(x)|
fX h−1 (y)

= 1D (y),
|(Dh) (h−1 (y))|

où (Dh)(x) est le jacobien de h en x : soit h = (h1 , · · · , hN )

∂h1 (x1 , · · · , xN ) ∂h1 (x1 , · · · , xN )


 
···
 ∂x1 ∂xN 

(Dh)(x) = det  .. .. .. 
.
 . . . 
 ∂hN (x1 , · · · , xN ) ∂hN (x1 , · · · , xN ) 
···
∂x1 ∂xN

Exemple 1.6.1 Soit (X, Y ) un vecteur aléatoire de densité

f(X,Y ) (x, y) = θ2 e−θ(x+y) 1R∗+ ×R∗+ (x, y).

Soient les v.a. U = X + Y et V = X − Y .


Quelle est la loi du vecteur aléatoire (U, V )?

L’application h(x, y) = (x + y,x − y) est unC 1 -difféomorphisme de R∗+ × R∗+ dans D = {(u, v) :
u+v u−v
u > 0, |v| < u}, avec h−1 (u, v) = , . Le jacobien est
2 2
 
1 1
(Dh)(x) = det = −2.
1 −1

Donc (U, V ) a pour densité


1 1
f(U,V ) (u, v) = θ2 e−θ(x+y) 1R∗+ ×R∗+ (x, y) = θ2 e−θu 1D (u, v).
2 2

14
Chapitre 2

Fonctions génératrices et fonctions


caractéristiques

Ces deux concepts sont d’une grande efficacité opératoire lorsqu’il s’agit de :
• caractériser la loi de variables aléatoires (comme peuvent le faire la fonction de répartition, la
densité et la fonction de masse) ;
• calculer aisément les moments de X (si ils existent) ;
• déterminer les lois de sommes ou de différences de variables aléatoires indépendantes,
• déterminer des limites de suites de variables ou de vecteurs aléatoires.

2.1 Fonctions génératrices


Tout cette partie ne concerne que les variables aléatoires discrètes à valeurs dans N.

2.1.1 Fonctions génératrices


Soit X une v.a. telle que X(Ω) ⊂ N. On Considère la série entière
X
P(X = n).tn
n≥0

1. Si X(Ω) est un sous ensemble fini de N, il existe un entier n tel que X(Ω) ⊂ {0, 1, . . . , n}. Alors
la série précédente ne comporte qu’un nombre fini de termes non nuls. Elle est donc convergente
pour tout t ∈ R. On pose alors
n
X
∀t∈R GX (t) = pk .tk
k=0

où pk = P(X = k).


2. Si X(Ω) ⊂ N est infini, on remarque que
+∞
X
k
∀ t ∈ [−1, 1] |P(X = k)t | ≤ P(X = k) et P(X = k) = 1
k=0

on déduit que la série entière converge pour tout t ∈ [−1, 1], et donc sons rayon de convergence
R vérifie R ≥ 1. On peut alors définir
+∞
X
∀ t ∈ [−1, 1] GX (t) = P(X = k).tk
k=0

Définition 2.1.1 Soit X une v.a. à valeurs dans N. On appelle fonction génératrice de X la
fonction, notée GX , définie sur au moins l’intervalle [−1, 1] par
+∞
X
GX (t) = P(X = k).tk = E[tX ].
k=0

15
Probabilités ENSA Agadir 2020-2021

On notera que pour toute v.a. à valeurs dans N on a


+∞
X
GX (1) = P(X = k) = 1.
k=0

Exemple 2.1.1 1. Si X est v.a. de Bernoulli de paramètre p, pour tout t ∈ R on a :

GX (t) = t0 P(X = 0) + t1 P(X = 1) = 1 − p + pt.

2. Si X suit une loi binomiale B(n, p), pour tout t ∈ R on a :


n
X n
X
GX (t) = P(X = k)tk = Cnk (pt)k (1 − p)n−k = (1 − p + pt)n .
k=0 k=0

1 1
3. Si X suit une loi géométrique G(p), pour tout t ∈] − , [ on a :
1−p 1−p
+∞ +∞
X X pt
GX (t) = P(X = k)tk = tp (t(1 − p))k−1 = .
1 − (1 − p)t
k=0 k=0

4. Si X suit une loi de Poisson P(λ), pour tout t ∈ R, on a :


+∞
X (λt)k
GX (t) = e−λ = eλt−λ .
k!
k=0

Proposition 2.1.1 Soit X une v.a. à valeurs dans N. Si (a, b) est un couple d’entiers, alors, pour
tout t ∈ [−1, 1], on a
GaX+b (t) = tb GX (ta ).

Démonstration En exercice.

2.1.2 Caractérisation d’une loi sur N


Théorème 2.1.1 La fonction génératrice d’une v.a. X caractérise entièrement sa loi.
Plus précisément, pour tout k ∈ N,
(k)
G (0)
P(X = k) = X
k!
(k)
où GX (0) désigne la dérivée k-ième de GX en 0.
Donc,
GX = GY ⇐⇒ ∀ k ∈ N P(X = k) = P(Y = k).

Démonstration. La démonstration repose sur les propriétés des séries entières.



X
En effet, la série entière s 7→ tk P(X = k) a un rayon de convergence supérieur ou égal à 1 (car
k=0

X
P(X = k) converge). On peut donc récupérer P(X = k) en utilisant la formule qui relie les
n=0
coefficients d’une série entière avec les dérivées en 0.
On utilise ce théorème de la façon suivante : si on arrive à montrer que la fonction génératrice GX
d’une v.a. est la fonction génératrice d’une loi connue, alors on en déduit que X suit cette loi.

Exemple 2.1.2 Si l’on trouve que

GX (t) = (1 − p + pt)n

on en conclut que X suit la loi binomiale B(n, p).

16
Probabilités ENSA Agadir 2020-2021

Exemple 2.1.3 Soit X une v.a. à valeurs dans N dont la fonction génératrice est définie sur [−1, 1]
par
t2
GX (t) = .
2 − t2
X
Déterminons la loi de X et de Y = . On remarque que
2

t2 1
GX (t) = × 2 .
2 1 − t2

Or, pour tout t, |t| ≤ 1, on a


+∞  2 k +∞ 2k
1 X t X t
t2
= =
1− 2 2k
2 k=0 k=0

donc
+∞ +∞ +∞
t2 X t2k X t2k X
GX (t) = × = = P(X = k)tk .
2 2k 2k
k=0 k=1 k=0

La loi de X est donc caractérisée par :


 k
1
X(Ω) = {2k : k ∈ N} et ∀ k ∈ N∗ P(X = 2k) = .
2

On en déduit que Y (Ω) = N∗ et que, pour tout k ∈ N∗ , on a


 k
1
P(Y = k) = P(X = 2k) =
2

1
ce qui prouve que Y suit la loi géométrique G( ).
2

2.1.3 Calcul d’espérance et de variance à l’aide de la fonction génératrice


Propriété 2.1.1 La fonction génératrice des moments factoriels GX admet une dérivée à gauche de 1
(k)
d’ordre k GX (1) si et seulement si le moment factoriel d’ordre k de X défini par E[X(X − 1) . . . (X −
k + 1)] existe et est fini. On a alors
(k)
E[X(X − 1) . . . (X − k + 1)] = GX (1)

On déduit de la proposition précédente


2
E[X] = G0X (1), E[X(X − 1)] = G00X (1) d’où V(X) = G00X (1) + G0X (1) − G0X (1)

Si X est une v.a. telle que X(Ω) est un ensemble fini de N, il existe un entier n tel que X(Ω) ⊂ [0, n],
la fonction génératrice GX est une fonction polynôme, indéfiniment dérivable sur R.
n
X
GX (t) = P(X = k)tk
k=0
n
X
G0X (t) = kP(X = k)tk−1
k=1
n
X
G00X (t) = k(k − 1)P(X = k)tk−2
k=2
etc. . . .

17
Probabilités ENSA Agadir 2020-2021

Lorsque X(Ω) est une partie infinie de N, la fonction génératrice GX est indéfiniment dérivable en
tout point t vérifiant |t| < R, R rayon de convergence de la série entière définissant GX , en vertu des
propriétés des séries entières. On a alors :
+∞
0
X
GX (t) = kP (X = k)tk−1
k=1
+∞
(r)
X
GX (t) = k(k − 1)(k − 2) · · · (k − r + 1)P(X = k)tk−r .
k=r

La proposition suivante permet de déterminer l’espérance et la variance d’une v.a. à l’aide de sa


fonction génératrice.

Proposition 2.1.2 Soit X une v.a. telle que X(Ω) ⊂ N et GX sa fonction génératrice.
1. X admet une espérance si et seulement si GX est dérivable en 1, et on a alors
0
E[X] = GX (1)

2. X admet une variance si et seulement si GX admet en 1 une dérivée seconde, auquel cas
00 0 0
V ar[X] = GX (1) + GX (1) − [GX (1)]2 .

3. Si le moment factoriel d’ordre k de X défini par E[X(X − 1) . . . (X − k + 1)] existe et est fini.
On a alors
(k)
E[X(X − 1) . . . (X − k + 1)] = GX (1).
 
1 1
Exemple 2.1.4 (Loi géométrique) Si X suit la loi géométrique G(p), alors pour tout t ∈ − ,
1−p 1−p
on a :
pt 0 p 00 p(1 − p)
GX (t) = , GX (t) = 2
, GX (t) = .
1 − (1 − p)t (1 − (1 − p)t) (1 − (1 − p)t)3
On retrouve bien :
0 p 1
GX (1) = = = E[X]
(1 − (1 − p)t)2 p
 2
00 0 0 2p(1 − p) 1 1 1−p
GX (1) + GX (1) − [GX (1)]2 = + − = = V ar[X].
p3 p p p2

Propriété 2.1.2 Si X et Y sont des v.a. indépendantes, de lois discrètes à valeurs dans N, alors on
a pour tout t ∈ [−1, 1] :
GX+Y (t) = GX (t)GY (t).

Preuve. Par définition de la fonction génératrice et par l’indépendance, pour tout t ∈ [−1, 1] on

GX+Y (t) = E tX+Y = E tX tY = E tX E tY = GX (t) · GY (t)


       

Proposition 3.2.8 Si X1 , X2 , . . . , Xn sont n variables aléatoires de Bernoulli mutuellement indépendantes


et de même paramètre p, alors leur somme

Y = X1 + X2 + . . . + Xn

suit la loi binomiale B(n, p). Les v.a. (Xi )1≤i≤n sont indépendantes et identiquement distribuées de
même fonction génératrice

∀i, 1 ≤ i ≤ n ∀t ∈ [0, 1] GXi (t) = 1 − p + pt

18
Probabilités ENSA Agadir 2020-2021

On en déduit, par l’indépendance que la fonction génératrice de Y vérifie


n
Y
∀t ∈ [0, 1] GY (t) = GXi (t) = (1 − p + pt)n
i=1

qui est la fonction génératrice de la loi binomiale B(n, p). Somme de variables binomiales indépendantes
Proposition 3.2.9 Si X1 , X2 , . . . , Xd sont d variables aléatoires binomiales mutuellement indépendantes
de lois respectives B (ni , p), alors leur somme

Y = X1 + X2 + · · · + Xn

suit la loi binomiale B (n1 + n2 + . . . + nd , p).

Définition 2.1.2 La fonction génératrice d’un vecteur aléatoire (X1 , . . . , XN ) ȧ valeurs entières po-
sitives est définie par :
 
XN
∀i, ∀ti ∈ [−1, 1], G(X1 ,...,XN ) (t1 , . . . ., tN ) = E tX1 X2
t
1 2 . . . tN

2.2 Fonction Caractéristique


Définition 2.2.1 L’application ϕX : RN → C donnée par
  Z Z
N iht,Xi iht,xi
∀t ∈ R , ϕX (t) = ϕX (t1 , . . . , tN ) = E e = e PX ( dx) = eiht,xi dPX (x1 , . . . , xN ),
RN RN
X
s’appelle la fonction caractéristique de X, où < X, t > désigne le produit scalaire tj Xj .
j
Si X est une v.a. discrète de loi P (X = xj ) = pj , ∀j ∈ J, alors :
X
∀t ∈ R, ϕX (t) = eitxj pj
j∈J

Si X est une v.a. de densité fX alors :


Z +∞
∀t ∈ R, ΦX (t) = eixt fX (x)dx
−∞

Si X est un vecteur aléatoire de densité fX (x1 , . . . , xN ) , sa fonction caractéristique est définie par :
Z PN
ϕX (t1 , . . . , tN ) = ei j=1 tj xj fX (x1 , . . . , xN ) dx1 . . . dxN .
RN

La fonction caractéristique satisfait les propriétés suivantes :


• ϕX (0) = 1.
• La fonction caractéristique
 prend ses valeurs
 dans le disque unité, c’est-àdire |ϕX (t)| ≤ 1 pour
N iht,Xi iht,Xi
tout t ∈ R . En effet, |E e | ≤ E |e | = 1.
• ϕλX+a (t) = eiha,ti ϕX (λt), pour tout λ ∈ R et tout a ∈ RN .
En effet
 
ϕλX+a (t) = E eiht,λX+ai
 
= E eiht,ai eiht,λXi
 
= eiht,ai E eihλt,Xi
= eiha,ti ϕX (λt).

19
Probabilités ENSA Agadir 2020-2021

Exemple 2.2.1 (1) X1 variable de Bernoulli, de loi de probabilité PX1 = pδ 1 + (1 − p)δ 0 :

ϕX1 (t) = ei.1.t p + ei.0.t (1 − p) = (1 − p) + peit .

t2 Z

e− 2 1 2
(2) X2 variable N (0, 1) : ϕX2 (t) = √ e− 2 (x−it) dx (intégrale complexe que l’on calcule sur
2π −∞
un contour rectangle standard centré en 0), est égale à :
t2
ϕX2 (t) = e− 2 .

Comme son nom l’indique, la fonction caractéristique d’une variable ou d’un vecteur aléatoire ca-
ractérise sa loi.

Théorème 2.2.1 Deux variables aléatoires X et Y ont même loi si et seulement si ϕX = ϕY .

Théorème 2.2.2 Si ϕX est intégrable par rapport à la mesure de Lebesgue sur RN , alors X admet
la densité Z
1
fX (x) = e−iht,xi ϕX (t)dt, x ∈ RN .
(2π)N RN
En plus fX est bornée sur RN .

Théorème 2.2.3 Les v.a. réelles X1 , · · · , Xn sont indépendantes si et seulement si


n
Y
ϕX (t) = ϕXk (tk ) , ∀t = (t1 , · · · , tn ) ∈ Rn
k=1

où X := (X1 , · · · , Xn ).

Théorème 2.2.4 Si X1 , · · · , Xn sont des vecteurs aléatoires (de dimension N > 1 ) indépendantes,
alors
ϕX1 +···+XN (t) = ϕX1 (t) × · · · × ϕXN (t), t ∈ R.
h P i
Preuve. ϕΣj Xj (t) = E ei j Xj t = Πj E eiXj t = Πkj=1 ϕXj (t).
 

Exemple 2.2.2 Si X a pour loi N µ, σ 2 et Y a pour loi N ν, τ 2 , avec X et Y indépendantes,


 

alors
σ 2 t2 τ 2 t2
   
ϕX+Y (t) = ϕX (t)ϕY (t) = exp itµ − × exp itν −
2 2
!
σ 2 + τ 2 t2

= exp it(µ + ν) −
2

Donc X + Y a pour loi N µ + ν, σ 2 + τ 2 .




La fonction caractéristique d’une v.a. réelle X permet de calculer très facilement les moments de X.

Proposition 2.2.1 Supposons que la v.a. réelle X admet un moment d’ordre n > 1. Alors ϕX est de
classe C n et
(n)
ϕX (t) = in E X n eitX , t ∈ R


En particulier,
(n)
ϕX (0)
E (X n ) = .
in
Pour déterminer la loi d’une v.a. Y = h (X1 , . . . , Xn ) , il peut être utile de déterminer la fonction
caractéristique ϕY (t), puis d’en calculer l’inverse de Fourier, grâce au théorème ci-dessous, pour en
déduire la loi PY .

20
Probabilités ENSA Agadir 2020-2021

Théorème 2.2.5 (Inversion de la fonction caractéristique)


(1) Soit la v.a. X de densité fX et telle ϕX ∈ L1 (R), alors :
Z
1
fX (x) = e−ixt ϕX (t)dt (p.p.).
2π R

(2) Soit le vecteur X de densité fX tel que ϕX ∈ L1 RN , alors :




Z
1
fX (x1 , . . . , xN ) = ϕ (t1 , . . . , tN ) e−i(t1 x1 +...+tn xN ) dt1 . . . dtN (p.p.).
(2π)N RN X

(3) Si X est à valeurs discrètes xk :


Z T
1
P [X = xk ] = lim e−itxk ϕX (t)dt.
T →+∞ 2T −T

21
Probabilités ENSA Agadir 2020-2021

22
Chapitre 3

Vecteurs aléatoires gaussiens

3.1 Définition et propriétés


On rappelle que laloi gaussienne de moyenne µ ∈ R et de variance σ 2 > 0 a pour densité
2 σ2 2
 
1 (x − µ)
√ exp − , x ∈ R. Sa fonction caractéristique vaut exp iµt − t , t ∈ R Il est com-
σ 2π 2σ 2 2
mode de convenir qu’une masse de Dirac δ µ est la loi gaussienne de moyenne µ et de variance nulle.

 
X1
Définition 3.1.1 Soit X =  ...  un vecteur aléatoire à valeurs dans RN . On dit que X est un
 

XN
N
X
vecteur gaussien si toute combinaison linéaire de ses coordonnées, c-à-d λj Xj = λ1 X1 +· · ·+λN XN
j=1
 
λ1
pour λ =  ...  ∈ RN , suit une loi gaussienne.
 

λN
 
X1
Remarque 3.1.1 Si X =  ...  est un vecteur gaussien, alors chaque coordonnée est une gaus-
 

XN
sienne réelle. La réciproque est fausse.

Proposition 3.1.1 Si X1 , · · · , XN sont des v.a. gaussiennes (réelles) indépendantes, alors (X1 , · · · , XN )
est un vecteur gaussien.
 
N λ1
λj Xj = λ1 X1 + · · · + λN XN pour λ =  ...  ∈ RN suit une loi gaussienne.
X
On doit montrer que
 
j=1 λN
Puisque la somme de v.a. gaussiennes indépendantes est gaussienne. Alors, on a :

N
Y
ϕPN λj Xj (t) = ϕXi (t) = t ∈ RN .
j=1
i=1

 
X1
Remarque 3.1.2 Si X =  ...  est un vecteur gaussien, A est une matrice M × N déterministe,
 

XN
M
et B ∈ R , alors AX + B est un vecteur gaussien, car les combinaisons linéaires des composantes de
AX + B sont des combinaisons linéaires (plus des constantes) de X1 , · · · , XN .

23
Probabilités ENSA Agadir 2020-2021

Proposition 3.1.2 La fonction caractéristique d’un vecteur gaussien X est donnée par
 
N
X 1 X
ϕX (t) = exp i µj t j − Djk tj tk  , t ∈ RN
2
j=1 16j,k6N

où D = (Djk )N ×N est la matrice de covariances de X. En conséquence, la loi d’un vecteur gaussien est
complètement
  déterminée par sa moyenne et sa matrice de covariances. On notera N (µ, D), où µ :=
µ1
 .. 
 . .
µN
 
t1 N
Preuve. Soit t =  ...  ∈ RN , et soit Y :=
X
tj Xj . On a
 

tN j=1

ϕX (t) = E eiY = ϕY (1)




N
X X
Or, Y est une v.a. gaussienne réelle, E(Y ) = tj µj et Var(Y ) = tj tk Djk ce qui nous donne
j=1 16j,k6N
 
N
X 1 X
ϕX (t) = exp i tj µj − tj tk Djk  .
2
j=1 16j,k6N

Proposition
X 3.1.3 Soit µ ∈ RN , et soit D une matrice N × N symétrique positive (c’est-àdire que
λj λk Djk > 0 pour tout λ ∈ RN . Alors, il existe un vecteur gaussien N -dimensionnel de


16j,k6N
moyenne µ et de matrice de covariances D.
Preuve. On sait construire N variables gaussiennes centrées réduites indépendantes, N1 , · · · , NN .
On note dans la preuve    
µ1 N1
µ =  ...  , N =  ... 
   

µN NN
Toute matrice symétrique positive admettant une racine carrée, on peut trouver une matrice symétrique
C = (Cjk )N ×N telle que C 2 = D. Posons
X = CN + µ.
D’après Propriété 3.1.1 et Remarque 3.1.2 X est un vecteur gaussien, de moyenne µ. Pour déterminer
sa matrice de covariances, remarquons que
 
Cov (Xj , Xk ) = E Xj − µj (Xk − µk )
" N ! N !#
X X
=E Cj` N` Ckm Nm
`=1 m=1
X
= Cj` Ckm E (N` Nm )
16`,m6N

N
X
Or, E (N` Nm ) vaut 1 si ` = m et vaut 0 sinon, ce qui implique que Cov (Xj , Xk ) = Cj` Ck` =
`=1
CC t jk , où C t est le transposé de C. Donc la matrice de covariances de


X est CC t
Comme C est symétrique, CC t = C 2 = D, on a montré que X est bien un vecteur gaussien de moyenne
µ et de matrice de covariances D.

24
Probabilités ENSA Agadir 2020-2021

N
Proposition 3.1.4 (Densité gaussienne). Soit µ un vecteur
  quelconque de R et D une matrice
−1
N × N symétrique positive. Si det(D) 6= 0, et si D−1 = Djk désigne la matrice inverse de D,
N ×N
alors la loi gaussienne N -dimensionnelle N (µ, D) est absolument continue par rapport à la mesure
de Lebesgue sur RN , et a pour densité
 
1 1 X
−1

p exp − Djk xj − µj (xk − µk ) .
(2π)N/2 det(D) 2
16j,k6N

Preuve. Soit X = CN + µ comme dans la construction précédente. On connaı̂t la densité


de N , car N1 , · · · , NN sont des v.a. gaussiennes indépendantes. On obtient alors la densité de X en
effectuant un changement de variables.

Théorème 3.1.1 Soit (X1 , · · · , XN ) un vecteur gaussien. Pour que les variables aléatoires X1 , · · · , XN
soient indépendantes, il faut et il suffit que la matrice de covariances de X soit diagonale.

Preuve. La condition est trivialement nécessaire. Pour la réciproque, on utilise de nouveau la construc-
tion X = CN + µ. Si D (la matrice de covariances de X ) est diagonale, alors C est aussi diagonale
: C = diag (C11 , · · · , CN N ) . On a alors Xj = Cjj Nj + µj pour 1 6 j 6 N . Comme N1 , · · · , NN sont
des v.a. (gaussiennes) indépendantes, on déduit l’indépendance entre les v.a. X1 , · · · , XN

25
Probabilités ENSA Agadir 2020-2021

26
Chapitre 4

Convergences, Théorèmes Limites et


Approximations

4.1 Convergences
4.1.1 Convergence en loi
Définition 4.1.1 Soit (Xn )n>1 une suite de variables aléatoires définies sur un même espace pro-
babilisé (Ω, F, P) et FXn la suite des fonctions de répartition correspondantes. Soit X une variable
aléatoire définie sur le même espace probabilisé (Ω, F, P) et FX sa fonction de répartition.
On dit que la suite (Xn )n>1 converge en loi vers X si, en tout point x de continuité de FX (c-à-d en
tout point x où FX est continue), nous avons

lim FXn (x) = FX (x). (4.1.1)


n→+∞

Remarque 4.1.1 1. Pour des variables discrètes à valeurs entières, la convergence en loi vers
une variable discrète à valeurs entières s’exprime par

∀k ∈ N, lim P (Xn = k) = P(X = k).


n→+∞

2. Si les lois des Xn et de X sont définies par des densités fXn et fX , la caractérisation précédente
(4.1.1) équivaut à la convergence ponctuelle de la suite (fXn )n vers fX , c-à-d

lim fXn (x) = fX (x).


n→+∞

3. La proposition suivante est équivalente à celle de la Définition 4.1.1 : Pour toute fonction
bornée et continue h de R dans R,

Xn −→loi
n→+∞ X ⇐⇒ E (h (Xn )) −→n→+∞ E(h(X)).

4.1.2 Convergence en Probabilité


Définition 4.1.2 On considère une suite (Xn )n>1 de variables aléatoires définies sur un même espace
probabilisé (Ω, F, P) et une autre v.a. X définie sur le même espace.
On dit que la suite (Xn ) converge en probabilité vers une constante réelle l si

∀ > 0, lim P (|Xn − l| ≥ ) = 0.


n→+∞

On dit que la suite (Xn ) converge en probabilité vers X si

∀ > 0, lim P (|Xn − X| ≥ ) = 0.


n→+∞

Remarque 4.1.2 Pour que (Xn ) converge en probabilité vers X, il faut et il suffit que E(Xn −X) → 0
et V (Xn − X) → 0 lorsque n → +∞.

27
Probabilités ENSA Agadir 2020-2021

4.1.3 Convergence presque sûre


Définition 4.1.3 On considère une suite (Xn ) d’une v.a. définie sur (Ω, A, P) et une autre v.a. X
définie aussi sur (Ω, A, P).
On dit que la suite (Xn ) converge presque sûrement vers X s’il existe un événement négligeable A de
A (P(A) = 0) tel que
∀ ω ∈ Ω\A, lim Xn (ω) = X(ω).
n→+∞

Remarque 4.1.3 — La convergence presque sûre implique la convergence en probabilité.


— La convergence en probabilité entraı̂ne la convergence en loi.

4.2 Théorèmes limites


Inégalité de Markov :

Proposition 4.2.1 (inégalité de Markov) Soit Y une v.a. définie sur un espace probabilisé (Ω, F, P).
Pour toute fonction h : R+ 7→ R+ , ε 7→ h(ε), croissante strictement positive pour ε > 0 telle que
E(h(Y )) < +∞, et pour tout ε > 0 on a :

1
P({|Y | ≥ ε}) ≤ E(h(|Y |)).
h(ε)

Démonstration : On a P({|Y | ≥ ε}) = E 1{|Y |≥ε} . Comme h est croissante positive, on a

h(ε)1{|Y |≥ε} ≤ h(|Y |)1{|Y |≥ε} ≤ h(|Y |).

La suite découle de la linéarité et de la positivité de l’espérance :


 1  1  1
P({|Y | ≥ ε}) = E 1{|Y |≥ε} = E h(ε)1{|Y |≥ε} ≤ E h(|Y |)1{|Y |≥ε} ≤ E(h(|Y |)).
h(ε) h(ε) h(ε)

Inégalité de Bienaymé-Tchébychev :
On sait que la variance est une mesure de la dispertion de la loi d’une v.a. X loin de son espérance.
L’inégalité de Bienaymé-Tchebicheff précise ce point.

Proposition 4.2.2 Soit X une variable aléatoire définie sur un espace probabilisé (Ω, F, P) admettant
un moment d’ordre 2. Alors nous avons, pour tout ε > 0,

Var(X)
P(|X − E(X)| > ε) 6
ε2

Démonstration : Il suffit d’appliquer l’inégalité de Markov à Y := X − E(X), et h(x) := x2 pour


obtenir l’inégalité de Bienaymé-Tchebicheff.

Exemple 4.2.1 Considérons un cas particulier de variables aléatoires de Bernoulli.


Soit X1 , . . . , Xn , n variables aléatoires indépendantes et identiquement distribuées qui suivent une loi
de Bernoulli B(p).
n
1X
Soit X n = Xi . Alors nous avons, pour tout ε > 0,
n
i=1

 p(1 − p) 1
P X n − p > ε 6 2
6 .
nε 4nε2
La dernière inégalité provient du fait que la fonction de [0, 1] dans R qui à p associe p(1 − p) est
maximale pour p = 1/2 et vaut alors 1/4.

28
Probabilités ENSA Agadir 2020-2021

4.2.1 Loi des grands nombres


Supposons que l’on lance un ”grand” nombre de fois une pièce (équilibrée) en l’air, il y aura en
moyenne 50% de piles (et donc aussi 50% de face).
On joue n fois au pile ou face, avec une probabilité p de tomber sur pile.
Pour 1 ≤ i ≤ n, on pose :

 1, si on obtient pile;
Xi =
0, sinon.

C’est un tirage avec remise de n variables aléatoires de Bernoulli de paramètre p, indépendantes et de


même loi, c-à-d les Xi sont des v.a. i.i.d de loi B(p).
Xn
Soit Sn = Xi . Alors, Sn est une v.a. de loi binomiale B(n, p).
i=1
On a :
Sn N ombre de piles
= .
n n
Il semble assez naturel que lorsque n est grand (lorsque n tend vers +∞) le rapport

Sn
n
tend vers la probabilité de tomber sur pile, c’est à dire précisément

p = E(Xi ).

Ainsi dans ce cas particulier, il semble que lorsque n grand,

Sn
→ E(X1 ).
n
L’exemple qui précède correspond à la Loi des Grands Nombres, telle qu’elle a été découverte par
Jacques Bernoulli, pour le cas particulier de v.a. de Bernoulli.

Théorème 4.2.1 Etant donné une v.a. binomiale Sn de loi B(n, p), la suite des fréquences empiriques
Sn
( )n≥1 converge vers la v.a. constante égale à p, au sens suivant :
n
 
Sn
∀ε > 0, lim P − p ≥ ε = 0.
n→+∞ n

Ce théorème important en statistique justifie l’approximation d’une probabilité p inconnue d’un


événement donné, comme limite de la suite des fréquences empiriques de sa réalisation ; il s’agit d’un
premier exemple de la notion d’estimation, concept central de la théorie statistique. En effet, pour
estimer la probabilité inconnue p, il suffira de procéder à n épreuves de Bernoulli (Xi )1≤i≤n dont on
Sn
calculera la somme Sn puis la moyenne pour n suffisamment grand.
n

4.2.1.1 Loi faible des grands nombres


Théorème 4.2.2 Soit (Xn ) une suite de variables aléatoires indépendantes et identiquement dis-
tribuées (de même loi) ayant une même espérance µ et même écart-type σ.
Sn
On pose Sn = X1 + . . . + Xn alors converge en probabilité vers µ, i.e.
n
 
Sn
∀ε > 0, lim P − µ ≥ ε = 0.

n→+∞ n

29
Probabilités ENSA Agadir 2020-2021

Sn
Démonstration : Notons σ l’écart-type commun des Xi . Observons que l’espérance des est aussi
n
Sn σ2
µ, et comme les v.a. Xi sont indépendantes, la variance des est égale à . En effet
n n
n n n
  !
Sn 1X 1X 1X
E =E Xi = E (Xi ) = µ = µ,
n n n n
i=1 i=1 i=1

et
n n n
!
1 X 2 σ2
 
Sn 1X 1 X
Var = Var Xi = 2 Var (Xi ) = 2 σ = .
n n n n n
i=1 i=1 i=1

Sn Sn
À présent, il suffit d’écrire l’inégalité de Bienaymé-Tchebicheff pour (avec Y = et h(y) = y) :
n n
∀ε > 0
σ2
       
Sn Sn Sn 1 Sn
0 ≤ P − µ ≥ ε = P −E ≥ ε ≤ Var ≤ .
n n n ε2 n nε2
σ2
On conclut on observant que lim = 0.
n→+∞ nε2

4.2.1.2 Loi forte des grands nombres


Il existe une version de la loi des grands nombres pour la convergence presque sûre, on parle de la
loi forte car la convergence presque sûre est plus forte que celle en probabilité.

Théorème 4.2.3 Soit (Xn ) une suite de variables aléatoires indépendantes et identiquement dis-
tribuées (de même loi) ayant une même espérance µ et même écart-type σ.
Sn
On pose Sn = X1 + . . . + Xn alors converge presque sûrement vers µ, c’est -à-dire :
n
Sn
pour presque tout ω, lim= µ.
n→+∞ n

On parle de convergence presque sûre (p.s en abrégé). Cela signifie que pour presque chaque réalisation
ω, la quantité moyenne arithmétique des Xi converge vers µ.

4.2.2 Théorème central-limite


4.2.2.1 Théorème central-limite uni-dimensionnel
Théorème 4.2.4 Soit une suite (Xn ) de variables aléatoires définies sur le même espace de probabi-
lité, suivant la même loi, et dont l’espérance µ et l’écart-type σ communes existent et sont finis avec
σ 6= 0. On suppose que les (Xn ) sont indépendantes. On √ considère la somme Sn = X1 + . . . + Xn .
Alors, l’espérance de Sn est nµ et son écart-type vaut σ n.
Sn − nµ
Alors la v.a. √ converge en loi vers la loi normale centrée réduite N (0, 1).
σ n

4.2.2.2 Théorème central limite multi-dimensionnel


 
Soit X = X (1) , · · · , X (N ) une v.a. à valeurs dans RN . On suppose que E kXk2 < ∞. Soit


µ le vecteur-espérance de X, et soit D sa matrice de covariances. On sait que D est une matrice


symétrique positive. En conséquence, il existe une unique loi sur RN qui soit gaussienne de moyenne
nulle et de matrice de covariances D; on la notera N (0, D). On sait d’après le théorème central limite
(j)
uni-dimensionnel que pour chaque coordonnée j, si on se donne une suite de v.a. X1 , · · · , Xn(j) , · · ·
indépendantes et de même loi que X (j) , alors
(j) (j)
X1 + · · · + Xn − nµj
√ converge en loi quand n → ∞ vers N (0, Djj ) .
n

30
Probabilités ENSA Agadir 2020-2021

En revanche, le théorème central limite uni-dimensionnel ne permet pas de conclure quant à la conver-
gence des vecteurs aléatoires (convergence conjointe des coordonnées). Ce point fait l’objet la version
multi-dimensionnelle du théorème central limite :

Théorème 4.2.5 Soient X1 , · · · , Xn , des vecteurs aléatoires indépendants, ayant tous la même loi
que X. Alors
X1 + · · · + Xn − nµ

n
converge en loi quand n → ∞ vers N (0, D).

4.2.3 Approximations
4.2.3.1 Approximation de la loi binomiale par une loi de Laplace-Gauss
L’importance en pratique des lois de Laplace-Gauss vient en particulier du fait que l’on peut
approximer dans certains cas une loi binomiale B(n, p) par une loi normale. On admettra le résultat
suivant, qui est un cas particulier du théorème central limite :

Théorème 4.2.6 (Théorème de Moivre-Laplace) Si une suite Xn de variables aléatoires qui


suivent la loi binomiale B(n, p), et si n est grand (n ≥ 50) et p pas trop petit ni trop proche de 1,
c’est-à-dire np(1 − p) ≥ 9, la v.a.
Xn − np
Y =p
np(1 − p)
converge en loi vers la loi normale centrée réduite N (0, 1), c’est-à-dire :
Z x
Xn − np 1 t2
lim P( p ≤ x) = √ e− 2 dt.
n→+∞ np(1 − p) −∞ 2π
p
Ou encore Xn converge en loi vers la loi normale N (np, np(1 − p)).

4.2.3.2 Approximation de la loi de Poisson par une loi de Laplace-Gauss


Si on considère la suite des v.a.r Xi de Poisson de paramètre m, la somme des v.a.r de Poisson
indépendantes suit la loi de Poisson donc les conditions du théorème centrale sont vérifiées alors
X − nm
Y = √
nm

converge en loi vers N (0, 1).

Théorème 4.2.7 Si la v.a. X suit la loi de Poisson P (m), et si n est grand (n ≥ 20) alors la v.a.
X − nm
Y = √ suit approximativement la loi de Laplace-Gauss N (0, 1).
nm
Autrement dit,

Théorème 4.2.8 Soit Xn une suite de variables aléatoires qui suivent des lois de Poisson de pa-
Xn − λn
ramètres λn . Si lim λn = +∞, alors √ converge en loi vers la loi normale centrée réduite
n→+∞ λn
N (0, 1).

31
Probabilités ENSA Agadir 2020-2021

32
Chapitre 5

Espérance Conditionnelle

5.1 Probabilités conditionnelles (composées).


Définition 5.1.1 Soit Ω un ensemble d’événement sur lequel on a défini une probabilité et soit B
un événement de probabilité non nulle. Soit A un autre événement, la probabilité conditionnelle de A
sachant B (que l’on note P(A | B) est définie par l’expression :
P(A ∩ B)
P(A | B) = .
P(B)
Théorème 5.1.1 Soit A et B deux événements de probabilité non nulle. De la définition axiomatique
de la probabilité conditionnelle résulte la relation symétrique :

P(A ∩ B) = P(A) · P(B | A) = P(B) · P(A | B).

Cette relation porte le nom de formules des probabilités composées. Elle permet de calculer la probabilité
de la réalisation simultanée de 2 événements.

Théorème 5.1.2 (Probabilité conditionnelle) Étant donné un espace de probabilité (Ω, F, P), pour
P (. ∩ B)
tout événement B de probabilité non nulle, la mesure =(notée ) P (. | B) ou P B (.) définit
P (B)
sur (Ω, F, P) une probabilité, dite conditionnelle par rapport à l’événement B. Pour tout événement
B∈F :
P (A ∩ B)
P(A | B) = .
P (B)
Preuve. Vérifions les trois axiomes :
1. P(. | B) ≥ 0 ;
P(Ω ∩ B)
2. P(Ω | B) = = 1;
P(B)
3. Soit une suite Ai d’éléments de F telle que ∀ j 6= k Aj ∩ Ak = ∅. on a
P (∪n1 Ai ∩ B) X P (Ai ∩ B) X
P (∪ni=1 Ai | B) = = = P (Ai | B) .
P(B) P (B)
i i

P(· ∩ B)
Par conséquent, on déduit que définit bien une loi de probabilité.
P (B)
Théorème 5.1.3 (Conditionnements successifs) Soient les événements A1 , A2 , . . . , An vérifiant
P ∩n−1
i=1 i > 0 alors :
A

P (∩ni=1 Ai ) = P(A1 )P(A2 | A1 )P(A3 | A1 ∩ A2 )· · · P An | ∩n−1



i=1 Ai

Définition 5.1.2 Deux événements A et B sont indépendants si P(A/B) = P(A) ou, de façon
équivalente, si P(B/A) = P (B) ou encore P(A ∩ B) = P(A)P(B).

33
Probabilités ENSA Agadir 2020-2021

5.1.0.1 Axiomes des probabilités composées.


• Si A1 ∩ A2 = ∅, alors
P(A1 ∪ A2 /B) = P(A1 /B) + P(A2 /B)
• Si A1 ∩ A2 6= ∅, alors

P(A1 ∪ A2 /B) = P(A1 /B) + P(A2 /B) − P(A1 ∩ A2 /B).

En particulier : P(A/B) = 1 − P(A/B).

5.1.1 Principe des Probabilités Totales


Théorème 5.1.4 (Principe des Probabilités Totales) Soit (Ω, F, P) un espace probabilisé, soit (Bn )n∈I⊂N
une partition telle que P(Bn ) > 0 pour tout n ∈ I et soit A ∈ F.
on a : X
P(A) = P(A | Bn )P(Bn ).
n∈I

Preuve : on a :

P(A) = P(A ∩ Ω) = P(A ∩ (∪n∈I Bn )) = P(∪n∈I (A ∩ Bn ))


X
= P(A ∩ Bn )
n∈I
X
= P(A | Bn )P(Bn ).
n∈I

Remarque 5.1.1 Quand n = 2, on obtient en particulier :

P(A) = P(A|B)P(B) + P(A|B c )P(B c ).

5.1.2 Théorème de Bayes (Problème de Bayes)


Ce théorème permet de déterminer la probabilité pour qu’un événement qui est supposé déjà réalisé,
soit dû à une certaine cause plutôt qu’à une autre (d’où le nom du théorème des probabilités des
causes que lui a donné Bayes.

Théorème 5.1.5 (Théorème de Bayes) Soit (Ω, F, P) un espace probabilisé, soit (Bk )nk=1 une parti-
tion de Ω telle que P(Bk ) > 0, pour tout k ∈ {1, . . . , n} :

P(A | Bk )P(Bk )
P(Bk | A) = Pn .
i=1 P(A | Bi )P(Bi )

Preuve. On a
n
X 
P(A|Bk )P(Bk ) = P(Bk |A)P(A) = P(Bk |A) P(A|Bi )P(Bi ) .
i=1

D’où le résultat.

Cas Particulier de la formule de Bayes :


Pour tout événement non vide B, B et B forment une partition de Ω. Dans ce cas, la formule de Bayes
se réduit à :
P(A|B)P(B)
P(B|A) = .
P(A|B)P(B) + P(A|B)P(B)

34
Probabilités ENSA Agadir 2020-2021

5.2 Lois Conditionnelles


Dans ce paragraphe, il s’agit d’expliciter la probabilité conditionnelle dans chacun des quatre cas,
caractérisé par le caractère discret ou continu des variables conditionnantes et des variables condi-
tionnées.

5.2.1 Loi d’une variable discrète conditionnée par une variable discrète
Théorème 5.2.1 Étant donné un vecteur aléatoire (X, Y ) défini sur (Ω, F, P) à valeurs dans le sous-
ensemble au plus dénombrable D ⊂ R × R, de loi conjointe PX,Y connue. La loi conditionnelle de Y
sachant X est définie par :

∀ (xi , yj ) ∈ D tel que PX (xi ) 6= 0 :


P (X = xi , Y = yj )
PY (yj | X = xi ) = PY |X=xi (yj ) =
PX (xi )

Preuve. Application de la définition de la probabilité conditionnelle à B : (Y = yj ) sachant A :


(X = xi ).

Définition 5.2.1 La moyenne des valeurs de Y conditionnée par l’événement X = xi notée E (Y | X = xi )


est égale ȧ : X
yj PY (yj | X = xi ) = E (Y | X = xi )
j

dite espérance ou moyenne conditionnelle de Y sachant (X = xi ).

Théorème 5.2.2
n
X
E(Y ) = P (X = xi ) E (Y | X = xi )
i=1

Preuve.
n
X n
X X
P (X = xi ) E (Y | X = xi ) = P (X = xi ) yj PY (yj | X = xi )
i=1 i=1 j
X n
X
= yj PX,Y (xi , yj ) = E(Y ).
j i=1

Définition 5.2.2 La variance de Y conditionnée par (X = xi ) notée V (Y | X = xi ) est définie par :


 
E (Y − E (Y | X = xi ))2 | X = xi = V (Y | X = xi ) .

5.2.2 Loi d’une variable continue conditionnée par une variable continue
Théorème 5.2.3 Étant donné le vecteur aléatoire (X, Y ) de densité f(X,Y ) telle que ∀x, fX (x) 6= 0,
la loi conditionnelle de Y sachant X = x est absolument continue, de densité fY /X=x (y) définie par :

f(X,Y ) (x, y)
= fY /X=x (y).
fX (x)

Exemple 5.2.1 Soit f(X,Y ) (x, y) = λ2 e−λy de support D = {(x, y) | 0 6 x 6 y}.


Z +∞
fX (x) = λ2 e−λy dy = λe−λx et fY (y) = λ2 ye−λy
x

1
∀x ≥ 0, fY /X=x (y) = λe−λ(y−x) 1[x,+∞[ (y) et ∀y > 0, fX/Y =y (x) = 1 (x) qui est la densité de la
y ]0,y]
v.a. uniforme sur ]0, y].

35
Probabilités ENSA Agadir 2020-2021

Théorème 5.2.4 L’espérance conditionnelle E(Y | X = x) de Y sachant (X = x) s’exprime sous


une forme analogue à celle de la définition 5.2.1 :
Z
E(Y | X = x) = yfY /X=x (y)dy.

Théorème 5.2.5

 ∀y, fX = fX/Y =y (p . p .), ou
X, Y indépendantes ⇐⇒ ∀x, fY = fY /X=x (p . p .), ou
f(X,Y ) = fX · fY (p . p .).

5.3 Espérance Conditionnelle et Variance Conditionnelle


Définition 5.3.1 Soient X et Y deux v.a. L’espérance conditionnelle de Y sachant X est la v.a.
notée :
E(Y | X).
Cette dernière est déterminée à partir de l’expression de E(Y | X = x).

Exemple 5.3.1 Soient X et Y deux v.a.


(1) Supposons que l’espérance de Y conditionnée par X = x est égale à
1
E(Y | X = x) = x + .
λ
Donc :
1
E(Y | X) = X +
λ
a a(X + Y )
(2) Soit : E(X | X + Y = n) = n alors : E(X | X + Y ) = .
a+b a+b
Propriétés 5.3.1 On suppose que les variables conditionnées ont un moment d’ordre deux fini.
1. Linéarité : E(aX + bY | Z) = aE(X | Z) + bE(Y | Z) où a et b réels.
2. Croissance : si Y > X( p.s. ), alors pour toute v.a. Z,
E(Y | Z) > E(X | Z) (p.s.)

3. Si Y est indépendante de X, alors


E(Y | X) = E(Y ) (p.s.)

4. Pour toute fonction φ bornée :


E(φ(X)Y | X) = φ(X)E(Y | X)

5. Propriété de l’espérance totale : pour tout vecteur aléatoire (X, Y ),


E(E(Y | X)) = E(Y )

6. Pour toute fonction φ bornée, E(φ(X)Y ) = E(φ(X)E(Y | X)).


7. Majoration de la variance de l’espérance conditionnelle :
V (E(Y | X)) 6 V (Y )

Définition 5.3.2 Étant donné deux v.a. X et Y , la variance conditionnelle de Y sachant X notée
V (Y | X) est la v.a. définie par :
E (Y − E(Y | X))2 | X = V (Y | X)


V (Y | X = x) exprime la dispersion quadratique de Y autour de l’espérance conditionnelle E(Y | X =


x).

36
Bibliographie

[1] V. Angelova : Eléments de la Théorie des Probabilités : Manuel des Travaux Dirigés, IICT BAS
Lecture Notes in Computer Science and Technologies, 2016.
[2] J.-Y. Baudot : http ://www.jybaudot.fr/index.html
[3] C. Boulonne et al. : https ://leconscapesmaths2013.wordpress.com/probabilites-statisitques/
[4] Y. Caumel : Probabilités et Processus Stochastiques, Collection Statistique et Probabilités Ap-
pliquées, Springer, 2011.
[5] B. Jourdain : Probabilités et Statistiques, Ellipses, 2009.
[6] J.-P. Lecoutre : Statistiques et Probabilités : Manuel et Exercices Corrigés, Dunod, 2006.
[7] L. Lubrano et al. : Mathématiques, BTS Industriels-Groupement B et C, Dunod, 2011.
[8] S.-M. Ross : Initiation aux probabilités, Presses Polytechniques et Universitaires Romandes, 1987.
[9] Z. Shi : Probabilités de base, Notes de cours, 2010.
[10] C. Suquet : Intégration et Probabilités Elémentaires, 2009-2010. URL : http ://math. univ-
lille1.fr/ ipeis/
[11] C. Suquet : Initiation à la Statistique, 2010. http ://math.univ-lille1.fr/ suquet/Polys/IS.pdf.
[12] P. Taquet et al. : Mathématiques, BTS Groupement A, Hachette Technique, 2010.

37

Vous aimerez peut-être aussi