Académique Documents
Professionnel Documents
Culture Documents
1
4 Vecteurs aléatoires (et retour sur les variables aléatoires) 41
4.1 Loi d’un vecteur aléatoire, densité . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Vecteurs à densité : transformation et indépendance . . . . . . . . . . . . . . 46
4.3 Moments, fonctions caractéristique et génératrice . . . . . . . . . . . . . . . 48
4.4 Quelques remarques sur le conditionnement . . . . . . . . . . . . . . . . . . 51
2
1 Quelques mots avant de commencer
Le cours de Probabilités MA105 comprend :
1. 9 séances de cours de 1h20 ;
2. 9 séances de TD de 1h20 (2 groupes, l’un avec Pierre Minvielle et l’autre avec Pascal
Vallet) ;
3. 5 séances de TP de 1h20 (avec Luc de Montella) ;
4. 3 évaluations : 1 devoir maison (0,25) + 1 TP noté (0,25) + 1 devoir sur table (0,5).
Les différents support pour le cours (cours, TDs, TPs...) sont disponibles sur la page
moodle du cours.
Les TPs seront fait à l’aide de python. Dans ce cours, nous donnons déjà quelques com-
mandes utiles. Les abréviations python utilisées sont les suivantes :
import numpy as np
import numpy . random as npr
import matplotlib . pyplot as plt
import scipy . stats as sps
Beaucoup de preuves seront omises lors des séances de cours et aussi dans ces notes, princi-
palement parce qu’elles demanderaient de connaître un peu la théorie de la mesure, que je
ne souhaite pas exposer ici. Les plus curieux d’entre vous pourront consulter sur ce sujet le
livre :
Philippe Barbe et Michel Ledoux.
Probabilité (L3M1).
EDP Sciences, 2012.
Un autre très bon cours, très complet, qui rassemble les probabilités que l’on peut voir au
moins jusqu’à la troisième année de licence ou la première année d’école d’ingénieur est
Quentin Berger, Francesco Caravenna, Paolo Dai Pra.
Introduction aux probabilités.
Dunod, 2021.
Le cours que vous avez entre les mains (ou devant vos yeux) comporte très certainement de
nombreuses coquilles, n’hésitez pas à me les signaler : alexandre.genadot@u-bordeaux.fr.
3
2 Du discret au continu avec une pièce de monnaie
Les notions abordées dans cette section sont normalement, pour les premières sections 2.1
à 2.4 incluse, des rappels du lycée ou des premières années post-bac puisqu’elles concernent
les variables aléatoires discrètes. Les sections suivantes introduisent les variables aléatoires
continues.
4
où TO est l’ensemble des tribus contenant tous les ouverts de R. Il n’est pas question
dans ce cours de mener l’étude de cette tribu.
Lorsque la pièce n’est pas truquée, on associe naturellement aux évènements « faire pile
» et « faire face » la même probabilité 1/2. On définit ainsi la probabilité uniforme sur
l’univers Ω :
#A
P : A ∈ P(Ω) 7→ ∈ [0, 1].
#Ω
Notation. La notation #A désigne le cardinal de l’ensemble A, c’est-à-dire son nombre
d’éléments.
On a bien, par exemple,
#{F } 1
P({F }) = = .
#{P, F } 2
Comme toutes les probabilités, la probabilité uniforme vérifie les propriétés suivantes.
Definition 2. Soit A une tribu sur un univers Ω. Une probabilité sur (Ω, A) est une appli-
cation
P : A → [0, 1],
telle que :
1. la probabilité associée à l’univers est 1,
P(Ω) = 1.
2. pour toute famille finie ou dénombrable d’évènements (Ai )i∈I deux à deux disjoints 3 ,
!
[ X
P Ai = P(Ai ).
i∈I i∈I
Les propriétés élémentaires des probabilités sont les suivantes. Il faut les connaître.
5
5. Si (An )n∈N est une suite d’évènements,
X
P (∪n∈N An ) ≤ P(An ).
n∈N
6
Proposition 2 (Admis). Les fonctions continues ou seulement continues par morceaux sont
des variables aléatoires.
Cette définition cache une proposition simple à démontrer : PX ainsi définie est en effet
une probabilité sur R.
Notation. On notera souvent P(X ∈ A) pour P({X ∈ A}).
PX (A) = P(X ∈ A) = P({1 ∈ A}∩{X = 1})+P({0 ∈ A}∩{X = 0}) = p1A (1)+(1−p)1A (0).
Une bonne partie du cours consiste à donner des outils qui permettent de caractériser,
ou résumer, la loi d’une variable aléatoire.
2 × 1 × 2n−2 1
P({P, F } × {P } × {P, F }n−2 ) = n
= ,
2 2
7
70
60
50
40
30
20
10
0
0 1
ce qui est conforme à l’intuition. Pour i ∈ {1, . . . , n}, soit Zi la variable aléatoire valant 1 si
l’on obtient pile au i-ième lancer et 0 sinon. Soit (ω1 , . . . , ωn ) ∈ {0, 1}n , on a
n
\
P((Z1 , . . . , Zn ) = (ω1 , . . . , ωn )) = P( {Zi = ωi })
i=1
= P({(ϵ1 , . . . , ϵn )})
1
= n
2
= P(Z1 = ω1 ) × . . . × P(Zn = ωn ).
8
0.200
loi empirique
0.175 loi theorique
0.150
0.125
0.100
0.075
0.050
0.025
0.000
0 5 10 15 20
On a utilisé le fait que nk compte le nombre de n-uplets (ωi )1≤i≤n ∈ {0, 1}n tels que ω1 +
9
Le résultat est en Figure 8 2.
Dans le cas, comme dans le cas d’une variable aléatoire suivant une loi binomiale, où le
nombre de valeurs possibles pour la variable aléatoire est dénombrable, la caractérisation de
la loi de celle-ci se ramène à la proposition suivante.
Proposition 3. Soit X une variable aléatoire discrète, c’est-à-dire prenant un nombre fini
ou dénombrable de valeurs que l’on note X(Ω). Donner la loi de X c’est décrire X(Ω) et
pour tous les x ∈ X(Ω) donner la valeur de P(X = x).
Démonstration. En effet, dans ce cas, pour tout borélien de R,
X
PX (A) = P(X = x)1A (x).
x∈X(Ω)
Definition 6. Soit X une variable aléatoire discrète, c’est-à-dire prenant un nombre fini ou
dénombrable de valeurs que l’on note X(Ω). Si X est positive ou si
X
|x|P(X = x) < ∞
x∈X(Ω)
Lorsque l’espérance de la valeur absolue de la variable aléatoire est finie, E(|X|) < ∞,
on dit que X est intégrable. Plus généralement, on a la définition suivante.
L’espace des variables aléatoires admettant un moment d’ordre p est noté Lp . Si l’on identifie
les variables aléatoires presque sûrement égales, on écrit alors Lp . Deux variables X et Y
sont presque-sûrement égale lorsque
P(X = Y ) = 1.
10
Proposition 5 (Linéarité de l’espérance). Soit X et Y deux variables aléatoires intégrables 10 .
Alors, pour tout réels α et β,
La variance est bien définie dès lors que cette quantité est finie.
Si X suit une loi binomiale de paramètre n et p alors X est une variable aléatoire à
valeurs discrètes puisqu’elle est à valeurs dans {0, . . . , n}. Son espérance est donnée par
n n
X X n k
E(X) = kP(X = k) = k p (1 − p)n−k
k=0 k=0
k
n
X n!
= k pk (1 − p)n−k
k=1
k!(n − k)!
n
X (n − 1)!
= np pk−1 (1 − p)n−1−(k−1)
k=1
(k − 1)!(n − 1 − (k − 1)!
n−1
X n−1 k
= np p (1 − p)n−1−k
k=0
k
= np(p + 1 − p)n−1 = np.
11
Loi des grands nombres
0.6 Espérance
0.5
0.4
Sn/n
0.3
0.2
0.1
0 200 400 600 800 1000
n
où Zi est la variable aléatoire valant 1 si l’on fait pile au i-ième lancer et 0 sinon. Notons
p la probabilité de faire pile, qui nous est a priori inconnue. On peut espérer que lorsque n
grandit, la fréquence Fn se rapproche de p. C’est ce que nous indique le théorème fondamental
suivant 11 .
Proposition 6 (Loi des grands nombres). Soit (Zi )i∈N une suite de variables aléatoires
indépendantes et de même loi telle que E(|Z1 |) < ∞. Alors, au sens de la convergence
presque sûre,
n
1X
lim Zi = E(Z1 .
n→∞ n
i=1
On dit souvent que la moyenne empirique ( n1 ni=1 Zi ) converge vers la moyenne théorique
P
(l’espérance).
Voici un code python illustrant la loi des grands nombres pour une suite de variables
aléatoires uniformes sur [0, 1] et qui permet d’obtenir la Figure 3 et sert de base pour obtenir
la Figure 4.
n = int ( 1e3 )
S = np . cumsum ( npr . rand ( n ) ) / np . arange (1 , n + 1 )
plt . plot ( range (1 , n + 1 ) ,S , ’r ’ , label = " S_n " )
plt . plot (( 1 , n ) ,(.5 ,. 5 ) ,"b - - " , label = " Esperance " )
plt . ylabel ( ’ S_n ’)
plt . xlabel ( " n " )
plt . legend ( loc = ’ best ’)
plt . title ( " LGN " )
Les termes au sens de la convergence presque sûre signifient que l’évènement considéré
se produit avec probabilité 1, c’est-à-dire que
n
!
1X
P lim Zi = E(Z1 ) = 1.
n→∞ n
i=1
12
Loi des grands nombres
1.0
Espérance
Tube d'ordre 1/ n
0.8
0.6
Sn/n
0.4
0.2
0.0
0 200 400 600 800 1000
n
Figure 4 – Loi des grands nombres : 100 trajectoires avec Sn = ni=1 Ui où√les Ui sont
P
uniformes sur [0, 1] et indépendants. On observe une dispersion de l’ordre de 1/ n. C’est la
bonne renormalisation pour obtenir une approximation à un ordre supérieur (donnée par le
théorème central limit).
Dans notre cas, E(Z1 ) = p, et donc (Fn )n≥1 converge bien presque-sûrement vers p.
Une remarque sur la modélisation. Remarquons que lorsque l’on dit que n tend vers
l’infini, cela veut dire que l’on joue à pile ou face une infinité de fois... Comment formaliser
cela, c’est-à-dire trouver un espace probabilisé modélisant cette expérience ?
∗
Il est naturel de prendre pour Ω l’ensemble {P, F }N . Est-ce que l’ensemble des évène-
∗
ments est P({P, F }N ) ? Pourquoi pas... mais est-ce que l’on peut construire une probabilité
∗ ∗
sur ({P, F }N , P({P, F }N )) ? Ce n’est en fait pas possible... 12
On peut construire un ensemble d’événements plus satisfaisant de la façon suivante. Pour
n ≥ 1, on note Fn l’ensemble des évènements que l’on peut décrire en ne considérant que les
n premiers lancers :
∗ ∗
Fn = {A ∈ {P, F }N ; ∃An ⊂ {P, F }n , A = {ω ∈ {P, F }N ; (ω1 , . . . , ωn ) ∈ An }}.
La suite d’ensembles (Fn ) est une suite croissante de tribus. En notant
[
F∞ = Fn ,
n∈N∗
un ensemble d’évènements satisfaisant est σ(F∞ ), la plus petite tribu (au sens de l’inclusion),
contenant F∞ . La probabilité P sur cette tribu est entièrement définie par sa donnée sur les
cylindres
Ci,ϵ = {ω ; ωi = ϵ}, i ∈ N∗ , ϵ ∈ {P, F },
par
1
P(Ci,ϵ ) = .
2
En termes simples, P est entièrement définie par le fait de dire que la probabilité de faire
pile (ou face) au i-ème lancer est 1/2.
La tribu que l’on a construite ici (σ(F∞ )) est fortement reliée à celle des boréliens.
12. Cela dépasse le cadre de ce cours et fait l’objet de l’Appendice 2.7.
13
2.4 Les variables aléatoires discrètes à connaître
Nous avons vu dans les sections précédentes les variables de Bernoulli et binomiale.
Nous allons les rappeler ici et rappeler aussi la définition des lois géométrique, de Poisson,
et uniforme sur un ensemble discret. Les lois binomiale négative et hypergéométrique sont
d’autres lois classiques qui ne sont pas rappelées ici.
Loi de Bernoulli
Elle modélise le résultat d’une expérience aléatoire à deux issues, qui l’on appelle souvent
« succès » et « échec ». Une telle expérience est dite de Bernoulli. Si l’on écrit 0 pour « échec
» et 1 pour « succès », alors une variable aléatoire X suit une loi de Bernoulli de paramètre
p ∈ [0, 1] si elle est à valeurs dans {0, 1} avec
P(X = 1) = p et P(X = 0) = 1 − p.
On a
E(X) = p et V(X) = p(1 − p).
On note X ∼ B(p).
Loi binomiale
Si l’on répète de façon indépendante n fois une expérience de Bernoulli de paramètre
p ∈[ 0, 1], on peut s’intéresser on nombre de succès X que l’on a obtenu. On dit que X suit
une loi binomiale de paramètre n et p et on note X ∼ B(n, p). La variable X est alors à
valeurs dans {0, . . . , n} et
n k
∀k ∈ {0, . . . , n}, P(X = k) = p (1 − p)n−k .
k
On a
E(X) = np et V(X) = np(1 − p).
Si {X1 , . . . , Xn } est une famille de variables aléatoires indépendantes et de même loi de
Bernoulli de paramètre p, alors
X1 + . . . + Xn ∼ B(n, p).
La loi binomiale est stable par addition lorsqu’il y a indépendance : si X ∼ B(n, p) et
Y ∼ B(m, p) alors X + Y ∼ B(n + m, p).
Loi géométrique
On note X le rang du premier succès lors de n expériences de Bernoulli indépendantes
de paramètre p ∈ [0, 1]. On dit que X suit une loi géométrique de paramètre p et on note
X ∼ G(p). La variable X est à valeurs dans N∗ et on a
∀k ∈ N, P(X = k) = (1 − p)k−1 p.
14
On a, lorsque p > 0,
1 1−p
E(X) = et V(X) = .
p p2
La loi géométrique est stable par passage au minimum lorsqu’il y a indépendance : si X ∼
G(p1 ) et Y ∼ G(p2 ) alors min(X, Y ) ∼ G(p1 + p2 ).
Loi de Poisson
Une variable aléatoire X qui suit une loi de Poisson de paramètre λ > 0 est à valeurs
dans N avec
λk
∀k ∈ N, P(X = k) = e−λ .
k!
On note X ∼ P(λ). On a, lorsque p > 0,
E(X) = λ et V(X) = λ.
La loi de Poisson est stable par addition lorsqu’il y a indépendance : si X ∼ P(λ) et Y ∼ P(µ)
alors X + Y ∼ P(λ + µ). Une variable aléatoire de Poisson compte, comme la loi binomiale,
un nombre de succès. On peut d’ailleurs la voir comme une limite de cette dernière lorsque
la probabilité de succès est petite. Vous montrerez en travaux dirigés le résultat suivant.
Proposition 7. Soit n ∈ N∗ , λ > 0 et Xn ∼ B(n, λ/n). On a,
λk −λ
lim P(Xn = k) = e .
n→∞ k!
439 = 1 × 20 + 1 × 21 + 1 × 22 + 0 × 23 + 1 × 24 + 1 × 25 + 0 × 26 + 1 × 27 + 1 × 28 .
Ainsi, tirer un réel au hasard entre 0 et 1 revient à lancer une infinité de fois un pièce de
monnaie... Si on veut tirer un réel au hasard avec un développement binaire de longueur n,
15
on peut lancer n fois une pièce de monnaie équilibrée avec pour résultats Z1 , Z2 ,..., Zn et
considérer n
X Zk
Xn = k
.
k=1
2
La variable aléatoire Xn est bien à valeurs dans [0, 1]. Peut-on décrire, caractériser, la limite
de Xn lorsque n tend vers l’infini ? Il nous faut pour cela d’abord caractériser la loi de Xn
pour n fini.
Proposition 8 (Caractérisation de la loi d’une variable aléatoire). La loi d’une variable
aléatoire réelle X est caractérisée par la donnée d’une des fonctions suivantes :
1. sa fonction de répartition :
FX : x ∈ R 7→ P(X ≤ x).
ϕX : t ∈ R 7→ E(eitX ).
Deux variables aléatoires réelles X et Y qui ont même fonction de répartition ou bien même
fonction caractéristique ont la même loi : pour tout intervalle I de R, on a
16
i) P(X > x) = 1 − F (x),
ii) P(x < X ≤ y) = F (y) − F (x),
iii) P(X < x) = F (x−),
iv P(X = x) = F (x) − F (x−).
En particulier, F est continue en x si et seulement si P(X = x) = 0.
Démonstration. Les propriétés i) et ii) découlent directement de la définition de F . Pour iii), on remarque
que {X ≤ x − n1 } ↗ {X < x} donc par convergence monotone,
1 1
F (x − ) = P(X ≤ x − ) ↗ P(X < x).
n n
Comme on a aussi limn→∞ F (x − n1 ) = F (x−), iii) est démontrée.
On obtient alors iv) en écrivant P(X = x) = P(X ≤ x) − P(X < x).
t n) sin(t/2)
ϕXn (t) = E(eitXn ) = ei 2 (1−(1/2) .
2n sin(t/2n+1 )
sin(t/2) eit − 1
eit/2 = = ϕ(t).
t/2 it
Est-ce que ϕ est la fonction caractéristique d’une variable aléatoire réelle ? Il suffit de remar-
quer que Z 1
eit − 1
Z
itx
= e dx = eitx 1[0,1] (x)dx = E(eitU ),
it 0 R
où U est une variable aléatoire de densité 1[0,1] , appelée loi uniforme sur [0, 1].
Definition 9 (Variable aléatoire à densité). Une variable aléatoire réelle X a pour densité
fX une fonction, disons continue par morceaux de R dans R, positive et telle que
Z
fX (x)dx = 1,
R
On dit que X est une variable aléatoire continue ayant pour densité fX . La densité caractérise
la loi.
15. vous le ferez en exercice.
16. Ou plus généralement mesurable sur R.
17
1.0
0.8
0.6
0.4
0.2
0.0
1.0 0.5 0.0 0.5 1.0 1.5 2.0
Lorsque U a pour densité 1[0,1] , on a donc, pour toute fonction g continue par morceaux
et bornée Z Z 1
E(g(U )) = g(x)1[0,1] (x)dx = g(x)dx.
R 0
En particulier, l’espérance et la variance sont caractérisées de la façon suivante dans le cas
continu.
Proposition 10 (Théorème de transfert pour une variable aléatoire à densité). Soit X une
variable aléatoire réelle ayant pour densité fX et g une fonction continue par morceaux.
Alors, si Z
|g(x)|fX (x)dx < ∞
R
ou si g est positive, on a Z
E(g(X)) = g(x)fX (x)dx.
R
On remarque que cette fonction de répartition est continue. C’est un fait général pour les
variables aléatoires à densité, et c’est pour cela qu’elles sont dites continues 17 . Remarquez
17. Néanmoins il existe des variables aléatoires continues qui ne sont pas à densité. Et évidemment, il
existe des variables qui ne sont ni continues, ni discrètes.
18
que dans ce cas :
∀x ∈ R, P(X = x) = 0.
Proposition 11. La fonction de répartition d’une variable aléatoire X de densité fX s’écrit,
pour tout réel x, Z x
FX (x) = P(X ≤ x) = fX (t)dt.
−∞
On dit que (Xn ) converge en loi vers la loi uniforme comme indiqué dans la définition-
proposition suivante.
Proposition 13 (Convergence en loi). Une suite de variable aléatoire réelle (Xn ) converge
en loi vers une variable aléatoire X∞ si l’une des deux conditions suivantes (équivalentes)
est satisfaite :
1. il y a convergence ponctuelle des fonctions caractéristiques :
∀t ∈ R, lim ϕXn (t) = ϕX∞ (t).
n→∞
19
On a
a+b (b − a)2
E(U ) = , V(U ) = .
2 12
La loi uniforme est stable par affinité : si U suit une loi uniforme sur [a, b] alors, pour α et
β deux réels avec alhpa non nul, αU + β suit encore une loi uniforme. Sur quel intervalle ?
Loi exponentielle
Une variable aléatoire E suit la loi exponentielle de paramètre λ > 0, si elle a pour densité
1 − e−λx si x ≥ 0,
FE : x ∈ R 7→
0 si x < 0.
On a
1 1
E(E) = , V(E) = 2 .
λ λ
La loi exponentielle est l’analogue continu de la loi géométrique. Elle est comme elle stable
par rapport au minimum : si E1 et E2 sont deux variables aléatoires indépendantes de lois
E(λ1 ) et E(λ2 ) alors min(E1 , E2 ) ∼ E(λ1 + λ2 ).
Loi Gamma
Une variable aléatoire G suit la loi gamma de paramètre p et λ strictement positifs, si
elle a pour densité
1 p−1 p −λx
fG : x ∈ R 7→ x λ e 1[0,+∞[ (x),
Γ(p)
où la renormalisation est donnée par la fonction gamma :
Z ∞
1 p−1 −x
Γ(p) = x e dx.
0 Γ(p)
Cette fonction vérifie Γ(1) = 1 et pour p > 0, Γ(p + 1) = pΓ(p). On note G ∼ γ(p, λ).
Remarquez que pour p = 1 on retrouve la loi exponentielle. On a :
p p
E(G) = , V(G) = .
λ λ2
La loi gamma est stable par addition lorsqu’il y a indépendance : si X ∼ γ(p, λ) et Y ∼
γ(p′ , λ) sont indépendantes alors X + Y ∼ γ(p + p′ , λ).
20
Loi Normale
Une variable aléatoire Z suit la loi normale de paramètres µ ∈ R et σ > 0 si elle a pour
densité
1 1 x−µ 2
fZ : x ∈ R 7→ √ e− 2 ( σ ) .
2πσ 2
On a
E(Z) = µ et V(Z) = σ 2 .
Nous reviendrons à plusieurs reprises sur cette loi dans le cours.
Un tableau récapitulatif
Pour terminer cette section, le tableau suivant rassemble l’espérance, la variance et la
fonction caractéristique des usuelles présentées dans cette section.
2.7 Appendices
Appendice A : un exemple de variable ni discrète, ni continue
Terminons cette section en donnant un exemple de variable ni discrète, ni continue. Soit
Θ un variable aléatoire suivant une loi uniforme sur [0, 2π]. Posons X = max(Θ, π). La
fonction de répartition de X a le graphe suivant :
π 2π
La variable X n’est donc pas continue puisque P(X = π) = 12 . Elle n’est pas non plus
discrète puisque sa fonction de répartition n’est pas en escalier. Plus précisément, on voit
sur le graphe que P(X = x) = 0 pour tout x ̸= π. Par conséquent, si D est un ensemble
dénombrable, alors P(X ∈ D) vaut 0 ou 21 selon que π appartienne à D ou pas. Dans tous les
21
cas P(X ∈ D) < 1 et X ne peut pas être discrète. On peut néanmoins calculer l’espérance
de X. Remarquons que max(Θ, π) = π1Θ<π + Θ1Θ≥π . Par linéarité de l’espérance on a donc
C’est-à-dire que ω et ω ′ sont dans la même classe d’équivalence si l’on peut transformer l’un
en l’autre en échangeant un nombre fini d’indices. En utilisant l’axiome du choix, on peut
construire l’ensemble V qui contient un et un seul représentant de chaque classe.
1. Montrer que
∗
[
{0, 1}N = {ωσ ; ω ∈ V }.
σ∈Σ<∞
22
2. En déduire que
∗
X
P({0, 1}N ) = P(V ).
σ∈Σ<∞
23
3 Convergences de variables aléatoires
Dans toute la section, les variables aléatoires sont définies sur un espace probabilisé
(Ω, A, P) et sont, sauf mention contraire, à valeurs dans R.
3.1 Indépendance
Definition 10. Une famille quelconque de variables aléatoires Xi , i ∈ I, sur Ω et à valeurs
dans R est une famille de variables aléatoires indépendantes si pour tout sous-ensemble
J ⊂ I fini et tous les intervalles Bj ⊂ R, j ∈ J,
!
\ Y
P {Xj ∈ Bj } = P(Xj ∈ Bj ).
j∈J j∈J
Si on a seulement,
P(Xi ∈ A; Xj ∈ B) = P(Xi ∈ A)P(Xj ∈ B)
pour tout i ̸= j et A, B deux intervalles de R, on dit que les variables Xi , i ∈ I, sont deux
à deux indépendantes.
24
Attention, ceci n’est vrai que pour les variables discrètes. Par exemple, si X et Y sont
continues, on a toujours,
Exemple. Soit X et Y des variables aléatoires indépendantes suivant des lois de Poisson
de paramètres λ et µ respectivement. On a, pour t ∈ R :
25
Comme 2|XY | ≤ X 2 + Y 2 , la covariance de X et Y est bien définie dès que X et Y sont
de carré intégrable.
La covariance sert notamment à calculer la variance d’une somme :
n
! n
X X X
V Xi = V(Xi ) + 2 Cov(Xi , Xj )
i=1 i=1 1≤i<j≤n
Definition 12. On dit que deux variables de carré intégrable sont non corrélées si Cov(X, Y ) =
0. Dans le cas contraire, elles sont dites corrélées.
n
! n n
X X X
V(Z) = V Xi = V(Xi ) = p(1 − p) = np(1 − p).
i=1 i=1 i=1
Notation. Des variables aléatoires indépendantes suivant toutes la même loi sont dite i.i.d.
(pour « indépendantes identiquement distribuées »).
26
l’inégalité de Tchebychev 22 , on a, pour tout ε > 0,
n
!
V n1 ni=1 Xi
P
1X p(1 − p)
P Xi − p ≥ ε ≤ = .
n i=1 ε2 nε2
On dit que la suite de variables aléatoires n1 ni=1 Xi n≥1 converge vers p en probabilité.
P
Definition 13. On dit qu’une suite (Zn )n≥1 de variables aléatoires converge vers Z en pro-
babilité si
∀ε > 0, lim P (|Zn − Z| ≥ ε) = 0.
n→∞
Proposition 18. La limite en probabilité, si elle existe, est presque sûrement unique.
Démonstration. En effet, considérons Z1 et Z2 deux variables aléatoires étant limites en probabilité d’une
suite (Zn )n≥1 . Pour tout ε > 0 on a :
E(X)
P(X ≥ a) ≤ .
a
Il est indispensable de bien connaître l’inégalité de Markov.
27
Definition 14. Pour p ≥ 1, on dit qu’une suite (Zn )n≥1 de variables aléatoires de Lp ((Ω, A, P))
converge vers Z dans Lp ((Ω, A, P)) si
est de probabilité 1 ?
Definition 15. On dit qu’une suite (Zn )n≥1 de variables aléatoires converge presque-sûrement
vers Z si
P lim Zn = Z = 1.
n→∞
23. Pour p ≥ 1, on rappelle que Lp est l’espace des variables aléatoires réelles X telles que E(|X|p ) < ∞
un espace de Banach : un espace vectoriel normé complet.
28
ce qui a l’avantage de nous ramener à une intersection dénombrable. Une intersection dénombrable d’événe-
ments quasi-certains 24 étant quasi-certaine, on a
P lim Zn = Z = 1 ⇐⇒ ∀k ≥ 1, P(A k1 ) = 1.
n→∞
T S
L’événement N ∈N n≥N {|Zn − Z| ≥ 1/k} se note
Donc
[
P lim Zn = Z = 1 ⇐⇒ ∀k ≥ 1, lim P {|Zn − Z| ≥ 1/k} = 0.
n→∞ N →∞
n≥N
29
car la série est convergente. P
Si les événements An sont indépendants et si n≥1 P(An ) = ∞, on a, en utilisant en premier qu’une
intersection d’événements quasi-certains est quasi-certaine, puis l’indépendance des Acn :
[
P(lim sup An ) = 1 ⇐⇒ ∀N ≥ 1, P( An ) = 1
n→∞
n≥N
\
⇐⇒ ∀N ≥ 1, P( Acn ) = 0
n≥N
m
\
⇐⇒ ∀N ≥ 1, lim P( Acn ) = 0
m→∞
n=N
m
Y
⇐⇒ ∀N ≥ 1, lim P(Acn ) = 0
m→∞
n=N
m
Y
⇐⇒ ∀N ≥ 1, lim (1 − P(An )) = 0.
m→∞
n=N
Qm Qm Pm
Or n=N (1 − P(An )) ≤ n=N e−P(An ) = e− n=N P(An )
et puisque la série diverge :
m
Y Pm
lim (1 − P(An )) ≤ lim e− n=N P(An )
= 0.
m→∞ m→∞
n=N
D’où le résultat.
c’est à dire que pour tout εP> 0 l’événement n1 ni=1 Xi − p ≥ ε a lieu pour un nombre
P
30
1.0 Z_n
0.8
0.6
0.4
0.2
0.0
0 2000 4000 6000 8000 10000
Figure 6 – Une une suite qui ne converge pas presque-sûrement mais qui converge en
probabilité.
Théorème 1 (Admis dans le cas général). Soit (Zn )n≥1 une suite de variables aléatoires
indépendantes et de même loi telle que E(|Z1 |) < ∞. On a
n
1X
lim Zi = E(Z1 ), P − p.s.
n→∞ n
i=1
Exemple. Soit (Rn )n∈N∗ une suite de variables aléatoires indépendantes et de même loi de
Rademacher de paramètre p ∈]0, 1[, c’est-à-dire que pour tout n ∈ N∗ ,
31
6
4
2
0
2
4
6
Figure 7 – Cinq trajectoires d’une suite qui ne converge pas dans Lp mais qui converge en
probabilité.
Exemple. Soit, pour n ≥ 1, Tn suivant une loi de Cauchy de paramètre n1 , c’est-à-dire ayant
pour densité
1/n
∀x ∈ R, fn (x) = .
π((1/n)2 + x2 )
Remarquons que Tn n’est pas dans Lp pour p ≥ 1 et donc las suite (Tn )n≥1 ne peut pas
converger dans Lp . Néanmoins, pour tout ε > 0,
Z ε
2
P(|Tn | ≥ ε) = 1 − fn (x)dx = 1 − arctan(nε) −→ 0.
−ε π n→∞
Proposition 22. Soit (Zn )n≥1Pune suite de variables aléatoires et Z une autre variable
aléatoire. Si, pour tout ε > 0, n≥1 P(|Zn − Z| > ε) < ∞ alors la suite (Zn )n≥1 converge
presque-sûrement vers Z.
32
3.3 Convergence en loi et théorème central limit
La convergence la plus faible que nous ayons vu jusqu’alors est la convergence en proba-
bilité. Cette convergence implique une certaine convergence des fonctions de répartitions.
Definition 16. On dit qu’une suite (Zn )n≥1 de variables aléatoires réelles converge en loi
vers Z si pour tout point de continuité x de FZ on a
33
Pourquoi, dans la définition de la convergence en loi, ne demander la convergence des
fonctions de répartition qu’en les points où la fonction de répartition limite est continue ?
Si on demandait la convergence en tout point de R, la définition serait trop restrictive. En
effet, soit Zn de loi uniforme sur [0, 1/n], pour n ≥ 1. Alors, P-p.s.
1
0 ≤ Zn ≤ .
n
Donc (Zn )n≥1 converge presque-sûrement vers 0 et donc en loi vers 0. Par contre, la fonction
de répartition de la variable aléatoire Z constante égale à 0 est
FZ = 1[0,∞[
qui n’est pas continue en 0 et telle que FZ (0) = 1. On a FZn (0) = 0 pour tout n et donc
limn→∞ FZn (0) ̸= FZ (0).
Nous avons vu que la convergence en probabilité implique la convergence en loi. Par
conséquent, les convergences presque-sûre et dans Lp impliquent aussi la convergence en loi.
Il existe de nombreuses caractérisations de la convergence en loi. La suivante porte le
nom de théorème Portmanteau.
Théorème 2. Soit (Zn )n≥1 et Z des variables aléatoires réelles. Il y a équivalence entre les
points suivants :
1. La suite (Zn )n≥1 converge en loi vers Z au sens où pour tout point de continuité x de
la fonction de répartition de Z :
34
avec les intervalles ]ai , bi [ deux à deux disjoints.
On a alors, en utilisant le lemme de Fatou :
X X
lim inf P(Zn ∈ O) = lim inf P(Zn ∈]ai , bi [) ≥ lim inf P(Zn ∈]ai , bi [).
n→∞ n→∞ n→∞
i∈N∗ i∈N∗
où (εk ) est une suite de réels strictement positifs, décroissant vers 0 et telle que FX est continue en
b − εk pour tout k. Ces réels existent car FX possède au plus un nombre dénombrables de points de
discontinuités (car un fonction de répartition est croissante). On a donc, par convergence en loi :
Au final :
lim inf P(Zn < b) ≥ P(Z < b).
n→∞
On a donc :
lim inf P(Zn ∈]a, b[) = lim inf P(Zn < b) − P(Zn ≤ a)
n→∞ n→∞
= lim inf P(Zn < b) − lim sup P(Zn ≤ a)
n→∞ n→∞
≥ P(Z < b) − P(Z ≤ a)
= P(Z ∈]a, b[).
≤ 1 − P(Z ∈ F c )
= P(Z ∈ F ).
Å ⊂ A ⊂ Ā = Å ∪ ∂A.
lim inf P(Zn ∈ A) ≥ lim inf P(Zn ∈ Å) ≥ P(Z ∈ Å) = P(Z ∈ A)
n→∞ n→∞
35
et d’autre part en utilisant 3.,
lim sup P(Zn ∈ A) ≤ lim sup P(Zn ∈ Ā) ≤ P(Z ∈ Ā) = P(Z ∈ A).
n→∞ n→∞
La notion de convergence en loi se généaralise à Rd où l’on utilise plutôt l’une des carac-
térisations suivantes.
Théorème 3. Soit (Zn )n≥1 et Z des variables aléatoires dans Rd . Il y a équivalence entre
les trois points suivants :
1. (Zn )n≥1 converge en loi vers Z,
2. pour toute fonction f continue bornée de Rd dans R, on a
lim E(f (Zn )) = E(f (Z)),
n→∞
Démonstration. Ici encore, la lecture de la preuve n’est pas obligatoire. Nous allons faire la preuve dans
le cas réel (d = 1).
2. ⇒ 1. Soit x un point de continuité de FZ . Pour k ∈ N∗ , on considère la fonction continue et bornée ϕk
valant 1 sur ] − ∞, x], 0 sur [x + 1/k, +∞[ et telle que ϕk (y) = k(x + 1/k − y) pour y ∈]x, x + 1/k[.
On a par construction (faire un dessin)
1]−∞,x] ≤ ϕk ≤ 1]−∞,x+1/k] .
Pour n, k ∈ N∗ , cela implique que
P(Zn ≤ x) ≤ E(ϕk (Zn )) →n→∞ E(ϕk (Z)) ≤ P(Z ≤ x + 1/k) →k→∞ P(Z ≤ x).
Donc
lim sup P(Zn ≤ x) ≤ P(Z ≤ x).
n→∞
On montre de façon similaire que
lim inf P(Zn ≤ x) ≥ P(Z < x)
n→∞
et on utilise alors le fait que FZ est continue en x pour dire que P(Z < x)P(Z ≤ x) et conclure.
36
1. ⇒ 2. Soit ϕ continue et bornée. On peut toujours supposer que ϕ est à valeurs dans ]0, 1[. On a alors (c’est
une inversion entre l’espérance et l’intégrale que l’on peut faire grâce au théorème de Tonelli),
Z
E(ϕ(Zn )) = P(ϕ(Zn ) > x)dx.
R
On sait que
lim P(ϕ(Zn ) > x) = P(ϕ(Z) > x)
n→∞
si P(Z ∈ ∂ϕ−1 (] − ∞, x]) = 0 d’après le théorème Portmanteau. Comme ϕ est continue, ∂ϕ−1 (] −
∞, x]) ⊂ ϕ−1 ({x}) d’où
P(Z ∈ ∂ϕ−1 (] − ∞, x]) ≤ P(ϕ(Z) = x),
et P(ϕ(Z) = x) = 0 sauf éventuellement en un nombre dénombrable de points. En effet, x 7→
P(ϕ(Z) ≤ x) est croissante donc admet un nombre dénombrable de points de discontinuités qui sont
les points pour lesquels P(ϕ(Z) = x) > 0.
On a donc,
lim P(ϕ(Zn ) > x) = P(ϕ(Z) > x)
n→∞
pour presque tout x et donc par convergence dominée :
Z
lim E(ϕ(Zn )) = P(ϕ(Z) > x)dx = E(ϕ(Z)).
n→∞ R
2. ⇒ 3. Une fonction continue qui tend vers 0 en plus et moins l’infini est en particulier continue et bornée.
Le résultat s’en suit.
3. ⇒ 2. Soit f une fonction continue bornée. Soit ε > 0, il existe Kε > 0 tel que P(|Z| > Kε ) ≤ ε. Soit ϕε
la fonction telle que pour tout x ∈ R,
2Kε − |x|
ϕε (x) = 1[0,Kε ] (|x|) + 1]Kε ,2Kε ] (|x|).
Kε
Cette fonction est continue et a pour limite 0 lorsque |x| tend vers +∞. On a
|E(f (Zn ))−E(f (Z))| ≤ |E(f (Zn )(1−ϕ(Zn )))|+|E(f (Zn )ϕ(Zn ))−E(f (Z)ϕ(Z))|+|E(f (Z)(1−ϕ(Z)))|.
On remarque que la fonction f ϕ est continue et tend vers 0 lorsque |x| tend vers +∞ puisque f est
bornée. Donc par hypotèse
lim |E(f (Zn )ϕ(Zn )) − E(f (Z)ϕ(Z))| = 0.
n→∞
2. ⇒ 4. On écrit, pour t ∈ R et n ∈ N∗ ,
ϕZn (t) = E(cos(tZn )) + iE(sin(tZn )).
Les fonctions x 7→ cos(tx) et x 7→ sin(tx) étant continues et bornées, on peut appliquer le point 2.
pour obtenir que
lim ϕZn (t) = ϕZ (t).
n→∞
37
4. ⇒ 3. Soit f continue et tendant vers 0 en plus et moins l’infini. Pour tout ε > 0, on peut montrer qu’il
existe une fonction g de classe C ∞ et à support compact, telle que
∥f − g∥∞ ≤ ε.
Or, par propriété de la transformée de Fourier, comme g est C ∞ et à support compact, il existe une
fonction ϕ intégrable telle que pour tout x dans R,
Z
g(x) = eitx ϕ(t)dt.
R
∗
On a donc pour tout n ∈ N ,
|E(f (Zn )) − E(f (Z))| = |E(f (Zn ) − g(Zn ))| + |E(g(Zn ) − g(Z))| + |E(g(Z) − f (Z))|
Le premier et le troisième termes sont majorés par ε. Pour le deuxième, on écrit, en utilisant l’hy-
pothèse, le théorème de Fubini et celui de convergence dominée :
Z Z
itZn
E(g(Zn )) = E e ϕ(t)dt = E(eitZn )ϕ(t)dt
R R
Z
→ E(eitZ )ϕ(t)dt
R
Z
itZ
=E e ϕ(t)dt
R
= E(g(Z)).
D’ où le résultat.
Remarquons que pour la convergence en loi, il n’y a pas unicité presque sûre de la limite.
Ceci vient du fait que deux variables aléatoires peuvent avoir même loi tout en étant très
différentes. En général 26 , si (Zn )n≥1 converge en loi vers Z1 et (Zn )n≥1 converge en loi vers
Z2 alors
P(Z1 = Z2 ) < 1.
Achevons ce chapitre avec l’énoncé et la preuve du théorème central limit, qui explicite de
quelle façon se distribue les fluctuations de la moyenne empirique autour de l’espérance 27 .
Théorème 4. Soit (Xn )n≥1 une suite de variables aléatoires dans R indépendantes et de
même loi telle que E(|X1 |2 ) < ∞. On pose µ = E(X1 ) et σ 2 = V(X1 ) ). Alors la suite de
variables aléatoires !
n
√ 1X
n Xi − µ
n i=1
converge en loi vers une variable aléatoire normale 28 de loi N (0, σ 2 ) ayant pour fonction
caractéristique
σ2 2
∀t ∈ R, ϕ(t) = e− 2 t .
26. Vous aller voir un exemple simple en TD.
27. Dans l’illustration
√ de la loi des grands nombres (Figure 4), nous avons vu que ces fluctuations sont de
l’ordre de 1/ n.
28. On dit que la loi normale à un caractère universel au sens où le théorème précédent ne dépend pas de
la loi de départ des Xi .
38
Démonstration. On peut supposer, par translation, que µ = 0. En utilisant l’indépendance des Xi , on a,
pour tout t ∈ R, n
t
ϕ √1 Pn
i=1 Xi
(t) = ϕX1 √ .
n n
n
Remarquant que ϕ(t) = ϕ √tn et qu’une fonction caractéristique est toujours de module plus petit que
1, on a, grâce à l’inégalité,
|z1n − z2n | ≤ n|z1 − z2 |
valable pour z1 et z2 de modules plus petits que 1, que
n n
t t t t
ϕ √1 ni=1 Xi (t) − ϕ(t) = ϕX1 √
P − ϕ √ ≤ n ϕX1 √ −ϕ √ .
n n n n n
D’où le résultat.
39
TCL
0.40 densite
Histogramme
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
4 3 2 1 0 1 2 3 4
Sn
lim = 0.
n→∞ n
Le théorème central limit nous permet, en un certain sens, de préciser cette convergence
puisque il nous indique que pour tout z ∈ R,
Z z
Sn 1 x2
lim P √ ≤ z = √ e− 2 dx.
n→∞ n −∞ 2π
√
Donc au sens de la convergence en loi, asymptotiquement Sn ≃ nZ où Z est une loi
normale centrée réduite. Ceci peut nous donner l’intuition que (Sn ) doit autant partir vers
+∞ que vers −∞. On peut montrer 30 en effet que, presque sûrement,
40
4 Vecteurs aléatoires (et retour sur les variables aléa-
toires)
On se donne un espace probabilisé (Ω, A, P) et un espace mesurable (E, E) = (Rd , B(Rd ))
pour un certain d ∈ N∗ . Ici, B(Rd ) est la plus petite tribu 31 qui contient les ouverts de Rd .
Une application X de (Ω, A) dans (E, E) est dite mesurable 32 si pour tout intervalle I de
R, X −1 (I) ∈ E. Les applications continues par morceaux sont mesurables.
X(P P ) = 2, Y (P P ) = 0, X(P F ) = 1, Y (P F ) = 1,
X(F P ) = 1, Y (F P ) = 1, X(F F ) = 0, Y (F F ) = 1.
(X, Y )(P P ) = (2, 0), (X, Y )(P F ) = (1, 1), (X, Y )(F P ) = (1, 1), (X, Y )(F F ) = (0, 1).
Dans le cas vectoriel, la loi du vecteur aléatoire est encore caractérisée par sa fonction de
répartition, qui devient une fonction de plusieurs variables.
FX (x) = PX (] − ∞, x])
= P(X ≤ x).
31. On appelle les éléments de cette tribu les boréliens, nous avons déjà défini cet ensemble d’événements
en Section 2.
32. Nous avons déjà vu cette notion en Section 2 aussi.
41
— du vecteur aléatoire X = (X1 , . . . , Xd )T , pour d ≥ 2, l’application F(X1 ,...,Xd ) : Rd →
[0, 1] donnée, pour (x1 , . . . , xd ) ∈ Rd , par
On a déjà vu des exemples de fonctions de répartition dans le cas réel. Voici un exemple
dans le cas vectoriel.
On peut toujours retrouver la loi des marginales à partir de la loi du vecteur. La propo-
sition suivante explicite le lien entre la fonction de répartition d’un vecteur aléatoire et la
fonction de répartition de ses marginales.
Proposition 24. Pour d ∈ N∗ , soit (X1 , . . . , Xd )T un vecteur aléatoire et F(X1 ,...,Xd ) sa fonc-
tion de répartition. Alors la fonction de répartition de la composante Xi pour i ∈ {1, . . . , d}
est donnée, pour x ∈ R par
42
Théorème 5 (Admis dans le cas vectoriel). La fonction de répartition caractérise la loi : si
X et Y ont même fonction de répartition alors PX = PY .
Attention, rappelons que le fait que X et Y aient la même loi ne dit rien sur P(X = Y ).
En fait, X et Y peuvent avoir la même loi tout en étant définies sur des espaces de probabilités
différents, auquel cas la quantité P(X = Y ) n’a aucun sens.
Nous en venons maintenant au variables à densité. On rappelle la définition dans le cas
unidimensionnel et on la généralise au cas vectoriel.
Dans le cas vectoriel, X : Ω → Rd est à densité si il existe une fonction mesurable positive
f : Rd → [0, +∞[ telle que pour tout (x1 , . . . , xd ) ∈ Rd ,
Z
F (x1 , . . . , xd ) = f (t1 , . . . , td )dt1 . . . dtd .
]−∞,x1 ]×···×]−∞,xd ]
iv) Pour tout x dans R, on retrouve la densité des marginales en intégrant la densité du
vecteur selon toutes les autres directions :
Z
∀1 ≤ i ≤ d, fXi (x) = f (t1 , . . . , ti−1 , x, ti+1 , . . . , td )dt1 . . . dti−1 dti+1 . . . dtd .
Rd−1
43
30 réalisations de (X,Y)
1.0
0.5
0.0
y
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
x
où
D = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.
Le couple (X, Y ) suit la loi uniforme sur le disque D. On souhaite calculer la densité de X.
Pour x ∈ R,
Z +∞
1
fX (x) = 1D (x, y)dy
−∞ π
Z +∞
1 √
= 1[− 1−x2 ,√1−x2 ] (y)dy1[−1,1] (x)
−∞ π
Z √1−x2
1
= dy1[−1,1] (x)
π −√1−x2
√
2 1 − x2
= 1[−1,1] (x).
π
On a utilisé le fait que (x, y) est dans le disque si et seulement si
√ √
x ∈ [−1, 1] et y ∈ [− 1 − x2 , 1 − x2 ].
Par conséquent, une variable aléatoire ne peut pas être à la fois discrète et à densité.
On a vu que la fonction de répartition d’une variable à densité est continue. La réciproque
n’est pas vraie. On a néanmoins le résultat suivant.
33. ou plus généralement continue
44
Densité de X
0.6
0.5
0.4
y
0.3
0.2
0.1
0.0
−2 −1 0 1 2
x
Figure 10 – Densité de X.
Proposition 26. Soit F : R → [0, 1] une fonction de répartition. Si F est continue sur R et
de classe C 1 sur R privé éventuellement d’un nombre fini de points, alors F est la fonction de
répartition d’une variable aléatoire à densité. Une densité associée est donnée par la fonction
f (x) = F ′ (x) si F est dérivable en x et f (x) = 0 sinon.
Rx
Démonstration. Sous ces hypothèse on a F (x) = −∞ f (t)dt pour tout x ∈ R.
La valeur 0 attribuée à f là où F ′ n’est pas définie n’a pas d’importance. De manière
générale, changer la valeur de la densité de X en un nombre fini de points ne change rien à
la répartition 34 de X.
Dans le cas vectoriel 35 , on dit qu’un vecteur X = (X1 , . . . , Xd )T est intégrable si chacune
de ses composantes est intégrable. Son espérance est alors définie comme le vecteur de Rd
Voyons maintenant comment le calcul d’une espérance d’une variable aléatoire X par
rapport à la probabilité P se ramène à un calcul d’intégrale contre la loi de X.
PX = f dx
34. répartition est un synonyme de loi ici
35. Par exemple, si Y = (Y1 , . . . , Yd ) est un vecteur aléatoire constitué de d variables de Bernoulli de
paramètre p ∈ [0, 1] alors
E(Y ) = (p, . . . , p).
45
où dx = dx1 . . . dxd est la mesure de Lebesgue 36 sur Rd . Alors
Z Z
E(h(X)) = h(x)PX (dx) = h(x)f (x)dx.
Rd Rd
R E(h(X)) est donc bien définie dès que h est mesurable et est soit positive soit
L’espérance
telle que Rd |h(x)|f (x)dx < ∞.
ϕ(E(X)) ≤ E(ϕ(X)).
Démonstration. En exercice.
46
Démonstration. Par hypothèse, la densité f de X est nulle en dehors de U . Soit h une fonction mesurable
positive. En appliquant la formule de changement de variable à ϕ−1 on obtient :
Z
E(h(Y )) = E(h(ϕ(X))) = h ◦ ϕ(x)f (x)dx
ZU
= h(y)f ◦ ϕ−1 (y)|detJϕ−1 (y)|dy
ϕ(U )
Z
= h(y)g(y)dy.
Rd
En appliquant la remarque précédente, on en déduit que Y est une variable continue de densité g.
La fonction h utilisée dans le raisonnement précédent est souvent appelée fonction test,
on parle de méthode de la fonction test.
Exemple. Soit X une variable aléatoire réelle de densité f et soient a, b des réels, avec
a ̸= 0. Alors Y = aX + b est une variable continue de densité
1 y−b
y 7→ f .
a a
Exemple. On dit que le vecteur (X1 , X2 ) suit un loi normale de paramètre 0R2 et IM2 (R) si
sa densité est, pour (x, y) ∈ R2 ,
1 − x2 +y2
f (x, y) = e 2 .
2π
Posons Z = (X1 , X1 + X2 ). Nous allons chercher la densité de Z par la méthode de la
fonction test. Soit h une fonction mesurable positive de R2 dans R, on a
E(h(Z)) = E(h(X1 , X1 + X2 ))
Z
1 x2 +y 2
= h(x, x + y) e− 2 dxdy
2 2π
ZR
1 x2 +y 2
= h(ϕ(x, y)) e− 2 dxdy.
R2 2π
L’application ϕ est définie sur R2 par ϕ(x, y) = (x, x + y). Elle est bijective de R2 dans
lui même et d’application réciproque définie sur R2 par ϕ−1 (u, v) = (u, v − u). Sa matrice
jacobienne est donc
1 0
.
−1 1
Le jacobien vaut donc 1. Ainsi
Z
1 − u2 +(v−u)2
E(h(Z)) = h(u, v) e 2 dudv.
R2 2π
La densité de Z est donc donnée sur R2 par
1 − 2u2 +v2 −2uv
fZ (u, v) = e 2 .
2π
47
Proposition 28 (Indépendance : cas des variables à densité). Si le vecteur aléatoire (X1 , . . . , Xd )
possède une densité f : Rd → R qui s’écrit sous forme produit :
∀(x1 , . . . , xd ) ∈ R2 f (x1 , . . . , xd ) = g1 (x1 ) . . . gd (xd ),
où les fonctions gi sont mesurables positives, alors les variables aléatoires Xi sont indépen-
dantes de densités
gi
R .
g (x)dx
R i
Réciproquement, si les variables réelles Xi sont indépendantes de densités respectives fi , alors
le vecteur aléatoire (X1 , . . . , Xd ) admet pour densité
f(X1 ,...,Xd ) = f1 . . . fd .
Exemple. Si X et Y sont deux variables aléatoires indépendantes de lois respectives U[a,b]
et U[c,d] , alors le vecteur (X, Y ) est un vecteur de densité
1
∀(x, y) ∈ R2 , f(X,Y ) (x, y) = 1[a,b]×[c,d] (x, y).
(b − a)(d − c)
48
Exemple. Soit Y une variable aléatoire telle que P(Y = 0) = P(Y = 1) = 21 . On pose
Z = (Y, −Y ). Alors
1 1
E(Z) = ( , − ),
2 2
1
et V(Y ) = V(−Y ) = 4 . De plus E(Y (−Y )) − E(Y )E(−Y ) = −E(Y 2 ) + E(Y )2 = −V(Y ) =
− 41 , de sorte que
1 1 −1
Cov(Z) = .
4 −1 1
Proposition 29. Soit X un vecteur aléatoire et soient λ et c deux réels. On a,
V(λX + c) = λ2 V(X).
Nous désignons par < ·, · > le produit scalaire dans Rd . En analyse, la fonction caracté-
ristique correspond à la transformée de Fourier de la loi de X.
Exemple. Soit X une variable aléatoire de loi E(1). Alors, par le théorème de transfert,
pour tout t ∈ R, Z ∞
1
itX
ϕX (t) = E(e ) = eitx e−x dx = .
0 1 − it
Exemple. Soit X une variable aléatoire de loi B(n, p). Alors, pour tout t ∈ R,
n n
X
itk n k
X
itk
ϕX (t) = e P(X = k) = e p (1 − p)n−k = (1 − p + peit )n .
k=0 k=0
k
49
i) Si E(|X|n ) < ∞, alors ϕX est n-fois dérivable, de dérivée k-ième (k ≤ n),
(k)
ϕX (t) = ik E(X k eitX ).
(k)
En particulier, ϕX (0) = ik E(X k ).
ii) Réciproquement, si n est pair et si ϕX est n fois dérivable en 0, alors X admet tout
moment d’ordre plus petit ou égal à n.
Démonstration. Nous démontrons une partie du point i), le reste de la preuve est laissée au lecteur.
Démontrons donc que ϕX est dérivable en tout point t de R lorsque E(|X|) < ∞. Pour tout h ̸= 0,
ϕX (t + h) − ϕX (t) eihx − 1
Z
= eitx PX (dx).
h R h
Or,
eihx − 1
eitx ≤ |x|
h
qui est intégrable pour Px , indépendamment de h. D’après le théorème de convergence dominée,
ihx
−1
Z Z
′ itx e
ϕX (t) = lim e PX (dx) = ixeitx PX (dx) = iE(XeitX ).
h→0 R h R
La définition suivante est une variante de ce celle des fonctions caractéristiques. Elle
impose cependant des conditions d’intégrabilité sur la loi de la variable aléatoire.
Definition 23. Si X : Ω → Rd est une vecteur aléatoire, on appelle fonction génératrice
des moments la fonction
MX : t ∈ Rd 7→ E(e<t,X> ),
définie pour les valeurs de t où e<t,X> est intégrable.
La fonction génératrice des moments, si elle est définie dans un voisinage de 0 caractérise
la loi, comme la fonction caractéristique.
Proposition 31. Soit X : Ω → R une variable aléatoire telle que etX est intégrable pour t
dans un intervalle ouvert contenant 0. Alors la fonction génératrice des moments est définie
sur un intervalle ouvert contenant 0. De plus elle est analytique dans un voisinage de 0 et
X tn
MX (t) = E(X n )
n∈N
n!
pour tout t dans ce voisinage. En particulier, pour tout n ∈ N,
(n)
MX (0) = E(X n ).
Démonstration. Supposons MX définie sur ] − ε, ε[, pour un ε > 0. Puisque
X |tx|n
= e|tx| ≤ etx + e−tx ,
n!
n∈N
50
4.4 Quelques remarques sur le conditionnement
Dans cette section, pour simplifier l’exposé, on considère un couple de variable aléatoire
(X, Y ).
Proposition 32. Soit un événement A tel que P(Y ∈ A) > 0. La loi de X sachant Y ∈ A
est caractérisée par la donnée de la fonction de répartition conditionnelle :
P({X ≤ x} ∩ {Y ∈ A})
∀x ∈ R, FX|Y ∈A (x) = P(X ≤ x|Y ∈ A) = .
P(Y ∈ A)
Lorsque le couple (X, Y ) est à densité, pour x dans R, on peut ré-écrire la dernière
expression sous la forme
Z x R
f
A R (X,Y )
(a, b)db
FX|Y ∈A (x) = da
−∞ A Y
f (b)db
Soit maintenant y ∈ R tel que fY (y) > 0 et h > 0. En choisissant l’évènement A = [y, y + h],
on a : R y+h 1 y+h
R
y
f(X,Y ) (x, b)db h y
f(X,Y ) (x, b)db
∀x ∈ R, fX|Y ∈[y,y+h] (x) = R y+h = .
1 y+h
R
y
fY (b)db h y
fY (b)db
Or, si y est un point où FY est dérivable, on a :
1 y+h FY (y + h) − FY (y)
Z
lim fY (y)dy = lim = fY (y).
h→0 h y h→0 h
1 y+h
Z
lim f(X,Y ) (x, y)dx = f(X,Y ) (x, y).
h→0 h y
Donc
f(X,Y ) (x, y)
∀x ∈ R, lim fX|Y ∈[y,y+h] (x) = .
h→0 fY (y)
Cela nous amène à la définition suivante.
Definition 24. Soit (X, Y ) un couple à densité.
— Si fY (y) ̸= 0, on appelle densité conditionnelle de X sachant Y = y la quantité définie
par
f(X,Y ) (x, y)
fX|Y =y (x) = .
fY (y)
51
10 réalisations de Y sachant X=1/4
1.0
0.5
0.0
y
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
x
si, bien sûr, cette dernière expression a du sens 40 . On peut calculer de la même façon la
variance conditionnelle, l’écart-type conditionnel, etc...
Exemple. Soit (X, Y ) ayant pour densité
1
∀(x, y) ∈ R2 , f(X,Y ) (x, y) = 1D (x, y)
π
où
D = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.
Le couple (X, Y ) suit la loi uniforme sur le disque D. On a vu que l’on a :
2√
∀x ∈ R, fX (x) = 1 − x2 1[−1,1] (x).
π
Donc si x ∈] − 1, 1[ on peut considérer :
1
1 (x, y)
π D
∀y ∈ R, fY |X=x (y) = 2
√
π
1 − x2
1
= √ 1[−√1−x2 ;
√
1−x2 ] (y).
2 1 − x2
√ √
La loi de Y sachant X = x est donc uniforme sur l’intervalle [− 1 − x2 ; 1 − x2 ].
R
40. c’est-à-dire si R
|x|fX|Y =y (x)dx < ∞ ou si X est à valeurs positives.
52
5 Les vecteurs gaussiens
5.1 Matrice de variance-covariance
Rappelons la définition de la matrice de variance-covariance pour un vecteur aléatoire,
notion fondamentale dans ce chapitre.
Definition 25. Soit X : Ω → R une variable aléatoire de carré intégrable. Sa variance est
définie par
V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2 .
Dans le cas vectoriel 41 , si X = (X1 , . . . , Xd )T , à la variance se substitue la matrice de
variance-covariance définie par
avec OOT = OT O = In . Comme ∆ est diagonale avec des termes diagonaux positifs ou nuls, on peut définir
∆1/2 en prenant la racine des éléments diagonaux. On a alors
K = (O∆1/2 )(O∆1/2 )T = CC T
41. X est alors de carré intégrable si E(∥X∥2 ) < ∞ pour ∥ · ∥ une norme sur Rd (la norme euclidienne par
exemple).
42. xT Kx ≥ 0 pour tout x.
53
avec C = O∆1/2 .
Montrons le dernier point. On calcule, pour 1 ≤ i, j ≤ n,
n n
!
X X
Cov((M X)i , (M X)j ) = Cov Mik Xk , Mjk′ Xk′
k=1 k′ =1
n
X Xn
= Mik Mjk′ Cov (Xk , Xk′ )
k=1 k′ =1
Xn X n
= Mik Mjk′ Kk′ k
k=1 k′ =1
et
X
(M K M T )ij = Mik (KM T )kj
k=1
X n
X
= Mik Kk′ k Mjk′ .
k=1 k′ =1
5.2 Définition
On dit qu’une variable aléatoire Z sur R est gaussienne si elle a pour densité
1 1 (x−m) 2
x 7→ √ e− 2 ( σ )
σ 2π
où µ ∈ R et σ ∈]0, ∞[ ou si X est constante 43 égale à m (dans ce cas σ = 0).
La fonction caractéristique de Z est donnée par :
σ2 2
t 7→ eitm− 2
t
.
On note X ∼ N (m, σ 2 ). Il est normal d’adjoindre les constantes aux lois gaussiennes car
une variable aléatoire de loi N (m, σ 2 ) converge en loi vers m lorsque σ tend vers 0. En effet,
pour tout réel x,
Z x
1 1 (t−m) 2
P(X ≤ x) = √ e− 2 ( σ ) dt
−∞ σ 2π
Z (x−m)/σ
1 1 2
= √ e− 2 y dt
−∞ 2π
1
→σ→0 0Ix<m + Ix=m + 1Ix>m.
2
Cette dernière fonction est égale, sauf en son point de discuité x = m, à la fonction de
répartition de la variable aléatoire constante égale à m. On a donc bien convergence en loi.
43. dans ce cas elle n’est pas à densité.
54
Definition 26. Un vecteur aléatoire X = (X1 , . . . , Xd )T est dit gaussien si, pour tout a ∈ Rd ,
le produit scalaire aT X = a1 X1 + . . . + ad Xd est une variable aléatoire réelle gaussienne.
En particulier chaque composante Xk d’un vecteur gaussien est une variable aléatoire
réelle gaussienne mais cela ne suffit pas à assurer que le vecteur X soit gaussien. On appelle
loi gaussienne sur Rd toute loi d’un vecteur gaussien.
Exemple. 1. X = 0 ∈ Rd est un vecteur gaussien.
2. Soit X = (X1 , . . . , Xd )T avec X1 , . . . , Xd indépendants de même loi N1 (0, 1). Alors
a1 X1 + . . . + ad Xd ∼ N1 (0, a21 + . . . + a2d ) et X est un vecteur gaussien.
Cette notion est invariante par transformation linéaire, plus précisément :
Lemme 2. Soit X un vecteur gaussien à valeurs Rd de moyenne m et de matrice de cova-
riance K. Pour tous b ∈ Rr et M matrice r × d, Y = b + M X est un vecteur gaussien à
valeurs Rr de moyenne b + M m et de matrice de covariance M KM T .
Démonstration. En effet aT Y = aT b + (aT M )X est une variable aléatoire réelle gaussienne. On a E(Y ) =
b + M E(X) = b + M m et V(Y ) = V(M X) = M V(X)M T = M KM T .
Toute loi gaussienne sur Rd est donc déterminée par sa moyenne m et sa matrice de
covariance K. On note Nd (m, K) une telle loi. On parle aussi de loi normal multivariée
lorsque d ≥ 2 (et univariée lorsque d = 1). On a vu en exemple que Nd (0, Id ) existe mais l’on
n’a pas établi l’existence dans le cas général. On a,
Lemme 3. Soit K une matrice d × d symétrique semi-définie positive. Il existe une matrice
d × d symétrique semi-définie positive A telle que K = AAT .
Démonstration. Soient λ1 , . . . , λd les valeurs propres de K qui son ≥ 0. Il existe une matrice orthogonale 44
C telle que C T KC = D = diag(λ1 , . . . , λd ) où diag(λ1 , . . √
. , λd ) désigne
√ la matrice diagonale ayant λ1 , . . . , λd
sur la diagonale. On a alors CDC T = K. Soit ∆ = diag( λ1 , . . . , λd ). On pose A = C∆C T . On a,
44. CC T = I
55
10.0
7.5
5.0
2.5
0.0
2.5
5.0
7.5
4 2 0 2
Si l’on souhaite simuler des points selon une loi normale multivariée , on peut s’y prendre
de la façon suivante :
mean = [ -1 , 1 ]
cov = [ [2 , 4 ] , [4 , 10 ] ]
x , y = npr . m ul t iv a r ia t e_ n or m a l ( mean , cov , 500 ) . T
plt . plot (x , y , ’x ’)
56
2. Supposons la condition sur les covariances réalisées. Elle implique, pour tous u1 ∈ Rd1 , u2 ∈
Rd2 −d1 , . . . et p ̸= q, Cov(uTp Yp , uTq Yq ) = 0. Donc, d’après le point précédent, les variable aléatoire
réelle uT1 Y1 , . . . , uTr Yr sont indépendantes. On a alors
T T T T
E(ei(u1 Y1 +...+ur Yr ) ) = E(eiu1 Y1 ) . . . E(eiur Yr )
|y|2
Z
d
E(f (X)) = E(f (m + AY )) = (2π)− 2 f (m + Ay) exp(− ) dy.
2
D(y)
On effectue le changement de variable y = A−1 (x − m), on a D(x) = det(A−1 ) et
Z
−d −1 1
E(f (X)) = (2π) 2 det(A ) f (x) exp(− (x − m)T (A−1 )T A−1 (x − m)) dx.
2
57